Formación

Conectar R a una base de datos

Cada día el software libre va ganando más y más terreno al software comercial, no solo por su precio, sino porque incluyen procedimientos más vanguardistas que los comerciales. El mayor problema que tienen es el volumen de datos. Cuando he preguntado a algún desarrollador de los principales software libres (R, Weka, Knime…) acerca de esta cuestión, siempre me han respondido que depende de la capacidad de la máquina o servidor en la que se ejecuten los procesos. Es una respuesta ambigua, es cierto, pero es totalmente cierta. Si dispusiésemos de una máquina con recursos de memoria y almacenamiento ilimitados, el software libre sería prácticamente perfecto. Podríamos decir, entonces, que la principal desventaja de los software libres frente a los comerciales es la gestión de los procesos (mucho más estudiada en los comerciales), además de una consola o interfaz más amigable. ...

Manual. Curso introducción de R. Capítulo 8: Inferencia estadística

En esta nueva entrega del curso de R vamos a trabajar con algunos conceptos básicos de inferencia estadística. En primer lugar, hacemos inferencia a partir de unas observaciones obtenidas a partir de la población, a las que vamos a extraer unas propiedades que se denominan estadísticos muestrales. Además, vamos a conocer la distribución de dichos estadísticos (generalmente distribución normal), por lo que hacemos inferencia paramétrica. La inferencia paramétrica puede recogerse en una vertiente o en otra según el parámetro a estimar; tenemos por un lado la estadística clásica (que es en la que nos vamos a centrar) y por otro lado la estadística bayesiana. ...

El ODS de SAS (III). Documentos HTML y PDF desde SAS

Desde SAS podemos generar PDF y HTML. Esto es muy práctico a la hora de reportar información, ya que no necesitaremos pasar por Excel o cualquier otra herramienta de ofimática para generar informes. Además, si generamos HTML podemos crear webs en las que podemos navegar por los resultados obtenidos con SAS. En este mensaje veremos algunos ejemplos prácticos de uso del ODS para conocer mejor su funcionamiento. El primero de ellos crea un informe web a partir de un PROC UNIVARIATE: ...

El ODS de SAS (II). Dataset desde OUTPUT

Ya vimos el funcionamiento de ODS TRACE ON/OFF. Ahora crearemos datasets a partir del OUTPUT que genera un paso PROC de SAS con ODS. Lo principal es conocer cómo se denomina cada parte del OUTPUT; esto lo conseguimos con TRACE y analizando el LOG. Una vez conocemos la salida, empleamos ODS OUTPUT <nombre de la salida> = libreria.dataset. En el ejemplo que teníamos: * DATASET ALEATORIO DE 20000 OBSERVACIONES; data uno; do i = 1 to 20000; importe = round(rand('normal') * 1000, .1); num_productos = min(max(1, rand('pois', 4)), 8); num_cargos = max(0, rand('pois', 10) - int(rand('uniform') * 10)); output; end; run; ods noresults; ods output Quantiles = cuant; proc univariate data = uno; var importe; run; ods output Chisq = testchi; proc freq data = uno; tables num_productos * num_cargos / chisq; run; ods results; Para evitar la salida en la ventana output o en formato HTML, se emplea ODS NORESULTS. Con ODS OUTPUT hemos creado dos datasets. Veamos el log: ...

El ODS de SAS (I). Elementos del OUTPUT

Hoy comenzaré una serie de mensajes dedicados al ODS (Output Delivery System) de SAS. Este mecanismo de SAS nos permite un uso más eficiente del OUTPUT de nuestros pasos PROC; además, podemos crear Excel (como ya vimos), crear datasets, no generar salidas… Antes, SAS nos ofrecía un texto plano en la ventana OUTPUT; ahora generamos documentos sofisticados. En tres entregas veremos: Trazar el OUTPUT de SAS. Datasets de salidas de SAS. Documentos con nuestras salidas de SAS: HTML y PDF. Como complemento a estas entregas, es posible que redacte un mensaje con algunos ejemplos de uso del PROC TEMPLATE. En este primer capítulo dedicado al ODS, estudiaremos algunas salidas SAS y, con ellas, sabremos identificar la estructura del OUTPUT. ...

Manual. Curso introducción de R. Capítulo 7: Funciones gráficas básicas en R

R dispone de múltiples posibilidades a la hora de realizar gráficos. De hecho, bajo mi punto de vista, puede ser una de las herramientas estadísticas más potentes al respecto; además, es gratuita y existe una comunidad detrás que pone a nuestra disposición múltiples manuales y documentación. Debido al gran material existente, este capítulo sólo será una pequeña introducción a sus posibilidades; en sucesivas entregas veremos nuevas funciones y nuevos gráficos más aplicados a ejemplos reales. ...

Manual. Curso introducción de R. Capítulo 6: Funciones de estadística descriptiva

In R trabajaremos con objetos y funciones. In capítulos anteriores hemos empezado a crear objetos, fundamentalmente vectores y matrices. In la presente entrega, vamos a estudiar las funciones básicas de estadística descriptiva. Como funciones de medida de tendencia y localización, tendremos: alturas <- scan() # creamos el objeto alturas con 11 observaciones 1: 1.75 1.67 1.89 1.78 1.54 1.90 1.87 8: 1.67 1.76 1.75 1.90 12: Read 11 items mean(alturas) 1.770909 median(alturas) 1.76 min(alturas) 1.54 max(alturas) 1.9 quantile(alturas) # cuartiles 0% 25% 50% 75% 100% 1.54 1.71 1.76 1.88 1.90 # rango intercuartílico IQR(alturas) 0.17 Como funciones de medida de dispersión, tenemos: ...

Manual. Curso introducción de R. Capítulo 5: Lectura avanzada de datos

En esta nueva entrega aprenderemos a importar datos a R desde otras fuentes. Habitualmente no introduciremos manualmente los datos; emplearemos las posibilidades de lectura que nos ofrece R. En este capítulo leeremos ficheros de texto y ficheros Access; para ello necesitaremos el paquete de R RODBC. Para leer un fichero de texto emplearemos un fichero de ejemplo GRADES.TXT, que es un fichero de texto delimitado por espacios y sin cabeceras; tiene los siguientes campos: ...

Manual. Curso introducción de R. Capítulo 4: Contribuciones a R (paquetes)

En esta nueva entrega del manual introductorio a la programación en R comenzaremos a familiarizarnos con las contribuciones que se realizan en el mundo a esta herramienta. La intención es cargar un paquete que contenga una funcionalidad en R que nos permita leer orígenes de datos ODBC para que, en sucesivas entregas, podamos leer datos de Access, Excel… Los paquetes de R son contribuciones de programadores de todo el mundo para la creación de funcionalidades de R que contienen funciones que permiten que día a día R mejore y adquiera un mayor potencial. Estos paquetes se encuentran en el Comprehensive R Archive Network (CRAN), que es una red de FTP y servidores donde nos podemos descargar R o las contribuciones de los programadores de R de todo el mundo. En este caso, para España, tenemos la red CRAN espejo España. En ella tenemos todos los paquetes disponibles por orden alfabético. ...

Manual. Curso introducción de R. Capítulo 3: Lectura básica de datos

In el anterior capítulo creábamos vectores y matrices con las funciones c() y matrix(), pero in R disponemos de otros medios para leer o introducir datos. Empezamos con la entrada manual de datos: # Entrada manual de datos ej.3.1 <- scan() 1: 1 2 3: 4 5 5: 6 7 7: Read 6 items ej.3.1 [1] 1 2 4 5 6 7 Para introducir manualmente datos in R, disponemos de la función scan() e introduciremos los datos manualmente separando las entradas con un espacio; para finalizar, empleamos Intro en una línea sin datos. R nos indicará los registros leídos. La función scan() también puede leer ficheros de texto planos si le pasamos el fichero como parámetro: ...