R

Trucos R. Leer de Excel vía RODBC

Un gran número de visitas que llegan a este sitio tienen que ver con la importación de datos. En este caso he encontrado en Youtube un video explicativo en el que nos indican de una forma muy sencilla como importar a R datos desde hojas Excel con el paquete RODBC:

Imagen de previsualización de YouTube

«Very easy». Uno de mis siguientes proyectos es realizar videos de este tipo, bajo mi punto de vista son muy prácticos e ilustrativos.

El futuro del análisis de datos pasa por R

Es evidente que R dentro del mundo empresarial aun no tiene la presencia que se merece. Pero se está creando una base de estadísticos, ingenieros y programadores que muy pronto demandarán el uso de R en sus empresas. En el New York Times ya se hicieron eco de este hecho:

http://www.nytimes.com/2009/01/07/technology/business-computing/07program.html?pagewanted=1&_r=1&partner=permalink&exprod=permalink

Además ya hay algunas grandes empresas que emplean este sofware libre como reseña New York Times. En España no seremos una excepción y pronto muchos estudiantes e investigadores precisarán de R en su trabajo diario. Lo harán porque R es la herramienta que han empleado en su universidad, porque es fácil de programar, porque es barato y porque hay una comunidad de programadores detrás que garantizan una larga viva a R.

Manual. Curso introducción de R. Capítulo 14: Introducción al cálculo matricial con análisis de componentes principales

Para el trabajo con matrices vamos a emplear un análisis de componentes principales. El análisis de componentes principales puede encuadrarse dentro del conjunto de técnicas multivariantes conocidas como métodos factoriales (también se incluyen el análisis de factores y el análisis de correspondencias). Pretendemos sintetizar un gran conjunto de datos, crear estructuras de interdependencia entre variables cuantitativas para crear unas nuevas variables que son función lineal de las originales y de las que podemos hacer una representación gráfica. El objetivo del análisis de componentes principales será el reducir la dimensión de un conjunto de p variables a un conjunto m de menor número de variables para mejorar la interpretabilidad de los datos.

Manual. Curso introducción de R. Capítulo 13: Análisis de la varianza. Diseños anidados

Continuamos con ejemplos de análisis de la varianza con R. En este caso trabajaremos con diseño de experimentos anidados. Definimos un factor B está anidado a un factor A si para nivel de B tenemos un único nivel de A asociado, es decir, A dos niveles, B tres niveles; A1 (B1,B2,B3) ; A2(B1,B2,B3). En este caso se dice que el nivel B está anidado a A. El modelo matemático viene expresado como:

Manual. Curso introducción de R. Capítulo 12: Análisis de la varianza. Diseños bifactoriales

En esta nueva entrega del manual de R vamos a ver un modelo ANOVA que analiza dos fuentes de variación. Si recordamos en el capítulo 11 estudiamos la diferencia entre los tratamientos que seguían determinados pacientes teníamos una variable respuesta en función de una variable factor, el diseño factorial aleatorizado. En este caso vamos a tener la variable respuesta en función de dos factores y podrá existir una interacción entre ambos. Con lo que la tabla ANOVA será del siguiente modo:

Manual. Curso introducción de R. Capítulo 11: Introducción al análisis de la varianza (ANOVA)

Para realizar la introducción al análisis de la varianza (ANOVA) con R comenzaremos estableciendo unos conceptos básicos. Lo primero que hacemos es plantear una hipótesis que va a motivar un experimento, elegimos el diseño para nuestro experimento y recogemos los datos y los analizamos mediante el análisis de la varianza que consiste en descomponer la variabilidad total de los datos en sumandos cada uno de ellos asignable a una fuente de variación; posteriormente ya sacamos conclusiones. Lo que se expone a continuación viene recogido en los libros:

Manual. Curso introducción de R. Capítulo 10: Funciones gráficas en regresión lineal

En esta nueva entrega del manual de R vamos a trabajar con más ejemplos de regresión lineal haciendo especial mención a las posibilidades gráficas de R. El ejemplo de partida será el mismo empleado en el capítulo 9.

Ejemplo 10.1:

Si recordamos en el capítulo 9 en el ejemplo 9.2 hicimos un modelo para predecir las notas finales a partir de las notas de los exámenes previos, el test y la puntuación del laboratorio. Teníamos una variable dependiente que era la nota final y cuatro variables regresoras. Vimos que el modelo presentaba múltiples lagunas (multicolinealidad, un modelo con un r cuadrado bajo,…). Pues ahora hemos de mejorar el modelo. Es difícil mejorarlo en precisión porque no tenemos más variables regresoras en el conjunto de datos por eso podemos mejorarlo haciéndolo más sencillo y recogiendo una cantidad de información lo más grande posible con un modelo lo más reducido posible, es decir, vamos a seleccionar un modelo de regresión. Para hacer esto contamos con la función step que selecciona el modelo a partir del criterio de información de Akaike (AIC, siglas en inglés). Creamos un estadístico que permite decidir el orden de un modelo. AIC toma en consideración tanto la medida en que el modelo se ajusta a las series observadas como el número de parámetros utilizados en el ajuste. Búscamos el modelo que describa adecuadamente las series y tenga el mínimo AIC. Comencemos a trabajar con R, el primer paso será obtener y preparar el conjunto de datos:

Como influyen los números máquina en nuestros programas

Es imposible no cometer un error a la hora de ajustar un número de máquina ya que todos los números tienen un espacio asignado y números con infinitos decimales no se pueden almacenar en memoria correctamente. Este «pequeño» error puede influir en nuestra programación. Vamos a crear una función en R que nos permita ejemplificar como pueden influir los errores de aproximación de los números de máquina en la programación. La siguiente función realiza la operación aritmética 1.1/11, 3.3/33,… y, mediante la función IFELSE creamos una condición:

Manual. Curso introducción de R. Capítulo 9: Introducción a la regresión lineal con R

En este capítulo del curso de R vamos a comenza a estudiar el análisis de regresión lineal. Los modelos de regresión lineal son modelos probabilísticos basados en una función lineal, nuestro objetivo es expresar una variable dependiente en función otro conjunto de variables. Los pasos básicos a seguir en el estudio de un modelo lineal son:
1. Escribir el modelo matemático con todas sus hipótesis.

2. Estimación de los parámetros del modelo.
3. Inferencias sobre los parámetros.
4. Diagnóstico del modelo.
No nos vamos a detener en todos los pasos puesto que si lo hiciéramos el capítulo quedaría demasiado extenso. Vamos a analizar las posibilidades que tenemos con R y para que nos pueden servir los modelos lineales.
La función que realiza los modelos lineales en R es lm «lineal model». Pero esta función no nos ofrece ninguna salida por pantalla si no que nos crea un objeto, o mejor dicho, nosotros creamos un objeto que va a ser un modelo de regresión lineal. Este objeto puede ser referenciado por cualquier función para realizar un análisis de la varianza, un modelo autoregresivo,… La función lm tiene la siguiente sintaxis:
lm(formula, data, subset, weights, method = "qr", model = TRUE, x = FALSE, y = FALSE, qr = TRUE, contrasts = NULL, ...)

Manual. Curso introducción de R. Capítulo 8: Inferencia estadística

En esta nueva entrega del curso de R vamos a trabajar con algunos conceptos básicos de inferencia estadística. En primer lugar hacemos inferencia a partir de unas observaciones obtenidas a partir de la población a las que vamos a extraer unas propiedades que se denominan estadísticos muestrales. Además vamos a conocer la distribución de dichos estadísticos (generalmente distribución normal) por lo que hacemos inferencia paramétrica.

La inferencia paramétrica puede recogerse en una vertiente o en otra según el parámetro a estimar; tenemos por un lado la estadística clásica (que es en la que nos vamos a centrar) y por otro lado la estadística ballesiana.

Manual. Curso introducción de R. Capítulo 7: Funciones gráficas básicas en R

R dispone de múltiples posibilidades a la hora de realizar gráficos. De hecho, bajo mi punto de vista, puede ser una de las herramientas estadísticas más potentes al respecto, además es gratuita y existe una comunidad detrás que pone a nuestra disposición múltiples manuales y documentación. Debido al gran material existente este capítulo sólo será una pequeña introducción a sus posibilidades en sucesivas entregas veremos nuevas funciones y nuevos gráficos más aplicados a ejemplos reales.

Manual. Curso introducción de R. Capítulo 6: Funciones de estadística descriptiva

En R trabajaremos con objetos y funciones. En capítulos anteriores hemos empezado a crear objetos, fundamentalmente vectores y matrices. En la presente entrega vamos a estudiar las funciones básicas de estadística descriptiva.

Como funciones de medida de tendencia y localización tendremos:

> alturas<- scan() #creamos el objeto alturas con 11 observaciones

1: 1.75 1.67 1.89 1.78 1.54 1.90 1.87

8: 1.67 1.76 1.75 1.90

12:

Read 11 items

> mean(alturas)

[1] 1.770909

> median(alturas)

[1] 1.76

> min(alturas)

[1] 1.54

> max(alturas)

[1] 1.9

> quantile(alturas) #cuartiles

  0% 25% 50% 75% 100%

1.54 1.71 1.76 1.88 1.90

> IQR(alturas) #rango intercuartílico

[1] 0.17

Como funciones de medida de dispersión tenemos:

Manual. Curso introducción de R. Capítulo 5: Lectura avanzada de datos

En esta nueva entrega aprenderemos a importar datos a R desde otras fuentes. Habitualmente no introduciremos manualmente los datos, emplearemos las posibilidades de lectura que nos ofrece R. En este capítulo leeremos ficheros de texto y ficheros Access, para ello necesitaremos el paquete de R RODBC.

Para leer fichero de texto emplearemos un fichero de ejemplo GRADES.TXT que es un fichero de texto delimitado por espacios y sin cabeceras, tiene los siguientes campos: