El futuro del análisis de datos pasa por R

Es evidente que R dentro del mundo empresarial aún no tiene la presencia que se merece. Pero se está creando una base de estadísticos, ingenieros y programadores que muy pronto demandarán el uso de R en sus empresas. En el New York Times article ya se hicieron eco de este hecho. Además, ya hay algunas grandes empresas que emplean este software libre, como reseña New York Times. En España no seremos una excepción y pronto muchos estudiantes e investigadores precisarán de R en su trabajo diario. Lo harán porque R es la herramienta que han empleado en su universidad, porque es fácil de programar, porque es barato y porque hay una comunidad de programadores detrás que garantizan una larga vida a R. ...

19 de enero de 2009 · rvaquerizo

Manual. Curso introducción de R. Capítulo 14: Introducción al cálculo matricial con análisis de componentes principales

Para el trabajo con matrices vamos a emplear un análisis de componentes principales. El análisis de componentes principales puede encuadrarse dentro del conjunto de técnicas multivariantes conocidas como métodos factoriales (también se incluyen el análisis de factores y el análisis de correspondencias). Pretendemos sintetizar un gran conjunto de datos, crear estructuras de interdependencia entre variables cuantitativas para crear unas nuevas variables que son función lineal de las originales y de las que podemos hacer una representación gráfica. El objetivo del análisis de componentes principales será el reducir la dimensión de un conjunto de $p$ variables a un conjunto $m$ de menor número de variables para mejorar la interpretabilidad de los datos. ...

17 de enero de 2009 · rvaquerizo

Manual. Curso introducción de R. Capítulo 13: Análisis de la varianza. Diseños anidados

Continuamos con ejemplos de análisis de la varianza con R. En este caso trabajaremos con diseño de experimentos anidados. Definimos que un factor B está anidado a un factor A si para cada nivel de B tenemos un único nivel de A asociado; es decir, A dos niveles, B tres niveles: $A_1 (B_1, B_2, B_3)$; $A_2 (B_4, B_5, B_6)$. En este caso se dice que el nivel B está anidado a A. El modelo matemático viene expresado como: ...

12 de enero de 2009 · rvaquerizo

Manual. Curso introducción de R. Capítulo 10: Funciones gráficas en regresión lineal

En esta nueva entrega del manual de R vamos a trabajar con más ejemplos de regresión lineal haciendo especial mención a las posibilidades gráficas de R. El ejemplo de partida será el mismo empleado en el capítulo 9. Ejemplo 10.1: Si recordamos en el capítulo 9 en el ejemplo 9.2 hicimos un modelo para predecir las notas finales a partir de las notas de los exámenes previos, el test y la puntuación del laboratorio. Teníamos una variable dependiente que era la nota final y cuatro variables regresoras. Vimos que el modelo presentaba múltiples lagunas (multicolinealidad, un modelo con un r cuadrado bajo,…). Pues ahora hemos de mejorar el modelo. Es difícil mejorarlo en precisión porque no tenemos más variables regresoras en el conjunto de datos por eso podemos mejorarlo haciéndolo más sencillo y recogiendo una cantidad de información lo más grande posible con un modelo lo más reducido posible, es decir, vamos a seleccionar un modelo de regresión. Para hacer esto contamos con la función step que selecciona el modelo a partir del criterio de información de Akaike (AIC, siglas en inglés). Creamos un estadístico que permite decidir el orden de un modelo. AIC toma en consideración tanto la medida en que el modelo se ajusta a las series observadas como el número de parámetros utilizados en el ajuste. Buscamos el modelo que describa adecuadamente las series y tenga el mínimo AIC. Comencemos a trabajar con R, el primer paso será obtener y preparar el conjunto de datos: ...

3 de octubre de 2008 · rvaquerizo

Manual. Curso introducción de R. Capítulo 11: Introducción al análisis de la varianza (ANOVA)

Para realizar la introducción al análisis de la varianza (ANOVA) con R comenzaremos estableciendo unos conceptos básicos. Lo primero que hacemos es plantear una hipótesis que va a motivar un experimento, elegimos el diseño para nuestro experimento y recogemos los datos y los analizamos mediante el análisis de la varianza que consiste en descomponer la variabilidad total de los datos en sumandos cada uno de ellos asignable a una fuente de variación; posteriormente ya sacamos conclusiones. Lo que se expone a continuación viene recogido en los libros: ...

3 de octubre de 2008 · rvaquerizo

Manual. Curso introducción de R. Capítulo 8: Inferencia estadística

En esta nueva entrega del curso de R vamos a trabajar con algunos conceptos básicos de inferencia estadística. En primer lugar, hacemos inferencia a partir de unas observaciones obtenidas a partir de la población, a las que vamos a extraer unas propiedades que se denominan estadísticos muestrales. Además, vamos a conocer la distribución de dichos estadísticos (generalmente distribución normal), por lo que hacemos inferencia paramétrica. La inferencia paramétrica puede recogerse en una vertiente o en otra según el parámetro a estimar; tenemos por un lado la estadística clásica (que es en la que nos vamos a centrar) y por otro lado la estadística bayesiana. ...

23 de junio de 2008 · rvaquerizo

Manual. Curso introducción de R. Capítulo 7: Funciones gráficas básicas en R

R dispone de múltiples posibilidades a la hora de realizar gráficos. De hecho, bajo mi punto de vista, puede ser una de las herramientas estadísticas más potentes al respecto; además, es gratuita y existe una comunidad detrás que pone a nuestra disposición múltiples manuales y documentación. Debido al gran material existente, este capítulo sólo será una pequeña introducción a sus posibilidades; en sucesivas entregas veremos nuevas funciones y nuevos gráficos más aplicados a ejemplos reales. ...

16 de abril de 2008 · rvaquerizo

Manual. Curso introducción de R. Capítulo 6: Funciones de estadística descriptiva

In R trabajaremos con objetos y funciones. In capítulos anteriores hemos empezado a crear objetos, fundamentalmente vectores y matrices. In la presente entrega, vamos a estudiar las funciones básicas de estadística descriptiva. Como funciones de medida de tendencia y localización, tendremos: alturas <- scan() # creamos el objeto alturas con 11 observaciones 1: 1.75 1.67 1.89 1.78 1.54 1.90 1.87 8: 1.67 1.76 1.75 1.90 12: Read 11 items mean(alturas) 1.770909 median(alturas) 1.76 min(alturas) 1.54 max(alturas) 1.9 quantile(alturas) # cuartiles 0% 25% 50% 75% 100% 1.54 1.71 1.76 1.88 1.90 # rango intercuartílico IQR(alturas) 0.17 Como funciones de medida de dispersión, tenemos: ...

31 de marzo de 2008 · rvaquerizo

Manual. Curso introducción de R. Capítulo 5: Lectura avanzada de datos

En esta nueva entrega aprenderemos a importar datos a R desde otras fuentes. Habitualmente no introduciremos manualmente los datos; emplearemos las posibilidades de lectura que nos ofrece R. En este capítulo leeremos ficheros de texto y ficheros Access; para ello necesitaremos el paquete de R RODBC. Para leer un fichero de texto emplearemos un fichero de ejemplo GRADES.TXT, que es un fichero de texto delimitado por espacios y sin cabeceras; tiene los siguientes campos: ...

10 de marzo de 2008 · rvaquerizo

Cómo ordenar un data frame en R

El otro día programando un algoritmo en R me di cuenta de que existe una cosa básica que no está cubierta por el manual del software: ordenar un data.frame. Decidí consultar al dios Google antes de meterme a programarla y encontré una maravillosa función hecha por Kevin Wright que os enlazo a continuación: http://tolstoy.newcastle.edu.au/R/help/04/09/4300.html La he utilizado y me ha funcionado muy bien. Espero que os sea útil. Un saludo.

5 de marzo de 2008 · apadrones