Reunión Usuarios de R en Madrid. 26 de noviembre de 2014

El 26 de noviembre será la próxima reunión del grupo de usuarios de R en Madrid. En palabras de Carlos Ortega: Estamos ultimando la agenda de la siguiente reunión del grupo de Madrid. Si hay alguien interesado en presentar que se ponga en contacto conmigo, todavía hay hueco para algo más. Esta es la agenda tentativa: Fecha: Miércoles 26 de noviembre Hora: de 6:15 p.m. a 8:30 p.m. Lugar: Bar S-10 (¡se invitará a la primera ronda!) Agenda: Presentaciones: Manuel Pérez: “Segmentación RFM (Recency - Frequency - Monetary Value)”. Alfonso de Uña: “Topology Data Analysis en R”. Píldoras: Pedro Concejero: “Tratamiento de fotos y sus metadatos en R”. Otros temas internos del grupo. Nota: Todavía no hemos actualizado el portal del grupo. Lo haremos en lo que queda de semana. ...

19 de noviembre de 2014 · rvaquerizo

La mejor posición de R en TIOBE

Ahí tenéis a R en la duodécima posición del ranking TIOBE; nunca había estado tan arriba. Creo que proyectos como YHAT son los culpables de que esté pasando esto. De todas formas, es importante estudiar la dispersión del rating. Habrá que ver qué pasa con los siguientes rankings.

12 de noviembre de 2014 · rvaquerizo

Medir la importancia de las variables en una red neuronal con R

Sigo a vueltas con esta gran web y hoy vamos a medir la importancia de las variables en una red neuronal. Al igual que sucede en un modelo de regresión, los parámetros obtenidos pueden servirnos para determinar la importancia de una variable dentro del modelo. En el caso de una red neuronal, los pesos de la red pueden ser utilizados para determinar cómo influye una variable en el modelo. Para ilustrar este tipo de tareas, el gran @beckmw realizó esta entrada: ...

29 de septiembre de 2014 · rvaquerizo

Representación de redes neuronales con R

En la última entrada realizamos un modelo de regresión con redes neuronales. Hoy quería mostraros cómo representar gráficamente la red neuronal creada en esa entrada. A la modelización con redes neuronales siempre se le ha achacado un comportamiento de “caja negra”: nosotros pasamos unas variables de entrada por una capa oculta y obtenemos una salida. No hay parámetros ni inferencia sobre los mismos; no sabemos lo que hace la red por dentro. En el caso concreto de R y continuando con la entrada anterior, si hacemos summary(bestnn): ...

9 de septiembre de 2014 · rvaquerizo

Regresión PLS con R

El tema que estoy estudiando estos días es la regresión por mínimos cuadrados parciales, partial least squares (PLS). Para documentarme teóricamente y conocer las principales posibilidades de R estoy empleando este documento. Para argumentar el uso de esta técnica, de nuevo partimos del modelo lineal general $Y = X \cdot \beta + \text{Error}$, donde $\beta = (X’X)^{-1} \cdot X’Y$, y ya analizamos los trastornos que nos provoca la inversa de $X’X$ cuando hay columnas de $X$ que son linealmente dependientes (cuando hay multicolinealidad). En ese caso empleábamos la regresión ridge. Bueno, imaginemos esta situación: tenemos más variables que observaciones. Entonces sí que no somos capaces de tener una solución para $(X’X)^{-1}$. Para este problema contamos con los mínimos cuadrados parciales. ...

18 de agosto de 2014 · rvaquerizo

Regresión ridge o regresión contraída con R

Por lo visto no he estudiado lo suficiente. Tengo que redimirme y estudiar este verano determinadas técnicas avanzadas de predicción. Fundamentalmente tengo que trabajar con R y tener determinados conocimientos teóricos sobre estas técnicas. Así que he pensado que, a la vez que estudio yo, estudian todos mis lectores. Además es probable que genere debate. En esta primera entrega vamos a tratar la regresión contraída o regresión ridge. En el blog ya hablamos del problema que suponía la multicolinealidad; cuando tenemos este problema, una de las posibles soluciones es la regresión contraída o regresión ridge. Como ya dijimos, el modelo lineal se expresa como $Y = X \cdot \beta + \text{Error}$; la estimación de nuestros parámetros $\beta$ por mínimos cuadrados ordinarios es $\beta = \text{inv}(X’X) \cdot X’Y$. Cuando $(X’X)$ no es invertible tenemos un problema. La regresión ridge plantea una solución a este problema con unos parámetros $\beta extbackslash_{\text{contraidos}} = \text{inv}(X’X + \lambda I) \cdot X’Y$; si $\lambda$ es 0 estamos ante mínimos cuadrados ordinarios; en otro caso estamos ante un estimador sesgado de $\beta$. Este estimador sesgado es solución al problema de mínimos cuadrados penalizados y lo que hace es contraer los $\beta$ en torno a 0. En resumen: metemos sesgo pero reducimos varianza. ...

9 de julio de 2014 · rvaquerizo

Curso de análisis estadístico de datos "ómicos" con R

Los días 8, 9 y 10 de abril de 2014. Este curso pretende introducir a los investigadores al análisis de datos que se están generando con las nuevas tecnologías de secuenciación, así como facilitar a aquellos que ya disponen de datos su análisis e interpretación de resultados. El curso es un curso práctico en el que se utilizará una metodología similar a la que se ha usado en otros cursos anteriores y que tan buenos resultados ha obtenido. ...

27 de febrero de 2014 · rvaquerizo

El mejor gestor de datos del mundo es de Cádiz

Me ha gustado esta noticia de ElConfidencial.com. Resulta que José Antonio Guerrero es el número uno en Kaggle. Mirad que paso rato yo por Kaggle y no me había dado cuenta nunca de esto. He de confesaros que esta noticia me ha emocionado. Por cierto, si visitáis el perfil de José Antonio, entre sus skills está R y en la foto está trabajando con Excel. Un personaje excepcional.

19 de diciembre de 2013 · rvaquerizo

Truco (malo) de R. Leer datos desde Excel

Tenemos unos datos en Excel y deseamos crear un objeto en R con ellos. La forma más sencilla es seleccionar y copiar los datos y ejecutar el siguiente código: datos <- read.delim("clipboard") str(datos) Muy sencillo, pero necesitaba “fustigarme”. Si deseamos llevar los datos de R a Excel (el camino contrario), hacemos: write.table(datos, "clipboard", sep = "\t", row.names = FALSE) Igual de sencillo. No hagáis como yo, no olvidéis este código. Saludos.

3 de diciembre de 2013 · rvaquerizo

Lectura conjunta de “Analyzing Linguistic Data”

Mi compañero y amigo Carlos Gil, junto con Víctor Peinado, van a iniciar un interesante proyecto: un grupo de lectura del libro Analyzing Linguistic Data: A practical introduction to Statistics. Desde aquí nos hacemos eco de este proyecto, que podéis seguir desde aquí. El calendario del curso es: An Introduction to R: (1 semana, del 6/05 al 12/05) Graphical Data Exploration: (1 semana, del 13/05 al 19/05) Probability Distributions: (1 semana, del 20/05 al 26/05) Basic Statistical Methods: (2 semanas, del 27/05 al 9/06) Clustering and Classification: (2 semanas, del 10/06 al 23/06) Regression Modeling: (2 semanas, del 24/06 al 7/07) Mixed Models: (2 semanas, del 8/07 al 21/07) Será todo un éxito, como las anteriores convocatorias. Saludos.

25 de abril de 2013 · rvaquerizo