La mejor posición de R en tiobe

Ahí tenéis a R en la duodécima posición del ranking de tiobe nunca había estado tan arriba. Creo que proyectos como YHATson los culpables de que esté pasando esto. De todas formas es importante estudiar la dispersión del rating. Habrá que ver que pasa con los siguientes rankings.

12 de noviembre de 2014 · rvaquerizo

Medir la importancia de las variables en una red neuronal con R

Sigo a vueltas con esta gran web y hoy vamos a medir la importancia de las variables en una red neuronal. Al igual que sucede en un modelo de regresión los parámetros obtenidos pueden servirnos para determinar la importancia de una variable dentro del modelo. En el caso de una red neuronal los pesos de la red pueden ser utilizados para determinar cómo influye una variable en el modelo. Para ilustrar este tipo de tareas el gran @beckmw realizó esta entrada: ...

29 de septiembre de 2014 · rvaquerizo

Representación de redes neuronales con R

En la última entrada realizamos un modelo de regresión con redes neuronales. Hoy quería mostraros como representar gráficamente la red neuronal creada en esa entrada. A la modelización con redes neuronales siempre se le ha achacado un comportamiento de “caja negra”, nosotros pasamos unas variables de entrada por una capa oculta y obtenemos una salida. No hay parámetros ni inferencia sobre los mismos, no sabemos lo que hace la red por dentro. En el caso concreto de R y continuando con la entrada anterior si hacemos summary(bestnn): ...

9 de septiembre de 2014 · rvaquerizo

Regresión PLS con R

El tema que estoy estudiando estos días es la regresión por mínimos cuadrados parciales, partial least squares (PLS). Para documentarme teóricamente y conocer las principales posibilidades de R estoy empleando este documento. Para argumentar el uso de esta técnica de nuevo partimos del modelo lineal general $Y = X \cdot \text{Beta} + \text{Error}$ donde $\text{Beta} = \text{inv(X'X)} \cdot \text{X'Y}$ y ya analizamos los trastornos que nos provoca la inv(X'X) cuando hay columnas de X que son linealmente dependientes, cuando hay multicolinealidad. En ese caso empleábamos la regresión ridge. Bueno, imaginemos esta situación, tenemos más variables que observaciones. Entonces si que no somos capaces de tener una solución para la inv(X'X). Para este problema contamos con los mínimos cuadrados parciales. ...

18 de agosto de 2014 · rvaquerizo

Regresión ridge o regresión contraída con R

Por lo visto no he estudiado lo suficiente. Tengo que redimirme y estudiar este verano determinadas técnicas avanzadas de predicción. Fundamentalmente tengo que trabajar con R y tener determinados conocimientos teóricos sobre estas técnicas. Así que he pensado que, a la vez que estudio yo, estudian todos mis lectores. Además es probable que genere debate. En esta primera entrega vamos a tratar la regresión contraída o regresión ridge. En el blog ya hablamos del problema que suponía la multicolinealidad cuando tenemos este problema una de las posibles soluciones es la regresión contraída o regresión ridge. Como ya dijimos el modelo lineal se expresa como $Y = X \cdot \beta + \text{Error}$ la estimación de nuestros parámetros $\beta$ por mínimos cuadrados ordinarios es $\beta = \text{inv}(X’X) \cdot X’Y$ cuando $(X’X)$ no es invertible tenemos un problema. La regresión ridge plantea una solución a este problema con unos parámetros $\beta_{\text{contraidos}} = \text{inv}(X’X + \lambda I) \cdot X’Y$ si $\lambda$ es 0 estamos ante mínimos cuadrados ordinarios, en otro caso estamos ante un estimador sesgado de $\beta$. Este estimador sesgado es solución al problema de mínimos cuadrados penalizados y lo que hace es contraer los $\beta$ en torno a 0. En resumen, metemos sesgo pero reducimos varianza. ...

9 de julio de 2014 · rvaquerizo

Curso de análisis estadístico de datos "ómicos" con R

Los días 8, 9 y 10 de Abril de 2014. Este curso pretenden introducir a los investigadores al análisis de datos que se están generando con las nuevas tecnologías de secuenciación, así como facilitar a aquellos que ya disponen de datos, su análisis e interpretación de resultados. El curso es un curso práctico en el que se utilizará una metodología similar a la que se ha usado en otros cursos anteriores y que tan buenos resultados ha obtenido. ...

27 de febrero de 2014 · rvaquerizo

Truco (malo) de R. Leer datos desde Excel

Tenemos unos datos en Excel y deseamos crear un objeto en R con ellos. La forma más sencilla es seleccionar y copiar los datos y ejecutar el siguiente código: ```r datos = read.delim("clipboard") str(datos) Muy sencillo, pero necesitaba «fustigarme». Si deseamos llevar los datos de R a Excel (el camino contrario) hacemos: write.table(datos,"clipboard", sep="\t",row.names=FALSE) Igual de sencillo. No hagáis como yo, no olvidéis este código. Saludos.

3 de diciembre de 2013 · rvaquerizo

Lectura conjunta de “Analyzing Linguistic Data”

Mi compañero y amigo Carlos Gil junto con Victor Peinado van a iniciar un interesante proyecto. Un grupo de lectura del libro Analyzing Linguistic Data: A practical introduction to Statistics desde aquí nos hacemos eco de este proyecto que podéis seguir desde aquí. El calendario del curso es: An Introduction to R: (1 semana, del 6/05 al 12/05) Graphical Data Exploration: (1 semana, del 13/05 al 19/05) Probability Distributions: (1 semana, del 20/05 al 26/05) Basic Statistical Methods: (2 semanas, del 27/05 al 9/06) Clustering and Classification: (2 semanas, del 10/06 al 23/06) Regression Modeling: (2 semanas, del 24/06 al 7/07) Mixed Models: (2 semanas, del 8/07 al 21/07) Será todo un éxito, como las anteriores convocatorias. Saludos.

25 de abril de 2013 · rvaquerizo

Mosaic plot con R

Los gráficos de mosaico (mosaic plot) me gustan cada vez más. Hoy quería confesaros una cosa, no me gustan los gráficos. Sé que en esta bitácora electrónica hay muchos ejemplos de gráficos y muchos trucos referente a ellos. Pero siempre prefiero un dato representado en una tabla. Después de esta confesión voy a rebatirme a mí mismo. Es muy complicado ver algo en una tabla de contingencia cuando tenemos 3 o cuatro dimensiones. Sin embargo con un mosaic plot como el que tenemos arriba somos capaces de estudiar cruces de frecuencia para 3-4 dimensiones. Para hacerlo empleamos R, en concreto el paquete vcd. Para ilustrar el ejemplo con datos nos vamos a la web de un conocido libro para el uso de GLM en seguros. No entramos en muchos detalles, el código es muy simple, si tengo ocasión lo complicaré: ...

23 de abril de 2013 · rvaquerizo

Nueva edición del Curso Básico de R

Tenemos buenas noticias para todos aquellos que se quieran introducir en el mundo de R. El curso que se puso en marcha hace unos 9 meses tiene una nueva edición. Además se incorpora al equipo de formadores formado por Juan José Gibaja y Carlos Gil Juan Pablo Braña. No hace falta desear éxito. Está garantizado. Para más información A Q U Í «Retuitead», compartir, pulsar «Me Gusta» para que tenga el mayor alcance posible. Saludos.

5 de febrero de 2013 · rvaquerizo