R | Análisis y Decisión

R cayendo en la lista TIOBE

No me ha gustado esta sorpresa en la lista TIOBE de abril de 2012: R cae por debajo del puesto 30 y se ve superado tanto por SAS como por MATLAB. ¿Será una tendencia? Hay que seguir esta evolución en los próximos meses.

Data mining, Business intelligence (y/o la nube)

Hace tiempo que quería publicar una entrada en respuesta a estos comentarios escritos en el blog. Se trata de analizar las búsquedas en Google a través de Google Trends de los términos: Business Intelligence, Data Mining, Cloud Computing y NOSQL. El resultado es más que interesante: En rojo tenemos Data Mining, en azul tenemos Business Intelligence, en naranja Cloud Computing y en verde NOSQL. A la vista de este gráfico cabe preguntarse: ¿es R en la nube el futuro de la profesión?

Sobremuestreo y pesos a las observaciones. Ahora con R

De nuevo volvemos a la entrada de ayer para replicar el código SAS utilizado en R. Se trata de realizar tres modelos de regresión logística con R para estudiar cómo influyen en los parámetros el uso de un conjunto de datos con sobremuestreo o el uso de un conjunto de datos donde asignamos pesos a las observaciones. El programa es sencillo pero tiene un uso interesante de la librería sampling. Aquí tenéis el código: ...

Porque no escribo nada

En las III jornadas de R alguien dijo: «Hacen falta ideólogos». Pues ahí estamos trabajando, en ideas.

Mapas con R en Omnia sunt Communia!

EXCEPCIONAL serie monográfica de mensajes del blog Omnia sunt Communia! sobre la realización de mapas con R: Parte I: mapa de la distribución de votos de las elecciones 2011 en España. Gran trabajo con los datos de mapas municipales del INE. Parte II: mapas de puntos de colores. Increíble el mapa de densidad de población. Parte III: mapas en formato SVG. Representación de datos en SVG con R; muy importante para todos aquellos que deseáis trabajar con mapas de provincias o comunidades. La serie monográfica es toda una referencia. Me atrevería a decir que es la mejor serie sobre la realización de mapas con R que circula por la red, por sencillez y practicidad. En breves días espero aportar mi granito de arena con otro tipo de mapa, pero mucho más sencillo. ...

¿Quién ganará la liga española? Una simulación poco seria con R

Está a punto de acabar un partido de fútbol entre la Real Sociedad y el Barcelona y me temo que esta jornada vuelven a ganar los equipos que más dinero ganan por los derechos televisivos de la liga española. El Real Madrid está a 7 puntos del Barcelona. Está claro que el Barcelona ganará al Real en su campo. Si asumimos que los dos equipos tienen un 80% de posibilidades de ganar el partido, un 10% de empatarlo y un 10% de perderlo, ¿cuál es la probabilidad de que gane alguno de los dos equipos? ...

Da comienzo la lectura de “The Elements of Statistical Learning”

Interesante iniciativa de Juanjo Gibaja y Carlos Gil Bellosta consistente en leer el libro “The Elements of Statistical Learning”. La idea es crear un grupo de trabajo que lea de forma coordinada el libro; pero, además, van a implementar en R los ejercicios y ejemplos. Desde esta bitácora no vamos a colaborar en la lectura, pero sí vamos a colaborar en la divulgación de resultados. Seguiremos muy de cerca este proyecto.

Informes con R en HTML. Comienzo con R2HTML (I)

En las III jornadas de R tuve el placer de asistir al taller de Gregorio Serrano sobre informes con R. Me abrió los ojos. Siempre he pensado que R no es una herramienta que sirva para hacer informes (modo consultor = ON); R no servía para realizar reporting (modo consultor = OFF). Pero R tiene un poderoso motor gráfico y dispone del paquete R2HTML para poder realizar tablas en HTML; y si trabajamos con libros CSS de estilos podemos obtener resultados muy atractivos. Así que la otra tarde me puse manos a la obra y creo que puede salir una trilogía interesante. Bueno, depende del interés que despierte esta entrada del blog haré más entregas, pero de momento tengo en mente llegar a 3. ...

Revisión de las III Jornadas de R

El día 18 de noviembre finalizaron las III jornadas de R y mis impresiones no pueden ser más positivas. A nivel organizativo todo funcionó a la perfección, algo muy meritorio teniendo en cuenta que los organizadores no son expertos en el tema y es muy difícil organizar un evento con 200 personas inscritas. En cuanto a la participación, destacaría el gran número de asistentes y sus distintos ámbitos de procedencia. El contenido, lejos de parecer abrumador (muchas presentaciones de 10 minutos), al final se hacía muy ameno, aunque algunos ponentes eran considerablemente más aburridos que otros; en fin, no estábamos para divertirnos, pero algunos se limitaban a contar fórmulas. Los talleres han sido un éxito. También quería agradecer a la EOI las aulas que pusieron a disposición del evento. Creo que el pilar del éxito de las Jornadas ha sido la EOI por instalaciones, ubicación y disposición. ...

El sobremuestreo ¿mejora mi estimación?

El sobremuestreo (oversampling) es una técnica de muestreo que se emplea habitualmente cuando tenemos una baja proporción de casos positivos en clasificaciones binomiales. Los modelos pueden “despreciar” los casos positivos por ser muy pocos y nuestro modelo no funcionaría. Para incrementar el número de casos positivos se emplea el sobremuestreo. Ejemplos habituales pueden ser los modelos de fraude: un 99% de las compras son correctas y un 1% son fraudulentas. Si realizo un modelo sin tratar este desequilibrio, el algoritmo puede estar seguro al 99% de que todas las compras son correctas, ignorando el fraude. En este caso hemos de realizar un sobremuestreo para incrementar nuestros casos de fraude y poder detectar los patrones. ...