R cayendo en la lista TIOBE

No me ha gustado esta sorpresa en la lista TIOBE de abril de 2012 : R cae por debajo del puesto 30 y se ve superado tanto por SAS como por MATLAB. ¿Será una tendencia? Hay que seguir esta evolución en los próximos meses.

16 de abril de 2012 · rvaquerizo

Data mining, Business intelligence (y/o la nube)

Hace tiempo que quería publicar una entrada en respuesta a estos comentarios escritos en el blog. Se trata de analizar las búsquedas en Google a través de Google Trends de los términos: Business Intelligence, Data Mining, Cloud Computing y NOSQL. El resultado es más que interesante: En rojo tenemos Data Mining, en azul tenemos Business Intelligence, en naranja Cloud Computing y en verde NOSQL. A la vista de este gráfico cabe preguntarse ¿es R en la nube el futuro de la profesión?

3 de abril de 2012 · rvaquerizo

Sobremuestreo y pesos a las observaciones. Ahora con R

De nuevo volvemos a la entrada de ayer para replicar el código SAS utilizado en R. Se trata de realizar 3 modelos de regresión logística con R para estudiar como influyen en los parámetros el uso de un conjunto de datos con sobremuestreo o el uso de un conjunto de datos donde asignamos pesos a las observaciones. El programa es sencillo pero tiene un uso interesante de la librería de R sampling. Aquí tenéis el código: ...

27 de marzo de 2012 · rvaquerizo

Porque no escribo nada

En las III jornadas de R alguien dijo «Hacen falta ideólogos». Pues ahí estamos trabajando, en ideas.

6 de marzo de 2012 · rvaquerizo

Mapas con R en Omnia sunt Communia!

EXCEPCIONAL serie monográfica de mensajes delblog Omnia sunt Communia!sobre la realización de mapas con R. Parte I mapa de la distribución de votos de las elecciones 2011 en España. Gran trabajo con los datos de mapas municipales del INE. Parte II mapas de puntos de colores. Increible el mapa de densidad de población. Parte III mapas en formato SVG. Representación de datos en SVG con R, muy importante para todos aquellos que deseáis trabajar con mapas de provincias o comunidades. La serie monográfica es toda una referencia. Me atrevería a decir que esla mejor serie sobre la realización de mapas con R que circula por la red, por sencillez y practicidad. En breves días espero aportar mi granito de arena con otro tipo de mapa pero mucho más sencillo. ...

4 de marzo de 2012 · rvaquerizo

¿Quién ganará la liga española? Una simulación poco seria con R

Está a punto de acabar un partido de futbol entre la Real Sociedad y el Barcelona y me temo que esta jornada vuelven a ganar los equipos que más dinero ganan por los derechos televisivos de la liga española. El Real Madrid está a 7 puntos del Barcelona. Está claro que el Barcelona ganará al Real en su campo. Si asumimos que los dos equipos tienen un 80% de posibilidades de ganar el partido, un 10% de empatarlo y un 10% de perderlo ¿cual es la probabilidad de que gane alguno de los dos equipos? ...

4 de febrero de 2012 · rvaquerizo

Da comienzo la lectura de “The Elements of Statistical Learning”

Interesante iniciativa de Juanjo Gibaja y Carlos Gil Bellosta consistente en leer el libro “The Elements of Statistical Learning”. La idea es crear un grupo de trabajo que lea de forma coordinada el libro, pero además van a implementar en R los ejercicios y ejemplos. Desde esta bitácora no vamos a colaborar en la lectura pero si vamos a colaborar en la divulgación de resultados. Seguiremos muy de cerca este proyecto.

10 de enero de 2012 · rvaquerizo

Informes con R en HTML. Comienzo con R2HTML (I)

En las III jornadas de R tuve el placer de asistir al taller de Gregorio Serrano sobre informes con R. Me abri2 los ojos. Siempre he pensado que R no es una herramienta que sirva para hacer informes [modo consultor = ON] R no serv2a para realizar reporting [modo consultor = OFF]. Pero R tiene un poderoso motor grfico y dispone del paquete R2HTML para poder realizar tablas en HTML y si trabajamos con libros CSS de estilos podemos obtener resultados muy atractivos. As2 que la otra tarde me puse manos a la obra y creo que puede salir una trilog2a interesante. Bueno, depende del inters que despierte esta entrada del blog har2 m2s entregas, pero de momento tengo en mente llegar a 3. ...

28 de noviembre de 2011 · rvaquerizo

Revisión de las III Jornadas de R

El día 18 de noviembre finalizaron las III jornadas de R y mis impresiones no pueden ser más positivas. A nivel organizativo todo funcionó a la perfección, algo muy meritorio teniendo en cuenta que los organizadores no son expertos en el tema y es muy difícil organizar un evento con 200 personas inscritas. En cuanto a la participación destacaría el gran número de asistentes y sus distintos ámbitos de procedencia. El contenido lejos de parecer abrumador, muchas presentaciones de 10 minutos, al final se hacía muy ameno aunque algunos ponentes eran considerablemente más aburridos que otros, en fin, no estábamos para divertirnos pero algunos se limitaban a contar fórmulas. Los talleres han sido un éxito. También quería agradecer a la EOI las aulas que pusieron a disposición del evento. Creo que el pilar del éxito de las Jornadas ha sido la EOI por instalaciones, ubicación y disposición. ...

21 de noviembre de 2011 · rvaquerizo

El sobremuestreo ¿mejora mi estimación?

El sobremuestreo (oversampling) es una técnica de muestreo que se emplea habitualmente cuando tenemos una baja proporción de casos positivos en clasificaciones binomiales. Los modelos pueden “despreciar” los casos positivos por ser muy pocos y nuestro modelo no funcionaría. Para incrementar el número de casos positivos se emplea el sobremuestreo. Ejemplos habituales pueden ser los modelos de fraude, un 99% de las compras son correctas, un 1% son fraudulentas. Si realizo un modelo puedo estar seguro al 99% de que todas mis compras son correctas, en este caso hemos de realizar un sobremuestreo para incrementar nuestros casos de fraude y poder detectar los patrones. ...

6 de noviembre de 2011 · rvaquerizo