Minería de datos con R: un pequeño paseo

Éste es mi primer monográfico. Como soy más perezoso que Raúl y peor estudiante que nadie, en lugar de hacerlo yo, lo copio. Y en lugar de desarrollarlo en su totalidad, dejo más de la mitad como deberes. Y es que he encontrado un pequeño programa en R que repasa una serie de técnicas clásicas de minería de datos a modo de paseo. Está en inglés y tal vez alguien (es la tarea que propongo a algún voluntarioso lector del blog) se anime a traducirlo. De hacerlo, me comprometo a darle alojamiento y publicidad respetando las debidas atribuciones. ...

3 de diciembre de 2009 · cgbellosta

Dos vecinos muy próximos de la «blogosfera»

Hoy voy a hablar de la competencia, siempre muy deportiva, de este blog. Espero que Raúl me excuse y entienda que no quiero alimentar contadores de visitas ajenos a expensas de los propios sino establecer relaciones de buena vecindad con otros proyectos interesantes y complementarios. El primero, El blog de los erreros , del que tuve noticia hablando con su autor mientras comíamos en la cantina de la Universidad de Murcia en el marco de las Jornadas de R (las primeras de una serie perpetua, quede dicho). Está orientado al mundo de R y contiene trucos, noticias y aplicaciones estadísticas (desarrolladas y resueltas, claro está, con R). ...

1 de diciembre de 2009 · cgbellosta

Noticias del congreso de usuarios de R

Hoy he regresado de las primeras jornadas de usuarios de R. Han sido dos días largos y densos, pero también productivos. Tenemos que estar muy agradecidos a José Antonio Palazón, de la Universidad de Murcia y coordinador del comité organizador, y a Manuel Muñoz Márquez, coordinador del comité científico y responsable del proyecto R UCA, por su extraordinario trabajo. Creo que para muchos de los participantes, uno de los principales beneficios que extrajimos de las jornadas fue el de poder establecer contacto real, físico, con gente y grupos a los que ya conocíamos directa o indirectamente. Allá me encontré con compañeros con los que había mantenido largos intercambios de correo y chat sobre los temas más diversos; algunos que me agradecieron alguna respuesta que les di años ha en la lista de correo de R-help (antes de que existiese R-help-es, incluso) e, incluso, fieles seguidores de este blog (del que sólo supieron contarme maravillas antes, incluso, de revelarles mi participación en él y que la cordialidad los cuasiobligase a ello). Incluso surgieron muchas vías de colaboración entre proyectos que habían surgido de manera espontánea e independiente y que, de repente, se vio que se enriquecían mutuamente. ...

29 de noviembre de 2009 · cgbellosta

Intro RCommander: 1. Qué es RCommander

RCommander es un interfaz gráfico de usuario de R (siglas GUI en inglés) y nos permite acceder a múltiples capacidades gráficas y estadísticas de R a través de menús, sin olvidarnos de sus posibilidades de acceso a distintos entornos de datos. Yo lo defino como un «AutoR» pero es otro paquete de R. Por ello es gratuito y muy fácil de instalar. Tan fácil como instalar R y buscar en CRAN RComdr. Descargamos el paquete, lo guardamos en library y ya disponemos de la más potente herramienta para la estadística y no hemos tenido que utilizar en ningún momento el número de nuestra VISA. RCommander requiere de múltiples paquetes de R por ello cuando en R ejecutemos library(Rcmdr) o carguemos el paquete mediante el menú podemos tener un mensaje como este: ...

15 de noviembre de 2009 · rvaquerizo

REvolution Computing ficha al fundador de SPSS

Noticia de Revolution Computing Norman H. Nie fundador de SPSS ha fichado por la empresa REvolution Computing que ofrece soluciones de análisis basadas en R. Es evidente que Nie se había quedado sin trabajo y que este reto le gusta y mucho, imagino que motivado por la vinculación de REvolution al mundo universitario. Estaremos atentos a los nuevos movimientos de REvolution.

24 de octubre de 2009 · rvaquerizo

Manual. Curso introducción de R. Capítulo 18: Modelos de regresión de Poisson

Cuando disponemos de un número de eventos que ocurren en un intervalo de tiempo estamos ante una variable de Poisson, además tiene que producirse que este número de eventos en intervalos sea independiente del número de eventos que ocurran fuera de ese intervalo de tiempo. En un intervalo muy pequeño la probabilidad de que ocurra un evento es proporcional al tamaño del intervalo y por último la probabilidad de que ocurran dos o más eventos en un intervalo muy pequeño es prácticamente 0. Cualquier variable medida en un intervalo de tiempo o en un intervalo espacial es una variable de Poisson, también se pueden emplear para medir frecuencias en intervalos de población (casos de cáncer en poblaciones, frecuencias siniestrales,…). Tiene como particularidad que la media y la varianza son iguales a $p*s$ donde $p$ es la probabilidad de ocurrencia de un evento de Poisson en un intervalo de tiempo de tamaño unidad y $s$ es el tamaño del intervalo de tiempo o espacial en estudio. ...

23 de octubre de 2009 · rvaquerizo

Lista de los lengajes de programación mas populares

Hacía mucho tiempo que no me daba una vuelta por TIOBEpara conocer los lenguajes de programación más populares. Este estudio se realiza mensualmente y la verdad es que he encontrado pocos cambios con respecto a 2008. De los lenguajes que se tratan en este blog tenemos en el puesto 15 a SAS y en el puesto 30 a R. Vemos pocas cosas de Visual Basic y hemos rozado el PL/SQL. Debería de empezar a trabajar con MATLAB y Python. ...

26 de septiembre de 2009 · rvaquerizo

I Jornadas de usuarios de R en España

Me es grato anunciar que van a realizarse las primeras jornadas de usuarios de R en España. Van a tener lugar los días 26 y 27 de noviembre en la Universidad de Murcia. Como uno de los organizadores de las mismas, me gustaría invitar a usuarios de R de todos los ámbitos (academia, banca, centros de investigación, hospitales, etc.) a compartir experiencias, establecer vínculos con otros grupos, conocer a otros usuarios, asistir a charlas y debatir finalmente la creación de una organización de usuarios de R. ...

13 de julio de 2009 · cgbellosta

Sobre la historia de CART y rpart

Hace unos días conversábamos Raúl y yo sobre árboles de clasificación. En particular, hablábamos de CART, el algoritmo propietario de Salford Systems. Me intrigó saber cuál sería la diferencia entre dicho algoritmo y la alternativa existente en R, rpart. El autor de dicho paquete, Terry Therneau, tuvo la gentileza de ofrecer una introducción histórica al particular de la que ofrezco algunos fragmentos que traduzco yo mismo a continuación: … Tanto el programa comercial CART como la función rpart() están basados en el libro Classification and Regression Trees. Como lector y revisor de alguno de sus primeros borradores, llegué a dominar la materia. CART comenzó como un enorme programa en Fortran que escribió Jerry Friedman y que sirvió para contrastar las ideas contenidas en el libro. Tuve el código durante un tiempo y realicé algunos cambios, pero me resultó demasiado frustrante el trabajar con él. Fortran no es el lenguaje adecuado para un algoritmo recursivo … Salford Systems adquirió los derechos de dicho código e ignoro si alguna de las líneas origininales permanecen en él todavía. Mantuve muchas conversaciones con su principal programador (hace 15 o 20 años) sobre procedimientos para hacerlo más eficiente, esencialmente un problema interesante de indexación óptima. ...

25 de junio de 2009 · cgbellosta

Lista oficial de ayuda de R en español

Desde hace apenas unas semanas existe una lista de correo de ayuda en español para R. Está gestionada desde los servidores de CRAN. Para darse de alta en ella sólo hay que seguir las instrucciones contenidas en el siguiente enlace: https://stat.ethz.ch/mailman/listinfo/r-help-es Los usuarios de R están más que invitados a participar en ella y ayudar a crear una verdadera comunidad de usuarios, aprovechando sinergias, compartiendo experiencias, etc. Además, se anunciará próximamente a través de esta lista la convocartoria de las primeras jornadas de R en España.

18 de junio de 2009 · cgbellosta