Trucos R. Función ddply del paquete plyr

El paquete plyr de R tiene unas funciones que nos permiten hacer sumarizaciones de forma muy rápida y sencilla. Hoy quería trabajar con la función ddply(). Todos esos resúmenes y agregaciones que nos cuestan mucho código con la función ddply() pasan a ser de lo más sencillo. Al tajo, o mejor dicho, al ejemplo; como siempre, creo que ilustrar ddply() es mejor que entrar in su sintaxis, para eso está la ayuda. Creamos un data.frame con datos inventados que tendrá duplicados por id_cliente: ...

19 de abril de 2010 · rvaquerizo

Combinaciones de k elementos tomados de n en n. Con SAS y con R

Me gustaría plantearos un problema que me ha ocurrido recientemente con SAS. Necesitaba todas las posibles combinaciones de 9 elementos tomados de $n$ en $n$. Tenía que crear un dataset con todas estas combinaciones. Antes de ponerme a programar toca buscar en Google “sas combinations” y, tras un rato buscando, encuentro el siguiente link. Este link contiene una macro de SAS que nos permite crear todas las combinaciones de $k$ elementos tomados de $n$ en $n$: ...

10 de abril de 2010 · rvaquerizo

Comunicar SAS con R creando ejecutables Windows

Quiero trabajar hoy con la función put de SAS para la creación de ficheros ejecutables de Windows (.BAT) y también quiero comunicar SAS con R. Mato dos pájaros de un tiro y para ello vamos a crear un script de R que llamaremos desde SAS a partir de un archivo .BAT. Un ejemplo típico y muy sencillo que espero poder ir sofisticando con el paso del tiempo hasta llegar a paquetizarlo. Tiene los siguientes pasos: ...

1 de abril de 2010 · rvaquerizo

What is R? Interesantes vídeos de REvolution Computing

Serie de cuatro vídeos de REvolution Computing que aconsejo ver: La verdad es que no estoy siguiendo mucho a REvolution Computing. Si os soy sincero, me pone más WPS y el bridge to R. Saludos.

30 de marzo de 2010 · rvaquerizo

Por qué me gusta R

En los últimos tiempos he hablado mucho y mal de R en los «ambientes». El problema de siempre puede terminar con la paciencia de cualquiera: la manipulación de datos con R cuando superamos un GB puede acabar con la paciencia de este viejo dinosaurio. Viejo por “usado”, no por mi edad; y dinosaurio por “anticuado”, aunque me gustaría recordar que los dinosaurios fueron capaces de sobrevivir 65 millones de años. En realidad soy un mainframe: usado, superviviente e imprescindible. Y me gusta R. ...

29 de marzo de 2010 · rvaquerizo

Desarrollo de IDE para R

Sigo añadiendo pocos mensajes al blog por falta de tiempo. Corren malos tiempos para el ahora escribiente. A este paso, el blog no llegará nunca a las 4.000 visitas mensuales, objetivo muy ambicioso para este 2010. Pero en este mensaje quería enlazar el blog de un ex compañero: http://miguelinlas3.blogspot.com/ Interesante proyecto que crea un entorno de desarrollo integrado (IDE) para R. De momento lo está desarrollando, pero cuando note el incremento de visitas desde este sitio (porque lo notará), y si lo nota y le seguimos, le servirá de presión para que continúe su desarrollo. Saludos.

18 de marzo de 2010 · rvaquerizo

¿Qué compañía está entre las 12 ‘Companies to Watch’ in 2010?

Interesante dato de Intelligent Enterprise. http://intelligent-enterprise.informationweek.com/channels/business_intelligence/showArticle.jhtml;jsessionid=CPH2HNI3ADRRVQE1GHPSKHWATMY32JVN?articleID=222900034&pgno=3 La lástima es que el BI está moribundo. En 2012 será un concepto obsoleto. Por cierto, R-Project tiene que plantearse esa web de una vez por todas.

18 de febrero de 2010 · rvaquerizo

Monográfico. Análisis de Factores con R (una introducción)

El análisis de factores es una técnica de reducción de datos: menor dimensión, mayor porcentaje de varianza. Distinguimos el análisis factorial exploratorio del análisis factorial confirmatorio en función del conocimiento del número de factores a obtener. Este análisis está muy relacionado con el análisis de componentes principales, pero no buscamos explicar el mayor porcentaje de varianza a partir de combinaciones lineales de variables; buscamos conjuntos de variables comunes entre sí. Este análisis supone que hay un factor intrínseco a las variables a combinar. El proceso a seguir para este tipo de análisis sería: ...

11 de febrero de 2010 · rvaquerizo

Truco R. Valores perdidos a 0, ejemplo de uso de sapply

Muy habitual partirnos la cabeza con valores perdidos en R. Los NA pueden darnos algún quebradero de cabeza. Este truco es muy sencillo: transforma valores missing a 0 y nos sirve para aplicar funciones a data.frame con la función sapply. Veamos el sencillo ejemplo: x <- c(1, 23, 5, 9, 0, NA) y <- c(5, 45, NA, 78, NA, 34) dataf <- data.frame(x, y) mean(dataf$x, na.rm = TRUE) mean(dataf$y, na.rm = TRUE) # Podría interesarnos tener en cuenta los NAs sum(dataf$x, na.rm = TRUE) / nrow(dataf) sum(dataf$y, na.rm = TRUE) / nrow(dataf) Tenemos un data.frame con dos variables que contienen valores perdidos; deseamos crear una función que pase estos valores a 0 y aplicarlo al data.frame de partida: ...

31 de enero de 2010 · rvaquerizo

Monográfico. Regresión logística con R

Por fin nos metemos con la regresión logística en R. Nos meteremos con WPS (si es posible). Los modelos de regresión logística son los más utilizados en las áreas en las que el ahora escribiente ha trabajado. ¿Por qué tienen tanto “éxito”? Porque es el mejor ejemplo de modelo de variable linealmente dependiente de otras variables independientes. Pero sobre todo tiene éxito porque modelamos una probabilidad de un suceso (habitualmente dicotómico) en función de unos factores que pueden ser discretos o continuos. ...

29 de enero de 2010 · rvaquerizo