Qué ando leyendo hoy

Páginas muy interesantes de R: R-bloggers Planet R El R-bloggers es imprescindible que esté en vuestros marcadores. Incluso soy fan en Facebook.

2 de enero de 2010 · rvaquerizo

Migrando de SAS a R

Estoy ayudando a unos colegas a migrar de SAS a R. Están lejos, in un país de vino y carne al que alguna vez he de ir. Hemos quedado in que si alguna vez borran el último de sus SAS del disco duro, los ayudo gratis. Si no, cuando vaya, me tendrán que pagar hasta el último peso in lifaras y libaciones. Tienen procesos que ejecutaban in SAS. Algunos los iban reescribiendo in R. Se sienten más cómodos in SAS pero, cuando este se queda corto, recurren a R. Es una aproximación «todo o nada». ...

8 de diciembre de 2009 · cgbellosta

Probando R sobre el EC2 de Amazon

Hacía tiempo que quería probarlo. Menos en las grutas pobladas de seres del siglo anterior, todo el mundo habla del EC2 de Amazon. Entre otras muchas cosas que iré explorando más adelante, el EC2 de Amazon te alquila un servidor por horas. También te ofrece espacio de disco (Amazon S3) a unos precios de risa y otras cosas más que bien podrían mandar al paro a departamentos enteros de IT. Pero hoy, de momento, sólo me interesaba el servidor: alquilar un servidor por un rato. ...

8 de diciembre de 2009 · cgbellosta

Trucos SAS. Unión de múltiples tablas SAS con un nombre parecido

Ha llegado una búsqueda y ponemos el truco. Creo que ya lo puse, pero no está mal recordarlo. Creamos 20 datasets aleatorios con 10 observaciones cada uno: %macro doit; %do i = 1 %to 20; data zzdatos_&i.; do i = 1 to 10; output; end; run; %end; %mend; Un bucle fácil de macros ha generado 20 datasets que se llaman ZZDATOS_n. Recomiendo siempre emplear nombres «absurdos» para el trabajo con esta metodología. Empleamos un PROC SQL sobre la librería DICTIONARY, en concreto sobre la tabla tables. proc sql noprint; select memname into :lista_tablas separated by " " from dictionary.tables where index(memname, "ZZDATO") > 0; quit; Recordemos que en SASHELP tenemos vistas de estas tablas, el SEPARATED BY es el que indica que hacemos una selección múltiple. ...

7 de diciembre de 2009 · rvaquerizo

Minería de datos con R: un pequeño paseo

Éste es mi primer monográfico. Como soy más perezoso que Raúl y peor estudiante que nadie, en lugar de hacerlo yo, lo copio. Y en lugar de desarrollarlo en su totalidad, dejo más de la mitad como deberes. Y es que he encontrado un pequeño programa en R que repasa una serie de técnicas clásicas de minería de datos a modo de paseo. Está en inglés y tal vez alguien (es la tarea que propongo a algún voluntarioso lector del blog) se anime a traducirlo. De hacerlo, me comprometo a darle alojamiento y publicidad, respetando las debidas atribuciones. ...

3 de diciembre de 2009 · cgbellosta

Monográfico. `FIRST.` y `LAST.` ejemplos en DATA

Ya trabajamos en un monográfico anterior con datos agrupados en SAS. Cuando empleamos BY tenemos dos variables dentro del paso data con las que trabajaremos habitualmente: FIRST. y LAST.. A continuación vamos a plantear un ejemplo de uso para entender mejor su funcionamiento. Partimos de una simulación de una cartera de una CIA aseguradora que tiene 1.000 pólizas y está a nivel de póliza, renovación y suplemento. Para la realización de diversos análisis necesitamos marcar las pólizas de nueva producción, marcar la anualidad, determinar la prima en el momento anterior a la renovación y la prima que tienen a día de hoy. ...

2 de diciembre de 2009 · rvaquerizo

Dos vecinos muy próximos de la «blogosfera»

Hoy voy a hablar de la competencia, siempre muy deportiva, de este blog. Espero que Raúl me excuse y entienda que no quiero alimentar contadores de visitas ajenos a expensas de los propios, sino establecer relaciones de buena vecindad con otros proyectos interesantes y complementarios. El primero, El blog de los erreros, del que tuve noticia hablando con su autor mientras comíamos en la cantina de la Universidad de Murcia en el marco de las Jornadas de R (las primeras de una serie perpetua, quede dicho). Está orientado al mundo de R y contiene trucos, noticias y aplicaciones estadísticas (desarrolladas y resueltas, claro está, con R). ...

1 de diciembre de 2009 · cgbellosta

Noticias del congreso de usuarios de R

Hoy he regresado de las primeras jornadas de usuarios de R. Han sido dos días largos y densos, pero también productivos. Tenemos que estar muy agradecidos a José Antonio Palazón, de la Universidad de Murcia y coordinador del comité organizador, y a Manuel Muñoz Márquez, coordinador del comité científico y responsable del proyecto R UCA, por su extraordinario trabajo. Creo que para muchos de los participantes, uno de los principales beneficios que extrajimos de las jornadas fue el de poder establecer contacto real, físico, con gente y grupos a los que ya conocíamos directa o indirectamente. Allá me encontré con compañeros con los que había mantenido largos intercambios de correo y chat sobre los temas más diversos; algunos que me agradecieron alguna respuesta que les di años ha en la lista de correo de R-help (antes de que existiese R-help-es, incluso) e, incluso, fieles seguidores de este blog (del que sólo supieron contarme maravillas antes, incluso, de revelarles mi participación en él y que la cordialidad los cuasiobligase a ello). Incluso surgieron muchas vías de colaboración entre proyectos que habían surgido de manera espontánea e independiente y que, de repente, se vio que se enriquecían mutuamente. ...

29 de noviembre de 2009 · cgbellosta

Funciones de ventana, SAS y bases de datos

Hace unos meses padecí (eso sí, brevemente) un proyecto que consistía en la migración de cierto código en SAS (¡nos lo pasaron como un documento de 20 hojas de Word!) a otro lenguaje de programación. Esencialmente, desde la nueva plataforma habrían de lanzarse consultas a cierta base de datos (cuando el código SAS permitiese resolver los cálculos como una consulta de SQL) y procesarse los resultados procedimentalmente desde el nuevo lenguaje de programación cuando SQL, declarativo, no fuese suficiente. Surgió el problema de que el lenguaje procedimental era incapaz de procesar bloques tan grandes de información. Pero ésa es otra historia. ...

22 de noviembre de 2009 · cgbellosta

Intro RCommander: 1. Qué es RCommander

RCommander es un interfaz gráfico de usuario de R (siglas GUI en inglés) y nos permite acceder a múltiples capacidades gráficas y estadísticas de R a través de menús, sin olvidarnos de sus posibilidades de acceso a distintos entornos de datos. Yo lo defino como un “AutoR”, pero es otro paquete de R. Por ello es gratuito y muy fácil de instalar. Tan fácil como instalar R y buscar en CRAN Rcmdr. Descargamos el paquete, lo guardamos en library y ya disponemos de la más potente herramienta para la estadística y no hemos tenido que utilizar en ningún momento el número de nuestra VISA. RCommander requiere de múltiples paquetes de R; por ello, cuando en R ejecutemos library(Rcmdr) o carguemos el paquete mediante el menú, podemos tener un mensaje como este: ...

15 de noviembre de 2009 · rvaquerizo