R

TwitteR con R. El hashtag #rstats

El objetivo de la entrada es empezar a analizar tweets con R y que mejor comienzo que usar el hashtag#rstats para ver usuarios que más lo utilizan. [no me gusta conjugar el verbo retwitear] El primer paso es crear una app con Twitter, para ello nos dirigimos a https://apps.twitter.com/ y creamos una aplicación. Crearla es muy sencillo, sólo necesitamos una descripción y un nombre. La aplicación será la que permitirá a R interaccionar con Twitter mediante OAuth y para realizar esta interacción entre la aplicación y nuestra sesión de R es imprescindible:

Creacion de ranking con R

Captura de pantalla 2015-12-20 a las 18.23.04

Hasta la fecha si necesitaba crear un ranking o un orden con R realizaba la tarea del siguiente modo:

nombres <-c(«grupo_1″,»grupo_2»)
grupo <-sample( nombres, 10, replace=TRUE, prob=c( 0.5, 0.5) )
dataset <- data.frame(grupo)
dataset$importes <- runif(10,100,30000)

#Creación del ranking de las variables agrupadas
dataset ranking = ave(datasetimportes,dataset$grupo,
FUN= function(x) rank(x, ties.method = «first»))

Es una agrupación de factores a la que asignamos el orden con rank, con ties.method=»first» esta agrupación se lleva a cabo desde el primer nivel del factor. El resultado se puede comprobar haciendo:

Reunión del Grupo de Usuarios de R de Madrid. 12 de noviembre

R

Este jueves día 12 de noviembre nos volvemos a juntar el Grupo de Usuarios de R de Madrid en el MediaLab Prado. La reunión comenzará a las 19 horas y además de los temas administrativos habituales veremos:

– Mariano Rico: “La Web de Datos desde R”.
– Rafael Cobo, María Allanegui, Rafael Bermúdez Miguez: “Jugando con time series: de raw app”.
– Pedro Concejero: “Análisis de Supervivencia para rotación de clientes”.

Mapa de Argentina con R

Un lector necesita realizar un mapa de Argentina con R. El primer paso es descargar el mapa en formato R de la página web de siempre: http://www.gadm.org/country seleccionamos Argentina y el formato en R. Podéis descargar en otros formatos y trabajar con R, pero eso lo contaré otro día. Para ilustrar el ejemplo me he descargado el mapa de nivel 2, es decir, a nivel de Estado argentino. Una vez descargado el mapa empleamos el código de siempre:

Trucos R. El paquete classInt para clasificar variables continuas

El paquete classInt de R últimamente está muy presente en mis programas y me gustaría dedicarle unas líneas para que podáis ver algunas de sus posibilidades a la hora de clasificar variables continuas, además estas posibilidades unidas con RColorBrewer nos permiten crear gráficos muy atractivos. Instalamos y clasificamos un vector de ejemplo:

aleatorio <- abs(rnorm(100,50,30))
summary(aleatorio)
grupos <- 4
clases <- classIntervals(aleatorio, grupos, style="quantile")
clases

style: quantile
one of 156,849 possible partitions of this variable into 4 classes
[1.225299,29.19317) [29.19317,51.55524) [51.55524,72.06471) [72.06471,118.6466]
25                 25                 25                 25

Partimos un vector aleatorio en 4 clases en función de sus cuantiles y creamos un lista clases que contiene nuestra tabla y entre sus atributos destaca brks que indica los puntos de corte, en el caso de los cuantiles tenemos:

Juego de modelos de regresión con R

Rplot

Os propongo un juego con R. El juego parte de unos datos aleatorios que he generado con R (los que veis arriba) que dividimos en entrenamiento y test. Sobre el conjunto de datos de entrenamiento he realizado varios modelos y valoro las predicciones gráficamente sobre los datos de test. El juego consiste en asociar cada resultado gráfico de test a cada código de R correspondiente y justificar brevemente la respuesta.

Nueva reunión del grupo de usuarios de R en Madrid

R

Nueva cita para el martes 12 de mayo en el MediaLab con el grupo de usuarios de R en Madrid. En esta ocasión Pedro Concejero hará la presentación “Clasificación de películas con el dataset Movielens – técnicas de factorización en R”. Los datasets de Movielens son un clásico de la investigación en recomendadores (https://movielens.org/ http://grouplens.org/datasets/movielens/). Muy recientemente (abril 2015) se ha liberado el último dataset con 20 millones de valoraciones de más de 26 mil películas por parte de casi 140 mil evaluadores. Las técnicas de reducción de dimensionalidad, o factorización, son la base para el desarrollo de recomendadores, pero también permiten extraer agrupaciones de contenidos similares por las preferencias de los evaluadores, se pueden interpretar también como “géneros aprendidos”. En esta charla veremos la aplicación de las técnicas de factorización y los retos que supone abordar este dataset, todo ello con las múltiples herramientas analíticas que ofrece R.

Curso de iniciación a R en Kschool de Carlos Gil

Carlos Gil Bellosta va a impartir en Kschool un programa profesional de iniciación a R. En el siguiente link tenéis más información al respecto:

http://kschool.com/cursos/programa-profesional-de-iniciacion-r/

Como podéis ver en el programa podréis trabajar con manipulación de datos, automatización de informes e incluso segmentación sin faltar las posibilidades gráficas de R. Muy interesante para introducirse a R.

Mapas estáticos municipales para estados de México. Con R y con Excel

mexico_municipios_R_excel

Podemos pintar mapas municipales de México con la ayuda de R y Excel. Esta entrada está en la línea de otra anterior para hacer esta misma tarea con mapas de España. Disponemos de los datos en Excel y tenemos intalado R y la librería sp. El objeto R con los mapas de México lo podemos encontrar en http://www.gadm.org/country seleccionamos Mexico y R Spatial Poligons Data Frame y debemos descargarnos el objeto de nivel 2. Comenzamos el trabajo con R:

Mapas municipales de España en R, con la ayuda de Excel

municipios extremadura R 1

El escribir sobre el BDT de Madrid me ha hecho recordar mi trabajo con statial data de R. Los mapas de spatial data los podemos obtener de forma gratuita de http://www.gadm.org/country y en este caso vamos a descargarnos para España un SpatialPolygonsDataFrame específico para R de nivel 4 que está a nivel municipal (repito nivel todas las veces necesarias), el archivo que os debéis descargar se llamará ESP_adm4.RData. Si buscáis un poco en google encontraréis documentación acerca de este tipo de archivos de R y veréis que se pueden hacer maravillas. En este caso quiero hacer un ejemplo lo más sencillo posible, muy artesanal y casero. Con un poco de imaginación podréis complicarlo o incluso hacer una herramienta en Excel que hiciera mapas con R.

Aprendiendo Shiny. La función shinyUI seguida de fluidPage o fluidRow

Con shinyUI creamos el interface de nuestra app de shiny y cuando la usamos inmediatamente ponemos fluidPage o fluidRow (por lo menos en estos primeros acercamientos). Utilizaremos una u otra en función del diseño que deseamos. Los argumentos que pueden tener fluidPage o fluidRow son múltiples. Algunos de los que estoy usando:

  • titlePanel. Imprescindible, sirve para poner títulos a nuestra app
  • headerPanel. Para titular nuestro panel
  • wellPanel para introducir tablas con formato. Podremos jugar con css para cambiar los formatos.
  • Elementos para modificar valores como:
    • sliderInput. Nos permite crear los slider como hemos visto en los ejemplos
    • textInput. Para introducir texto «libre»
    • selectInput. Crea un combo
    • checkboxInput. Obvio
    • ….
  • actionButton
  • mainPanel. Es el cuerpo de nuestra app y puede estar compuesto de:
    • plotOutput
    • tabPanel nos permite poner tablas HTML
    • si deseamos crear salidas más complejas podemos usar mainPanel y tabular nuestras salidas. Por ejemplo un cuadro de mando

A muy grandes rasgos esto es lo que podemos empezar a hacer con nuestro interfaz. Cada vez me recuerda más a SAS AF o appDev Studio lenguaje de programación que tengo más olvidado que el JCL. No es programar en R, aunque no es tan difícil como mi querido Tclk. Saludos.