Data Management básico con Pandas

Entrada dedicada al manejo de datos más básico con Python y Pandas; es análoga a otra ya realizada con dplyr para R. Sirve para tener de un vistazo las tareas más habituales que realizamos en el día a día con Pandas. Para aquel que se esté introduciendo al uso de Python, puede ser de utilidad tener todo junto y más claro; a mí personalmente me sirve para no olvidar cosas que ya no uso. En una sola entrada recogemos las dudas más básicas cuando nos estamos iniciando con Python. Las tareas más comunes son: ...

26 de abril de 2019 · rvaquerizo

Truco Excel. Producto cartesiano de dos campos

Hacía tiempo que no ponía trucos en Excel y hoy os traigo un truco que puede ser de utilidad cuando tenéis que hacer combinaciones. Se trata de realizar el producto cartesiano mediante una macro de Excel; además, os pongo el enlace al propio Excel para que podáis rellenar los campos a cruzar. No creo que haga falta describir qué es un producto cartesiano de dos campos, pero de forma resumida se puede decir que es crear el total de pares de esos dos campos, un “todos con todos”; es útil cuando quieres hacer combinaciones (como ya he dicho). ...

14 de abril de 2019 · rvaquerizo

Recopilación Data Science Cheat Sheet

No sé cómo me ha llegado esta recopilación de Cheat Sheets para la Ciencia de Datos, pero viendo el trabajo que realizan algunas personas aún es posible creer en la humanidad. Disfrutad del enlace y ya estamos todos siguiendo el git de este gran tipo: https://github.com/abhat222/Data-Science–Cheat-Sheet

2 de abril de 2019 · rvaquerizo

Longitud de las frases del `Quijote` con `rstats`

Siempre he querido hacer cosas con rstats y el Quijote y ayer se me ocurrió medir la longitud de las frases del Quijote y crear un histograma que describa esta longitud. Aunque confieso que no me lo he leído, me he quedado en el capítulo 7 u 8 (no recuerdo) el caso es que me pareció hipnótico con sus ritmos, es musical. Además tengo muchas ganas de meter mano al proyecto Gutemberg porque esos ritmos, esa musicalidad, el uso de palabras esdrújulas,… me llama la atención. Bueno, al lío, todo el código está subido al repositorio por si lo queréis, pero hay algunas funciones y algunas ideas que me parecen interesantes. ...

27 de febrero de 2019 · rvaquerizo

Gráfico con eje secundario en ggplot2

Los gráficos con eje secundario o con dos ejes son un tema que ya he puesto en el blog en varias ocasiones, hay un ejemplo con R que tenía sus problemas y hay un ejemplo con Python y matplotlib que particularmente me gusta por elegancia y sencillez. En esta entrada vamos a repetir el ejercicio y vamos a realizar un gráfico de columnas y líneas con 2 ejes, primario y secundario pero con ggplot2. Este tipo de gráficos son muy utilizados por los actuarios para representar frecuencias o siniestralidades y exposición. Para ilustrar el ejercicio vamos a emplear los mismos datos que usamos en el ejemplo con matplotlib pero vemos paso a paso cómo realizaríamos el gráfico: ...

13 de febrero de 2019 · rvaquerizo

Muestrear no es pecado

Hace unos días que nació la web de José Luis Cañadas y ya está añadida a los enlaces de AyD; desde aquí nos hacemos eco de esta nueva bitácora: https://muestrear-no-es-pecado.netlify.com/ Seguiremos muy de cerca a JL porque es un tipo de esos que merece ser escuchado por cómo mezcla pragmatismo y rigor, dos de las principales características que tienen que tener los científicos de datos y que últimamente están vilipendiadas.

5 de febrero de 2019 · rvaquerizo

Mapa de México rápido (y sucio) y estático con rstats

No sabía cómo mostraros el funcionamiento de getData del paquete raster para evitaros ir a GADM y descargar los correspondientes mapas. Bueno, pues se me ha ocurrido hacer una entrada que tenga el menor número de líneas posibles y que genere un mapa. No me lo tengáis mucho en cuenta: library(ggplot2) library(raster) library(dplyr) # Obtenemos el mapa de GADM mex <- getData("GADM", country = "MX", level = 2) # El dato que vamos a pintar prov <- data.frame(region = unique(mex@data$NAME_2)) prov$aleatorio <- runif(nrow(prov), 0, 100) # Creamos el objeto mapa al que le añadimos el dato que necesitamos pintar mex_map <- fortify(mex, region = "NAME_2") mex_map <- left_join(mex_map, prov, by = c("id" = "region")) # Pintamos el mapa ggplot(data = mex_map, aes(x = long, y = lat, group = group)) + geom_polygon(aes(fill = aleatorio)) + scale_fill_continuous(low = "white", high = "blue") + labs(title = "Quick and dirty") + theme_void() Ahí lo tenéis: getData se conecta a GADM donde vía ISO 3 le decimos qué mapa queremos y el nivel que queremos, y pintamos un mapa de México con ggplot2 en un pis pas. Comentad si no entendéis algo; hay miles de entradas que hacen lo mismo de forma más detallada, pero en menos líneas, ninguna. Saludos.

31 de enero de 2019 · rvaquerizo

Porque no vamos a cobrar pensiones. Animación con R y pirámides de población

Estoy creando material para un módulo de un máster que voy a impartir y escribiendo sobre seguros de ahorro he llegado a crear esta animación: Se trata de una animación con las pirámides de población de España desde 1975 hasta 2018 de 5 en 5 años. El sistema de pensiones español se basa en cinco principios: Principio de proporcionalidad Principio de universalidad Principio de gestión pública Principio de suficiencia Principio de reparto La animación va directa contra el principio de reparto. En el sistema español nadie ha cotizado para garantizarse su pensión; los actuales trabajadores pagan las prestaciones de aquellos trabajadores jubilados. Si tras leer estas dos frases y mirar la animación sigues recelando de la migración de personas a España, espero que tengas un buen plan de ahorro privado. ...

9 de diciembre de 2018 · rvaquerizo

Data management con dplyr

Dos años con pandas y scikit-learn y ahora vuelvo a R. Y in mi regreso me propuse comenzar a trabajar con dplyr y mi productividad se está incrementando exponencialmente; creo que dplyr es LA HERRAMIENTA para el manejo de data.frames con R, ni me imagino cómo puede funcionar sparklyr… Para aquellos que estéis iniciando vuestra andadura con R o para los que no estéis acostumbrados a dplyr, he hecho una recopilación de las tareas más habituales que hago con esta librería. Se pueden resumir in: ...

22 de noviembre de 2018 · rvaquerizo

Truco Excel. Transponer una fila en varias columnas con DESREF

Creo que alguna vez me lo han preguntado. Se trata de transponer en Excel el contenido de una fila en varias columnas; como es habitual (sobre todo si escribo yo), una imagen vale más que mil palabras: En este caso se trata de pasar de una fila a tres columnas, por lo que se trata de que la función DESREF tiene que moverse en función del elemento que va a transponer. En este caso, empezando desde A1, tenemos que generar un autonumérico para las columnas que se ha de mover de 3 en 3, por lo que multiplicaremos por 3 y sumaremos la columna: ...

30 de septiembre de 2018 · rvaquerizo