Paquete opendataes en rOpenSpain para acceder a los datos de datos.gob.es con R

Hay un package de #rstats para extraer datos de https://t.co/1lKm70SY8M que desarrollamos @cimentadaj y yo: https://t.co/a45eg9enOU — Jorge López (@jlopezper) August 29, 2019 Por medio de una conversación en Twitter he llegado al paquete opendataes para acceder mediante R a la API de datos.gob.es. Este paquete, desarrollado inicialmente por Jorge López, necesita colaboraciones porque tenemos a nuestro alcance más de 22.000 conjuntos de datos de acceso libre para realizar nuestros propios estudios. Conocía rOpenSpain por MicroDatosEs y tengo pendiente trabajar con CatastRo, pero ya estáis tardando en ejecutar remotes::install_github("ropenspain/opendataes") e instalar opendataes; además, tenemos que colaborar para mejorar las consultas a la API porque se abre un mundo de datos accesible desde R brutal.

29 de agosto de 2019 · rvaquerizo

Los principales problemas de los españoles. Animaciones con R y gganimate

La realización de gráficos animados con R, gganimate y ggplot2 es algo que quiero empezar a trabajar en mis visualizaciones de datos; una buena forma de llamar la atención. Para ilustrar el ejemplo, he recogido los datos que publica mensualmente el CIS con las tres principales preocupaciones de los españoles, que podéis encontrar en este enlace. Por cierto, este enlace tiene toda la pinta de ser una salida en SAS; no me parece muy apropiado, pero no diré nada porque imagino que serán lectores del blog. ...

26 de agosto de 2019 · rvaquerizo

Mapa de códigos postales con R. Aunque el mapa es lo de menos

Entrada para facilitar la realización de mapas de códigos postales de España con R. Todo parte del trabajo de Íñigo Flores, al que ya mencionamos en otra entrada. Íñigo descargó de Cartociudad y recopiló los objetos shapefile para realizar estos gráficos y los subió a su repositorio; están desactualizados, pero pueden ser suficientes para la realización de mapas de códigos postales. Íñigo subió en formato .zip todos los archivos necesarios provincia a provincia, como lo tenía Cartociudad. Podemos clonarnos el repositorio o leer directamente de GitHub; en cualquier caso, necesitamos una función en R que nos permita leer archivos comprimidos en formato .zip y, cuando lea el .zip, seleccionar que expresamente lea el archivo .shp que contiene el spatial data. ...

12 de agosto de 2019 · rvaquerizo

Ejecutar un código al iniciar la sesión de R

A raíz de una conversación en Twitter, os traigo un pequeño truco de R para aquellos que tenéis funciones predefinidas y que tenéis que cargarlas al iniciar las sesiones de R: es como ejecutar el código nada más abrir R. En mi caso, el código que quiero ejecutar son una serie de utilidades que tengo guardadas en C:\carpeta; con source("C:/carpeta/Utils.R", encoding = "UTF-8"), R cargaría todo el código R alojado en ese script de R, y necesito que se ejecute el script al inicial la sesión de R; no quiero poner esa línea al principio de cada programa. Lo primero que tenemos que hacer es buscar dónde tenemos instalado R; una vez hayamos accedido a la correspondiente carpeta, vamos a la subcarpeta /etc y tenemos un archivo llamado Rprofile.site; lo abrimos con un editor de texto: ...

30 de julio de 2019 · rvaquerizo

Gráfico de correlaciones entre factores. Gráfico de la V de Cramer

Un gráfico muy habitual a la hora de construir modelos de riesgo para el cálculo de tarifas es el gráfico de correlaciones de la V de Cramer, que nos sirve para medir la correlación entre factores, entre variables cualitativas (hace muchos años ya escribí sobre el tema). Hoy os traigo la creación de un corrplot con R aplicado a la V de Cramer y, además, os descubro una función muy elegante para realizar este análisis de correlaciones entre factores; esta función está sacada de StackOverflow (cómo no) y añado un análisis gráfico que nos permite conocer algunas opciones de corrplot. ...

16 de julio de 2019 · rvaquerizo

Inteligencia Arficial frente a un juego de niños. La partícula tonta de Nicolás

Pablo Picasso decía que en aprender a pintar como los pintores del Renacimiento tardó unos años, pero pintar como los niños le llevó toda la vida; y en ocasiones creo que hacemos las cosas difíciles porque nos creemos que hacemos cosas difíciles, y entonces llega un niño de nueve años y dice: “Papá, un punto que primero vaya a la izquierda y luego a la derecha no es tan difícil”. ...

16 de julio de 2019 · rvaquerizo

Medias ponderadas en Excel. Crear tu propia función

Hace años conocí a una persona que no sabía hacer medias ponderadas con Excel; hoy esa persona es una referencia dentro de este ecosistema de Inteligencia Artificial, Big Data, Machine Learning, Unsupervised Learning… total, una referencia en la venta de humo porque me imagino que seguirá sin saber hacer una media ponderada en Excel con el SUMAPRODUCTO y por eso realizo esta entrada en homenaje a esas grandes locomotoras que echan humo y más humo pero que ahí siguen. Además también es útil para varias cosas más como: ...

12 de julio de 2019 · rvaquerizo

Calendario de días laborales con Pandas

Es habitual escuchar que un científico de datos es un estadístico que trabaja con Python. En parte, tiene razón. Sin embargo, quien ha trabajado dentro del mundo académico sabe que para un estadístico las vacas son esféricas y los meses tienen 365,25/12 días. En cambio, en el mundo real, ni hay dos vacas iguales ni un mes igual a otro. Sirva esta entrada para poner en valor todo aquel trabajo adicional y tiempo dedicado por aquellos que trabajan con datos y huyen de simplificaciones estadísticas, ya se denominen científicos de datos o cómo quieran llamarse. ...

1 de julio de 2019 · Paco Gárate

Lectura de archivos csv con Python y Pandas

A continuación os planteo un acercamiento básico a la lectura de archivos CSV con Python y algunos trucos para facilitar la vida cuando realizamos importaciones basados en la experiencia, como son leer los primeros registros del CSV o realizar una lectura de observaciones aleatoria por si el archivo es muy voluminoso. Para realizar las importaciones vamos a emplear Pandas y la función read_csv con sus infinitas opciones: pd.read_csv(filepath_or_buffer, sep=',', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression='infer', thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=None, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, doublequote=True, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None) Para trabajar la entrada vamos a necesitar dos archivos de texto: ...

30 de abril de 2019 · rvaquerizo

Data Management básico con Pandas

Entrada dedicada al manejo de datos más básico con Python y Pandas; es análoga a otra ya realizada con dplyr para R. Sirve para tener de un vistazo las tareas más habituales que realizamos en el día a día con Pandas. Para aquel que se esté introduciendo al uso de Python, puede ser de utilidad tener todo junto y más claro; a mí personalmente me sirve para no olvidar cosas que ya no uso. En una sola entrada recogemos las dudas más básicas cuando nos estamos iniciando con Python. Las tareas más comunes son: ...

26 de abril de 2019 · rvaquerizo