Gracias a okbstudio ya tenemos nuestro propio seguimiento del COVID19 en España

El equipo de okbstudio gracias a los datos de datadista (y a un servidor) ha creado este espectacular seguimiento de los datos del COVID19 en España: https://covid19.inapp.io/ Uno de los mejores seguimientos que hay para los datos en España que va a ir mejorando con la inclusión de nuevas dimensiones y que incluye el siguiente gráfico: #Quedateencasa

26 de marzo de 2020 · rvaquerizo

Transformar todos los factores a carácter de mi data frame de R

En muchas ocasiones no quiero factores en mi dataframe cuando trabajo con R. Y estoy en mi derecho de poner una entrada sobre una de las tareas que más realizo y que siempre se me olvida el como la realizo, tardo menos en buscarlo en www.analisisydecision.es que entre mis programas: df<- data.frame(lapply(df, as.character), stringsAsFactors=FALSE) Todos los elementos factor ahora son character.

21 de marzo de 2020 · rvaquerizo

Mapa del COVID-19 por Comunidades Autónomas con R (más #rstats)

Estoy muy activo en twitter con el #covid-19 estos días y eso está dando lugar a algunas entradas en el blog. Sin embargo, he parado esa actividad porque el número de casos no me parece el indicador adecuado para medir la verdadera incidencia de la pandemia. Empiezo a tener posibles casos entre personas conocidas y no se realiza ningún test, permanecen en casa y son casos no informados. Sin embargo, quería que esta entrada sirviera de homenaje a la gente de Datadista que está recogiendo datos y realizan un seguimiento del número de camas ocupadas, uno de los mejores indicadores. Además sigo mi labor formativa con rstats, hoy toca: ...

18 de marzo de 2020 · rvaquerizo

Evolución del número de casos de coronavirus

Seguimos a vueltas con la (ya) pandemia y R y hoy quería traeros unos buenos ejemplos de uso de la dplyr para preparar datos. Se trata de ver una evolución del número de casos diarios para saber en qué punto tanto España como Italia pueden frenar el crecimiento de los casos de coronavirus, se trata de crear este gráfico: Se observa como países como China o Korea vivieron un fuerte crecimiento que ahora se ha transformado en una caída del número de casos de coronavirus, pero parece que Iran ha estabilizado en 1000 casos diarios pero Italia y Espania siguen en fase de crecimiento por lo que no se espera que el comportamiento sea similar a China o Korea y es probable que el número de casos siga aumentando. ...

12 de marzo de 2020 · rvaquerizo

Seguimiento del coronavirus en España por Comunidad Autónoma. Extraer información de un PDF con R

Una entrada anterior del blog ha dado lugar a una conversación interesante en twitter: Evolución del número de casos de #coronavirusEspana una analogía con Italia https://t.co/GhWtlFL3Df — Raul Vaquerizo (@r_vaquerizo) March 11, 2020 Es necesario obtener los datos del Ministerio y estos datos se hayan en un pdf. Bien, tendremos que leer el pdf y crear un data frame para poder trabajar con estos datos. Para leer el pdf vamos a emplear el paquete de R tabulizer y la función extract_table pero necesitamos algo de talento. ...

11 de marzo de 2020 · rvaquerizo

Seguir los datos del coronavirus en España con Rstats

No he podido evitarlo, os traigo unas líneas de código en R para seguir la evolución del coronavirus en España (podéis filtrar cualquier país). Me hubiera gustado hacer un scraping de la página https://www.worldometers.info/coronavirus/ sin embargo me ha parecido más sencillo leer directamente los datos del repositorio de la Universidad Jonh Hopkins (https://github.com/CSSEGISandData/COVID-19) creo que la actualización es diaria. También existe ya un paquete en R denominado coronavirus pero su funcionamiento deja que desear. Por mi parte os ofrezco para seguir su evolución el siguiente script: ...

10 de marzo de 2020 · rvaquerizo

Gráficos de calendarios con series temporales

Cuando se realizan gráficos de series temporales se emplean gráficos de líneas donde el eje X contiene la fecha y el eje Y contiene el valor a representar. Hoy quiero traer al blog otra forma de representar series temporales, los gráficos de calendario y su realización con R. Para ilustrar el ejemplo vamos a emplear las cotizaciones históricas del índice bursátil IBEX35: require(quantmod) require(ggplot2) require(reshape2) require(dplyr) library(lubridate) # Obtenemos las cotizaciones del IBEX 35 desde 2010 getSymbols('^IBEX', from = '2010-01-01') # data frame de trabajo df<-data.frame(date=index(IBEX),IBEX) Mediante quantmod extraemos las cotizaciones del IBEX y creamos un data frame de trabajo que llamamos df. Vamos a realizar dos tipos de gráficos, un mapa de calor por años, meses, semanas y días y un calendario de un año puntual. ...

11 de enero de 2020 · rvaquerizo

Los parámetros del modelo GLM como relatividades, como recargos o descuentos

Los modelos GLM son muy empleados en el ámbito actuarial para la obtención de modelos de riesgo, estos modelos de riesgo son los elementos fundamentales en el cálculo de tarifas y qué es una tarifa, imaginad el precio del seguro de vuestra vivienda, bueno pues es un cálculo en el que partiendo de un precio base se van añadiendo recargos y descuentos en función del tipo de riesgo que se quiera asegurar (recargos y descuentos en función de los metros cuadrados, de la ubicación de la vivienda de las calidades de construcción…). Esta es una visión muy simplista porque al final se tienen múltiples garantías y es necesaria la combinación de garantías, pero se puede entender de ese modo, un precio base al que recargamos o descontamos precio. Estos recargos y descuentos se denominan frecuentemente relatividades y hoy quiero acercaros a la obtención de esas relatividades y como un modelo GLM se transforma en el precio de un seguro. ...

7 de noviembre de 2019 · rvaquerizo

Abierto el plazo para la matrícula en el Máster en Big Data y Data Science de la UNED

Si estáis buscando formación dentro del ecosistema de Big Data y Ciencia de Datos os recomiendo este máster de la UNED: https://www.masterbigdataonline.com/index.php/en-el-blog/185-master-en-big-data-y-data-science-de-la-uned-matricula-abierta No sólo lo recomiendo por contenido y por el modo de impartir ese contenido. Recomiendo que os matriculéis en el módulo de seguros. Saludos.

23 de octubre de 2019 · rvaquerizo

Gráfico de correlaciones entre factores. Gráfico de la V de Cramer

Un gráfico muy habitual a la hora de construir modelos de riesgo para el cálculo de tarifas es el gráfico de correlaciones de la V de Cramer que nos sirve para medir la correlación entre factores, entre variables cuantitativas hace muchos años ya escribí sobre el tema. Hoy os traigo la creación de un corrplot con R aplicado a la V de Cramer y además os descubro una función muy elegante para realizar este análisis de correlaciones entre factores, esta función está sacada de stackoverflow (como no) y añado un análisis gráfico que nos permite conocer algunas opciones de corrplot. ...

16 de julio de 2019 · rvaquerizo