Análisis y Decisión

¿Puede la información de Twitter servir para calcular el precio de tu seguro?

Debemos de ir introduciendo el concepto de Social Pricing en el sector asegurador; si recordamos el año pasado, Admiral y Facebook tuvieron un tira y afloja por el uso de la información de Facebook para el ajuste de primas de riesgo. Facebook alegaba a la sección 3.15 de su privacidad para no permitir emplear esta información a Admiral. Probablemente es un tema más económico. El caso es que tanto Facebook como Instagram, Twitter, LinkedIn, xVideos… tienen información muy interesante acerca de nosotros, información que se puede emplear para el cálculo de primas en el sector asegurador (por ejemplo). ...

Archivos shape y geojason para crear un mapa de España por códigos postales

Como sabéis, Correos (empresa de capital 100% público) ha decidido no colaborar con CartoCiudad (leer los comentarios de este enlace) y poner precio a los mapas de España por códigos postales. El ahora escribiente no se descargó todas las provincias y no puede pasaros estos archivos shape; sin embargo, un comentario de Iñigo Flores en el mismo enlace de antes nos pone en la pista de un dataset con los códigos postales. Podemos encontrar tanto los archivos shape como los archivos geojson: ...

Truco Python. Reemplazar una cadena de caracteres en los nombres de las columnas de un data frame

Más largo el título de la entrada que la entrada en sí misma. Tenemos un conjunto de datos que os podéis descargar de este link que ya es conocido. Os descargáis los datos y creamos un data frame que tiene 10.000 registros y 251 columnas; casi todas se llaman attx y queremos cambiar el nombre a columna_x. Mi sugerencia para hacerlo vía pandas en Python es: import pandas as pd df = pd.read_csv('C:\\temp\\wordpress\\au2_10000.csv') df.head() # Reemplazamos 'att' por 'columna_' en los nombres de las columnas df.columns = df.columns.str.replace('att', 'columna_') df.head() Espero que sea de utilidad. Saludos.

Gráfico de barras y líneas con Python

Típico gráfico de dos ejes de barras y líneas donde las barras miden una exposición y las líneas una frecuencia; en el mundo actuarial son muy habituales y son muy útiles para ver proporciones dentro de grupos a la vez que representamos el tamaño del grupo. Los datos habituales del curso de GLM for insurance data: import pandas as pd import io import requests # Lectura de un dataset con número de siniestros de una cartera de automóviles url = 'http://www.businessandeconomics.mq.edu.au/our_departments/Applied_Finance_and_Actuarial_Studies/acst_docs/glms_for_insurance_data/data/claimslong.csv' s = requests.get(url).content df = pd.read_csv(io.StringIO(s.decode('utf-8'))) df.head() Ya tenemos un data.frame con nuestros datos leyendo directamente del CSV; ahora preparamos los datos para representarlos: ...

Machine learning. Elegir el mejor Gradient Boost de forma iterativa con GridSearchCV

Carlos [aka «el tete»] me está enseñando Python y una de las cosas que me ha enseñado es seleccionar de forma iterativa el mejor modelo con GridSearchCV y, por si fuera poco, vamos a emplear el método de clasificación «gradient boosting» para que no caiga in desuso, sobre todo porque es una técnica que, bajo mi punto de vista, ofrece modelos muy estables. El ejemplo para ilustrar el proceso ya es conocido, ya que vamos a estimar la letra O (mi talento no da para mucho más). Recordamos los primeros pasos: ...

Truco Python. Largo de una variable numérica

Hoy he tenido que determinar la longitud de una variable numérica de un data frame en Python y, tras pegarme unos minutos con len(), he encontrado la fórmula con str.len(). El ejemplo es: df['largo_numero'] = df['variable_numerica'].astype(str).str.len() Previamente transformamos a str mediante astype(str) y posteriormente aplicamos la función len. Me ha parecido interesante traerlo. Saludos.

Mosaic plot con Python

Entrada análoga a otra realizada con R hace mucho tiempo empleando R; ahora realizo esta tarea con Python. Estos gráficos van a ser necesarios para un fregado en el que ando metido ahora y, como podéis ver, es una tarea muy sencilla: import pandas as pd import matplotlib.pyplot as plt from statsmodels.graphics.mosaicplot import mosaic url = 'http://www.businessandeconomics.mq.edu.au/our_departments/Applied_Finance_and_Actuarial_Studies/acst_docs/glms_for_insurance_data/data/claimslong.csv' df = pd.read_csv(url) mosaic(df, ['agecat', 'valuecat']) plt.show() Y da como resultado: Saludos.

Parámetros en las consultas de Hive. Ejemplo con fechas

Soy cinturón blanco de Hive, pero aprovecho el blog para mostraros cómo he añadido unas variables a mi consulta de Hive; en realidad espero que algún alma caritativa me indique alguna forma más elegante. Necesito que mis consultas vayan parametrizadas por fechas que hacen mención a particiones de la tabla; estas particiones no son variables fecha, son strings con el formato YYYYMMDD, así que es necesario transformar las variables para realizar operaciones con ellas. En este caso tengo una fecha inicio y quiero irme tres meses hacia atrás: ...

Machine learning. Análisis gráfico del funcionamiento de algunos algoritmos de clasificacion

De forma gráfica os voy a presentar algunas técnicas de clasificación supervisada de las más empleadas in Machine Learning y podremos ver cómo se comportan de forma gráfica en el plano. Como siempre, prefiero ilustrarlo a entrar in temas teóricos y, para esta tarea, se me ha ocurrido pintar una letra O y comenzar a trabajar con Python, así de simple. Lo primero es tener los datos; evidentemente serán puntos aleatorios en el plano donde pintamos una variable dependiente con forma de O: ...

Martes 25 de abril nueva reunión del grupo de usuarios de R y Python

Interesante reunión del grupo de usuarios de R de Madrid a la que debo asistir: http://madrid.r-es.org/43-martes-25-de-abril-2017/ Por allí nos veremos si no pasa nada. Saludos.