Formación

Obteniendo los parámetros de mi modelo `GAM`

Vimos cómo los modelos GAM iban más allá del GLM porque, en el momento de obtener los parámetros asociados al modelo de un factor, nos proponían en vez de una función lineal una función de suavizado no paramétrica para aquellos factores susceptibles de transformar en variables numéricas ordinales con un sentido determinado. Se trabajó con un modelo de riesgo con una sola variable como era la edad y, al sumarizar el modelo, no era posible obtener los parámetros en la salida. En último término nuestra intención con este tipo de modelos es obtener esos parámetros para transformarlos en relatividades. ¿Qué sentido tiene obtener un buen modelo para negocio si su resultado no se puede expresar en términos de incrementos o descuentos, en términos de relatividades? ...

Modelos GAM con R. Dejando satisfechos a los equipos de negocio

Los modelos GAM (Generalized Additive Model) son el conjunto de modelos que tenemos los estadísticos, actuarios, data scientists o como nos denominen en el momento que leas esto para dejar a nuestros equipos de negocio contentos con los resultados de nuestro modelo GLM. No voy a entrar en los aspectos teóricos de este tipo de modelos, hay documentación como esta que os puede ayudar. ¿Por qué se quedan contentos los equipos de negocio? Porque nos ayudan a dar sentido a los modelos. Retomemos un ejemplo que vimos en otra entrada del blog; en esta entrada presentamos cómo el resultado de un modelo GLM se transforma en una relatividad, en un mecanismo para ofrecer recargos y descuentos. ...

Los parámetros del modelo GLM como relatividades, como recargos o descuentos

Los modelos GLM son muy empleados en el ámbito actuarial para la obtención de modelos de riesgo; estos modelos de riesgo son los elementos fundamentales en el cálculo de tarifas. Y ¿qué es una tarifa? Imaginad el precio del seguro de vuestra vivienda: bueno, pues es un cálculo en el que, partiendo de un precio base, se van añadiendo recargos y descuentos en función del tipo de riesgo que se quiera asegurar (recargos y descuentos en función de los metros cuadrados, de la ubicación de la vivienda, de las calidades de construcción…). Esta es una visión muy simplista porque, al final, se tienen múltiples garantías y es necesaria la combinación de ellas, pero se puede entender de ese modo: un precio base al que recargamos o descontamos precio. Estos recargos y descuentos se denominan frecuentemente relatividades, y hoy quiero acercaros a la obtención de esas relatividades y cómo un modelo GLM se transforma en el precio de un seguro. ...

Abierto el plazo para la matrícula en el Máster en Big Data y Data Science de la UNED

Si estáis buscando formación dentro del ecosistema de Big Data y Ciencia de Datos, os recomiendo este máster de la UNED: https://www.masterbigdataonline.com/index.php/en-el-blog/185-master-en-big-data-y-data-science-de-la-uned-matricula-abierta No solo lo recomiendo por contenido y por el modo de impartir ese contenido. Recomiendo que os matriculéis en el módulo de seguros. Saludos.

Parámetros en nuestra consulta SQL Server desde R. Truco R

Me han preguntado hoy cómo parametrizar una consulta de SQL Server desde R y la verdad es que es algo que me parecía muy sencillo y no me había planteado compartirlo. En mi caso suelo emplear la librería RODBC para acceder a SQL Server porque realizo las consultas vía ODBC; por este motivo lo primero que debéis tener es configurado el origen de datos ODBC e instalada la librería RODBC en R. Para acceder vía R a los datos de SQL Server, lo primero es crear la conexión a la BBDD: ...

Los principales problemas de los españoles. Animaciones con R y gganimate

La realización de gráficos animados con R, gganimate y ggplot2 es algo que quiero empezar a trabajar en mis visualizaciones de datos; una buena forma de llamar la atención. Para ilustrar el ejemplo, he recogido los datos que publica mensualmente el CIS con las tres principales preocupaciones de los españoles, que podéis encontrar en este enlace. Por cierto, este enlace tiene toda la pinta de ser una salida en SAS; no me parece muy apropiado, pero no diré nada porque imagino que serán lectores del blog. ...

Mapa de códigos postales con R. Aunque el mapa es lo de menos

Entrada para facilitar la realización de mapas de códigos postales de España con R. Todo parte del trabajo de Íñigo Flores, al que ya mencionamos en otra entrada. Íñigo descargó de Cartociudad y recopiló los objetos shapefile para realizar estos gráficos y los subió a su repositorio; están desactualizados, pero pueden ser suficientes para la realización de mapas de códigos postales. Íñigo subió en formato .zip todos los archivos necesarios provincia a provincia, como lo tenía Cartociudad. Podemos clonarnos el repositorio o leer directamente de GitHub; en cualquier caso, necesitamos una función en R que nos permita leer archivos comprimidos en formato .zip y, cuando lea el .zip, seleccionar que expresamente lea el archivo .shp que contiene el spatial data. ...

Gráfico de correlaciones entre factores. Gráfico de la V de Cramer

Un gráfico muy habitual a la hora de construir modelos de riesgo para el cálculo de tarifas es el gráfico de correlaciones de la V de Cramer, que nos sirve para medir la correlación entre factores, entre variables cualitativas (hace muchos años ya escribí sobre el tema). Hoy os traigo la creación de un corrplot con R aplicado a la V de Cramer y, además, os descubro una función muy elegante para realizar este análisis de correlaciones entre factores; esta función está sacada de StackOverflow (cómo no) y añado un análisis gráfico que nos permite conocer algunas opciones de corrplot. ...

Medias ponderadas en Excel. Crear tu propia función

Hace años conocí a una persona que no sabía hacer medias ponderadas con Excel; hoy esa persona es una referencia dentro de este ecosistema de Inteligencia Artificial, Big Data, Machine Learning, Unsupervised Learning… total, una referencia en la venta de humo porque me imagino que seguirá sin saber hacer una media ponderada en Excel con el SUMAPRODUCTO y por eso realizo esta entrada en homenaje a esas grandes locomotoras que echan humo y más humo pero que ahí siguen. Además también es útil para varias cosas más como: ...

Lectura de archivos csv con Python y Pandas

A continuación os planteo un acercamiento básico a la lectura de archivos CSV con Python y algunos trucos para facilitar la vida cuando realizamos importaciones basados en la experiencia, como son leer los primeros registros del CSV o realizar una lectura de observaciones aleatoria por si el archivo es muy voluminoso. Para realizar las importaciones vamos a emplear Pandas y la función read_csv con sus infinitas opciones: pd.read_csv(filepath_or_buffer, sep=',', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression='infer', thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=None, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, doublequote=True, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None) Para trabajar la entrada vamos a necesitar dos archivos de texto: ...