Evaluando la capacidad predictiva de mi modelo `tweedie`

Cuando tenemos que evaluar el comportamiento de un modelo de clasificación binomial, empleamos sensibilidad, especificidad… ya he hablado sobre ese tema, aunque volveré sobre ello. Sin embargo, si nuestro modelo estima un valor, es posible que no tengamos tan claro cómo está funcionando su capacidad predictiva. Lo que traigo hoy es un análisis muy básico, pero que entienden muy bien aquellas personas que no tienen grandes conocimientos en ciencia de datos; además, es una continuación de la entrada en la que se ilustraba un ejemplo de uso de los modelos Tweedie. ...

17 de diciembre de 2020 · rvaquerizo

El análisis de supervivencia en R para segmentar el churn

El análisis de supervivencia es uno de los olvidados por el Machine Learning y la nueva forma de ver el oficio. A la regresión logística sí la damos algo de recorrido porque aparece en scikit-learn (con sus cositas); sin embargo, el análisis de supervivencia no tiene ese cartel porque, en el momento que trabajas con un gran número de variables, estos modelos “empiezan a echar chispas”. Sin embargo, ofrecen una serie de gráficos y resultados que, más allá de la estimación, nos describen problemas y pueden servirnos para segmentar poblaciones en base a la duración hasta la ocurrencia de un evento. ...

24 de diciembre de 2019 · rvaquerizo

Los parámetros del modelo GLM como relatividades, como recargos o descuentos

Los modelos GLM son muy empleados en el ámbito actuarial para la obtención de modelos de riesgo; estos modelos de riesgo son los elementos fundamentales en el cálculo de tarifas. Y ¿qué es una tarifa? Imaginad el precio del seguro de vuestra vivienda: bueno, pues es un cálculo en el que, partiendo de un precio base, se van añadiendo recargos y descuentos en función del tipo de riesgo que se quiera asegurar (recargos y descuentos en función de los metros cuadrados, de la ubicación de la vivienda, de las calidades de construcción…). Esta es una visión muy simplista porque, al final, se tienen múltiples garantías y es necesaria la combinación de ellas, pero se puede entender de ese modo: un precio base al que recargamos o descontamos precio. Estos recargos y descuentos se denominan frecuentemente relatividades, y hoy quiero acercaros a la obtención de esas relatividades y cómo un modelo GLM se transforma en el precio de un seguro. ...

7 de noviembre de 2019 · rvaquerizo

Recopilación Data Science Cheat Sheet

No sé cómo me ha llegado esta recopilación de Cheat Sheets para la Ciencia de Datos, pero viendo el trabajo que realizan algunas personas aún es posible creer en la humanidad. Disfrutad del enlace y ya estamos todos siguiendo el git de este gran tipo: https://github.com/abhat222/Data-Science–Cheat-Sheet

2 de abril de 2019 · rvaquerizo

De estadístico a minero de datos a científico de datos…

Hace unos meses estuve en un data beers que organizó Accenture, que más parecía una reunión de viejas glorias de Neo Metrics, y hablé sobre la transformación de un dinosaurio a un científico de datos; por cierto, me llamó la atención cómo el resto de compañeros hicieron sus presentaciones con software del siglo pasado, y eso que yo era el dinosaurio… Hoy ha salido una noticia sobre el uso de la información de Facebook para tarificar en seguros que define hacia dónde quiero ir y los problemas con los que he de lidiar. Así que hoy voy a escribir sobre mí y la transformación del dinosaurio al científico de datos. ...

3 de noviembre de 2016 · rvaquerizo

El parámetro gamma, el coste, la complejidad de un SVM

Cuando clasificamos datos con SVM (Support Vector Machines), es necesario fijar un margen de separación entre observaciones. Si no fijamos este margen adecuadamente, nuestro modelo podría estar sobrestimando (overfitting), lo que significa que funcionaría muy bien con los datos de entrenamiento pero fallaría con datos nuevos. El coste C y el parámetro gamma son los dos elementos fundamentales con los que contamos en los SVM. El parámetro C es el peso que le damos a cada observación a la hora de clasificar: un mayor coste implicaría un mayor peso de cada observación individual y el SVM sería más estricto. Si tuviéramos un modelo que clasificara observaciones en el plano formando una letra “O”, podemos ver cómo se modifica la estimación al variar el coste: ...

13 de octubre de 2016 · rvaquerizo

Como salva la linealidad una `red neuronal`

En los últimos tiempos estoy empeñado en usar redes neuronales para la tarificación en seguros. Históricamente, la tarificación de seguros, el pricing, se ha basado en modelos lineales generalizados (GLM por sus siglas en inglés) porque su estructura es sencilla, se interpreta bien y, no olvidemos, el sector asegurador está regulado y es necesario elaborar una nota detallada de cómo se articula una tarifa; el GLM nos ofrece una estructura multiplicativa que se comprende y con la que los reguladores se sienten muy cómodos. Sin embargo, una red neuronal es el paradigma de “caja negra”; ¿cómo podemos saber qué hace esa caja negra? Estoy trabajando en ello: la descripción del funcionamiento de las ponderaciones de una red está muy arriba en la lista de mis tareas pendientes. ...

27 de septiembre de 2016 · rvaquerizo

Qué pasa si uso una regresión de poisson en vez de una regresión logística

Para un tema de mi trabajo voy a utilizar una regresión de Poisson en vez de una regresión logística; el evento es sí o no y no tiene nada que ver el tiempo, ni se puede contabilizar como un número, pero a efectos prácticos es mejor para mí usar una regresión de Poisson. Entonces, ¿qué pasa si hago una regresión de Poisson en vez de binomial? Como siempre, si mi $n$ es muy grande hay relación entre ambas distribuciones. Pero yo quiero saber si me puede clasificar mis registros igual una regresión logística, una de Poisson y una binomial, y se me ha ocurrido hacer un ejercicio teórico muy simple. ...

19 de septiembre de 2016 · rvaquerizo

Juego de modelos de regresión con R

Os propongo un juego con R. El juego parte de unos datos aleatorios que he generado con R (los que veis arriba) que dividimos in entrenamiento y test. Sobre el conjunto de datos de entrenamiento he realizado varios modelos y valoro las predicciones gráficamente sobre los datos de test. El juego consiste in asociar cada resultado gráfico de test a cada código de R correspondiente y justificar brevemente la respuesta. ...

28 de junio de 2015 · rvaquerizo

Medir la importancia de las variables en una red neuronal con R

Sigo a vueltas con esta gran web y hoy vamos a medir la importancia de las variables en una red neuronal. Al igual que sucede en un modelo de regresión, los parámetros obtenidos pueden servirnos para determinar la importancia de una variable dentro del modelo. En el caso de una red neuronal, los pesos de la red pueden ser utilizados para determinar cómo influye una variable en el modelo. Para ilustrar este tipo de tareas, el gran @beckmw realizó esta entrada: ...

29 de septiembre de 2014 · rvaquerizo