Modelos

Los porteros del Espanyol y la regresión binomial negativa

En la temporada 22/23 de la Liga el RCD Espanyol descendió a segunda división y los aficionados culpamos en parte los problemas que hubo durante toda la temporada con los porteros y quería analizar si hubo diferencias entre los porteros que jugaron esa temporada en el Espanyol y Diego López que jugó como portero titular la temporada anterior, dejaremos de lado las intervenciones de Joan García y Olazábal. Comenzamos con un código conocido. ...

Introducción a la Estadística para Científicos de Datos. Capítulo 17. Modelización estadística. Seleccionar variables y modelo

El capítulo anterior comenzó con esta imagen: Se trataba de establecer un marco de trabajo, un guion para el científico de datos con los pasos a seguir en el proceso de modelización estadística. Se trabajó la primera parte de ese marco: el conocimiento de los datos, el inicio del proceso de modelización. Este capítulo será el siguiente paso, ilustrando cómo seleccionar variables a partir de los parámetros del modelo y proponer una selección del modelo final midiendo su capacidad predictiva. Es necesario comenzar justo donde finalizó el paso anterior. ...

Introducción a la Estadística para Científicos de Datos. Capítulo 15. Modelos GLM. Regresión logística y regresión de poisson

Motivación de los modelos GLM Hasta el momento se han planteado los siguientes modelos: Modelo de regresión lineal. Modelos factoriales en diseño de experimentos. Para ambos modelos, la variable respuesta ha de ser cuantitativa y distribuida normalmente, pero en el capítulo 10 se vio la siguiente figura: La respuesta normal o gaussiana aparece, pero existen otro tipo de situaciones a las que se enfrenta el científico de datos donde el evento a estudiar no se distribuye normally. Sin ir más lejos, en el ejercicio que está sirviendo de hilo conductor en el ensayo, una aseguradora española que opera en múltiples ramos quiere ofrecer seguro de automóviles a sus clientes del ramo de salud. Para ello se realizó un cuestionario a los clientes, de forma que se marcó quiénes de ellos estarían interesados en el producto de automóviles y quiénes no. La variable de interés es «sí» o «no», lo que plantea una clasificación binomial. ¿Qué sucede si se modelizan eventos sí/no mediante un modelo de regresión lineal? Siguiendo el propio ejemplo de trabajo al que se hace permanentemente referencia: ...

Introducción a la Estadística para Científicos de Datos. Capítulo 11. Análisis bivariable

De nuevo se retoma el ejemplo que está sirviendo de hilo conductor para este ensayo, la campaña de marketing de venta cruzada en el sector asegurador que está disponible en Kaggle. Una aseguradora española que opera en múltiples ramos quiere ofrecer seguro de automóviles a sus clientes del ramo de salud. Para ello se realizó un cuestionario a los clientes de forma que se marcó quienes de ellos estarían interesados en el producto de automóviles y quienes no. Se identificaron posibles tareas: ...

La importancia del valor predictivo positivo en las pruebas diagnósticas

El valor predictivo positivo es un dato olvidado cuando realizamos una prueba diagnóstica o (mejor dicho) cuando empleamos este método de medir la potencia de mi modelo. En ocasiones, un modelo parece excepcional pero cabe preguntarse si un buen modelo puede hacernos perder dinero. Además, conviene incidir en la necesidad de calibrar los modelos y medir su comportamiento predictivo y su «comportamiento económico». Este vídeo es continuación del que tenemos en la anterior entrada del blog. Espero despertar alguna conciencia e incidir sobre la importancia de medir económicamente el comportamiento de un modelo. La historia que se cuenta es real y supuso un buen proyecto para la compañía en la que trabajaba; no haciendo modelos, pero sí instalando un nuevo entorno de detección de fraude. Saludos.

Principales elementos en las pruebas diagnósticas

Primer vídeo que subo. Ilustro de modo sencillo algunos elementos de las pruebas diagnósticas con un ejemplo sencillo que podéis reproducir en cualquier hoja de cálculo. No soy precisamente un experto en este tipo de análisis, pero me han sido útiles en algunos momentos de mi vida profesional; además, esa visión “simplista” de las cosas puede ayudar a muchos a comprender conceptos más complejos. Si tiene éxito continuaré hablando sobre razones de probabilidad. Gracias.

Gráfico de correlaciones entre factores. Gráfico de la V de Cramer

Un gráfico muy habitual a la hora de construir modelos de riesgo para el cálculo de tarifas es el gráfico de correlaciones de la V de Cramer, que nos sirve para medir la correlación entre factores, entre variables cualitativas (hace muchos años ya escribí sobre el tema). Hoy os traigo la creación de un corrplot con R aplicado a la V de Cramer y, además, os descubro una función muy elegante para realizar este análisis de correlaciones entre factores; esta función está sacada de StackOverflow (cómo no) y añado un análisis gráfico que nos permite conocer algunas opciones de corrplot. ...

Inteligencia Arficial frente a un juego de niños. La partícula tonta de Nicolás

Pablo Picasso decía que en aprender a pintar como los pintores del Renacimiento tardó unos años, pero pintar como los niños le llevó toda la vida; y en ocasiones creo que hacemos las cosas difíciles porque nos creemos que hacemos cosas difíciles, y entonces llega un niño de nueve años y dice: “Papá, un punto que primero vaya a la izquierda y luego a la derecha no es tan difícil”. ...

Regresión PLS con R

El tema que estoy estudiando estos días es la regresión por mínimos cuadrados parciales, partial least squares (PLS). Para documentarme teóricamente y conocer las principales posibilidades de R estoy empleando este documento. Para argumentar el uso de esta técnica, de nuevo partimos del modelo lineal general $Y = X \cdot \beta + \text{Error}$, donde $\beta = (X’X)^{-1} \cdot X’Y$, y ya analizamos los trastornos que nos provoca la inversa de $X’X$ cuando hay columnas de $X$ que son linealmente dependientes (cuando hay multicolinealidad). En ese caso empleábamos la regresión ridge. Bueno, imaginemos esta situación: tenemos más variables que observaciones. Entonces sí que no somos capaces de tener una solución para $(X’X)^{-1}$. Para este problema contamos con los mínimos cuadrados parciales. ...

Regresión ridge o regresión contraída con R

Por lo visto no he estudiado lo suficiente. Tengo que redimirme y estudiar este verano determinadas técnicas avanzadas de predicción. Fundamentalmente tengo que trabajar con R y tener determinados conocimientos teóricos sobre estas técnicas. Así que he pensado que, a la vez que estudio yo, estudian todos mis lectores. Además es probable que genere debate. En esta primera entrega vamos a tratar la regresión contraída o regresión ridge. En el blog ya hablamos del problema que suponía la multicolinealidad; cuando tenemos este problema, una de las posibles soluciones es la regresión contraída o regresión ridge. Como ya dijimos, el modelo lineal se expresa como $Y = X \cdot \beta + \text{Error}$; la estimación de nuestros parámetros $\beta$ por mínimos cuadrados ordinarios es $\beta = \text{inv}(X’X) \cdot X’Y$. Cuando $(X’X)$ no es invertible tenemos un problema. La regresión ridge plantea una solución a este problema con unos parámetros $\beta extbackslash_{\text{contraidos}} = \text{inv}(X’X + \lambda I) \cdot X’Y$; si $\lambda$ es 0 estamos ante mínimos cuadrados ordinarios; en otro caso estamos ante un estimador sesgado de $\beta$. Este estimador sesgado es solución al problema de mínimos cuadrados penalizados y lo que hace es contraer los $\beta$ en torno a 0. En resumen: metemos sesgo pero reducimos varianza. ...