Modelos

Trucos SAS. Medir la importancia de las variables en nuestro modelo de regresión logística

Hoy quería proponeros una forma poco ortodoxa de medir la importancia de las variables in un modelo de regresión logística con SAS. La cuestión es: dado un modelo de regresión logística, crear un ranking con las variables más importantes dentro del modelo. Para esta tarea recomiendo el uso de Random Forest, pero puede ser imposible disponer de un software que realice este tipo de modelos. Imaginemos un caso concreto: disponemos de SAS STAT y nos da reparo trabajar con R. Para este caso podemos emplear el siguiente truco. El AIC (Criterio de Información de Akaike) es un estadístico que relaciona el cociente de la verosimilitud con el número de parámetros del modelo que ajustamos. Cuanto menor sea este cociente, mejor será nuestro modelo. Si eliminamos una variable del modelo, ¿cuánto empeora este modelo? Esa será la filosofía que emplearemos para analizar la importancia de las variables presentes en nuestro modelo. In la línea habitual, hacemos un ejemplo para que podáis copiar y pegar en vuestro SAS: ...

Parámetro asociado a una Poisson con SAS

Mirad que he visto datos en mi vida. Y esos datos siguen muchas distribuciones. Y una de las distribuciones más habituales con las que me he encontrado es la distribución de Poisson. Esta distribución tiene una característica muy interesante: la varianza es igual que la media. Y si la varianza no es igual a la media tenemos distribuciones de Poisson sobredispersa o Poisson infradispersa con propiedades muy interesantes y que se emplea mucho en el ámbito actuarial, aunque tendremos eventos con una distribución de Poisson cuando estamos hablando de eventos independientes en intervalos de tiempo. ...

La nueva web de jjgibaja

Estaba preparando una entrada con el recopilatorio de los vídeos de Gibaja, pero es mucho mejor lo que ha hecho su autor: http://jjgibaja.net/ Una web donde se recopilan todos los vídeos que ha realizado. Son muy didácticos e incluso entretenidos. Gran trabajo.

Test de Levene con SAS

El test de Levene se aplica para contrastar la igualdad de varianzas. Es un análisis de la varianza de las desviaciones de los valores muestrales respecto a una medida de tendencia central. Parte de la hipótesis nula de igualdad de varianzas. Para realizar este test en SAS emplearemos el PROC GLM en combinación con la opción HOVTEST. En la línea habitual, vemos un ejemplo: data datos; input presion @@; if _n_ <= 5 then grupo = 1; else if _n_ <= 10 then grupo = 2; else if _n_ <= 15 then grupo = 3; else if _n_ <= 20 then grupo = 4; else grupo = 5; datalines; 180 172 163 158 147 173 158 170 146 152 175 167 158 160 143 182 160 162 171 155 181 175 170 155 160 ; run; proc glm data=datos; class grupo; model presion = grupo; means grupo / hovtest; ods select HOVFTest; quit; Vemos que se trata de un código sencillo donde modelizamos con GLM la variable dependiente con la variable grupo y en MEANS indicamos con HOVTEST que deseamos que se realice el test de Levene; con ODS seleccionamos sólo esa salida. Este código podemos parametrizarlo y crear una macro que nos permita replicarlo: ...

La distribución tweedie

Reconozco que hace muy poco tiempo que trabajo con las distribuciones Tweedie. Un viejo dinosaurio que trabaja sobre todo con SAS se hace el sordo cuando le hablan de la distribución Tweedie. Quizá sea el trabajo con SAS el que me ha nublado. Pero ahora que empiezo a trabajar con otras herramientas… Para comprender mejor la base teórica para este tipo de distribuciones os enlazo a la Wikipedia. Pero despierta mi interés debido a que se puede considerar una gamma con punto de masa en el 0; ¡toma aberración matemática! Aspecto interesante. ...

Da comienzo la lectura de “The Elements of Statistical Learning”

Interesante iniciativa de Juanjo Gibaja y Carlos Gil Bellosta consistente en leer el libro “The Elements of Statistical Learning”. La idea es crear un grupo de trabajo que lea de forma coordinada el libro; pero, además, van a implementar en R los ejercicios y ejemplos. Desde esta bitácora no vamos a colaborar en la lectura, pero sí vamos a colaborar en la divulgación de resultados. Seguiremos muy de cerca este proyecto.

El sobremuestreo ¿mejora mi estimación?

El sobremuestreo (oversampling) es una técnica de muestreo que se emplea habitualmente cuando tenemos una baja proporción de casos positivos en clasificaciones binomiales. Los modelos pueden “despreciar” los casos positivos por ser muy pocos y nuestro modelo no funcionaría. Para incrementar el número de casos positivos se emplea el sobremuestreo. Ejemplos habituales pueden ser los modelos de fraude: un 99% de las compras son correctas y un 1% son fraudulentas. Si realizo un modelo sin tratar este desequilibrio, el algoritmo puede estar seguro al 99% de que todas las compras son correctas, ignorando el fraude. En este caso hemos de realizar un sobremuestreo para incrementar nuestros casos de fraude y poder detectar los patrones. ...

Árboles de decisión con SAS Base (con R por supuesto)

Con SAS Base podemos hacer árboles de decisión porque tenemos R. Así de sencillo. Vamos a utilizar SAS para gestionar nuestros datos y R será la herramienta que utilicemos para la realización del modelo de árbol de decisión. Posteriormente, emplearemos las reglas generadas por el modelo para etiquetar a nuestros clientes en SAS. Con esta entrada pretendo ilustrar una serie de ejemplos en los que comunico SAS con R. Una herramienta nos sirve para el tratamiento de datos y la otra la utilizaremos para realizar modelos que no están al alcance de SAS Base. Para realizar esta comunicación SAS-R, os planteo la creación en SAS de ficheros de texto con las instrucciones en R y la ejecución en modo batch de R con ese código creado en SAS. Aquí tenéis el ejemplo paso a paso: ...

Trucos R. Llevar a SAS las reglas de un `árbol de decisión`

Vuelvo hoy con el uso de rpart para la creación de árboles de decisión con R. Pero hoy, además de realizar un modelo de árbol con R, quiero presentaros una función que nos permite guardar las reglas generadas con nuestro modelo en un fichero de texto para su posterior utilización con SAS. Retomamos un ejemplo visto con anterioridad en esta bitácora con ligeras modificaciones: # Inventamos un objeto para realizar el modelo # En una cartera de clientes nuestro modelo tiene que identificar # cuáles contratan un PVI clientes = 20000 saldo_vista = runif(clientes, 0, 1) * 10000 saldo_ppi = (runif(clientes, 0.1, 0.2) * rpois(clientes, 1)) * 100000 saldo_fondos = (runif(clientes, 0.1, 0.9) * (rpois(clientes, 1) - 1 > 0)) * 100000 edad = rpois(clientes, 60) datos_ini <- data.frame(cbind(saldo_vista, saldo_ppi, saldo_fondos, edad)) datos_ini$saldo_ppi = (edad <= 68) * datos_ini$saldo_ppi # Creamos la variable objetivo a partir de un potencial datos_ini$potencial = runif(clientes, 0, 1) + (log(edad) / (log(68)) / 100) + runif(1, 0, 0.001) * (saldo_vista > 5000) + runif(1, 0, 0.001) * (saldo_fondos > 10000) + runif(1, 0, 0.007) * (saldo_ppi > 10000) - runif(1, 0, 0.2) datos_ini$pvi = as.factor((datos_ini$potencial >= quantile(datos_ini$potencial, 0.90)) * 1) # Empleamos rpart para la realización del modelo library(rpart) arbol = rpart(pvi ~ edad + saldo_ppi + saldo_fondos, data = datos_ini, method = "class", control = rpart.control(minsplit = 30, cp = 0.0008)) Tenemos un objeto rpart llamado arbol. En este punto, necesitamos disponer de las reglas generadas por el modelo para SAS, donde el módulo específico para poder realizar determinados modelos tiene un precio muy alto. Buscando en Google encontraremos este link. En él tenemos una genial función de R list.rules.rpart que nos permite identificar las reglas que ha generado el modelo. Modificamos ligeramente esta función para que nos sirva para nuestros propósitos: ...

Comienza la cuenta atrás. III Jornadas de usuarios de R

Por fin están en marcha las III Jornadas de Usuarios de R de España. En este enlace tenéis toda la información disponible. Para esta tercera edición hay que destacar: Serán en Madrid, en la Escuela de Organización Industrial. Habrá talleres; bajo mi punto de vista, uno de los mayores aciertos. Podéis participar: R tiene que salir del ámbito universitario e investigador y pasar al ámbito empresarial. Muchos podéis pensar que yo debería aplicarme el cuento… Necesitan patrocinio. No sólo por temas económicos, también por la repercusión que implica el patrocinio. Todos aquellos que trabajáis en grandes organizaciones podéis poner en contacto al comité organizador con vuestras empresas. También podréis realizar aportaciones voluntarias, ya que la asistencia es completamente gratuita. Creo que es el punto en el que este foro alcanza su madurez y es el momento de que el mundo empresarial fije sus ojos en R y en la comunidad de usuarios que tiene detrás. Y, sobre todo y más importante: podéis conocerme en persona; por muchos asistentes que haya, a mí se me ve, y no sólo por el Windows 7. Creo que los ingredientes para estas nuevas jornadas garantizan el éxito. ¡Nos vemos en noviembre! Saludos.