Analisis cluster con SAS. La importancia de las semillas en las k-medias

El PROC FASTCLUS en SAS nos permite realizar análisis de agrupamiento dirigido mediante el algoritmo de las k-medias. Este algoritmo tiene algunos problemas pero nos puede servir para agrupar de forma multivariante observaciones. Es rápido, sencillo de explicar y con algunas lagunas no funciona mal. Como aproximación a nuestras segmentaciones puede ser muy práctico. Hoy se va a utilizar para identificar a los clientes más complicados de segmentar, a aquellas observaciones que quedan en las zonas grises. (http://www.datanalytics.com/blog/2011/08/03/clustering-iii-sobresimplificacion/) Estas zonas grises en muchos casos son más importantes que la segmentación en sí. Si estamos con un problema de taxonomía (clasificar especies) puede ser menos importante, pero si clasificamos inversiones, clientes,… ¿qué pasa con aquellos que no sabemos ubicar? Escribimos segmentar en un buscador y tenemos esta imagen: ...

15 de abril de 2013 · rvaquerizo

Trucos SAS. Medir la importancia de las variables en nuestro modelo de regresión logística

Hoy quería proponeros una forma poco ortodoxa de medir la importancia de las variables en un modelo de regresión logística con SAS. La cuestión es: dado un modelo de regresión logística crear un ranking con las variables más importantes dentro del modelo. Para esta tarea recomiendo el uso de random forest, pero puede ser imposible disponer de un software que realice este tipo de modelos. Imaginemos un caso concreto, disponemos de SAS STAT y nos da reparo trabajar con R. Para este caso podemos emplear el siguiente truco. El AIC (criterio de información de Akaike) es un estadístico que relaciona el cociente de la verosimilitud con el número de parámetros del modelo que ajustamos. Cuanto menor sea este cociente mejor será nuestro modelo. Si eliminamos una variable del modelo ¿cuánto empeora este modelo? Esa será la filosofía que emplearemos para analizar la importancia de las variables presentes en nuestro modelo. En la línea habitual hacemos un ejemplo para que podáis copiar y pegar en vuestro SAS: ...

27 de febrero de 2013 · rvaquerizo

Trucos Excel. Gráficos dot plot, representando un ranking gráficamente

Los gráficos de puntos son muy prácticos para representar de una forma visual rankings (por ejemplo). En Excel su realización no es inmediata como con otras herramientas (R por ejemplo). Para ilustrar el ejemplo se van a presentar los 20 primeros puestos de la lista TIOBE de mayo de 2012 (la entrada estaba en la nevera). Entramos en la lista y sin más copiamos y pegamos los datos de tabla HTML a tabla Excel: ...

6 de agosto de 2012 · rvaquerizo

Sentencia Test-Achats

A pesar del título no voy a hablar del principio de igualdad de trato entre hombres y mujeres en el acceso a bienes y servicios y su suministro que regula los factores actuariales para tarificar en función del sexo. Sólo me he ido a Rastreator.com y he tarificado a una mujer de 32 años con un vehículo de los más vendidos. La fecha de hoy es 06/07/2012. En diciembre de 2012 volveré a recuperar esta entrada y hablaré del derecho. Saludos.

6 de julio de 2012 · rvaquerizo

Lecciones de economía de un ignorante. Los bancos pierden dinero para favorecer a unos y luego los salvamos todos

Si pintamos con Excel una línea con el Euribor a 6 meses y otra línea con el interés medio a un año de los depósitos bancarios. Tenemos: La fuente de datos es: http://sdw.ecb.europa.eu/quickview.do?SERIES_KEY=143.FM.M.U2.EUR.RT.MM.EURIBOR6MD_.HSTA http://sdw.ecb.europa.eu/quickview.do?SERIES_KEY=124.MIR.M.ES.B.L22.F.R.A.2250.EUR.N Los datos del interés medio los suministra el Banco de España. Sé que no son datos 100% comparables pero sirve para este argumento. Hasta 2009 los intereses que daban los bancos estaban por debajo del precio del dinero. DESPUÉS LOS BANCOS ESTÁN DANDO DINERO A PÉRDIDAS. Por problemas de liquidez, por problemas de aprovisionamiento, batallas de pasivo, por lo que sea,… PERO ESTÁN PERDIENDO DINERO Y LO SABEN, los márgenes son negativos. En principio los beneficiados son los clientes porque están dando intereses por encima del precio del dinero. Pero la insensatez al final la pagamos todos, tanto el que se beneficia por los altos intereses (tiene dinero) como el que no se beneficia (no tiene un duro) y por si fuera poco suben comisiones, se endurecen las condiciones de crédito y demás. Luego acudimos a las subastas de liquidez y a los fondos de reestructuración de idioteces varias, mentimos en nuestras cuentas de resultados y ¡ya está! ...

7 de junio de 2012 · rvaquerizo

Sentencia del Tribunal de Justicia de la UE sobre el caso WPS y SAS

El caso de WPS y SAS por fin tiene un final. World Programing Software ha vencido (por fin) al todo poderoso SAS Institute Inc. La sentencia establece que: De este modo, procede señalar que no puede haber infracción del derecho de autor sobre el programa de ordenador cuando, como sucede en el caso de autos, el adquirente legítimo de la licencia no ha tenido acceso al código fuente del programa de ordenador correspondiente a esa licencia, sino que se limitó a estudiar, observar y verificar ese programa con el fin de reproducir su funcionalidad en un segundo programa. ...

2 de mayo de 2012 · rvaquerizo

Data mining, Business intelligence (y/o la nube)

Hace tiempo que quería publicar una entrada en respuesta a estos comentarios escritos en el blog. Se trata de analizar las búsquedas en Google a través de Google Trends de los términos: Business Intelligence, Data Mining, Cloud Computing y NOSQL. El resultado es más que interesante: En rojo tenemos Data Mining, en azul tenemos Business Intelligence, en naranja Cloud Computing y en verde NOSQL. A la vista de este gráfico cabe preguntarse ¿es R en la nube el futuro de la profesión?

3 de abril de 2012 · rvaquerizo

En la regresión logística ¿el sobremuestreo es lo mismo que asignar pesos a las observaciones?

Hoy vamos a volver sobre el tema del sobremuestreo. Respondemos a un lector, Roberto, que hace mucho tiempo planteó una duda al respecto. La duda se puede resumir: En un modelo logístico, ¿equivale entrenar un modelo con las observaciones sobremuestreadas a entrenar el modelo poniendo un peso a cada observación? Esta cuestión nunca me la había planteado. Siempre había realizado un sobremuestreo de las observaciones adecuando la población de casos negativos a la población de casos positivos. Si estás habituado a trabajar con Enterprise Miner de SAS es habitual asignar pesos a las observaciones para realizar el proceso de sobremuestreo. ¿Obtendremos distintos resultados? ...

26 de marzo de 2012 · rvaquerizo

Begraphic un add in para Excel muy interesante

Me he descargado de Begraphicun add in gratuito en su versión lite para Excel que nos permite realizar algunos gráficos interesantes como velocímetros o mapas. También tiene la posibilidad de realizar dashboard en hojas Excel. Todas estas tareas las realizamos mediante menús de forma bastante sencilla. En realidad es un add in que nos permite vincular las características de formas de Excel a celdas, ¿a qué os suena esto? Efectivamente, a los mapas de Excel que publico periódicamente en este sitio. Pero en este caso la gente de Begraphic pone a vuestra disposición en este enlace unos cuantos mapas más. ...

26 de diciembre de 2011 · rvaquerizo

Informes con R en HTML. Comienzo con R2HTML (I)

En las III jornadas de R tuve el placer de asistir al taller de Gregorio Serrano sobre informes con R. Me abri2 los ojos. Siempre he pensado que R no es una herramienta que sirva para hacer informes [modo consultor = ON] R no serv2a para realizar reporting [modo consultor = OFF]. Pero R tiene un poderoso motor grfico y dispone del paquete R2HTML para poder realizar tablas en HTML y si trabajamos con libros CSS de estilos podemos obtener resultados muy atractivos. As2 que la otra tarde me puse manos a la obra y creo que puede salir una trilog2a interesante. Bueno, depende del inters que despierte esta entrada del blog har2 m2s entregas, pero de momento tengo en mente llegar a 3. ...

28 de noviembre de 2011 · rvaquerizo