Curso de lenguaje SAS con WPS. Funciones fecha

Las fechas con SAS no están muy bien resueltas, con WPS pasa lo mismo. Era necesario un capítulo especial para hablar sobre fechas en WPS. En este blog ya se habló del tema. Y ahora, con WPS, la entrada será análoga: SAS = WPS. . Las funciones las vamos a dividir en 4 grupos:

• Funciones de extracción de fecha
• Funciones de creación de fecha
• Funciones de duración
• Funciones de intervalo

Mutua Madrileña compra el 50% de Adeslas Seguros Generales

Interesante movimiento de Mutua para crecer de forma inorgánica y expandirse fuera de Madrid.Es beneficioso para todos, un gran movimiento para todos, para Criteria que pilla dinerito fresco y se quita de problemas con Solvencia II, para Mutua que será líder en seguro de Salud con la unión Adeslas Aresa y que debe meterse entre las 3 primeras entidades de no vida (tengo que darme una vuelta por ICEA).

Lo que más llama la atención es la capacidad de Mutua que asegura hacer la operación con fondos propios (con un par). Ahora sólo queda que Mutua se meta a fondo con el canal directo ¿Línea Directa por ejemplo?

Curso de lenguaje SAS con WPS. Funciones en WPS

A la hora de trabajar con variables en WPS uno de los elementos fundamentales son las funciones. En WPS son completamente análogas a SAS. Además este capítulo quiero que nos sirva para familiarizarnos un poco más con el interfaz de WPS y con los elementos de WPS. Vamos a crear un script , un programa SAS, dentro de nuestro proyecto. Nos ubicamos en el Proyect Explorer pulsamos el botón derecho y New — Other en la ventana que nos sale nos vamos a WPS y generamos un nuevo programa (script) al que damos el nombre de funciones:

Curso de lenguaje SAS con WPS. Introducción a los formatos de variables

Volvemos con el curso de lenguaje SAS con WPS. Estaba parado debido a un problema con las licencias de WPS desde junio de 2010 pero le retomamos con uno de los capítulos más interesantes: formatos de variables en SAS. Si tuvieramos que definirlos Son imprescindibles tanto para leer como para escribir variables. Y esa es la característica que los divide, existen formatos de entrada INFORMAT y formatos de salida FORMAT. Se dividen por categorías, entre las que destacan los formatos numéricos, formatos carácter y formatos de fecha. La sintaxis es sencilla (IN)FORMAT
-variable–formato-

Trucos Excel. Área bajo la curva ROC

curva-roc.png

¿Curva ROC y Excel? ¡Si no tiene nada que ver! No del todo. En ocasiones tenemos que pintar las curvas ROC y empleamos las herramientas específicas para ello, sin embargo es habitual que nuestros resultados sean presentados en Excel (demasiado habitual). En ese caso creamos nuestros datos para llevarlos a Excel y realizamos nuestro gráfico. Ya tenemos nuestra tabla y hacemos un algo muy parecido a lo que tenemos más arriba. La curva ROC es un mecanismo para evaluar nuestro modelo y compara la especificidad que es la probabilidad de clasificar mal un caso negativo frente a la sensibilidad que es la probabilidad de clasificar correctamente un caso positivo, es decir, falsos positivos frente a verdaderos positivos. El área bajo la curva ROC será un valor entre 0,5 y 1. Cuanto más próximo a 1 mejor será nuestro modelo. Queda pendiente una revisión «en condiciones» de las curvas ROC y de los gráficos lift , mucho mejores cuando tienes que presentar resultados en un área de negocio.

Medir la importancia de las variables con Random Forest

¿Qué variables son las más importantes para nuestro modelo de clasificación? Yo creo que muchos de vosotros os habréis encontrado con esta problemática. Hay muchas formas de solventarla, habitualmente empleamos aquellas variables que mejor pueden entender nuestras áreas de negocio. Es decir, hacemos segmentaciones en base al sexo y la edad sólo por no tener que explicar como hemos construido una variable artificial a alguien que no entiende lo que es una variable y mucho menos variable artificial. Pero hoy os quería plantear la utilización de métodos de random forest con R para medir la importancia de las variables cuantitativas, para variables cualitativas recomiendo otras formas que plantearé más adelante. El random forest es un método de clasificación basado en la realización de múltiples árboles de decisión sobre muestras de un conjunto de datos. Hacemos muchas clasificaciones con menos variables y menos observaciones y al final nos quedamos con un promedio de estas clasificaciones, esa sería la idea a grandes rasgos. La característica que hace de este método muy interesante es la posibilidad de incluir un gran número de variables input en nuestro modelo ya que no encontraremos relaciones lineales entre ellas y tampoco aparecerán relaciones debidas al azar.

Truco R. Eval, parse y paste para automatizar código

La función paste nos permite concatenar cadenas de texto con R:

paste("Dato",rep(1:10),sep="")

Parse recoge una expresión pero no la evalúa:

parse(text="sqrt(121)")

Y por último eval evalúa una expresión:

eval(parse(text="sqrt(121)"))

Interesantes funciones que nos pueden permitir automatizar códigos recursivos o códigos guardados como objetos en R. Imaginemos el siguiente ejemplo de R:

ejemplo1 <- data.frame(replicate (20,rpois(20,10)))

nom <- paste("dato",1:20,sep="")

names(ejemplo1) <- nom

summary(ejemplo1)

Hemos automatizado los 20 nombres de un data frame con datos aleatorios con una distribución de poissón de media 10 creado con la función replicate. Ahora imaginemos que deseamos transformar en factor sólo aquellos elementos del data frame con un sufijo par (datos2, datos4, …). Podemos crear una función o podemos crear ejecuciones de código R del siguiente modo:

El año 2010 para analisisydecision

El año 2010 para analisisydecision.es se despió con los objetivos casi cumplidos. Me planteé finalizar con 50.000 visitas. En octubre tenía claro que no llegaba, sin embargo el mes de noviembre supuso un revulsivo. Más de 7.000 visitas hacían que al final se quedara en 49.400 visitas. Por otro lado la web se sigue en las compañías más importantes de España. Hay lectores habituales en 16 empresas del IBEX35 por lo que se está posicionando como un referente en SAS dentro de estas empresas. En cuanto a América del Sur destaca el peso que están tomando las visitas de Colombia, México no tuvo el despegue deseado. El tiempo de permanencia en la página es de 2 minutos, muy por encima del minuto y 30 segundos que me había fijado como objetivo para este año.

El modelo multivariante en el sector asegurador. Los modelos por coberturas (V)

Debido a la pobre aceptación había dado de lado esta serie de monográficos sobre la tarifa multivariante en el sector asegurador. Pero tengo una lectora que si los seguía y como yo me debo a mis lectores continúo con la serie. Recapitulemos. Como variables dependientes tenemos la frecuencia siniestral y el coste medio de los siniestros, las variables independientes serán aquellas que compongan la estructura de nuestra tarifa, como prototipo para determinar que variables forman parte de nuestro modelo empleamos el multitarificador de ARPEM. Con este planteamiento partimos de dos modelos: el modelo de frecuencias y elmodelo de costes medios. Sin embargo a la hora de ajustar es muy importante plantear un modelo para cada una de las garantías. Parece lógico que el modelo multivariante para el contenido en una tarifa de hogar no ha de ser el mismo que el modelo para el continente. O centrándonos en el modelo de autos (sobre el que está girando nuestra serie) es necesario modelizar los siniestros de responsabilidad civil por un lado, los siniestros de daños propios por otro, defensa, robo,…

Montemos un sistema de información en nuestro equipo (III)

Vamos a conectarR a nuestra BBDD postgres. Lo vamos a hacer vía ODBC con el paquete de RRODBC [inciso] recordad que todo el trabajo lo estamos realizando bajo Win. Además trabajar con ODBC nos permitirá conectar nuestro postgres con Access o Excel. Aunque para este tipo de tarea recomiendo el uso del Data Integration de Pentaho. El primer paso será descargarnos de esta dirección los controladores ODBC para Postgres que se adecúen con nuestro S.O. y nuestra versión de postgres. Tras instalarlos ya podemos ir a las Herramientas Administrativas Orígenes de Datos ODBC e introducimos un nuevo DSN de sistema y de usuario:

Nace Verti. La directa de Mapfre

Nos hacemos eco de una importante noticia en el sector asegurador. Mapfre ha creado Verti una compañía de venta de seguros a través de los canales directos. Lo primero que llama la atención al leer algunas noticias es la referencia al canal de internet como principal canal de contratación. Evidentemente esto es un guiño a la red comercial de Mapfre para que no se vea amenazada, pero la realidad es que es un canal que, desde mi punto de vista, no goza de la suficiente madurez y es probable que apuesten por el canal telefónico como sucedió con Clickseguros, en un principio «tu mundo era online » y después fueron dando más peso a su contact center.