Curso de lenguaje SAS con WPS. Introducción a los formatos de variables

Volvemos con el curso de lenguaje SAS con WPS. Estaba parado debido a un problema con las licencias de WPS desde junio de 2010, pero lo retomamos con uno de los capítulos más interesantes: formatos de variables en SAS. Si tuviéramos que definirlos, son imprescindibles tanto para leer como para escribir variables. Y ésa es la característica que los divide: existen formatos de entrada (INFORMAT) y formatos de salida (FORMAT). Se dividen por categorías, entre las que destacan los formatos numéricos, formatos carácter y formatos de fecha. La sintaxis es sencilla: [IN]FORMAT <variable> <formato>;. ...

14 de enero de 2011 · rvaquerizo

Trucos Excel. Área bajo la curva ROC

¿Curva ROC y Excel? ¡Si no tiene nada que ver! No del todo. En ocasiones tenemos que pintar las curvas ROC y empleamos las herramientas específicas para ello; sin embargo, es habitual que nuestros resultados sean presentados en Excel (demasiado habitual). En ese caso, creamos nuestros datos para llevarlos a Excel y realizamos nuestro gráfico. Ya tenemos nuestra tabla y hacemos algo muy parecido a lo que tenemos más arriba. ...

13 de enero de 2011 · rvaquerizo

Medir la importancia de las variables con Random Forest

¿Qué variables son las más importantes para nuestro modelo de clasificación? Yo creo que muchos de vosotros os habréis encontrado con esta problemática. Hay muchas formas de solventarla, habitualmente empleamos aquellas variables que mejor pueden entender nuestras áreas de negocio. Es decir, hacemos segmentaciones en base al sexo y la edad sólo por no tener que explicar cómo hemos construido una variable artificial a alguien que no entiende lo que es una variable y mucho menos variable artificial. Pero hoy os quería plantear la utilización de métodos de random forest con R para medir la importancia de las variables cuantitativas, para variables cualitativas recomiendo otras formas que plantearé más adelante. El random forest es un método de clasificación basado en la realización de múltiples árboles de decisión sobre muestras de un conjunto de datos. Hacemos muchas clasificaciones con menos variables y menos observaciones y al final nos quedamos con un promedio de estas clasificaciones, esa sería la idea a grandes rasgos. La característica que hace de este método muy interesante es la posibilidad de incluir un gran número de variables input en nuestro modelo ya que no encontraremos relaciones lineales entre ellas y tampoco aparecerán relaciones debidas al azar. ...

8 de enero de 2011 · rvaquerizo

Truco R. Eval, parse y paste para automatizar código

La función paste nos permite concatenar cadenas de texto con R: paste("Dato", 1:10, sep = "") parse recoge una expresión pero no la evalúa: parse(text = "sqrt(121)") Y, por último, eval evalúa una expresión: eval(parse(text = "sqrt(121)")) Interesantes funciones que nos pueden permitir automatizar códigos recursivos o códigos guardados como objetos en R. Imaginemos el siguiente ejemplo: # Creamos un data frame con 20 variables aleatorias Poisson ejemplo1 <- data.frame(replicate(20, rpois(20, 10))) # Automatizamos los nombres de las columnas nom <- paste("dato", 1:20, sep = "") names(ejemplo1) <- nom summary(ejemplo1) Hemos automatizado los 20 nombres de un data frame con datos aleatorios con una distribución de Poisson de media 10 creado con la función replicate. Ahora imaginemos que deseamos transformar en factor sólo aquellos elementos del data frame con un sufijo par (dato2, dato4…). Podemos crear una función o podemos generar las ejecuciones de código R del siguiente modo: ...

7 de enero de 2011 · rvaquerizo

El año 2010 para analisisydecision

analisisydecision.es se despidió con los objetivos casi cumplidos. Me planteé finalizar con 50.000 visitas. En octubre tenía claro que no llegaba; sin embargo, el mes de noviembre supuso un revulsivo. Más de 7.000 visitas hacían que al final se quedara en 49.400 visitas. Por otro lado, la web se sigue en las compañías más importantes de España. Hay lectores habituales en 16 empresas del IBEX 35, por lo que se está posicionando como un referente en SAS dentro de estas empresas. En cuanto a América del Sur, destaca el peso que están tomando las visitas de Colombia; México no tuvo el despegue deseado. El tiempo de permanencia en la página es de 2 minutos, muy por encima del minuto y 30 segundos que me había fijado como objetivo para este año. ...

6 de enero de 2011 · rvaquerizo

El modelo multivariante en el sector asegurador. Los modelos por coberturas (V)

Debido a la pobre aceptación, había dado de lado esta serie de monográficos sobre la tarifa multivariante en el sector asegurador. Pero tengo una lectora que sí los seguía y, como yo me debo a mis lectores, continúo con la serie. Recapitulemos: como variables dependientes tenemos la frecuencia siniestral y el coste medio de los siniestros; las variables independientes serán aquellas que compongan la estructura de nuestra tarifa. Como prototipo para determinar qué variables forman parte de nuestro modelo, empleamos el multitarificador de ARPEM. Con este planteamiento, partimos de dos modelos: el modelo de frecuencias y el modelo de costes medios. Sin embargo, a la hora de ajustar, es muy importante plantear un modelo para cada una de las garantías. Parece lógico que el modelo multivariante para el contenido en una tarifa de hogar no ha de ser el mismo que el modelo para el continente. O centrándonos en el modelo de autos (sobre el que está girando nuestra serie), es necesario modelizar los siniestros de responsabilidad civil por un lado, los siniestros de daños propios por otro, defensa, robo… ...

27 de diciembre de 2010 · rvaquerizo

Montemos un sistema de información en nuestro equipo (III)

Vamos a conectar R a nuestra BBDD PostgreSQL. Lo vamos a hacer vía ODBC con el paquete de R RODBC. [Inciso] Recordad que todo el trabajo lo estamos realizando bajo Windows. Además, trabajar con ODBC nos permitirá conectar nuestro PostgreSQL con Access o Excel. Aunque para este tipo de tarea recomiendo el uso del Data Integration de Pentaho. El primer paso será descargarnos de esta dirección los controladores ODBC para PostgreSQL que se adecúen con nuestro sistema operativo y nuestra versión de la base de datos. Tras instalarlos, ya podemos ir a las Herramientas Administrativas > Orígenes de Datos ODBC e introducimos un nuevo DSN de sistema y de usuario: ...

18 de diciembre de 2010 · rvaquerizo

Nace Verti. La directa de Mapfre

Nos hacemos eco de una importante noticia en el sector asegurador: Mapfre ha creado Verti, una compañía de venta de seguros a través de los canales directos. Lo primero que llama la atención al leer algunas noticias es la referencia al canal de internet como principal canal de contratación. Evidentemente, ésto es un guiño a la red comercial de Mapfre para que no se vea amenazada, pero la realidad es que es un canal que, desde mi punto de vista, no goza de la suficiente madurez y es probable que apuesten por el canal telefónico como sucedió con Clickseguros: en un principio «tu mundo era online» y después fueron dando más peso a su contact center. ...

15 de diciembre de 2010 · rvaquerizo

Agregador de noticias de SAS

Tall Galili administrador de R-bloggers ha creado un agregador de noticias de SAS. Ya estás tardando en suscribirte. Por cierto, un título increíble: An online (unofficial) SAS® journal – written by bloggers tratándose de SAS la palabra unofficial tenía que aparecer. Por cierto, R-bloggers también agrega blogs en español y otras lenguas.

9 de diciembre de 2010 · rvaquerizo

Recodificar el valor de un factor en R

Tras leer una duda planteada en la lista de R-Help en español, me he animado a crear una entrada acerca de la recodificación de factores en R. Así dejo recogido algún código/truco que puede serviros en vuestro trabajo con R y que este pequeño problema no afecte a vuestra productividad. Además, os acerco a la función recode del paquete car. Pero en primer lugar os planteo cómo recodificar factores empleando if / else: ...

7 de diciembre de 2010 · rvaquerizo