Análisis y Decisión

Curso de lenguaje SAS con WPS. Funciones en WPS

A la hora de trabajar con variables en WPS, uno de los elementos fundamentales son las funciones. En WPS son completamente análogas a SAS. Además, este capítulo quiero que nos sirva para familiarizarnos un poco más con el interfaz de WPS y con sus elementos. Vamos a crear un script, un programa SAS, dentro de nuestro proyecto. Nos ubicamos en el Project Explorer, pulsamos el botón derecho y seleccionamos New — Other; en la ventana que nos sale, nos vamos a WPS y generamos un nuevo programa (script) al que damos el nombre de “funciones”: ...

Curso de lenguaje SAS con WPS. Introducción a los formatos de variables

Volvemos con el curso de lenguaje SAS con WPS. Estaba parado debido a un problema con las licencias de WPS desde junio de 2010, pero lo retomamos con uno de los capítulos más interesantes: formatos de variables en SAS. Si tuviéramos que definirlos, son imprescindibles tanto para leer como para escribir variables. Y ésa es la característica que los divide: existen formatos de entrada (INFORMAT) y formatos de salida (FORMAT). Se dividen por categorías, entre las que destacan los formatos numéricos, formatos carácter y formatos de fecha. La sintaxis es sencilla: [IN]FORMAT <variable> <formato>;. ...

Trucos Excel. Área bajo la curva ROC

¿Curva ROC y Excel? ¡Si no tiene nada que ver! No del todo. En ocasiones tenemos que pintar las curvas ROC y empleamos las herramientas específicas para ello; sin embargo, es habitual que nuestros resultados sean presentados en Excel (demasiado habitual). En ese caso, creamos nuestros datos para llevarlos a Excel y realizamos nuestro gráfico. Ya tenemos nuestra tabla y hacemos algo muy parecido a lo que tenemos más arriba. ...

Medir la importancia de las variables con Random Forest

¿Qué variables son las más importantes para nuestro modelo de clasificación? Yo creo que muchos de vosotros os habréis encontrado con esta problemática. Hay muchas formas de solventarla, habitualmente empleamos aquellas variables que mejor pueden entender nuestras áreas de negocio. Es decir, hacemos segmentaciones en base al sexo y la edad sólo por no tener que explicar cómo hemos construido una variable artificial a alguien que no entiende lo que es una variable y mucho menos variable artificial. Pero hoy os quería plantear la utilización de métodos de random forest con R para medir la importancia de las variables cuantitativas, para variables cualitativas recomiendo otras formas que plantearé más adelante. El random forest es un método de clasificación basado en la realización de múltiples árboles de decisión sobre muestras de un conjunto de datos. Hacemos muchas clasificaciones con menos variables y menos observaciones y al final nos quedamos con un promedio de estas clasificaciones, esa sería la idea a grandes rasgos. La característica que hace de este método muy interesante es la posibilidad de incluir un gran número de variables input en nuestro modelo ya que no encontraremos relaciones lineales entre ellas y tampoco aparecerán relaciones debidas al azar. ...

Truco R. Eval, parse y paste para automatizar código

La función paste nos permite concatenar cadenas de texto con R: paste("Dato", 1:10, sep = "") parse recoge una expresión pero no la evalúa: parse(text = "sqrt(121)") Y, por último, eval evalúa una expresión: eval(parse(text = "sqrt(121)")) Interesantes funciones que nos pueden permitir automatizar códigos recursivos o códigos guardados como objetos en R. Imaginemos el siguiente ejemplo: # Creamos un data frame con 20 variables aleatorias Poisson ejemplo1 <- data.frame(replicate(20, rpois(20, 10))) # Automatizamos los nombres de las columnas nom <- paste("dato", 1:20, sep = "") names(ejemplo1) <- nom summary(ejemplo1) Hemos automatizado los 20 nombres de un data frame con datos aleatorios con una distribución de Poisson de media 10 creado con la función replicate. Ahora imaginemos que deseamos transformar en factor sólo aquellos elementos del data frame con un sufijo par (dato2, dato4…). Podemos crear una función o podemos generar las ejecuciones de código R del siguiente modo: ...

El año 2010 para analisisydecision

analisisydecision.es se despidió con los objetivos casi cumplidos. Me planteé finalizar con 50.000 visitas. En octubre tenía claro que no llegaba; sin embargo, el mes de noviembre supuso un revulsivo. Más de 7.000 visitas hacían que al final se quedara en 49.400 visitas. Por otro lado, la web se sigue en las compañías más importantes de España. Hay lectores habituales en 16 empresas del IBEX 35, por lo que se está posicionando como un referente en SAS dentro de estas empresas. En cuanto a América del Sur, destaca el peso que están tomando las visitas de Colombia; México no tuvo el despegue deseado. El tiempo de permanencia en la página es de 2 minutos, muy por encima del minuto y 30 segundos que me había fijado como objetivo para este año. ...

El modelo multivariante en el sector asegurador. Los modelos por coberturas (V)

Debido a la pobre aceptación, había dado de lado esta serie de monográficos sobre la tarifa multivariante en el sector asegurador. Pero tengo una lectora que sí los seguía y, como yo me debo a mis lectores, continúo con la serie. Recapitulemos: como variables dependientes tenemos la frecuencia siniestral y el coste medio de los siniestros; las variables independientes serán aquellas que compongan la estructura de nuestra tarifa. Como prototipo para determinar qué variables forman parte de nuestro modelo, empleamos el multitarificador de ARPEM. Con este planteamiento, partimos de dos modelos: el modelo de frecuencias y el modelo de costes medios. Sin embargo, a la hora de ajustar, es muy importante plantear un modelo para cada una de las garantías. Parece lógico que el modelo multivariante para el contenido en una tarifa de hogar no ha de ser el mismo que el modelo para el continente. O centrándonos en el modelo de autos (sobre el que está girando nuestra serie), es necesario modelizar los siniestros de responsabilidad civil por un lado, los siniestros de daños propios por otro, defensa, robo… ...

Montemos un sistema de información en nuestro equipo (III)

Vamos a conectar R a nuestra BBDD PostgreSQL. Lo vamos a hacer vía ODBC con el paquete de R RODBC. [Inciso] Recordad que todo el trabajo lo estamos realizando bajo Windows. Además, trabajar con ODBC nos permitirá conectar nuestro PostgreSQL con Access o Excel. Aunque para este tipo de tarea recomiendo el uso del Data Integration de Pentaho. El primer paso será descargarnos de esta dirección los controladores ODBC para PostgreSQL que se adecúen con nuestro sistema operativo y nuestra versión de la base de datos. Tras instalarlos, ya podemos ir a las Herramientas Administrativas > Orígenes de Datos ODBC e introducimos un nuevo DSN de sistema y de usuario: ...

Nace Verti. La directa de Mapfre

Nos hacemos eco de una importante noticia en el sector asegurador: Mapfre ha creado Verti, una compañía de venta de seguros a través de los canales directos. Lo primero que llama la atención al leer algunas noticias es la referencia al canal de internet como principal canal de contratación. Evidentemente, ésto es un guiño a la red comercial de Mapfre para que no se vea amenazada, pero la realidad es que es un canal que, desde mi punto de vista, no goza de la suficiente madurez y es probable que apuesten por el canal telefónico como sucedió con Clickseguros: en un principio «tu mundo era online» y después fueron dando más peso a su contact center. ...

Agregador de noticias de SAS

Tall Galili administrador de R-bloggers ha creado un agregador de noticias de SAS. Ya estás tardando en suscribirte. Por cierto, un título increíble: An online (unofficial) SAS® journal – written by bloggers tratándose de SAS la palabra unofficial tenía que aparecer. Por cierto, R-bloggers también agrega blogs en español y otras lenguas.