Minería de datos con R: un pequeño paseo

Éste es mi primer monográfico. Como soy más perezoso que Raúl y peor estudiante que nadie, en lugar de hacerlo yo, lo copio. Y en lugar de desarrollarlo en su totalidad, dejo más de la mitad como deberes. Y es que he encontrado un pequeño programa en R que repasa una serie de técnicas clásicas de minería de datos a modo de paseo. Está en inglés y tal vez alguien (es la tarea que propongo a algún voluntarioso lector del blog) se anime a traducirlo. De hacerlo, me comprometo a darle alojamiento y publicidad respetando las debidas atribuciones. ...

3 de diciembre de 2009 · cgbellosta

Monográfico. `FIRST.` y `LAST.` ejemplos en DATA

Ya trabajamos en un monográfico anterior con datos agrupados en SAS. Cuando empleamos BY tenemos dos variables dentro del paso data con las que trabajaremos habitualmente FIRST. y LAST. A continuación vamos a plantear un ejemplo de uso para entender mejor su funcionamiento. Partimos de una simulación de una catera de una CIA aseguradora que tiene 1.000 pólizas y está a nivel de póliza, renovación y suplemento. Para la realización de diversos análisis necesitamos marcar las pólizas de nueva producción, marcar la anualidad, determinar la prima en el momento anterior a la renovación y la prima que tienen a día de hoy. ...

2 de diciembre de 2009 · rvaquerizo

Monográfico. Datos agrupados en SAS

A continuación os planteo un monográfico más orientado a principiantes con SAS. Vamos a realizar un acercamiento a los conjuntos de datos SAS agrupados por variables. La premisa fundamental es: un conjunto de datos SAS está agrupado por una variable si está ordenado por ella. Para ordenar variables empleamos el PROC SORT: PROC SORT DATA=<dataset>; BY (DESCENDING) <variable_ordenacion>; RUN; Repetimos un conjunto de datos SAS puede agruparse por una o varias variables si está ordenado por ellas. Algunas de las posibilidades que nos ofrecen este tipo de conjuntos de datos son: ...

6 de noviembre de 2009 · rvaquerizo

Laboratorio de código SAS. Comparativa entre IF y WHERE

Inicio hoy otra serie de mensajes para analizar el uso óptimo del código SAS. La intención es comparar distintas ejecuciones y obtener un pequeño reporte con la metodología y el tiempo empleado en su ejecución. Para evitar el efecto que pueda causar la concurrencia en un servidor con SAS se realizarán múltiples ejecuciones. He intentado que el código que utilizo para comparar las ejecuciones sea lo más sencillo posible. Soy consciente que se puede usar un código más «profesional» o un código más «sencillo» pero lo que planteo a continuación me parece la mejor solución. La idea es hacer una macro que haga N ejecuciones para evitar el efecto concurrencia. Cada método tendrá una ejecución, esta ejecución se controlará con una macrovariable con la hora del sistema. Esta mv se guardará en una tabla SAS junto con un nombre que le damos al método y la ejecución realizada. Al final lo más sencillo es ordenar por el tiempo de ejecución e imprimir el resultado. ...

3 de noviembre de 2009 · rvaquerizo

Simulación. Estimación de pi con el método Montecarlo

La simulación es un campo que está tomando una gran importancia. Nos está permitiendo evaluar comportamientos extremos sin ningún tipo de riesgos. Casi nadie se imaginaba que el escenario económico actual podía cambiar con la velocidad que lo está haciendo. Imaginemos una modificación brusca de los ratios de morosidad implicará que las entidades bancarias tengan que modificar sus fondos de previsión. Esta misma morosidad puede afectar a las aseguradoras de crédito que tienen que estimar sus provisiones técnicas. Ahora mismo es necesario simular las condiciones más extremas para los datos futuros y la simulación nos permite experimentar para aproximarnos al problema. ...

12 de octubre de 2009 · rvaquerizo

Monográfico. Árboles de clasificación con RPART

Con este rápido monográfico voy a acercarme a los árboles de regresión con R. Esta metodología de predicción realiza construcciones lógicas que establecen reglas que nos permiten clasificar observaciones en función de una variable respuesta y de las relaciones existentes entre las variables dependientes. En esta primera aproximación no voy a entrar en algoritmos ni en tipos de árboles (hay suficiente documentación en la red) intentaré despertar la curiosidad del lector sobre este tipo de análisis y sobre todo quiero acercar a R al mundo empresarial, un ámbito donde creo que R no destaca (al menos en España). ...

31 de agosto de 2009 · rvaquerizo

Me preocupa el pequeño ahorrador (II)

¿Dónde meto mi dinero? Esa es la pregunta que se hacen todos los ahorradores. Los productos financieros en los que invertir los podemos dividir en: Productos de renta fija Productos de renta variable Productos mixtos Fondos de inversión Derivados En los productos de renta fija el inversor conoce a priori la rentabilidad que le va a producir su dinero. Los más habituales son las IPF en los cuales el banco reporta una rentabilidad monetaria o en especie por mantener el dinero del inversor. También tenemos la Deuda Pública producto de gran liquidez y bajo riesgo. Las cédulas hipotecarias y las obligaciones y bonos aunque ofrecen buenas rentabilidades pueden quedar más lejos del pequeño ahorrador debido al plazo y en el caso de las cédulas da un poco de terror que el respaldo sean los activos bancarios. ...

22 de marzo de 2009 · rvaquerizo

Monográficos. CALL SYMPUT imprescindible

He detectado que muchas búsquedas que llegan a Análisis y Decisión vienen por la palabra clave CALL SYMPUT. Por este motivo me he decidido a escribir este rápido monográfico sobre esta instrucción. Con un par de ejemplos podemos familiarizarnos con su funcionamiento.CALL SYMPUT es una rutina de SAS que nos permite crear macro variables durante la ejecución de un paso data, digamos que es un mecanismo que comunica el compilador del macro lenguaje SAS con el propio lenguaje SAS. El ejemplo prototípico de su uso, determinar el número de observaciones de un dataset que cumplen determinada condición: ...

16 de febrero de 2009 · rvaquerizo

Transformar variables en SAS. Carácter a numérico

Muchas visitas a este sitio son búsquedas de Google que plantean la problemática que surge al transformar variables caracter a numéricas y viceversa con SAS. Las palabras habituales son transformar texto a número SAS, como paso de variable string a numerica en sas, pasar de caracter a fecha en SAS, sas transformar fecha numerica en texto, son todas búsquedas que han generado mucho tiempo de estancia en el sitio a pesar de que no existe un mensaje específico. En el siguiente monográfico vamos a tratar estas conversiones. De esta forma se crearán una serie de dos post que pueden ser un interesante material de consulta para profesionales y estudiantes que trabajen con SAS. ...

3 de diciembre de 2008 · rvaquerizo

Trabajo con `fechas SAS`. Funciones `fecha`

En las entregas anteriores del monográfico sobre fechas SAS hemos estudiado como almacena internamente las fechas el sistema y los formatos más prácticos que disponemos para visualizarlas. En esta última entrega veremos algunas de las funciones de fecha hora de las que dispone SAS. Las funciones las vamos a dividir en 4 grupos: Funciones de extracción de fecha Funciones de creación de fecha Funciones de duración Funciones de intervalo Las funciones de extracción de fecha nos permiter «extraer» información de variables de fecha/hora, veamos un ejemplo para extraer la fecha y la hora de una variable fecha/hora: ...

17 de noviembre de 2008 · rvaquerizo