Análisis y Decisión

La distribución tweedie

Reconozco que hace muy poco tiempo que trabajo con las distribuciones Tweedie. Un viejo dinosaurio que trabaja sobre todo con SAS se hace el sordo cuando le hablan de la distribución Tweedie. Quizá sea el trabajo con SAS el que me ha nublado. Pero ahora que empiezo a trabajar con otras herramientas… Para comprender mejor la base teórica para este tipo de distribuciones os enlazo a la Wikipedia. Pero despierta mi interés debido a que se puede considerar una gamma con punto de masa en el 0; ¡toma aberración matemática! Aspecto interesante. ...

Trucos SAS. Errores y formatos

Un truco SAS que puede ayudar a todos aquellos que estén empezando a programar en SAS. Hay ocasiones en que trabajamos con datasets que tienen formatos y nos encontramos con el error: «formato FMT no se ha encontrado o no se ha podido cargar». ¿Qué hacer? Lo primero es jugar con la opción FMTERR: options nofmterr; Esta opción de SAS nos permite trabajar con conjuntos de datos SAS con formatos aunque no estén cargados, porque no se tienen en cuenta los errores. Por otro lado, podemos emplear PROC DATASETS para eliminar todos los formatos (entrada y/o salida) de un conjunto de datos SAS; el código es el siguiente: ...

R cayendo en la lista TIOBE

No me ha gustado esta sorpresa en la lista TIOBE de abril de 2012: R cae por debajo del puesto 30 y se ve superado tanto por SAS como por MATLAB. ¿Será una tendencia? Hay que seguir esta evolución en los próximos meses.

Los recortes en educación, ¿implican peor calidad del sistema educativo?

Mucho se está hablando de los recortes in educación que va a llevar a cabo el Gobierno español. Es evidente que la educación in España no funciona muy bien. No lo digo yo, lo dice el informe PISA: http://www.oecd.org/dataoecd/54/12/46643496.pdf Pero España invierte un 4,6% del PIB in educación. Un % que a mí me parecía poco: http://epp.eurostat.ec.europa.eu/statistics_explained/index.php/Educational_expenditure_statistics ¿Es poco? ¿Dónde se sitúa España? Manos a la obra: Excel, BuscarV, gráfico de dispersión y JWalk Chart Tools. Con estos ingredientes tenemos: ...

Trucos SAS. Pasar fecha a carácter en SAS

Pasar números a carácter en SAS es un tema reiterativo tanto en entradas al blog como en búsquedas. Pero se le puede dar otra vuelta de tuerca. Se trata de transformar fechas a variables alfanuméricas, pero en este caso vamos a poner las fechas en formato español. Ejecutad este ejemplo en SAS: data uno; y = '30jan11'd; c0 = put(y, ddmmyy10.); c1 = upcase(put(y, ESPDFDD.)); c2 = upcase(put(y, ESPDFDE.)); c3 = upcase(put(y, ESPDFDN.)); c4 = upcase(put(y, ESPDFDT.)); c5 = upcase(put(y, ESPDFDWN.)); c6 = upcase(put(y, ESPDFMN.)); c7 = upcase(put(y, ESPDFMY.)); c8 = upcase(put(y, ESPDFWDX.)); c9 = upcase(put(y, ESPDFWKX.)); run; Imagino que todos tenéis el NLS de SAS instalado y no tenéis problemas con estos formatos. Resumamos qué nos ofrece cada una de estas transformaciones: ...

Trucos Excel. Mapa de México por Estados

Hoy os presento la versión inicial del mapa de México por Estados Federales para que lo podáis usar en Excel, PowerPoint, Word o alguna de las herramientas habituales de ofimática. Se trata de un archivo Excel con macros que os podéis descargar en este enlace. La hoja Mapa contiene una serie de shapes que están nombrados para poder cambiar de color en función de una variable tramo. Este Excel inicial está preparado para poder pintar hasta cinco tramos; si deseáis más tramos, tenéis que meteros en el código de Visual Basic que modifica el color de cada uno de los 32 shapes que componen el mapa; posteriormente lo repasamos de forma rápida. Por otro lado, tenemos la división de los estados, el nombre de los shapes y los tramos que previamente habremos preparado. Este ejemplo no pinta nada concreto. ...

Data mining, Business intelligence (y/o la nube)

Hace tiempo que quería publicar una entrada en respuesta a estos comentarios escritos en el blog. Se trata de analizar las búsquedas en Google a través de Google Trends de los términos: Business Intelligence, Data Mining, Cloud Computing y NOSQL. El resultado es más que interesante: En rojo tenemos Data Mining, en azul tenemos Business Intelligence, en naranja Cloud Computing y en verde NOSQL. A la vista de este gráfico cabe preguntarse: ¿es R en la nube el futuro de la profesión?

Sobremuestreo y pesos a las observaciones. Ahora con R

De nuevo volvemos a la entrada de ayer para replicar el código SAS utilizado en R. Se trata de realizar tres modelos de regresión logística con R para estudiar cómo influyen en los parámetros el uso de un conjunto de datos con sobremuestreo o el uso de un conjunto de datos donde asignamos pesos a las observaciones. El programa es sencillo pero tiene un uso interesante de la librería sampling. Aquí tenéis el código: ...

En la regresión logística ¿el sobremuestreo es lo mismo que asignar pesos a las observaciones?

Hoy vamos a volver sobre el tema del sobremuestreo. Respondemos a un lector, Roberto, que hace mucho tiempo planteó una duda al respecto. La duda se puede resumir: en un modelo logístico, ¿equivale entrenar un modelo con las observaciones sobremuestreadas a entrenar el modelo poniendo un peso a cada observación? Esta cuestión nunca me la había planteado. Siempre había realizado un sobremuestreo de las observaciones adecuando la población de casos negativos a la población de casos positivos. Si estás habituado a trabajar con Enterprise Miner de SAS, es habitual asignar pesos a las observaciones para realizar el proceso de sobremuestreo. ¿Obtendremos distintos resultados? ...

Mapa de España por provincias en HTML

Nueva entrada en el blog dedicada a mapas, esta vez con HTML. Se trata de un mapa de España por provincias lo más sencillo posible. Es una imagen gif en blanco con el mapa de España; la imagen tiene un link para cada provincia. El link corresponde al identificador numérico de la provincia, los dos primeros dígitos del código postal. El resultado lo podéis ver y guardar en este enlace. No incluye las Ciudades Autónomas. No es un mapa muy vistoso, es lo más sencillo posible; sois vosotros los que tenéis que darle el formato que más se adecúe a vuestras necesidades. ...