Montemos un sistema de información en nuestro equipo (III)

Vamos a conectar R a nuestra BBDD PostgreSQL. Lo vamos a hacer vía ODBC con el paquete de R RODBC. [Inciso] Recordad que todo el trabajo lo estamos realizando bajo Windows. Además, trabajar con ODBC nos permitirá conectar nuestro PostgreSQL con Access o Excel. Aunque para este tipo de tarea recomiendo el uso del Data Integration de Pentaho. El primer paso será descargarnos de esta dirección los controladores ODBC para PostgreSQL que se adecúen con nuestro sistema operativo y nuestra versión de la base de datos. Tras instalarlos, ya podemos ir a las Herramientas Administrativas > Orígenes de Datos ODBC e introducimos un nuevo DSN de sistema y de usuario: ...

18 de diciembre de 2010 · rvaquerizo

Montemos un sistema de información en nuestro equipo (I)

Un poco de bricolaje. Se trata de crear un sistema de información sin coste y que nos permita almacenar nuestros datos con orden y coherencia, crear informes y realizar modelos matemáticos bajo Windows. Es perfectamente replicable para Linux. También estoy abierto a sugerencias, ya que tampoco soy ningún experto en el tema y podemos crear un debate interesante. El sistema que planteo se va a sustentar en tres pilares fundamentales que os podéis descargar de forma gratuita en los enlaces creados: ...

27 de noviembre de 2010 · rvaquerizo

La importancia del parámetro HASHEXP

Ésta es la última entrada (de momento) sobre objetos hash en SAS. Quiero analizar la importancia que tiene el parámetro hashexp a la hora de crear el objeto hash cuando deseamos ordenar un conjunto de datos. Para ello, he realizado un experimento con SAS cuyo código podéis descargaros aquí. Es un código de calidad muy baja pero que da como resultado el siguiente gráfico: Se trata de un experimento en el que ordenamos un dataset con siete variables y diferentes tamaños; se miden los tiempos de ordenación para exponentes 2, 5, 10 y 20. Se realizan dos réplicas del experimento para evitar algún problema puntual con el equipo (deberían hacerse más, pero tarda mucho) y el resultado de la combinación entre tamaño-exponente nos da como resultado un tiempo de ejecución que graficamos. ...

16 de noviembre de 2010 · rvaquerizo

Laboratorio de código SAS. Ordenaciones con HASH vs. PROC SORT

Hace pocas fechas vimos el código SAS empleado para la realización de ordenaciones de conjuntos de datos SAS mediante algoritmos de hash. Ya os comuniqué que era una forma más eficiente, y hoy quería demostraros tal eficiencia con un laboratorio de código SAS. La situación es la siguiente: creamos un dataset con 1.000.000 de registros y 13 variables, y comparamos un PROC SORT con una ordenación mediante objetos hash; medimos tiempos y determinamos qué método es más eficiente. ...

15 de noviembre de 2010 · rvaquerizo

Objetos hash para ordenar tablas SAS

A partir de la versión 9.1 de SAS se incluyeron los objetos hash. Hace tiempo ya demostramos su eficiencia en el cruce de tablas y hoy quería mostraros cómo se programa una ordenación empleando hash. La verdad es que estoy saboreando mis últimos días con SAS v9.2; en breve volveré a una versión muy anterior. El código, en mi opinión, es muy sencillo y, como es habitual, tenemos un ejemplo ilustrativo: ...

12 de noviembre de 2010 · rvaquerizo

Mapas con spatial data de R

Vamos a hacer mapas de México, España y Colombia con R. Y lo primero que tenemos que hacer es disponer de un objeto de R con los datos del mapa. Estos datos los vamos a obtener de http://www.gadm.org/country. Seleccionamos el país y el formato que deseamos descargar. Para ilustrar nuestros ejemplos, vamos a descargarnos los mapas de España, México y Colombia en formato R data. Vemos que tenemos distintas divisiones en función del nivel al que deseemos llegar. En este caso seleccionamos nivel 2 para España y nivel 1 para Colombia y México. Los hemos descargado a nuestro equipo (mejor descargarlo que no acceder a la web) y comprobamos que los archivos tengan extensión .Rdata. Una vez tengamos los archivos con su formato, su extensión y demás, ya podemos trabajar con ellos y vamos a trabajar con el paquete sp (spatial data): ...

9 de octubre de 2010 · rvaquerizo

Stadistical data warehouse del European Central Bank con R y los depósitos a pérdidas

Más ejemplos de uso del paquete de R XML. Vamos a leer datos del data warehouse del European Central Bank. Si dais una vuelta por la web tendréis interesantes datos económicos de los países de la Unión Europea. A modo de ejemplo, vamos a leer los datos de los tipos de interés medios a 12 meses que se están dando por los bancos en España y la evolución del Euribor a 6 meses. ...

29 de septiembre de 2010 · rvaquerizo

Detalles técnicos del seguro de crédito. El factor de uso del importe concedido

El seguro de crédito me sigue pareciendo muy interesante técnicamente y, de vez en cuando, hay que dedicarle alguna entrada en el blog. Voy a recordar viejos tiempos escribiendo sobre el factor de uso del importe concedido. Nos ponemos en antecedentes: en el seguro de crédito, el riesgo es el impago de una transacción comercial. Las empresas que lo contratan tienen que disponer de información muy exacta de las ventas a crédito a sus clientes, a los que llamaremos «deudores». Esta información ha de estar en posesión de la compañía aseguradora que cubre la operación, ya que, en caso de siniestro, define la cantidad máxima a indemnizar al asegurado («importe siniestral»). Es decir, el asegurado «comunica» a la aseguradora el importe de la venta a su deudor y la aseguradora asume el riesgo de impago sobre un porcentaje del total: tiene un «porcentaje garantizado». Un inciso: las aseguradoras de crédito, además, ofrecen información sobre deudores, gestión de recobros… Pero la función fundamental del seguro de crédito es asumir el riesgo de impago de las transacciones de los deudores con sus asegurados; esta función es imprescindible para el desarrollo de un país, así de claro. ...

31 de agosto de 2010 · rvaquerizo

Monográfico. Funciones INTNX e INTCK para fechas en SAS

Las funciones INTNX e INTCK de SAS atraen muchas visitas a esta web. Aunque ya hay algún mensaje en el que muestro cómo funcionan, creo que algunos trabajadores me agradecerán este monográfico. INTNX e INTCK son funciones para trabajar con fechas en SAS. INTNX sirve para trabajar con periodos, por lo que el resultado que ofrece será una fecha; e INTCK sirve para trabajar con intervalos, por lo que el resultado que nos ofrece será un número entero. Ésta es la premisa fundamental. Entonces: ...

6 de julio de 2010 · rvaquerizo

Monográfico. Un poco de PROC LOGISTIC

El PROC LOGISTIC es un procedimiento de SAS que nos ha dado muchas satisfacciones a los dinosaurios como el ahora escribiente. La regresión logística es uno de los modelos de regresión más utilizados y es bien conocido por todos mis lectores. El problema es muy sencillo: hemos de clasificar una población dividida en dos partes a partir de unas variables independientes. Su aplicación es muy extensa: patrones de fuga, propensiones de compra, salud, fraude… ...

24 de junio de 2010 · rvaquerizo