Un peligro del análisis cluster

Quería plantearos un ejemplo de análisis cluster para observar el peligro que tiene agrupar observaciones en base a grupos homogéneos creados con distancias multivariantes. Para ilustrar el ejemplo trabajamos con R, creamos grupos en base a 2 variables, esto nos facilita los análisis gráficos. Simulamos el conjunto de datos con el que trabajamos:

#GRUPO 1

x = runif(500,70,90)

y = runif(500,70,90)

grupo1 = data.frame(cbind(x,y))

grupo1$grupo = 1
#GRUPO 2

x = runif(1000,10,40)

y = runif(1000,10,40)

grupo2 = data.frame(cbind(x,y))

grupo2$grupo = 2
#GRUPO 3

x = runif(3000,0,100)

y = runif(3000,0,100)

grupo3.1 = data.frame(cbind(x,y))

grupo3.1separacion=(x+y)

grupo3.1 = subset(grupo3.1,separacion>=80&separacion <=140,select=-separacion)

grupo3.1 = subset(grupo3.1,y>0)

grupo3.1grupo = 3
#UNIMOS TODOS LOS GRUPOS

total=rbind(grupo1,grupo2,grupo3.1)

plot(totalx,totaly,col=c(1,2,3)[total$grupo])

Los grupos parecen claros:

Sentencia Test-Achats

sentencia_test_achats_1.PNG

A pesar del título no voy a hablar del principio de igualdad de trato entre hombres y mujeres en el acceso a bienes y servicios y su suministro que regula los factores actuariales para tarificar en función del sexo. Sólo me he ido a Rastreator.com y he tarificado a una mujer de 32 años con un vehículo de los más vendidos. La fecha de hoy es 06/07/2012. En diciembre de 2012 volveré a recuperar esta entrada y hablaré del derecho. Saludos.

Lecciones de economía de un ignorante: Solución: ¡TRABAJAR MÁS Y COBRAR MENOS!

Mi buen amigo David lleva varios días realizando un interesante análisis de la situación económica actual. Hoy quiero concentrar en pocas líneas este análisis. La hecatombe bancaria se produce debido al incremento de la morosidad , sin embargo esta es una situación que ya hemos vivido:

morosidad_el_pais.PNG

Fuente: http://economia.elpais.com/economia/2012/06/18/actualidad/1340008960_456853.html

Mi amigo David se pregunta “¿Qué paso para que a partir del 93 un indicador de situaciones de crisis como la morosidad bajara de forma tan espectacular como subió?” La respuesta en:

Lecciones de economía de un ignorante. España está salvando a Alemania, pero Alemania no está salvando Europa

Observemos cuánto le cuesta financiarse a España y cuánto le cuesta financiarse a Alemania en el último año. Ya hablamos de como crear este gráfico:

prima_riesgo_junio_1_anio.png

El plan le ha salido a Alemania. Se financia a un 1,5% mientras que España se financia al 7%. Así funciona Europa. Algo falla. Algo huele mal. No es Europa quien ha salido al rescate de España, si no que parece que es España la que está amortiguando la crisis de Deuda Pública. ¿El motivo? Está menos expuesta, no necesita emitir tanta deuda para financiarse como Alemania. Pero el problema de todo esto es que a Alemania se le ha ido de las manos y está mirando al otro lado. ¿Y cómo se frena esto? Desde la intervención pólitica sobre eso que denominan MERCADOS. Por una vez pienso que este problema no lo solucionan los tecnócratas, esto se soluciona impidiendo que un inversor pueda hundir un país. Lo que pasa es que no se atreven, y eso es lo que se me escapa.

Truco SAS. Macro número de días de un año

Macro de SAS que te dice el número de días que tiene un año.

%macro dias_anio(anio);

"31DEC&anio."d-"01JAN&anio."d+1

%mend;

A lo mejor ya la he puesto, no me lo tengáis en cuenta.

Lecciones de economía de un ignorante. Los bancos pierden dinero para favorecer a unos y luego los salvamos todos

Si pintamos con Excel una línea con el Euribor a 6 meses y otra línea con el interés medio a un año de los depósitos bancarios. Tenemos:

euribor-frente-interes-medio-depositos-a-un-ano.PNG

La fuente de datos es:

Los datos del interés medio los suministra el Banco de España. Sé que no son datos 100% comparables pero sirve para este argumento. Hasta 2009 los intereses que daban los bancos estaban por debajo del precio del dinero. DESPUÉS LOS BANCOS ESTÁN DANDO DINERO A PÉRDIDAS. Por problemas de liquidez, por problemas de aprovisionamiento, batallas de pasivo, por lo que sea,… PERO ESTÁN PERDIENDO DINERO Y LO SABEN, los márgenes son negativos. En principio los beneficiados son los clientes porque están dando intereses por encima del precio del dinero. Pero la insensatez al final la pagamos todos, tanto el que se beneficia por los altos intereses (tiene dinero) como el que no se beneficia (no tiene un duro) y por si fuera poco suben comisiones, se endurecen las condiciones de crédito y demás. Luego acudimos a las subastas de liquidez y a los fondos de reestructuración de idioteces varias, mentimos en nuestras cuentas de resultados y ¡ya está!

Curso básico de R

Meritoria iniciativa de:

O lo que es lo mismo Juan José Gibaja y Carlos J. Gil Bellosta.

Me hago eco de la noticia un poco tarde. Es curioso como hay personas que comparten de forma altruista su conocimiento, aunque me creáis exagerado, es el camino para que todos seamos un poco mejores, el conocimiento no el derecho. Ya escribiré sobre el tema si tengo tiempo.

Acceded al curso aquí —> http://cursorbasico.usar.org.es/

Trucos SAS. Particionar y exportar a texto un dataset

Duda que plantea David. Exporta a csv una tabla SAS en varias partes. Ya habrá tiempo para comentarlo:

*TABLA SAS DE EJEMPLO;

data total;

do i=1 to 10000;

importe=ranuni(8)*100;

output;

end;

run;

*MACRO QUE RECORRE LA TABLA, PARTE Y EXPORTA CADA PARTE
NECESITA EL CONJUNTO DE DATOS Y EL TAMAÑO DE CADA PARTE;
%macro parte(ds, tamanio);
%do i = 1 %to 10000 %by &tamanio.;
data parte;
set &ds. (firstobs = &i. obs = %eval(&i. + &tamanio.));
run;

La nueva web de @jjgibaja

Estaba preparando una entrada con el recopilatorio de los videos de Gibaja pero es mucho mejor lo que ha hecho su autor:

http://jjgibaja.net/

Una web donde se recopilan todos los videos que ha realizado. Son muy didácticos e incluso entretenidos. Gran trabajo.

Informe 2011 de la Dirección de Seguros y Fondos de Pensiones

Ya tenéis disponible el informe del 2011 de la DGS:

http://www.dgsfp.meh.es/sector/documentos/Informes%202011/InformeSeguros2011.pdf

Variaciones interanuales muy interesantes, me llama la atención Decesos y que hay recorrido en Multirriesgo (¡toma el dato de Hogar!). Me llama la atención el repunte en el resultado técnico de RC Auto, la crisis y la disminución de la frecuencia estarán influyendo. Hay margen para seguir con la guerra de precios en el seguro de Autos, esto pasó en el mercado inglés y cuando se quieron dar cuenta estaban en el 120%. Disminuye el patrimonio de los Planes y el número de partícipes, eso no pasaba desde nunca.

Trucos SAS. Primer y último elemento de un array

Breve entrada sobre el uso de arrays en SAS. Dada una tabla SAS como esta con una variable mes1, mes2, … mesN:

arrays_sas.PNG

Necesitamos identificar el primer y el último elemento no nulo de un array y el número de elementos no nulos de ese array. Veamos el ejemplo:

data datos;

input id mes1 mes2 mes3 mes4 mes5 mes6;

datalines;

1 . . . . . .

2 162.18 88.41 919.62 891.25 837.73 163.14

3 . 790.52 160.03 . 60.31 343.30

4 . . 482.45 755.39 . .

5 265.17 963.53 . . 392.06 .

6 . 214.95 616.17 183.01 778.48 57.42

7 191.52 . 208.50 50.55 705.72 .

8 711.76 . . . 193.20 658.45

9 782.67 172.49 539.42 663.28 4.53 358.51

10 695.12 367.74 . 573.47 366.30 951.98

;

run;

Para este proceso creamos un array que recorreremos 2 veces, una hacia delante para identificar el primer elemento y otra a hacia atrás para identificar el último elemento:

Test de Levene con SAS

El Test de Levene se aplica para la igualdad de varianzas. Es un análisis de la varianza de las desviaciones de los valores muestrales respecto a una medida de tenedencia central. Parte de la hipótesis nula de igualdad de varianzas. Para realizar este test en SAS emplearemos el PROC GLM en combinación con la opción HOVtest. En la línea habitual vemos un ejemplo:

data datos;

 input presion @@;

 if _n_<=5 then grupo=1;

 else if _n_<=10 then grupo=2;

 else if _n_<=15 then grupo=3;

 else if _n_<=20 then grupo=4;

 else grupo=5;

cards;

180 172 163 158 147 173 158 170

146 152 175 167 158 160 143 182

160 162 171 155 181 175 170 155 160

;

run;

 Proc GLM Data=datos ;

  Class grupo;

  Model presion = grupo;

  Means grupo/HOVTest;

  ODS select HOVFTest;

 Quit;

Vemos que se trata de un código sencillo donde modelizamos con GLM la variable dependiente con la variable grupo y en MEANS indicamos con HOVtest que deseamos que se realice el test de Levene, con ODS seleccionamos sólo esa salida. Este código podemos parametrizarlo y crear una macro que nos permita replicar el código:

Sentencia del Tribunal de Justicia de la UE sobre el caso WPS y SAS

El caso de WPS y SAS por fin tiene un final. World Programing Software ha vencido (por fin) al todo poderoso SAS Institute Inc. La sentencia establece que:

De este modo, procede señalar que no puede haber infracción del derecho de autor sobre el programa de ordenador cuando, como sucede en el caso de autos, el adquirente legítimo de la licencia no ha tenido acceso al código fuente del programa de ordenador correspondiente a esa licencia, sino que se limitó a estudiar, observar y verificar ese programa con el fin de reproducir su funcionalidad en un segundo programa.