Un peligro del análisis cluster
Quería plantearos un ejemplo de análisis cluster para observar el peligro que tiene agrupar observaciones in base a grupos homogéneos creados con distancias multivariantes. Para ilustrar el ejemplo, trabajamos con R; creamos grupos in base a dos variables, lo que nos facilita los análisis gráficos. Simulamos el conjunto de datos con el que trabajamos: # GRUPO 1 x <- runif(500, 70, 90) y <- runif(500, 70, 90) grupo1 <- data.frame(cbind(x, y)) grupo1$grupo <- 1 # GRUPO 2 x <- runif(1000, 10, 40) y <- runif(1000, 10, 40) grupo2 <- data.frame(cbind(x, y)) grupo2$grupo <- 2 # GRUPO 3 x <- runif(3000, 0, 100) y <- runif(3000, 0, 100) grupo3.1 <- data.frame(cbind(x, y)) grupo3.1$separacion <- (x + y) grupo3.1 <- subset(grupo3.1, separacion >= 80 & separacion <= 140, select = -separacion) grupo3.1 <- subset(grupo3.1, y > 0) grupo3.1$grupo <- 3 # UNIMOS TODOS LOS GRUPOS total <- rbind(grupo1, grupo2, grupo3.1) plot(total$x, total$y, col = c(1, 2, 3)[total$grupo]) Los grupos parecen claros: ...