Formación

El paquete de R weatherData para la obtención de datos meteorológicos en España

Tenía pendiente un proyecto con modelos de Lee-Carter y el paquete weatherData de R (¡toma!), pero como no lo voy a llevar a cabo nunca, os traigo a estas líneas un paquete más que interesante de R que nos permite obtener datos de las estaciones meteorológicas de los aeropuertos del mundo (https://www.wunderground.com/history/airport/) y encima te lo pone como un objeto de R: qué más podemos pedir. En GitHub tenéis una completa batería de ejemplos de uso. En el caso de que necesitemos descargar información meteorológica de España tenemos que irnos a http://weather.rap.ucar.edu/surface/stations.txt, donde están listados todos los aeropuertos que recoge este sistema de información; buscamos SPAIN y nos interesa el ICAO (International Civil Aviation Organization), el código del aeropuerto, vamos. Con estas premisas, si quiero recoger las temperaturas de 2015 del aeropuerto de Albacete: ...

Test de bondad de ajuste con SAS

Pregunta que me han hecho hoy: cómo hacer un test de bondad de ajuste con SAS. Aquí la respuesta que he dado: data datos_aleatorios; do i = 1 to 200000; * GENERAMOS UNAS VARIABLES ALEATORIAS; variable_gamma = rangam(89, 450); variable_exponencial = ranexp(23) * 100 + 0.17045; output; end; run; * ods select ParameterEstimates GoodnessOfFit; proc univariate data=datos_aleatorios; var variable_:; histogram / gamma; run; Mucho cuidado con estos test de hipótesis. Yo suelo conformarme con ver la tabla de cuantiles. Saludos.

Truco SAS. Cómo leer PC Axis con SAS

Estoy leyendo información del INE que tiene que terminar cargándose en SAS y estos datos están en formato PC Axis. Existen macros en SAS para generar datasets a partir de PC Axis, pero la verdad es que no he llegado a entender muy bien cómo funcionan y, tras varios errores, la mejor opción que he encontrado es emplear R y el paquete pxR que han creado algunos miembros de la Comunidad de R-Hispano. Cómo realizo esta tarea es más que sencillo: ...

Cartografía digitalizada de España por sección censal

Por si no lo sabéis, tenemos disponible en la web del INE un mapa de España por sección censal que podéis descargaros y realizar mapas con R de una forma que es más que conocida para los lectores del blog: # mapas con secciones censales library(maptools) ub_shp <- "/Users/raulvaquerizo/Desktop/R/mapas/cartografia_censo2011_nacional/SECC_CPV_E_20111101_01_R_INE.shp" seccion_censal <- readShapeSpatial(ub_shp) barcelona <- seccion_censal[seccion_censal$NMUN == "Barcelona", ] plot(barcelona) A ver si me animo y preparo una BBDD para que podáis acceder desde QGIS a una serie de mapas como este, además de los mapas por código postal. Aunque necesitaría un poco de ayuda técnica (ahí lo dejo). Saludos.

Nuevo y muy mejorado mapa de España por provincias con Excel

Hacía tiempo que no publicaba un mapa de España para Excel; aquí tenéis una nueva versión que mejora mucho a las anteriores. La primera mejora, y la que más destaca, es que nos permite incluir datos; además, ponemos los nombres de las provincias para todos aquellos que dominen poco la geografía española. Podemos pintar hasta cuatro datos distintos que se pueden seleccionar en el desplegable que tenéis arriba. Ahora los colores van en dos escalas que podéis seleccionar vosotros: ...

Adyacencia de polígonos con el paquete spdep de R

Cuando trabajamos con zonificación o geolocalización, la adyacencia entre los elementos del estudio es relevante. En este caso, quería trabajar con la adyacencia entre los polígonos que componen un archivo de datos espaciales shapefile; y para entender mejor cómo podemos obtener la adyacencia entre polígonos, creo que lo mejor es hacer un ejemplo con un mapa, en este caso un mapa de municipios de Barcelona. El primer paso es disponer del objeto con los datos espaciales; de esto ya he escrito mucho en el blog y por eso no me detengo mucho: ...

Resolución del juego de modelos con R

Hace mucho planteé un juego de identificación de modelos con R y ya se me había olvidado daros la solución. Pensando en el Grupo de Usuarios de R y en hacer algo parecido en una presentación, recordé que había que solucionar el ejercicio. Lo primero es la creación de los datos; se me ocurrió una función sencilla y una nube de puntos alrededor de ella: # Variable independiente indep = runif(500, 100, 500) # Función para crear la variable dependiente foo = function(x) { mean(x) * (1 - sin(-0.006042 * x)) } dep = sapply(indep, foo) dep = dep + (runif(length(dep), -100, 100)) datos = data.frame(cbind(indep, dep)) plot(datos) ...

KNN con SAS. Mejorando K-Means

La clasificación por k vecinos más cercanos es un método supervisado no paramétrico muy potente. El KNN (K-Nearest Neighbors) clasifica las observaciones en función de su proximidad a otros puntos en el espacio de características; en el vídeo que encabeza la entrada queda muy bien explicado. Tenemos la posibilidad de realizar esta clasificación con SAS/STAT y el PROC DISCRIM. Hace años ya hablamos de segmentación con SAS y vamos a emplear los mismos datos simulados de tres esferas para ilustrar esta entrada: ...

Valor atípico o pocos registros. Animación con R

¿Cómo influye un solo punto en una recta de regresión? Evidentemente, cuantas menos observaciones tengo, más puede “descolocar” la recta de regresión. Sin embargo, cuantos más puntos tengo, más complicado es encontrar ese punto con una recta de regresión; sin analizar los residuos podríamos hasta pasarlo por alto, aunque puede ser que nos interese ese punto. El código de R que genera la animación es: library(animation) saveGIF({ for (i in c(100, 50, 25, 10, 5, 1)) { x <- seq(-500, 500, by = i) y <- sin(x) + x / 100 y[10] <- y[10] + 10 plot(y, x, main = paste("Regresión lineal con ", round(1000 / i), " observaciones")) reg <- lm(y ~ x) points(fitted.values(reg), x, type = "l", col = "red", lwd = 2) } }, interval = 0.85, movie.name = "/Users/raulvaquerizo/Desktop/R/animaciones/outlier.gif") El paquete animation nos permite generar archivos .gif de una forma muy sencilla. Saludos.

Interpretación de los parámetros de un modelo GLM

Muchos estudiantes terminarán trabajando con GLM que siguen buscando relaciones lineales en multitud de organizaciones a lo largo del planeta. Y hoy quería ayudar a esos estudiantes a interpretar los parámetros resultantes de un GLM, más concretamente los resultados de un PROC GENMOD de SAS, aunque lo que vaya a contar ahora se puede extrapolar a otras salidas de SAS o R. En la línea de siempre, no entro en aspectos teóricos y os remito a los apuntes del profesor Juan Miguel Marín. Con un GLM al final lo que buscamos (como siempre) es distinguir lo que es aleatorio de lo que es debido al azar a través de relaciones lineales, de un modo similar a como lo hace una regresión lineal; sin embargo, los GLM nos permiten que nuestra variable dependiente no sólo siga una distribución normal: puede seguir otras distribuciones como Gamma, Poisson o Binomial. Además, un GLM puede trabajar indistintamente con variables categóricas y numéricas, pero yo recomiendo trabajar siempre con variables categóricas y, en la práctica, cuando realizamos un modelo de este tipo siempre realizaremos agrupaciones de variables numéricas. Si disponemos de variables agrupadas, de factores, los parámetros de los modelos nos servirán para saber cómo se comporta nuestra variable dependiente a lo largo de cada nivel del factor. ...