Monográficos

Los pilares de mi simulación de la extensión del COVID19

No debería publicar esta simulación de la extensión del COVID19 o coronavirus porque puede disparar alarmas, provocar insultos, levantar ampollas… el caso es que yo llevo 7 días de aislamiento más que el resto de España porque sólo había que ver los datos de Italia para saber lo que iba a pasar y no avise a nadie para no disparar alarmas, provocar insultos, levantar ampollas… Y AL FINAL YO TENÍA RAZÓN. Así que os voy a exponer el motivo por el cual estoy muy asustado; bueno, hoy quiero mostraros el inicio de una simulación mala y sin fundamento que estoy realizando sobre la extensión en España del COVID19. Para hacerla vamos a emplear la siguiente información: ...

Gráficos de calendarios con series temporales

Cuando se realizan gráficos de series temporales se emplean gráficos de líneas donde el eje X contiene la fecha y el eje Y contiene el valor a representar. Hoy quiero traer al blog otra forma de representar series temporales: los gráficos de calendario y su realización con R. Para ilustrar el ejemplo, vamos a emplear las cotizaciones históricas del índice bursátil IBEX 35: library(quantmod) library(ggplot2) library(reshape2) library(dplyr) library(lubridate) # Obtenemos las cotizaciones del IBEX 35 desde 2010 getSymbols('^IBEX', from = '2010-01-01') # data.frame de trabajo df <- data.frame(date = index(IBEX), IBEX) Mediante quantmod extraemos las cotizaciones del IBEX y creamos un data.frame de trabajo que llamamos df. Vamos a realizar dos tipos de gráficos: un mapa de calor por años, meses, semanas y días, y un calendario de un año puntual. ...

Me rindo, es necesario trabajar en Agile

Agile sounds good y representa todo eso que critico. Tenía compuesta y preparada una canción que versiona el “Me cago en el amor” de Tonino Carotone, “Me cago en el Agile” se llamaba. ¿Por qué este cambio de opinión tan radical? Porque no se trabaja de forma horizontal, se trabaja de forma vertical y cada uno hace la guerra por su cuenta. Me voy a mi terreno: Agile Analytics. ...

Inteligencia Arficial frente a un juego de niños. La partícula tonta de Nicolás

Pablo Picasso decía que en aprender a pintar como los pintores del Renacimiento tardó unos años, pero pintar como los niños le llevó toda la vida; y en ocasiones creo que hacemos las cosas difíciles porque nos creemos que hacemos cosas difíciles, y entonces llega un niño de nueve años y dice: “Papá, un punto que primero vaya a la izquierda y luego a la derecha no es tan difícil”. ...

Longitud de las frases del `Quijote` con `rstats`

Siempre he querido hacer cosas con rstats y el Quijote y ayer se me ocurrió medir la longitud de las frases del Quijote y crear un histograma que describa esta longitud. Aunque confieso que no me lo he leído, me he quedado en el capítulo 7 u 8 (no recuerdo) el caso es que me pareció hipnótico con sus ritmos, es musical. Además tengo muchas ganas de meter mano al proyecto Gutemberg porque esos ritmos, esa musicalidad, el uso de palabras esdrújulas,… me llama la atención. Bueno, al lío, todo el código está subido al repositorio por si lo queréis, pero hay algunas funciones y algunas ideas que me parecen interesantes. ...

De estadístico a minero de datos a científico de datos…

Hace unos meses estuve en un data beers que organizó Accenture, que más parecía una reunión de viejas glorias de Neo Metrics, y hablé sobre la transformación de un dinosaurio a un científico de datos; por cierto, me llamó la atención cómo el resto de compañeros hicieron sus presentaciones con software del siglo pasado, y eso que yo era el dinosaurio… Hoy ha salido una noticia sobre el uso de la información de Facebook para tarificar en seguros que define hacia dónde quiero ir y los problemas con los que he de lidiar. Así que hoy voy a escribir sobre mí y la transformación del dinosaurio al científico de datos. ...

Regresión ridge o regresión contraída con R

Por lo visto no he estudiado lo suficiente. Tengo que redimirme y estudiar este verano determinadas técnicas avanzadas de predicción. Fundamentalmente tengo que trabajar con R y tener determinados conocimientos teóricos sobre estas técnicas. Así que he pensado que, a la vez que estudio yo, estudian todos mis lectores. Además es probable que genere debate. En esta primera entrega vamos a tratar la regresión contraída o regresión ridge. En el blog ya hablamos del problema que suponía la multicolinealidad; cuando tenemos este problema, una de las posibles soluciones es la regresión contraída o regresión ridge. Como ya dijimos, el modelo lineal se expresa como $Y = X \cdot \beta + \text{Error}$; la estimación de nuestros parámetros $\beta$ por mínimos cuadrados ordinarios es $\beta = \text{inv}(X’X) \cdot X’Y$. Cuando $(X’X)$ no es invertible tenemos un problema. La regresión ridge plantea una solución a este problema con unos parámetros $\beta extbackslash_{\text{contraidos}} = \text{inv}(X’X + \lambda I) \cdot X’Y$; si $\lambda$ es 0 estamos ante mínimos cuadrados ordinarios; en otro caso estamos ante un estimador sesgado de $\beta$. Este estimador sesgado es solución al problema de mínimos cuadrados penalizados y lo que hace es contraer los $\beta$ en torno a 0. En resumen: metemos sesgo pero reducimos varianza. ...

¿Cuándo tenemos BIG DATA?

No es que sea yo un gurú del tema precisamente, pero considero que llevo más de 12 años haciendo Big Data; por ello, a lo peor alguno toma en serio mis reflexiones. Entonces, ¿cuándo tenemos, hacemos, trabajamos Big Data? La respuesta parece sencilla: “cuando tenemos muchos datos”. Pues no; éste es un nombre con mucha pegada (como me han dicho hoy en la comida); es un nombre acertado desde un punto de vista “marketiniano”. Pero muchos datos tiene el operacional de un banco, y no creo que un entorno Mainframe haga Big Data. ...

Nos hemos terminado de reinventar. Acabamos con el Data Mining y empezamos con el Big Data

Entramos in Google Trends y buscamos los términos Big Data y Data Mining y obtenemos la figura de arriba. Ya convergen las búsquedas. Muchos opinamos que estamos trabajando con Big Data desde hace muchos años; sin embargo, es ahora cuando este trabajo parece que se está dando a conocer. Y las escuelas de negocio son conscientes de ello. El sector de las tecnologías de la información tiene que estar continuamente renovándose. A lo largo de los años ha habido más revoluciones conceptuales que verdaderamente tecnológicas; sin embargo, este nuevo concepto de Big Data sí trae consigo una nueva visión de acceso a la información. ...

La macro iterlist para automatizar código SAS

Impresionante macro de SAS que nos puede ahorrar picar mucho mucho código. La macro se llama iterlist y la he encontrado en este enlace. Es código SAS muy avanzado: %macro iterlist(code =, list =); %*** ASIGNAMOS CADA ELEMENTO DE LA LISTA A UNA MACROVARIABLE INDEXADA &&ITEM&I ; %let i = 1; %do %while (%cmpres(%scan(&list., &i.)) ne ); %let item&i. = %cmpres(%scan(&list., &i.)); %let i = %eval(&i. + 1); %end; %*** GUARDAMOS EL CONTEO TOTAL ; %let cntitem = %eval(&i. - 1); %*** REEMPLAZAMOS EL TOKEN ? CON LOS ELEMENTOS DE LA LISTA ; %do i = 1 %to &cntitem.; %let codeprp = %qsysfunc(tranwrd(&code., ?, %nrstr(&&item&i..))); %unquote(&codeprp.) %end; %mend iterlist; El funcionamiento es muy complejo; destacaría el uso de %qsysfunc. El caso es que nos permite pasar listas de código. Imaginemos que tenemos que hacer la siguiente tarea: ...