Big Data

Quiero aprender Big Data

Hoy me han dicho esto. Y mi respuesta ha sido un correo electrónico con estas dos imágenes. El Big Data Landscape 2013: Y un Big Data Landscape de 2016: ¿Se puede “aprender” Big Data? Aprende qué se puede hacer con los datos y aprende R. Como recomendación: di bigdaita, así parece que controlas.

De estadístico a minero de datos a científico de datos…

Hace unos meses estuve en un data beers que organizó Accenture, que más parecía una reunión de viejas glorias de Neo Metrics, y hablé sobre la transformación de un dinosaurio a un científico de datos; por cierto, me llamó la atención cómo el resto de compañeros hicieron sus presentaciones con software del siglo pasado, y eso que yo era el dinosaurio… Hoy ha salido una noticia sobre el uso de la información de Facebook para tarificar en seguros que define hacia dónde quiero ir y los problemas con los que he de lidiar. Así que hoy voy a escribir sobre mí y la transformación del dinosaurio al científico de datos. ...

El parámetro gamma, el coste, la complejidad de un SVM

Cuando clasificamos datos con SVM (Support Vector Machines), es necesario fijar un margen de separación entre observaciones. Si no fijamos este margen adecuadamente, nuestro modelo podría estar sobrestimando (overfitting), lo que significa que funcionaría muy bien con los datos de entrenamiento pero fallaría con datos nuevos. El coste C y el parámetro gamma son los dos elementos fundamentales con los que contamos en los SVM. El parámetro C es el peso que le damos a cada observación a la hora de clasificar: un mayor coste implicaría un mayor peso de cada observación individual y el SVM sería más estricto. Si tuviéramos un modelo que clasificara observaciones en el plano formando una letra “O”, podemos ver cómo se modifica la estimación al variar el coste: ...

Cuando paralelizar procesos con R era otra cosa

Allá en noviembre de 2011, en las III Jornadas de Usuarios de R en España, José Ramón Díaz Uriarte nos habló de paralelizar procesos con R, los principios de ese concepto que han denominado Big Data: http://usar.org.es/pdfs/Diaz_Uriarte-final.pdf Han avanzado los tiempos en el mundo de R y de la paralelización de procesos. Y es quizá lo que hará que R sobreviva frente a otras herramientas que no se han subido al carro por ser encapsuladas y «oscuras» (se me ocurren algunas). El problema es que perdemos mucho tiempo montando complejos sistemas, tiempo que podría ser empleado en un trabajo que aportara más valor. Necesitamos oír la expresión «yo no paralelizo, a mí me paralelizan». Ese será el momento de R. ¿Lo conseguirá Microsoft? ¿Lo conseguirá Yhat?

Data mining vs Bigdata. De momento con Google Trends

Big Data por aquí, Big Data por allá, y resulta que en Google sigue habiendo muchas más búsquedas sobre Data Mining. Este dato tiene importancia porque el Big Data no tiene sentido sin el Data Mining. Incluso podríamos prescindir del Big Data porque lo importante es lo que queremos hacer, no cómo lo queramos hacer. Saludos.

SQL vs Hadoop. Más que una tendencia

Google Trends, SQL frente a Hadoop. La tendencia es clara: mientras el interés por Hadoop está creciendo, el interés por SQL baja en picado (aunque vaticino un estancamiento de 2-3 años). Y si analizamos el interés por zona geográfica por Hadoop: Ya podéis adivinar quiénes marcarán el ritmo en el sector. Quiénes serán la referencia en Big Data en 3-4 años. Adónde irán los servidores de las principales compañías mundiales. Muy significativo.

Búsquedas de SQL frente a búsquedas de Hadoop

Ese gráfico está sacado de Google Trends. Representa la comparativa entre las búsquedas de SQL y Hadoop en Google. La caída del SQL frente al ligero ascenso del Hadoop. ¿Llegarán a converger estas dos líneas? Seguramente no. Hadoop parará su ascenso, pero SQL no parará su descenso. ¿A qué esperas para dejar de ser un dinosaurio?

¿Cuándo tenemos BIG DATA?

No es que sea yo un gurú del tema precisamente, pero considero que llevo más de 12 años haciendo Big Data; por ello, a lo peor alguno toma en serio mis reflexiones. Entonces, ¿cuándo tenemos, hacemos, trabajamos Big Data? La respuesta parece sencilla: “cuando tenemos muchos datos”. Pues no; éste es un nombre con mucha pegada (como me han dicho hoy en la comida); es un nombre acertado desde un punto de vista “marketiniano”. Pero muchos datos tiene el operacional de un banco, y no creo que un entorno Mainframe haga Big Data. ...

Nos hemos terminado de reinventar. Acabamos con el Data Mining y empezamos con el Big Data

Entramos in Google Trends y buscamos los términos Big Data y Data Mining y obtenemos la figura de arriba. Ya convergen las búsquedas. Muchos opinamos que estamos trabajando con Big Data desde hace muchos años; sin embargo, es ahora cuando este trabajo parece que se está dando a conocer. Y las escuelas de negocio son conscientes de ello. El sector de las tecnologías de la información tiene que estar continuamente renovándose. A lo largo de los años ha habido más revoluciones conceptuales que verdaderamente tecnológicas; sin embargo, este nuevo concepto de Big Data sí trae consigo una nueva visión de acceso a la información. ...