Big Data

youtube-dl para descargar videos y mplayer para pasar esos vídeos a imágenes

Si deseamos descargar vídeos de Youtube tenemos youtube-dl pero podemos descargar de otras web y en esta entrada vamos a ver como. Además podemos transformar esas entradas en fotogramas, esto es útil a la hora de analizar imágenes, podríamos estudiar la presencia de una marca en un partido de fútbol, identificar las matrículas que pasan delante de determinada cámara u otros casos de uso. Y en uno de esos casos precisamente J.L. Cañadas del blog hermano Muestrear no es Pecado me ha descubierto la librería youtube-dl y la creación de scripts para transformar videos en imágenes que posteriormente podemos analizar. El caso de mplayer es distinto, lo conocía, Cañadas me ha descubierto el ffmpeg que ofrece más posibilidades. ...

Computer Vision con R. OpenCV de andar por casa

Trabajando con Computer Vision aprecio que estamos muy limitados por las máquinas que usamos, o tiene mucho sentido montar GPUs en casa del tamaño del aire acondicionado y por supuesto no tiene sentido el consumo energético que implica. Aquí estoy yo montando una GPU para el análisis de imágenes. Este tema implica que la Computer Vision no la podrá usar el común de los data scientist, a los necesarios conocimientos técnicos y matemáticos se añade el disponer de unos recursos tecnológicos que no están al alcance de cualquiera. Sin embargo, los conocimientos técnicos y matemáticos los puedes adquirir o puedes aprovecharte de los entornos colaborativos. Pero podemos iniciarnos en el reconocimiento de imágenes con R y la librería OpenCV y, si salen algunos temas en los que estoy enredando, es posible que la reducción de dimensionalidad y la geometría nos ahorre máquinas y energía. ...

R + Python = reticulate

He sido reticente a usar reticulate con R porque no me gusta R Markdown y, si he trabajado con Python, no he necesitado R y viceversa. Ahora tengo en mente algún juego/proyecto de esos que se quedan siempre en el tintero por falta de tiempo o interés, pero me están sirviendo para elaborar unos apuntes sobre R Markdown y Python que voy a sintetizaros en esta entrada por si a alguien le fuera de utilidad. ...

Entender una blockchain con R

Una introducción de bajo nivel (sin entrar mucho en tecnología) a los blockchain con R. Es una entrada destinada a comprender qué es un blockchain desde otro punto de vista, no sólo criptografía o criptomoneda: podemos poner información que sólo conoce el origen. ¿Os imagináis si pusieran a disposición de los científicos de datos información sobre todos los españoles identificados por NIF y si tiene o no coronavirus? Los científicos de datos podrían trabajar de forma anónima con esos datos y ayudar a establecer las zonas libres de COVID-19, persona a persona de forma perfectamente anónima. Aunque no se descarta que algún cabestro se dedicara a desencriptar… ...

El desarrollo de la Inteligencia Artificial, un paralelismo con el desarrollo de la aviación

Estoy en el claustro de profesores del Máster de la UNED en Big Data y Business Analytics y, revisando la documentación, las clases teóricas y las clases prácticas, he decidido incluir una diapositiva que establece un paralelismo entre el desarrollo de la Inteligencia Artificial (IA) y el desarrollo de la aviación. Este paralelismo se me ocurrió tras una conversación con una de esas personas que trabajan en este negocio y son íntegras y honradas (empezamos a quedar pocos). El caso es que he añadido la siguiente imagen en la formación: ...

¿Qué nos pasa con R? (de nuevo)

Hace años ya sorprendió R situándose muy arriba en la lista TIOBE de lenguajes de programación; subió en los años siguientes y ahora nos encontramos con una sorprendente bajada en el índice: ¿Volvemos a tener complejo por usar R? A veces tengo la sensación de que no eres un “pro” si no usas Python. Debe ser que determinados frameworks funcionan mejor en otros lenguajes, o no, pero nos da vergüenza usar R (de nuevo). Saludos.

Aprende Pyspark sin complicaciones

Hace tiempo un gran data engineer me preparó una máquina virtual para hacer pinitos con pyspark y llevaba tiempo pensando en como poder publicar trucos y ejemplos con pyspark sin necesidad de máquinas virtuales y empleando notebooks. Ya he encontrado la mejor manera, los contenedores de docker. Cuanto más profundizo en docker más me gusta trabajar con contenedores y con esta entrada me váis a entender perfectamente. El primer paso es instalar docker y arrancar el terminal. La idea de docker es ejecutar un contenedor en cualquier máquina independientemente del sistema operativo. Instalar spark en windows es un dolor de cabeza, si disponemos de una máquina virtual con linux es más sencillo, pero imaginad que, con dos líneas de código ya podéis trabajar con un notebook y pyspark, pues eso lo podemos hacer con docker. ...

Notebook para empezar (y probar) en spark y scala

No debo enseñar Spark a nadie; no soy ni un usuario avanzado, ni le veo mucho recorrido. Sin embargo, tengo que hacer diversos procesos con dataframes en Spark y realizar modelos con MLlib y tengo que “perder tiempo” probando cosas; necesitaba un entorno sencillo en casa. En un primer momento exploré máquinas virtuales y alguna sandbox. Ninguna me convencía y le pedí a un compañero mío, Juanvi, que sabe mucho, que me montara un entorno con un notebook de Spark para poder jugar con Scala y MLlib de modo sencillo. En vez de montarme el entorno en 20 minutos, me escribió un correo con tres direcciones que me están siendo de mucha utilidad y quería compartirlas con vosotros. ...

Diagramas de Voronoi con spatial de python

En breve «mis cachorros», como llamo a un grupo de los mejores Data Scientists de Europa (de los que tengo que hablar algún día), se van a enfrentar a un problema que probablemente tengan que resolver con análisis geométricos muy complejos. Para despertarles la curiosidad (sé que me leen), hoy traigo al blog una entrada que nos aproxima al método de interpolación geométrica más sencillo: al diagrama de Voronoi. Con scipy.spatial (https://docs.scipy.org/doc/scipy-0.18.1/reference/generated/scipy.spatial.Voronoi.html), podemos trabajar con estos diagramas: ...

Parámetros en las consultas de Hive. Ejemplo con fechas

Soy cinturón blanco de Hive, pero aprovecho el blog para mostraros cómo he añadido unas variables a mi consulta de Hive; en realidad espero que algún alma caritativa me indique alguna forma más elegante. Necesito que mis consultas vayan parametrizadas por fechas que hacen mención a particiones de la tabla; estas particiones no son variables fecha, son strings con el formato YYYYMMDD, así que es necesario transformar las variables para realizar operaciones con ellas. En este caso tengo una fecha inicio y quiero irme tres meses hacia atrás: ...