Truco Python. Pasar múltiples archivos pdf a texto

Estoy realizando un trabajo de scraping de archivos que genera una entidad estatal en .pdf y es necesario transformar esos archivos .pdf en archivos .txt para un análisis de minería de textos. Los archivos que genera esta entidad estatal me los he descargado vía php y los he alojado en una carpeta específica, por lo que será necesario recorrer esa carpeta e ir cambiando de .pdf a texto cada archivo de esa carpeta (y subcarpetas); por ello el truco se divide en dos partes. ...

2 de febrero de 2024 · rvaquerizo

Resultados de La Liga con rstats. Estudiando gráficamente rachas

Vamos a crear un gráfico con rstats que recoja los resultados de La Liga equipo a equipo para poder estudiar rachas e “intuir” cómo puede ser la segunda vuelta. Además, este ejercicio es un buen uso del paquete worldfootballR y la función de ggplot2 geom_tile; además me va a servir para animarme esta segunda vuelta para que el Espanyol no sufra. La web que vamos a emplear para el trabajo es FBRef. Empezamos. ...

1 de marzo de 2023 · rvaquerizo

De una tabla en forma de matriz a una tabla con una columna. Funciones COINCIDIR y BUSCARV en Excel

En Excel nos encontramos con la necesidad de transformar matrices a columnas. El tema de la transposición con Excel ya se ha visto en el blog con anterioridad, siendo el pasar de varias columnas a una con código una de las entradas con más visitas de este sitio. El caso es que, en este caso, no es tan importante la transposición como la búsqueda de la celda mediante BUSCARV. La tarea que se expone es la siguiente: ...

18 de enero de 2023 · rvaquerizo

Enviar correos electrónicos con rstats. Librería emayili

En este trabajo se va a enviar un correo electrónico automático mediante RStats; para ello se empleará la librería de R emayili. Esta librería evita el uso de Java. Además, se adjuntará un archivo Excel a un correo electrónico; ese archivo se genera mediante openxlsx, que tampoco requiere Java, lo que evita problemas cuando no se tiene bien configurado Java en el entorno de R (por diversos motivos). Para ilustrar el ejemplo, se emplea el conocido data.frame iris y se enviarán vía email distintos subconjuntos de ese data.frame. ...

27 de septiembre de 2022 · rvaquerizo

Medidas dinámicas con Power BI

Se abre una nueva categoría en el blog dedicada al uso de herramientas para la elaboración de cuadros de mando y dashboards. En esta primera entrega trabajaremos con Power BI y la creación de medidas dinámicas para ver en un mismo gráfico una medida u otra en función de una segmentación. No es una labor “inmediata”; por ello he preferido ilustrar el trabajo con un vídeo donde, de forma velada, se pueden intuir mejoras y trucos a aplicar. ...

29 de julio de 2021 · rvaquerizo

Transponer data frames con R. De filas a columnas y de columnas a filas

Entrada para recordar cómo transponer data frames con R: cómo pasar de $n$ filas a $n$ columnas manteniendo campos identificativos y cómo pasar de columnas a filas y crear un campo identificativo. Siento que últimamente, más que un blog, tengo un cuaderno de apuntes, pero si estos apuntes pueden ayudar a alguien, mejor. En realidad, la entrada es un ejemplo ilustrativo de las funciones de tidyr pivot_wider y pivot_longer. Pasar de filas a columnas # install.packages("palmerpenguins") library(palmerpenguins) library(tidyr) library(dplyr) agregado_especies <- penguins %>% group_by(species, year) %>% summarise(bill_depth_mm = mean(bill_depth_mm, na.rm = TRUE)) %>% pivot_wider(names_from = year, values_from = bill_depth_mm, names_prefix = "ANIO_") Teníamos un campo por filas que contenía el año; hemos transpuesto por ese campo año y creado tantas variables (names_from) como años tengo para las variables numéricas deseadas (values_from); además, hemos creado esas variables con el prefijo ANIO_. ...

19 de mayo de 2021 · rvaquerizo

Incluir subplot en mapa con ggplot

Se ha trabajado un mapa de España con ggplot2 al que podemos añadir subplots en función de unas coordenadas; en este caso, es un mapa de España que incluye gráficos de líneas para cada Comunidad Autónoma. Vamos a representar el exceso de mortalidad que está suponiendo la pandemia por COVID, un dato que se puede seguir con MoMo del ISCIII. Los que seguís el blog ya conocéis una entrada en la que se escribió sobre la inclusión de pie charts en mapas con R; esta entrada supone ir un paso más allá. ...

8 de febrero de 2021 · rvaquerizo

Truco Excel. Repetir celdas en función de los valores de otra celda

En alguna ocasión me habéis planteado cómo repetir celdas en Excel en función del valor de una celda; es decir, repetir una celda tantas veces como nos indica otra celda. Disponía de una versión con fórmulas más complejas que programar el proceso en Visual Basic; si alguien está interesado, cuelgo un ejemplo en Excel sin describir el funcionamiento porque es muy complejo; quizá en el futuro retome esas fórmulas e intente simplificar el proceso. ...

4 de febrero de 2021 · rvaquerizo

Mapa España por Comunidades Autónomas con Google Studio

Continúo evaluando métodos para crear mapas con software que no sea de pago e intentando que la dificultad sea mínima. En este caso, quería mostraros y poner a vuestra disposición un mapa de España por Comunidades Autónomas; además, os dejo acceso libre a los datos que usa el mapa para que vosotros mismos podáis realizar el trabajo. Voy a pasaros dos enlaces: uno con los datos, donde tenemos cifras de pruebas PCR por 100.000 habitantes a nivel de comunidad autónoma (por representar algo); es ahí donde debéis incluir los datos que deseáis representar gráficamente. El otro enlace es el dashboard simple hecho con Data Studio que veis al inicio de la entrada, que contiene un mapa con el formato que en este momento necesito. Este trabajo es meramente experimental, porque pongo a disposición de todos tanto el mapa como la Hoja de Google; veremos lo que tarda en dejar de funcionar. ...

24 de septiembre de 2020 · rvaquerizo

Leer una tabla en PDF con Excel (a través de R)

Hay situaciones en las que tenemos datos in PDF y los necesitamos exportar a Excel para graficar o cruzar esos datos. In ocasiones es mejor meter esos datos a mano, otras veces disponemos de un software de pago que nos permite realizar esa tarea y también hay páginas web que nos permiten cambiar el formato del PDF. In nuestro caso, simplemente necesitamos una tabla que está in formato PDF para disponer de esos datos in Excel; más sencillo: copiar del PDF y pegar in Excel esa tabla. Si está in texto, el PDF se puede complicar y, si está in modo imagen, más. Si empleas Windows, esta entrada puede ser de utilidad, ya que usando R podrás hacer esta tarea de copiar PDF y pegar Excel de un modo más rápido; te cuento paso por paso en vídeo. ...

14 de septiembre de 2020 · rvaquerizo