Truco Python. Pasar múltiples archivos pdf a texto

Estoy realizando un trabajo de scraping de archivos que genera una entidad estatal en .pdf y es necesario transformar esos archivos .pdf en archivos .txt para un análisis de minería de textos. Los archivos que genera esta entidad estatal me los he descargado vía php y los he alojado en una carpeta específica, por lo que será necesario recorrer esa carpeta e ir cambiando de .pdf a texto cada archivo de esa carpeta (y subcarpetas); por ello el truco se divide en dos partes. ...

2 de febrero de 2024 · rvaquerizo

Actor senil: Las mejores palabras para iniciar en Wordle en castellano

Creo que cualquier persona con conocimientos de estadística cada vez que juega a un juego de probabilidades (¿el 99.9% de los juegos existentes?) lo primero que piensa, por deformación profesional, es en cómo inferir un patrón ganador para optimizar sus movimientos. Por ejemplo, en el juego de Los colonos de Catán, donde se juega con dos dados, nunca elegiría situar mi poblado en la celda 2 o 12 (con probabilidades de 1/36) estando libres la 6 o la 8 (probabilidades de 5/36). De hecho, el 7, que es la suma más probable (6/36), está reservada para mover el ladrón y así equilibrar las posiciones del tablero. ...

8 de febrero de 2022 · Paco Gárate

Creando archivos Excel desde Python con Pandas y ExcelWriter

Crear archivos Excel desde un data.frame de Python Pandas nos va a servir para tener unos breves apuntes de ExcelWriter y algunos ejemplos de manipulación de archivos Excel desde Python. Para este ejemplo, vamos a trabajar con un archivo que está en el blog y, por ello, el primer paso será descargar el Excel para crear el data.frame de trabajo: import requests import pandas as pd arch = "https://analisisydecision.es/images/2021/10/ejemplo_python.xlsx" resp = requests.get(arch) salida = open('c:/temp/ejemplo_python.xlsx', 'wb') salida.write(resp.content) salida.close() En este punto ya podemos crear nuestro data.frame leyendo directamente el Excel con Pandas: ...

18 de octubre de 2021 · rvaquerizo

Gráficos descriptivos básicos con Seaborn Python

Revisión de los gráficos más habituales que realizaremos en labores descriptivas de variables con Python; se emplea Seaborn para ilustrar estos ejemplos. El tipo de gráfico dependerá del tipo de variable que deseamos describir e incluso del número de variables que deseamos describir. Como aproximación inicial, describiremos variables cuantitativas o variables cualitativas, análisis univariables o análisis bivariables. Se trabaja con el conjunto de datos iris: import seaborn as sns import pandas as pd import numpy as np import io import requests url = 'https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv' s = requests.get(url).content df = pd.read_csv(io.StringIO(s.decode('utf-8'))) df.head() Análisis univariables Variables cuantitativas Cuando describimos variables cuantitativas, lo principal es conocer su forma, sobre qué valores se hallan los datos y cómo son de dispersos; para ello, el gráfico estrella es el histograma: ...

9 de agosto de 2021 · rvaquerizo

Animación de un mapa con Python. Porcentaje de vacunas administradas

Las animaciones con Python que mostramos hoy, al final, son animaciones con ImageMagick, pero esta entrada es un ejemplo de cómo podemos usar Python para la creación de gráficos que posteriormente generarán esa animación con las instrucciones concretas de ImageMagick (que tiene que estar instalado). La idea es realizar un mapa animado con el porcentaje de vacunas de COVID administradas. Obtención de datos Los datos los descargamos directamente del GitHub de datadista. ...

22 de marzo de 2021 · rvaquerizo

R + Python = reticulate

He sido reticente a usar reticulate con R porque no me gusta R Markdown y, si he trabajado con Python, no he necesitado R y viceversa. Ahora tengo en mente algún juego/proyecto de esos que se quedan siempre en el tintero por falta de tiempo o interés, pero me están sirviendo para elaborar unos apuntes sobre R Markdown y Python que voy a sintetizaros en esta entrada por si a alguien le fuera de utilidad. ...

26 de noviembre de 2020 · rvaquerizo

Leer fichero de texto de ancho fijo con Python Pandas

Es muy habitual trabajar con archivos CSV, pero en ocasiones disponemos de ficheros de texto con determinado formato o con ancho fijo para las columnas. Hace tiempo ya escribí sobre la lectura de archivos CSV con Python y Pandas, pero en esta ocasión vamos a leer archivos que no tienen un separador. Evidentemente tienen que darnos el formato del archivo; en este caso, para ilustrar el ejemplo, vamos a pasar un código en R a un código en Python. ...

17 de septiembre de 2020 · rvaquerizo

Calendario de días laborales con Pandas

Es habitual escuchar que un científico de datos es un estadístico que trabaja con Python. En parte, tiene razón. Sin embargo, quien ha trabajado dentro del mundo académico sabe que para un estadístico las vacas son esféricas y los meses tienen 365,25/12 días. En cambio, en el mundo real, ni hay dos vacas iguales ni un mes igual a otro. Sirva esta entrada para poner en valor todo aquel trabajo adicional y tiempo dedicado por aquellos que trabajan con datos y huyen de simplificaciones estadísticas, ya se denominen científicos de datos o cómo quieran llamarse. ...

1 de julio de 2019 · Paco Gárate

Recopilación Data Science Cheat Sheet

No sé cómo me ha llegado esta recopilación de Cheat Sheets para la Ciencia de Datos, pero viendo el trabajo que realizan algunas personas aún es posible creer en la humanidad. Disfrutad del enlace y ya estamos todos siguiendo el git de este gran tipo: https://github.com/abhat222/Data-Science–Cheat-Sheet

2 de abril de 2019 · rvaquerizo

Truco Python. Seleccionar o eliminar variables de un data frame en base a un prefijo, sufijo o si contienen un caracter

A la hora de seleccionar las características de un data frame, es posible que nos encontremos con la necesidad de seleccionar o eliminar características del data frame y que el nombre de esas características tenga un determinado patrón. Esta labor la podemos realizar mediante selección de elementos en listas; en esta entrada del blog vamos a tener tres tipos de selecciones: Seleccionar o eliminar aquellas variables que empiezan por un determinado prefijo. Seleccionar o eliminar aquellas variables que contienen una cadena de caracteres. Seleccionar o eliminar aquellas variables que finalizan con un sufijo. Para ilustrar este trabajo, generamos un data frame con datos aleatorios y 10 columnas: ...

22 de mayo de 2018 · rvaquerizo