Python

Truco Python. Pasar múltiples archivos pdf a texto

Estoy realizando un trabajo de scraping de archivos que genera una entidad estatal en .pdf y es necesario transformar esos archivos .pdf en archivos .txt para un análisis de minería de textos. Los archivos que genera esta entidad estatal me los he descargado vía php y los he alojado en una carpeta específica, por lo que será necesario recorrer esa carpeta e ir cambiando de .pdf a texto cada archivo de esa carpeta (y subcarpetas); por ello el truco se divide en dos partes. ...

Actor senil: Las mejores palabras para iniciar en Wordle en castellano

Creo que cualquier persona con conocimientos de estadística cada vez que juega a un juego de probabilidades (¿el 99.9% de los juegos existentes?) lo primero que piensa, por deformación profesional, es en cómo inferir un patrón ganador para optimizar sus movimientos. Por ejemplo, en el juego de Los colonos de Catán, donde se juega con dos dados, nunca elegiría situar mi poblado en la celda 2 o 12 (con probabilidades de 1/36) estando libres la 6 o la 8 (probabilidades de 5/36). De hecho, el 7, que es la suma más probable (6/36), está reservada para mover el ladrón y así equilibrar las posiciones del tablero. ...

Creando archivos Excel desde Python con Pandas y ExcelWriter

Crear archivos Excel desde un data.frame de Python Pandas nos va a servir para tener unos breves apuntes de ExcelWriter y algunos ejemplos de manipulación de archivos Excel desde Python. Para este ejemplo, vamos a trabajar con un archivo que está en el blog y, por ello, el primer paso será descargar el Excel para crear el data.frame de trabajo: import requests import pandas as pd arch = "https://analisisydecision.es/images/2021/10/ejemplo_python.xlsx" resp = requests.get(arch) salida = open('c:/temp/ejemplo_python.xlsx', 'wb') salida.write(resp.content) salida.close() En este punto ya podemos crear nuestro data.frame leyendo directamente el Excel con Pandas: ...

Gráficos descriptivos básicos con Seaborn Python

Revisión de los gráficos más habituales que realizaremos en labores descriptivas de variables con Python; se emplea Seaborn para ilustrar estos ejemplos. El tipo de gráfico dependerá del tipo de variable que deseamos describir e incluso del número de variables que deseamos describir. Como aproximación inicial, describiremos variables cuantitativas o variables cualitativas, análisis univariables o análisis bivariables. Se trabaja con el conjunto de datos iris: import seaborn as sns import pandas as pd import numpy as np import io import requests url = 'https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv' s = requests.get(url).content df = pd.read_csv(io.StringIO(s.decode('utf-8'))) df.head() Análisis univariables Variables cuantitativas Cuando describimos variables cuantitativas, lo principal es conocer su forma, sobre qué valores se hallan los datos y cómo son de dispersos; para ello, el gráfico estrella es el histograma: ...

Animación de un mapa con Python. Porcentaje de vacunas administradas

Las animaciones con Python que mostramos hoy, al final, son animaciones con ImageMagick, pero esta entrada es un ejemplo de cómo podemos usar Python para la creación de gráficos que posteriormente generarán esa animación con las instrucciones concretas de ImageMagick (que tiene que estar instalado). La idea es realizar un mapa animado con el porcentaje de vacunas de COVID administradas. Obtención de datos Los datos los descargamos directamente del GitHub de datadista. ...

Mapas estáticos de Perú con R y Python a nivel de Distrito

Petición de un lector: un código de ejemplo para hacer mapas de Perú con R y con Python. Estos ejemplos quedan resumidos en un solo sitio y se va a emplear un notebook desde RStudio donde tendremos bloques de R y Python en función de lo que necesitemos. Mapa de Perú con R y ggplot2 library(tidyverse) library(reticulate) library(raster) library(maptools) # Obtenemos datos de GADM peru_shp <- getData('GADM', country = 'Peru', level = 2) # Convertimos a data frame para ggplot2 peru_df <- fortify(peru_shp, region = "NAME_2") # Generamos datos aleatorios para ilustrar distritos <- data.frame(id = unique(peru_df$id)) distritos$aleatorio <- runif(nrow(distritos), 10, 30) # Unimos datos con el mapa peru_plot <- left_join(peru_df, distritos, by = "id") # Pintamos el mapa ggplot(data = peru_plot, aes(x = long, y = lat, group = group)) + geom_polygon(aes(fill = aleatorio)) + scale_fill_continuous(low = "white", high = "red") + theme_minimal() Código conocido: obtenemos el mapa de GADM con nivel 2 (distritos). Mediante fortify (o map_data) creamos el data frame que necesita ggplot2. En este caso genero unos datos aleatorios; en vuestro caso tendríais que cruzar vuestros datos (siempre es mejor emplear una codificación INE o similar en vez del nombre). El resultado: ...

R + Python = reticulate

He sido reticente a usar reticulate con R porque no me gusta R Markdown y, si he trabajado con Python, no he necesitado R y viceversa. Ahora tengo en mente algún juego/proyecto de esos que se quedan siempre en el tintero por falta de tiempo o interés, pero me están sirviendo para elaborar unos apuntes sobre R Markdown y Python que voy a sintetizaros en esta entrada por si a alguien le fuera de utilidad. ...

Manejo de datos básico con Python datatable

Nueva entrada dedicada al data management con Python, esta vez con datatable. No voy a justificar el uso de datatable antes que pandas, en un vistazo rápido por la web encontráis numerosas ocasiones en las que datatable es más eficiente que pandas en el manejo de datos con Python. En cuanto a la complejidad en el uso de uno u otro mi opinión no es objetiva porque me cuesta mucho trabajar con pandas. ...

Leer fichero de texto de ancho fijo con Python Pandas

Es muy habitual trabajar con archivos CSV, pero en ocasiones disponemos de ficheros de texto con determinado formato o con ancho fijo para las columnas. Hace tiempo ya escribí sobre la lectura de archivos CSV con Python y Pandas, pero en esta ocasión vamos a leer archivos que no tienen un separador. Evidentemente tienen que darnos el formato del archivo; en este caso, para ilustrar el ejemplo, vamos a pasar un código en R a un código en Python. ...

Tipos de uniones (join) de tablas con Python Pandas

Recopilación de las uniones más habituales con Python Pandas en una sola entrada. No se realizan equivalencias con SQL join, la intención es tener de forma resumida los códigos para realizar left join, inner join y concatenación de data frames de Pandas. Hay amplia documentación; esto es una síntesis. Los data frames empleados para ilustrar el ejemplo son: import pandas as pd import numpy as np ejemplo1 = { "variable1": [10, 20, 30, 40], "variable2": [100, 200, 300, 400] } anio1 = ["2011", "2012", "2013", "2014"] df1 = pd.DataFrame(ejemplo1, index=anio1) ejemplo2 = { "variable1": [50, 60, 70, 80], "variable3": [5000, 6000, 7000, 8000] } anio2 = ["2013", "2014", "2015", "2016"] df2 = pd.DataFrame(ejemplo2, index=anio2) Uniones de data frames con índices La estructura de una join con Pandas es: ...