Manejo de datos básico con Python datatable

Nueva entrada dedicada al **data management con Python** , esta vez con datatable. No voy a justificar el uso de datatableantes quepandas, en un vistazo rápido por la web encontráis numerosas ocasiones en las que datatablees más eficiente quepandasen el manejo de datos conPython. En cuanto a la complejidad en el uso de uno u otro mi opinión no es objetiva porque me cuesta mucho trabajar con Pandas`. Asumo que habéis instalado datatable en vuestro entorno de Python (siempre por encima de la versión 3.5) y una vez está instalado os propongo obtener un conjunto de datos del repositorio de analisisydecision. Por supuesto la carga de este csv de ejemplo la realizamos con datatable y la función fread: ...

8 de octubre de 2020 · rvaquerizo

Tipos de uniones (join) de tablas con `Python Pandas`

Recopilación de las uniones más habituales con Python Pandas en una sola entrada. No se realiza equivalencias con sql join, la intención es tener de forma resumida los códigos para realizar left join inner join y concatenación de data frames de Pandas. Hay amplia documentación esto es una síntesis. Los data frames empleados para ilustrar el ejemplo son: import pandas as pd import numpy as np ejemplo = { "variable1": [10, 20, 30, 40], "variable2": [100, 200, 300, 400] } anio=["2011", "2012", "2013", "2014"] df1 = pd.DataFrame(ejemplo,index=anio) df1 ejemplo = { "variable1": [50, 60, 70, 80], "variable3": [5000, 6000, 7000, 8000] } anio=["2013", "2014", "2015", "2016"] df2 = pd.DataFrame(ejemplo,index=anio) df2 Uniones de data frames con índices La estructura de una join con Pandas es: ...

16 de mayo de 2020 · rvaquerizo

Leer archivos Excel con Python

Entrada sobre la importación de Excel con Python, un aporte que sirve para mi documentación y que es posible que sea de ayuda para muchos que se estén iniciando en el uso de Python y Pandas, aunque en este caso para la lectura del Excel usaremos tanto Pandas como la librería xlrd. Lectura de Excel con Pandas Lo más sencillo para importarnos en Python un Excel y crearnos un data frame de Pandas es: ...

1 de abril de 2020 · rvaquerizo

Lectura de archivos csv con Python y Pandas

A continuación os planteo un acercamiento básico a la lectura de archivos csv con Python y algunos trucos para facilitar la vida cuando realizamos importaciones basados en la experiencia como son leer los primeros registros del csv o realizar una lectura de observaciones aleatoria por si el archivo es muy voluminoso. Para realizar las importaciones vamos a emplear Pandas y la función read_csv con sus infititas opciones: pd.read_csv(filepath_or_buffer, sep=', ', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression='infer', thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=None, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, doublequote=True, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None) Para trabajar la entrada vamos a necesitar dos archivos de texto: ...

30 de abril de 2019 · rvaquerizo

Data Management básico con Pandas

Entrada dedicada al manejo de datos más básico con Python y Pandas, es análoga a otra ya realizada con dplyr para R. Sirve para tener en un vistazo las tareas más habituales que realizamos en el día a día con Pandas. Para aquel que se esté introduciendo al uso de Python puede ser de utilidad tener todo junto y más claro, a mi personalmente me sirve para no olvidar cosas que ya no uso. En una sola entrada recogemos las dudas más básicas cuando nos estamos iniciando con Python. Las tareas más comunes son: ...

26 de abril de 2019 · rvaquerizo

Truco Python. Reemplazar una cadena de caracteres en los nombres de las columnas de un data frame

Más largo el título de la entrada que la entrada en si misma. Tenemos un conjunto de datos que os podéis descargar de este link que ya es conocido. Os descargáis los datos y creamos un data frame que tiene 10.000 registros y 251 columnas, casi todas se llaman attx y queremos cambiar el nombre a columna_x. Mi sugerencia para hacerlo vía pandas es: import pandas as pd df = pd.read_csv('C:\temp\wordpress\au2_10000.csv') df.head() df.columns = df.columns.str.replace('att','columna_') df.head() Espero que sea de utilidad. Saludos.

22 de julio de 2017 · rvaquerizo