Importar Datos

Lectura de archivos csv con Python y Pandas

A continuación os planteo un acercamiento básico a la lectura de archivos CSV con Python y algunos trucos para facilitar la vida cuando realizamos importaciones basados en la experiencia, como son leer los primeros registros del CSV o realizar una lectura de observaciones aleatoria por si el archivo es muy voluminoso. Para realizar las importaciones vamos a emplear Pandas y la función read_csv con sus infinitas opciones: pd.read_csv(filepath_or_buffer, sep=',', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression='infer', thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=None, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, doublequote=True, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None) Para trabajar la entrada vamos a necesitar dos archivos de texto: ...

Montemos un sistema de información en nuestro equipo (II)

Vamos a empezar a subir archivos a la BBDD. Evidentemente, lo primero que tenemos que hacer es crearnos una BBDD en Postgres. Con el PGAdmin creamos una nueva base de datos; disponemos de varias opciones, en nuestro caso no modificamos ninguna y creamos BD. Ya tenemos una BBDD funcionando y a la hora de conectarnos a ella tendremos que asignarle las propiedades necesarias para su correcto funcionamiento: Ya tenemos dispuesta la BBDD y ya podemos empezar a subir tablas. Para ello, ya os comenté que usaríamos el Data Integration de Pentaho (antes conocido como Kettle). La intención que tengo al montar este pequeño sistema de información es disponer de una serie de tablas para la realización de modelos estadísticos con R. Podría tener mi equipo lleno de ficheros de texto, de Excel y algún Access por ahí, pero es eso lo que pretendo evitar; con esto me garantizo un orden y un correcto acceso a mis tablas. Para comenzar a trabajar quiero subir una tabla del repositorio de datos UCI. Quiero seguir trabajando con el paquete e1071 de R y estoy analizando qué tablas son las que más se adecúan a mis objetivos; para ello tendré que cargar algunas y comprobar si los datos se adecúan a mis propósitos. ...

Truco SAS. Macro buscar y reemplazar en texto

A veces hay problemas a la hora de importar un fichero de texto a SAS. Por ejemplo, el fichero proviene de Access y tiene los números con formato europeo. El siguiente programa hace un buscar y reemplazar pero con SAS. Partimos de un fichero de texto ubicado en C:\temp\pepin.txt así: 4.497,31 2.776,50 2.555,46 6.782,73 3.752,77 8.791,32 1.599,49 6.903,17 8.584,16 7.050,30 8.061,74 2.605,04 3.666,99 7.319,29 751,63 1.919,96 5.635,12 4.795,78 9.714,18 5.342,31 9.160,85 9.752,27 7.609,17 2.409,43 1.855,36 8.768,07 1.715,74 4.031,63 8.775,23 7.256,52 2.339,50 9.234,67 6.268,95 1.531,50 4.406,24 5.395,50 Y ejecutamos el siguiente código SAS: ...