Formación

Introducción a la Estadística para Científicos de Datos. Capítulo 6. Descripción numérica de variables

Descripción numérica de variables Se comienza con la recopilación de datos, la tabulación de los mismos y el establecimiento de la tipología y el rol que juegan estos en el conjunto de datos. Establecido ese marco, es necesario describir los datos; recordemos que, por sí mismos, los datos no dicen nada, no resuelven nada. Esa información la suministra un análisis. Transformar datos in información Recordando lo tratado en el capítulo 2, el álgebra lineal define el análisis estadístico; la estructura más sencilla es el vector, donde aplicaría el análisis univariable: el inicio de todo. Si se dispone de más de una variable, ya podemos disponer esa serie de datos in forma matricial; buscar estructuras dentro de esas matrices nos produce el análisis multivariable. Conforme ha mejorado la capacidad de computación, se han podido crear sistemas estadísticos capaces de aprender de los propios datos; al conjunto de análisis basados en estos sistemas se le denomina machine learning. Actualmente se está avanzando más: hay entornos más sofisticados capaces de trabajar con tensores matemáticos, estructuras algebraicas multidimensionales que permiten implementar algoritmos que imitan los procesos de aprendizaje humano; este conjunto de técnicas y algoritmos se recogen dentro del ámbito de la inteligencia artificial. ...

Introducción a la Estadística para Científicos de Datos. Capítulo 5. Representación gráfica básica con ggplot

Además del manejo de datos, es necesario tener conocimientos de representación de datos. En este trabajo se va a emplear la librería de R ggplot2 y se trabajarán las representaciones gráficas básicas que ha de manejar un científico de datos. Se pueden explorar las múltiples posibilidades que ofrece esta librería en la web Statistical tools for high-throughput data analysis, que dispone de un gran número de recursos para R entre los que destaca el uso del paquete ggplot2. ...

Introducción a la Estadística para Científicos de Datos. Capítulo 4. Uniones de tablas con R

Además de manejar los datos de un data.frame, en ocasiones es necesario realizar uniones entre conjuntos de datos para crear o añadir nuevas variables a un data.frame que es una base de observaciones inicial. Se pueden establecer dos tipos de uniones fundamentales: uniones verticales de tablas y uniones horizontales. Las uniones verticales serán las concatenaciones de data.frames (poner una estructura de datos encima de otra) y las uniones horizontales serán las que se denominarán join. ...

Introducción a la Estadística para Científicos de Datos. Capítulo 3. Manejo de datos con R

Universo tidyverse En el capítulo anterior se iniciaba el método dialéctico a utilizar en el resto del ensayo, fundamentado en la idea de transformar datos in información mediante análisis estadístico con el software R. Los datos a explotar tienen una estructura tabular que llamamos data.frame. Esta estructura contiene observaciones y variables sobre las que se fundamenta la labor del científico de datos, ya que son ellas las que plantean y resuelven problemas. Para trabajar con data.frames in R, disponemos de un entorno conocido como tidyverse que engloba un gran número de librerías. ...

Introducción a la Estadística para Científicos de Datos con R. Capítulo 2. Datos

Qué son los datos Los datos están in boca de todos, «la nueva revolución industrial», «el nuevo petróleo», «el nuevo plutonio»… pero ¿qué son los datos? Si nos dirigimos al diccionario de la Real Academia, tenemos: m. Información sobre algo concreto que permite su conocimiento exacto o sirve para deducir las consecuencias derivadas de un hecho. A este problema le faltan datos numéricos. m. Documento, testimonio, fundamento. m. Inform. Información dispuesta de manera adecuada para el tratamiento por una computadora. Base de datos: Conjunto de datos organizado de tal modo que permita obtener con rapidez diversos tipos de información. Parece que la tercera acepción es la correcta, pero los datos no son información: nos van a permitir obtener información; esta se obtiene mediante un análisis estadístico. Disponer datos de forma organizada no es información. Es la estadística, a través de un análisis descriptivo, a través de un modelo o a través de un algoritmo, la que obtiene la información. Un científico de datos es un gestor: coge datos y los transforma in información a través de análisis estadísticos más o menos complejos. ...

Comienza la publicación del ensayo Introducción a la Estadística para Científicos de Datos con R

En Twitter ya hice mención a la creación de un libro/ensayo de introducción a la Estadística para científicos de datos con R. Me preocupaba cómo compartir el libro y cómo podría ser útil a alguien que se está introduciendo en la ciencia de datos. Estoy escribiendo un libro: Estadística para científicos de datos con R. ¿Lo subo a Git? ¿Lo acabo y hago la web? ¿Lo pongo en el blog por entregas? ...

Introducción a la Estadística para Científicos de Datos con R. Capítulo 1. Introducción

Este contenido está sujeto a una licencia Creative Commons. Todo el contenido estará dispuesto en un repositorio de Git y se irá publicando de forma paralela en mi blog Análisis y Decisión. Objetivos Hay muchos y mejores, pero he creado mi propio trabajo de introducción a la estadística en la ciencia de datos para dar mi visión particular del oficio y quiero que sirva para contar historias sobre la estadística desde otro prisma. Se emplea un título comercial donde aparece el término Científico de datos; personalmente no creo que nuestro trabajo consista en hacer ciencia con los datos, pero en el día a día del llamado científico de datos se aplican análisis estadísticos que nos permiten describir o descubrir problemas, sugerir soluciones a esos problemas y, mediante diseño de experimentos, pilotar o medir la eficiencia de esas soluciones. De este modo, la estadística es uno de los pilares sobre los que se fundamenta eso que comercialmente se denomina Ciencia de Datos. ...

Representar polígonos de Voronoi dentro de un polígono

No es la primera vez que traigo al blog la realización de polígonos de Voronoi, pero hoy la entrada está más orientada a la representación gráfica con #rstats y ggplot2. En este caso, deseamos crear polígonos de Voronoi en función del centro geográfico de las provincias españolas. Origen de los datos El pasado 25 de noviembre, el Grupo de Usuarios de R de Madrid trajo la presentación de @dieghernan sobre la creación de mapas con la librería mapSpain, que permite crear mapas de España a distintos niveles, entre ellos mapas a nivel provincial mediante un código en R que no puede ser más sencillo: ...

Creando archivos Excel desde Python con Pandas y ExcelWriter

Crear archivos Excel desde un data.frame de Python Pandas nos va a servir para tener unos breves apuntes de ExcelWriter y algunos ejemplos de manipulación de archivos Excel desde Python. Para este ejemplo, vamos a trabajar con un archivo que está en el blog y, por ello, el primer paso será descargar el Excel para crear el data.frame de trabajo: import requests import pandas as pd arch = "https://analisisydecision.es/images/2021/10/ejemplo_python.xlsx" resp = requests.get(arch) salida = open('c:/temp/ejemplo_python.xlsx', 'wb') salida.write(resp.content) salida.close() En este punto ya podemos crear nuestro data.frame leyendo directamente el Excel con Pandas: ...

Gráficos Básicos con Julia

De forma análoga a otras entradas sobre análisis gráficos básicos, empezamos a trabajar con las posibilidades gráficas de Julia. A continuación, se recogerán el 80% de los gráficos que un científico de datos realizará en su vida profesional; el 20% restante se abordará en otras entradas. Emplearemos el conjunto de datos penguins para ilustrar los ejemplos: using CSV using DataFrames using HTTP url = "https://raw.githubusercontent.com/mwaskom/seaborn-data/master/penguins.csv" res = HTTP.get(url) penguins = DataFrame(CSV.File(res.body)) using Pkg Pkg.add("Plots") Pkg.add("StatsPlots") Descripción univariable Variables cuantitativas Histogramas con Julia: ...