Introducción a la Estadística para Científicos de Datos. Capítulo 6. Descripción numérica de variables

Descripción numérica de variables Se comienza con la recopilación de datos, la tabulación de los mismos y el establecimiento de la tipología y el rol que juegan éstos en el conjunto de datos. Establecido ese marco es necesario describir datos, recordemos que por si mismos los datos no dicen nada, no resuelven nada. Esa información la suministra un análisis. Transformar datos en información Recordando lo tratado en el capítulo 2, el álgebra lineal define el análisis estadístico, la estructura más sencilla es el vector donde aplicaría el análisis univariable, el inicio de todo. Si se dispone de más de una variable ya podemos disponer esa serie de datos en forma matricial, buscar estructuras dentro de esas matrices nos produce el análisis multivariable. Conforme ha mejorado la capacidad de computación se han podido crear sistemas estadísticos capaces de aprender de los propios datos, al conjunto de análsis basados en estos sistemas se le denomina machine learning. Actualmente, se está avanzando más, hay entornos más sofisticados capaces de trabajar con tensores matemáticos, estructuras algebraicas multidimensionales que permiten implementar algoritmos que imitan los procesos de aprendizaje humano, este conjunto de técnicas y algoritmos se recogen dentro del ámbito de la inteligencia artificial. ...

27 de febrero de 2022 · rvaquerizo

Introducción a la Estadística para Científicos de Datos. Capítulo 5. Representación gráfica básica con ggplot

Además del manejo de datos es necesario tener conocimientos de representación de datos. En este trabajo se va a emplear la librería de R ggplot y se trabajarán las representaciones gráficas básicas que ha de manejar un científico de datos. Se pueden explorar las múltiples posibilidades que ofrece esta librería en la web Statistical tools for high-throughput data analysis que dispone de un gran número de recursos para R entre los que destaca el uso del paquete ggplot. ...

27 de enero de 2022 · rvaquerizo

Introducción a la Estadística para Científicos de Datos. Capítulo 4. Uniones de tablas con R

Además de manejar los datos de un data frame en ocasiones es necesario realizar uniones entre conjuntos de datos para crear o añadir nuevas variables a un data frame que es una base de observaciones inicial. Se pueden establecer 2 tipos de uniones fundamentales, uniones verticales de tablas y uniones horizontales. Las uniones verticales serán las concatenaciones de data frames, poner una estructura de datos encima de otra y las uniones horizontales serán las que se denominarán join. ...

18 de enero de 2022 · rvaquerizo

Introducción a la Estadística para Científicos de Datos. Capítulo 3. Manejo de datos con R

Universo tidyverse En el capítulo anterior se iniciaba el método dialéctico a utilizar en el resto del ensayo fundamentado en la idea de transformar datos en información mediante análisis estadístico con el software R. Los datos a explotar tienen una estructura tabular que llamamos data frame. Esta estructura contiene observaciones y variables sobre las que se fundamenta la labor del científico de datos ya que son ellas las que plantean y resuelven problemas. Para trabajar con data frames en R disponemos de un entorno conocido como tidyverse que engloba un gran número de librerías de R. ...

7 de enero de 2022 · rvaquerizo

Introducción a la Estadística para Científicos de Datos con R. Capítulo 2. Datos

Qué son los datos Los datos están en boca de todos , “la nueva revolución industrial”, “el nuevo petróleo”, «el nuevo plutonio»,… pero ¿qué son los datos? Si nos dirigimos al diccionario de la Real Academia tenemos: m. Información sobre algo concreto que permite su conocimiento exacto o sirve para deducir las consecuencias derivadas de un hecho. A este problema le faltan datos numéricos. m. Documento, testimonio, fundamento. m. Inform. Información dispuesta de manera adecuada para el tratamiento por una computadora. Base de datos: Conjunto de datos organizado de tal modo que permita obtener con rapidez diversos tipos de información. Parece que la tercera acepción es la correcta pero los datos no son información , nos van a permitir obtener información, ésta se obtiene mediante un análisis estadístico. Disponer datos de forma organizada no es información. Es la estadística a través de un análisis descriptivo, a través de un modelo o a través de un algoritmo la que obtiene la información. Un científico de datos es un gestor, coge datos y los transforma en información a través de análisis estadísticos más o menos complejos. ...

5 de enero de 2022 · rvaquerizo

Comienza la publicación del ensayo Introducción a la Estadística para Científicos de Datos con R

En Twitter ya hice mención a la creación de un libro/ensayo de introducción a la Estadística para científicos de datos con R. Me preocupaba como compartir el libro y como podría ser útil a alguien que se está introduciendo en la ciencia de datos. Estoy escribiendo un libro: Estadística para científicos de datos con R. ¿Lo subo a git? ¿Lo acabo y hago la web? ¿Lo pongo en el blog por entregas? ...

1 de enero de 2022 · rvaquerizo

Vídeo introducción a bookdown

Una introducción a bookdown con R y RStudio para la creación de libros y contenido web. Esta entrada sienta las bases de un proyecto que estoy llevando a cabo, la creación de mi propio libro de introducción a la estadística. Además, debido a la sencillez de uso y como interacciona con R o Python creo que bookdown puede ser un buen sustituto a nuestras aburridas presentaciones. Desde una serie de notebooks podemos crear nuestas historias y nuestros alumnos pueden interaccionar con ellas empleando el código de ejemplo que usamos en ellas. ...

27 de diciembre de 2021 · rvaquerizo

Representar polígonos de Voronoi dentro de un polígono

No es la primera vez que traigo al blog la realización de polígonos de Voronoi pero hoy la entrada está más orientada a la representación gráfica con #rstats y ggplot. En este caso deseamos crear polígonos de Voronoi en función del centro geográfico de las provincias españolas. Origen de los datos El pasado 25 de noviembre el Grupo de Usuarios de R de Madrid trajo la presentación de @dieghernan sobre la creación de mapas con la librería mapSpain que será la que nos permita crear mapas de españa a distintos niveles, entre ellos mapas a nivel provincial mediante un código en R que no puede ser más sencillo: ...

29 de noviembre de 2021 · rvaquerizo

Trabajar con los datos de Power BI desde R para hacer un modelo de regresión lineal

Vídeo dedicado al uso de la librería de R pbix. Responde a una duda planteada por un lector que deseaba realizar un modelo de regresión lineal con Power BI. Imagino que se podrá programar en DAX, pero es mejor llevar los datos, las tablas necesarias, de Power BI a un software específico para poder realizar el modelo como es Python o R en este caso. Desde Power BI podemos realizar scripts de R pero recomiendo este primer paso para crear y validar el modelo, posteriormente podemos poner el programa de R con nuestra regresión lineal directamente en Power BI. El código empleado es: ...

4 de octubre de 2021 · rvaquerizo

Rstats + Shiny + Leaftlet -> Mapas interactivos muy sencillos

Entrada en la que os mostraré como hacer un mapa con Leaflet en R que además añadimos a un Shiny para poder filtrar datos de forma interactiva. Ya mostramos en el blog como crear mapas marcando coordenadas con Leaflet y R de forma muy sencilla y hoy damos una vuelta de tuerca a aquella entrada, las coordenadas que deseamos representar tienen además, algún factor por el que hay especial interés en realizar un filtrado del mapa. Para ilustrar el ejemplo nos vamos a ir al Centro de descargas del Centro Nacional de Información Geográfica y nos bajamos del servidor los datos municipales en concreto a Nomenclátor Geográfico de Municipios y Entidades de Población, descargamos el archivo y tenemos un zip que contiene un csv llamado MUNICIPIOS.CSV ...

29 de septiembre de 2021 · rvaquerizo