Libro Estadística

Introducción a la Estadística para Científicos de Datos. Capítulo 4. Uniones de tablas con R

Además de manejar los datos de un data frame en ocasiones es necesario realizar uniones entre conjuntos de datos para crear o añadir nuevas variables a un data frame que es una base de observaciones inicial. Se pueden establecer 2 tipos de uniones fundamentales, uniones verticales de tablas y uniones horizontales. Las uniones verticales serán las concatenaciones de data frames, poner una estructura de datos encima de otra y las uniones horizontales serán las que se denominarán join.

Introducción a la Estadística para Científicos de Datos. Capítulo 3. Manejo de datos con R

Universo tidyverse

En el capítulo anterior se iniciaba el método dialéctico a utilizar en el resto del ensayo fundamentado en la idea de transformar datos en información mediante análisis estadístico con el software R. Los datos a explotar tienen una estructura tabular que llamamos data frame. Esta estructura contiene observaciones y variables sobre las que se fundamenta la labor del científico de datos ya que son ellas las que plantean y resuelven problemas. Para trabajar con data frames en R disponemos de un entorno conocido como tidyverse que engloba un gran número de librerías de R.

Introducción a la Estadística para Científicos de Datos con R. Capítulo 2. Datos

Qué son los datos

Los datos están en boca de todos , “la nueva revolución industrial”, “el nuevo petróleo”, «el nuevo plutonio»,… pero ¿qué son los datos? Si nos dirigimos al diccionario de la Real Academia tenemos:

  1. m. Información sobre algo concreto que permite su conocimiento exacto o sirve para deducir las consecuencias derivadas de un hecho. A este problema le faltan datos numéricos.
  2. m. Documento, testimonio, fundamento.
  3. m. Inform. Información dispuesta de manera adecuada para su tratamiento por una computadora.
    Base de datos: Conjunto de datos organizado de tal modo que permita obtener con rapidez diversos tipos de información.

Parece que la tercera acepción es la correcta pero los datos no son información , nos van a permitir obtener información, ésta se obtiene mediante un análisis estadístico. Disponer datos de forma organizada no es información. Es la estadística a través de un análisis descriptivo, a través de un modelo o a través de un algoritmo la que obtiene la información. Un científico de datos es un gestor, coge datos y los transforma en información a través de análisis estadísticos más o menos complejos.

Comienza la publicación del ensayo Introducción a la Estadística para Científicos de Datos con R

En Twitter ya hice mención a la creación de un libro/ensayo de introducción a la Estadística para Científicos de Datos. Me preocupaba como compartir el libro y como podría ser útil a alguien que se está introduciendo en la ciencia de datos.

Estoy escribiendo un libro: Estadística para científicos de datos con R.

¿Lo subo a git?
¿Lo acabo y hago la web?
¿Lo pongo en el blog por entregas?