Este contenido está sujeto a una licencia Creative Commons.

Todo el contenido estará dispuesto en un repositorio de Git y se irá publicando de forma paralela en mi blog Análisis y Decisión.

Objetivos

Hay muchos y mejores, pero he creado mi propio trabajo de introducción a la estadística en la ciencia de datos para dar mi visión particular del oficio y quiero que sirva para contar historias sobre la estadística desde otro prisma. Se emplea un título comercial donde aparece el término Científico de datos; personalmente no creo que nuestro trabajo consista en hacer ciencia con los datos, pero en el día a día del llamado científico de datos se aplican análisis estadísticos que nos permiten describir o descubrir problemas, sugerir soluciones a esos problemas y, mediante diseño de experimentos, pilotar o medir la eficiencia de esas soluciones. De este modo, la estadística es uno de los pilares sobre los que se fundamenta eso que comercialmente se denomina Ciencia de Datos.

Como se ha comentado con anterioridad, es mejor leer otros trabajos y por ahí da comienzo este ensayo; las referencias empleadas son:

Los aspectos teóricos están sacados del material que publica José R. Berrendero y se recomienda seguir todo su trabajo en la web.

Aunque se hará referencia a las publicaciones concretas, las cuentas de Twitter que inspiran algunos capítulos son:

Esta serie monográfica será similar a la formación que he impartido en empresas, universidades y escuelas de negocio desde hace algunos años. Los capítulos de los que se compone este ensayo son:

  • Datos
  • Manejo de datos con R
  • Uniones de tablas con R
  • Representar datos con ggplot2
  • Análisis univariable
  • Problemas que plantean las variables

Visión completamente práctica y desde el punto de vista frecuente que será distinta a lo que se puede encontrar en otros foros. Cada tema tendrá una sección descriptiva y una sección práctica con R.

Entorno de trabajo

Se asume un conocimiento básico de R y su entorno, aunque no es necesario ser un usuario avanzado. Como se hizo mención, entre los objetivos está el contar historias con la estadística desde otro punto de vista, y para ello la herramienta con la que se va a contar esta misma historia es Markdown desde RStudio a través de la librería bookdown; por este motivo es necesario disponer de RStudio e instalar las librerías necesarias para crear Markdown. Los paquetes que se van a emplear a lo largo del curso serán:

  • readxl
  • tidyverse
  • lubridate
  • sqldf
  • raster
  • DataExplorer
  • formattable
  • MASS
  • car
  • rmarkdown
  • knitr
  • bookdown

Estas librerías de R se emplearán en casos prácticos pero no son estrictamente necesarias para la base:

  • h2o
  • e1071
  • vcd