Introducción a la Estadística para Científicos de Datos. Capítulo 8. Problemas con los datos

Siguiendo con el desarrollo se ha establecido una estructura de datos, fundamentalmente se está trabajando con data frames, que se componen de filas (registros) y columnas (variables). Tanto registros como variables pueden presentar problemas que dificulten la gestión de la información al científico de datos. En este capítulo se van a estudiar los problemas más comunes con los datos y se plantean posibles estrategias para resolver estos problemas. Aunque los datos pueden presentar problemas desde el punto de vista de los registros y desde el punto de vista de las variables en este caso se van a abordar análisis de variables que permitirán identificar tanto variables como registros que distorsionan el análisis. Para encontrar y describir estas situaciones se dispone tanto de análisis numéricos como análisis gráficos sencillos con los que se tomó contacto en los dos capítulos anteriores. ...

16 de agosto de 2022 · rvaquerizo

Introducción a la Estadística para Científicos de Datos. Capítulo 7. Descripción gráfica de datos

Los estadísticos son insuficientes para conocer una variable, la siguiente figura es muy conocida y presenta unas series de pares de datos X e Y con los mismos estadísticos que son completamente diferentes. Disponer de los estadísticos es insuficiente para conocer cómo son los valores que toma una variable, cómo se distribuye. Se torna necesario describir mejor ese comportamiento mediante análisis gráficos. En capítulos anteriores se trabajó con las posibilidades que ofrece ggplot para visualizar datos. A continuación se desarrollan esas posibilidades y se estudia como describen nuestros datos esos gráficos. ...

24 de junio de 2022 · rvaquerizo

analisisydecision se une a Scout Analyst. Primer curso de Estadística para analistas

Me uno al equipo de Scout Analyst poniendo en marcha el primer curso de estadística para analistas. Si deseas recibir información acerca del curso visita la siguiente página: Estadística para analistas – Scout Analyst Formación orientada a enseñar aspectos fundamentales de la estadística con otro lenguaje de forma que todos esos términos que son imprescindibles en el entorno de la Ciencia de Datos sean familiares para aquellos a los que les cuesta aprender estadística. No lo sabes pero en tus impresiones, en tus opiniones haces estadística y todo está vinculado. Te contaremos como haces estadística con datos futbolísticos de una forma diferente y con una interacción constante conmigo. ...

15 de marzo de 2022 · rvaquerizo

Newsletter de Leonardo Hansa. Aprende a programar R

A raiz de un comentario en Twitter de Leo Hansa hemos descubierto una newsletter que puede resultar de interés para todos aquellos que os estáis acercando a la programación con #rstats. PROGRAMO PORQUE ES RESULTON Podéis suscribiros con vuestro correo electrónico y podéis cancelar la suscripción del mismo modo. Desde aquí me encanta hacerme eco de estas iniciativas porque es necesario empezar a cambiar la mentalidad de los gestores de la información, todo su conocimiento no puede quedarse en fórmulas estáticas, es necesario crear tareas y procesos.

4 de marzo de 2022 · rvaquerizo

Introducción a la Estadística para Científicos de Datos. Capítulo 6. Descripción numérica de variables

Descripción numérica de variables Se comienza con la recopilación de datos, la tabulación de los mismos y el establecimiento de la tipología y el rol que juegan éstos en el conjunto de datos. Establecido ese marco es necesario describir datos, recordemos que por si mismos los datos no dicen nada, no resuelven nada. Esa información la suministra un análisis. Transformar datos en información Recordando lo tratado en el capítulo 2, el álgebra lineal define el análisis estadístico, la estructura más sencilla es el vector donde aplicaría el análisis univariable, el inicio de todo. Si se dispone de más de una variable ya podemos disponer esa serie de datos en forma matricial, buscar estructuras dentro de esas matrices nos produce el análisis multivariable. Conforme ha mejorado la capacidad de computación se han podido crear sistemas estadísticos capaces de aprender de los propios datos, al conjunto de análsis basados en estos sistemas se le denomina machine learning. Actualmente, se está avanzando más, hay entornos más sofisticados capaces de trabajar con tensores matemáticos, estructuras algebraicas multidimensionales que permiten implementar algoritmos que imitan los procesos de aprendizaje humano, este conjunto de técnicas y algoritmos se recogen dentro del ámbito de la inteligencia artificial. ...

27 de febrero de 2022 · rvaquerizo

Actor senil: Las mejores palabras para iniciar en Wordle en castellano

Creo que cualquier persona con conocimientos de estadística cada vez que juega a un juego de probabilidades (¿el 99.9% de los juegos existentes?) lo primero que piensa, por deformación profesional, es en cómo inferir un patrón ganador para optimizar sus movimientos. Por ejemplo, en el juego de Los colonos de Catán donde se juega con dos dados, nunca elegiría situar mi poblado en la celda 2 o 12 (con probabilidades de 1/36) estando libres la 6 o la 8 (probabilidades de 5/36). De hecho, el 7 que es la suma más probable (6/36) está reservada para mover el ladrón y así equilibrar las posiciones del tablero. ...

8 de febrero de 2022 · Paco Gárate

Introducción a la Estadística para Científicos de Datos. Capítulo 5. Representación gráfica básica con ggplot

Además del manejo de datos es necesario tener conocimientos de representación de datos. En este trabajo se va a emplear la librería de R ggplot y se trabajarán las representaciones gráficas básicas que ha de manejar un científico de datos. Se pueden explorar las múltiples posibilidades que ofrece esta librería en la web Statistical tools for high-throughput data analysis que dispone de un gran número de recursos para R entre los que destaca el uso del paquete ggplot. ...

27 de enero de 2022 · rvaquerizo

Introducción a la Estadística para Científicos de Datos. Capítulo 4. Uniones de tablas con R

Además de manejar los datos de un data frame en ocasiones es necesario realizar uniones entre conjuntos de datos para crear o añadir nuevas variables a un data frame que es una base de observaciones inicial. Se pueden establecer 2 tipos de uniones fundamentales, uniones verticales de tablas y uniones horizontales. Las uniones verticales serán las concatenaciones de data frames, poner una estructura de datos encima de otra y las uniones horizontales serán las que se denominarán join. ...

18 de enero de 2022 · rvaquerizo

Introducción a la Estadística para Científicos de Datos. Capítulo 3. Manejo de datos con R

Universo tidyverse En el capítulo anterior se iniciaba el método dialéctico a utilizar en el resto del ensayo fundamentado en la idea de transformar datos en información mediante análisis estadístico con el software R. Los datos a explotar tienen una estructura tabular que llamamos data frame. Esta estructura contiene observaciones y variables sobre las que se fundamenta la labor del científico de datos ya que son ellas las que plantean y resuelven problemas. Para trabajar con data frames en R disponemos de un entorno conocido como tidyverse que engloba un gran número de librerías de R. ...

7 de enero de 2022 · rvaquerizo

Introducción a la Estadística para Científicos de Datos con R. Capítulo 2. Datos

Qué son los datos Los datos están en boca de todos , “la nueva revolución industrial”, “el nuevo petróleo”, «el nuevo plutonio»,… pero ¿qué son los datos? Si nos dirigimos al diccionario de la Real Academia tenemos: m. Información sobre algo concreto que permite su conocimiento exacto o sirve para deducir las consecuencias derivadas de un hecho. A este problema le faltan datos numéricos. m. Documento, testimonio, fundamento. m. Inform. Información dispuesta de manera adecuada para el tratamiento por una computadora. Base de datos: Conjunto de datos organizado de tal modo que permita obtener con rapidez diversos tipos de información. Parece que la tercera acepción es la correcta pero los datos no son información , nos van a permitir obtener información, ésta se obtiene mediante un análisis estadístico. Disponer datos de forma organizada no es información. Es la estadística a través de un análisis descriptivo, a través de un modelo o a través de un algoritmo la que obtiene la información. Un científico de datos es un gestor, coge datos y los transforma en información a través de análisis estadísticos más o menos complejos. ...

5 de enero de 2022 · rvaquerizo