Formación

Introducción a la Estadística para Científicos de Datos. Capítulo 12. Muestreo e inferencia estadística

En el capítulo anterior, dedicado al análisis bivariable, se crearon visualizaciones sencillas para describir la posible relación entre dos variables; pero más allá de impresiones visuales, no es posible asegurar que esa relación tiene validez estadística. Para establecer esa validez es necesario disponer de cierta dialéctica, de cierta base teórica básica para entender cómo se comporta un contraste estadístico o un intervalo de confianza. El científico de datos tiende a considerar que toda esa base teórica está obsoleta y que existe un cambio en el paradigma, pero los problemas a resolver con análisis estadísticos avanzados son similares a los que resuelve la estadística clásica. El trabajo del científico de datos en muchas ocasiones consiste en separar la señal del ruido, separar lo aleatorio de lo estadísticamente significativo. En los capítulos anteriores se han ido estableciendo los cimientos para realizar esta labor. ...

De una tabla en forma de matriz a una tabla con una columna. Funciones COINCIDIR y BUSCARV en Excel

En Excel nos encontramos con la necesidad de transformar matrices a columnas. El tema de la transposición con Excel ya se ha visto en el blog con anterioridad, siendo el pasar de varias columnas a una con código una de las entradas con más visitas de este sitio. El caso es que, en este caso, no es tan importante la transposición como la búsqueda de la celda mediante BUSCARV. La tarea que se expone es la siguiente: ...

Introducción a la Estadística para Científicos de Datos. Capítulo 11. Análisis bivariable

De nuevo se retoma el ejemplo que está sirviendo de hilo conductor para este ensayo, la campaña de marketing de venta cruzada en el sector asegurador que está disponible en Kaggle. Una aseguradora española que opera en múltiples ramos quiere ofrecer seguro de automóviles a sus clientes del ramo de salud. Para ello se realizó un cuestionario a los clientes de forma que se marcó quienes de ellos estarían interesados en el producto de automóviles y quienes no. Se identificaron posibles tareas: ...

Introducción a la Estadística para Científicos de Datos. Capítulo 10. Probabilidad y distribuciones

En este punto es necesario realizar un paréntesis en el hilo conductor del ensayo. Hasta el momento se han descrito variables, limpiado y depurado datos y se hizo mención al rol que desempeña cada variable en el conjunto de datos. Entre esas variables hay una de ellas que juega un rol fundamental para el científico de datos: la variable target o variable respuesta. Si no existe esa variable, el científico de datos se enfrenta a un análisis no dirigido; no conoce cómo es el problema que representan las variables y las observaciones. Este trabajo se centra en el caso contrario: el conjunto de datos recoge la variable target o recoge las variables en bruto necesarias para crearla, y esa variable dirige el tipo de análisis. ...

Enviar correos electrónicos con rstats. Librería emayili

En este trabajo se va a enviar un correo electrónico automático mediante RStats; para ello se empleará la librería de R emayili. Esta librería evita el uso de Java. Además, se adjuntará un archivo Excel a un correo electrónico; ese archivo se genera mediante openxlsx, que tampoco requiere Java, lo que evita problemas cuando no se tiene bien configurado Java en el entorno de R (por diversos motivos). Para ilustrar el ejemplo, se emplea el conocido data.frame iris y se enviarán vía email distintos subconjuntos de ese data.frame. ...

Introducción a la Estadística para Científicos de Datos. Capítulo 9. Análisis exploratorio de datos. EDA

Los capítulos 7 y 8 se resumen en éste mediante visualizaciones trabajadas en el capítulo 5. El análisis EDA (Exploratory Data Analysis) es el primer paso que ha de seguir un científico de datos y articula los temas tratados en el capítulo 2, ya que convertir datos en información implica que el analista ha de preocuparse en saber cómo están estructurados sus datos, qué tipo de variables los componen, el nivel al que se encuentran los registros, qué problemas pueden presentar o cómo resumir información. Además, es necesario conocer los capítulos 3 y 4 para el manejo de variables y cruces de tablas; por este motivo, el análisis EDA es la base, pero lo visto anteriormente son los cimientos. ...

Introducción a la Estadística para Científicos de Datos. Capítulo 8. Problemas con los datos

Siguiendo con el desarrollo, se ha establecido una estructura de datos, fundamentalmente se está trabajando con data.frames, que se componen de filas (registros) y columnas (variables). Tanto registros como variables pueden presentar problemas que dificulten la gestión de la información al científico de datos. En este capítulo se van a estudiar los problemas más comunes con los datos y se plantean posibles estrategias para resolver estos problemas. Aunque los datos pueden presentar problemas desde el punto de vista de los registros y desde el punto de vista de las variables, en este caso se van a abordar análisis de variables que permitirán identificar tanto variables como registros que distorsionan el análisis. Para encontrar y describir estas situaciones se dispone tanto de análisis numéricos como análisis gráficos sencillos con los que se tomó contacto en los dos capítulos anteriores. ...

Introducción a la Estadística para Científicos de Datos. Capítulo 7. Descripción gráfica de datos

Los estadísticos son insuficientes para conocer una variable; la siguiente figura es muy conocida y presenta una serie de pares de datos $X$ e $Y$ con los mismos estadísticos que son completamente diferentes: Disponer de los estadísticos es insuficiente para conocer cómo son los valores que toma una variable, cómo se distribuye. Se torna necesario describir mejor ese comportamiento mediante análisis gráficos. En capítulos anteriores se trabajó con las posibilidades que ofrece ggplot2 para visualizar datos. A continuación, se desarrollan esas posibilidades y se estudia cómo describen nuestros datos esos gráficos. ...

analisisydecision se une a Scout Analyst. Primer curso de Estadística para analistas

Me uno al equipo de Scout Analyst poniendo en marcha el primer curso de estadística para analistas. Si deseas recibir información acerca del curso visita la siguiente página: Estadística para analistas – Scout Analyst Formación orientada a enseñar aspectos fundamentales de la estadística con otro lenguaje de forma que todos esos términos que son imprescindibles en el entorno de la Ciencia de Datos sean familiares para aquellos a los que les cuesta aprender estadística. No lo sabes, pero en tus impresiones, en tus opiniones haces estadística y todo está vinculado. Te contaremos cómo haces estadística con datos futbolísticos de una forma diferente y con una interacción constante conmigo. ...

Newsletter de Leonardo Hansa. Aprende a programar R

A raíz de un comentario en Twitter de Leo Hansa, hemos descubierto una newsletter que puede resultar de interés para todos aquellos que os estáis acercando a la programación con #rstats. PROGRAMO PORQUE ES RESULTÓN Podéis suscribiros con vuestro correo electrónico y podéis cancelar la suscripción del mismo modo. Desde aquí, me encanta hacerme eco de estas iniciativas porque es necesario empezar a cambiar la mentalidad de los gestores de la información: todo su conocimiento no puede quedarse en fórmulas estáticas, es necesario crear tareas y procesos.