Tablas elegantes en #rstats y formattable

Las salidas de la consola de R para muchos de nosotros son más que suficientes. Además, en mi caso particular, prefiero poner las cosas más elegantes en otras herramientas como Excel, Qlik Sense o Tableau. Pero me he dado cuenta de que hay una librería que sí uso cuando directamente copio y pego salidas de R en correos, presentaciones o si empleo markdown (rara vez); esta librería es formattable. Es posible que haya mejores librerías, pero ésta es la que yo uso desde hace un par de años. ...

20 de octubre de 2020 · rvaquerizo

Evita problemas con Excel desde R. De tocar el dato a un proceso

En estos días hemos vivido una situación con Excel y los datos de COVID de UK peculiar. Hemos aparecido todos en las redes sociales para reírnos de Excel y de los que usan Excel. De nuevo partidarios de MATLAB, R, Python… ¡a la gresca! Mi opinión la podéis leer en Twitter y creo que sobre este tema puedo opinar. En mi vida profesional me he especializado en cambiar equipos de negocio; por ese motivo tanto ir y venir de compañía. Uno de esos cambios consiste en transformar superusuarios de Excel a usuarios de herramientas más apropiadas para la gestión de la información. ...

9 de octubre de 2020 · rvaquerizo

Manejo de datos básico con Python datatable

Nueva entrada dedicada al data management con Python, esta vez con datatable. No voy a justificar el uso de datatable antes que pandas, en un vistazo rápido por la web encontráis numerosas ocasiones en las que datatable es más eficiente que pandas en el manejo de datos con Python. En cuanto a la complejidad en el uso de uno u otro mi opinión no es objetiva porque me cuesta mucho trabajar con pandas. ...

8 de octubre de 2020 · rvaquerizo

Transformaciones de variables cuantitativas en modelos binomiales

Para mejorar la capacidad predictiva de nuestros modelos binomiales, es recomendable transformar las variables independientes. Existen técnicas que lo hacen de modo automático, pero hoy os quería mostrar en un vídeo un método “casero” para agrupar una variable cuantitativa con respecto a una variable respuesta, todo muy orientado a que la transformación tenga un sentido de negocio. El código empleado para hacer el vídeo es el siguiente: from urllib.request import urlretrieve import pandas as pd import numpy as np import matplotlib.pyplot as plt link = 'https://raw.githubusercontent.com/yhat/demo-churn-pred/master/model/churn.csv' urlretrieve(link, "churn.csv") df = pd.read_csv("churn.csv") df.head(5) # Visualización de la variable objetivo pd.crosstab(df['Churn?'], columns='count').plot(kind='bar') plt.show() # Creación de la variable target numérica df['churn_num'] = np.where(df['Churn?'] == 'True.', 1, 0) # Análisis de la variable 'Day Mins' print(df['Day Mins'].describe()) plt.hist(df['Day Mins'], bins=20) plt.show() # Transformación casera: agrupamiento por tramos de 10 minutos con límites df['minutos_cat'] = np.where(df['Day Mins'] >= 270, 270, (df['Day Mins'] // 10) * 10) df['minutos_cat'] = np.where(df['minutos_cat'] <= 70, 70, df['minutos_cat']) # Cálculo de tasa de churn por tramo churn_rate = df.groupby('minutos_cat')['churn_num'].mean() counts = df.groupby('minutos_cat')['churn_num'].count() # Gráfico de doble eje: volumen de clientes y tasa de churn fig, ax1 = plt.subplots() ax1.bar(counts.index.astype(str), counts.values, color='skyblue', label='Clientes') ax1.set_xlabel('Tramos de Minutos') ax1.set_ylabel('Número de Clientes') ax1.grid(True, axis='y') ax2 = ax1.twinx() ax2.plot(churn_rate.values, linestyle='-', linewidth=2.0, color='red', label='Tasa de Churn') ax2.set_ylabel('Tasa de Churn') plt.title('Transformación de variable Day Mins') plt.show()

2 de octubre de 2020 · rvaquerizo

Nueva edición del Programa en Big Data y Data Science de la UNED

Ya está abierta la convocatoria para el Programa Modular en Big Data y Data Science aplicados a la Economía y a la Administración y Dirección de Empresas. Es un programa que se imparte $100%$ en línea y tiene el mejor balance entre la visión teórica y la visión práctica en ciencia de datos. Si escogéis el módulo de seguros, allí nos veremos. En el siguiente enlace podréis encontrar más información: ...

29 de septiembre de 2020 · rvaquerizo

Variables categóricas en cajas, `treemap` con R

La representación de variables categóricas en cajas es uno de los gráficos que más utilizo; empezaron a gustarme debido al uso de Qlik Sense y sus gráficos de cajas, me permitían comparar variables categóricas en un período frente a otro. En R podemos usar la librería treemap para realizar estos gráficos y comparar variables categóricas. En este caso interesa comparar una variable dentro de dos grupos. Para ilustrar el ejemplo nos suministran un conjunto de datos con información de un seguro de responsabilidad civil de motocicletas de una compañía sueca. Este conjunto de datos está en la librería CASdatasets de R: ...

29 de septiembre de 2020 · rvaquerizo

Mapa España por Comunidades Autónomas con Google Studio

Continúo evaluando métodos para crear mapas con software que no sea de pago e intentando que la dificultad sea mínima. En este caso, quería mostraros y poner a vuestra disposición un mapa de España por Comunidades Autónomas; además, os dejo acceso libre a los datos que usa el mapa para que vosotros mismos podáis realizar el trabajo. Voy a pasaros dos enlaces: uno con los datos, donde tenemos cifras de pruebas PCR por 100.000 habitantes a nivel de comunidad autónoma (por representar algo); es ahí donde debéis incluir los datos que deseáis representar gráficamente. El otro enlace es el dashboard simple hecho con Data Studio que veis al inicio de la entrada, que contiene un mapa con el formato que en este momento necesito. Este trabajo es meramente experimental, porque pongo a disposición de todos tanto el mapa como la Hoja de Google; veremos lo que tarda en dejar de funcionar. ...

24 de septiembre de 2020 · rvaquerizo

Leer fichero de texto de ancho fijo con Python Pandas

Es muy habitual trabajar con archivos CSV, pero en ocasiones disponemos de ficheros de texto con determinado formato o con ancho fijo para las columnas. Hace tiempo ya escribí sobre la lectura de archivos CSV con Python y Pandas, pero en esta ocasión vamos a leer archivos que no tienen un separador. Evidentemente tienen que darnos el formato del archivo; en este caso, para ilustrar el ejemplo, vamos a pasar un código en R a un código en Python. ...

17 de septiembre de 2020 · rvaquerizo

Leer una tabla en PDF con Excel (a través de R)

Hay situaciones en las que tenemos datos in PDF y los necesitamos exportar a Excel para graficar o cruzar esos datos. In ocasiones es mejor meter esos datos a mano, otras veces disponemos de un software de pago que nos permite realizar esa tarea y también hay páginas web que nos permiten cambiar el formato del PDF. In nuestro caso, simplemente necesitamos una tabla que está in formato PDF para disponer de esos datos in Excel; más sencillo: copiar del PDF y pegar in Excel esa tabla. Si está in texto, el PDF se puede complicar y, si está in modo imagen, más. Si empleas Windows, esta entrada puede ser de utilidad, ya que usando R podrás hacer esta tarea de copiar PDF y pegar Excel de un modo más rápido; te cuento paso por paso en vídeo. ...

14 de septiembre de 2020 · rvaquerizo

La importancia del valor predictivo positivo en las pruebas diagnósticas

El valor predictivo positivo es un dato olvidado cuando realizamos una prueba diagnóstica o (mejor dicho) cuando empleamos este método de medir la potencia de mi modelo. En ocasiones, un modelo parece excepcional pero cabe preguntarse si un buen modelo puede hacernos perder dinero. Además, conviene incidir en la necesidad de calibrar los modelos y medir su comportamiento predictivo y su «comportamiento económico». Este vídeo es continuación del que tenemos en la anterior entrada del blog. Espero despertar alguna conciencia e incidir sobre la importancia de medir económicamente el comportamiento de un modelo. La historia que se cuenta es real y supuso un buen proyecto para la compañía en la que trabajaba; no haciendo modelos, pero sí instalando un nuevo entorno de detección de fraude. Saludos.

9 de septiembre de 2020 · rvaquerizo