Proyecto. Text Mining con Excel pasa a ser Google Mining

El término Google Mining ya está acuñado; no soy ningún pionero ni he tenido una idea brillante. Pero, al preparar el proyecto de Text Mining con Excel, me he dado cuenta de que estoy construyendo (sin querer) una potente herramienta para la creación de BBDD de páginas web: una herramienta que puede entrar en Google y tabularme la información que me interese. El proyecto se inició para atraer visitas a www.analisisydecision.es mediante el uso de macros de Visual Basic: atraer entradas que buscaran programas en Visual Basic. Sin embargo, cuanto más investigo, más creo que ésto puede ser algo serio e incluso un proyecto que se puede implantar en cualquier organización para medir la calidad de la atención al cliente, para la búsqueda de profesionales… ...

2 de junio de 2008 · rvaquerizo

Proyecto. Text Mining con Excel (IV)

En la anterior entrega del seguimiento de mi proyecto de minería de textos con Excel, creé un proceso que leía búsquedas de Google y las almacenaba en un fichero Excel que denominaba base. El problema que me encontré es que generaba un Excel con una gran cantidad de hojas y posteriormente tenía que leerlas y extraer la información de cada una. Esta metodología no me parece eficiente: es mejor leer una búsqueda, extraer la información relevante de ella e introducirla en mi tablón de datos. ...

26 de mayo de 2008 · rvaquerizo

El ODS de SAS (II). Dataset desde OUTPUT

Ya vimos el funcionamiento de ODS TRACE ON/OFF. Ahora crearemos datasets a partir del OUTPUT que genera un paso PROC de SAS con ODS. Lo principal es conocer cómo se denomina cada parte del OUTPUT; esto lo conseguimos con TRACE y analizando el LOG. Una vez conocemos la salida, empleamos ODS OUTPUT <nombre de la salida> = libreria.dataset. En el ejemplo que teníamos: * DATASET ALEATORIO DE 20000 OBSERVACIONES; data uno; do i = 1 to 20000; importe = round(rand('normal') * 1000, .1); num_productos = min(max(1, rand('pois', 4)), 8); num_cargos = max(0, rand('pois', 10) - int(rand('uniform') * 10)); output; end; run; ods noresults; ods output Quantiles = cuant; proc univariate data = uno; var importe; run; ods output Chisq = testchi; proc freq data = uno; tables num_productos * num_cargos / chisq; run; ods results; Para evitar la salida en la ventana output o en formato HTML, se emplea ODS NORESULTS. Con ODS OUTPUT hemos creado dos datasets. Veamos el log: ...

19 de mayo de 2008 · rvaquerizo

El ODS de SAS (I). Elementos del OUTPUT

Hoy comenzaré una serie de mensajes dedicados al ODS (Output Delivery System) de SAS. Este mecanismo de SAS nos permite un uso más eficiente del OUTPUT de nuestros pasos PROC; además, podemos crear Excel (como ya vimos), crear datasets, no generar salidas… Antes, SAS nos ofrecía un texto plano en la ventana OUTPUT; ahora generamos documentos sofisticados. En tres entregas veremos: Trazar el OUTPUT de SAS. Datasets de salidas de SAS. Documentos con nuestras salidas de SAS: HTML y PDF. Como complemento a estas entregas, es posible que redacte un mensaje con algunos ejemplos de uso del PROC TEMPLATE. En este primer capítulo dedicado al ODS, estudiaremos algunas salidas SAS y, con ellas, sabremos identificar la estructura del OUTPUT. ...

8 de mayo de 2008 · rvaquerizo

Proyecto. Text Mining con Excel (III)

En la anterior entrega del seguimiento de mi proyecto de minería de textos con Excel, creé un proceso que leía búsquedas de Google y las almacenaba en un fichero Excel que denominaba base. El problema que me encontré es que generaba un Excel con una gran cantidad de hojas y posteriormente tenía que leerlas y extraer la información de cada una. Esta metodología no me parece eficiente: es mejor leer una búsqueda, extraer la información relevante de ella e introducirla en mi tablón de datos. ...

5 de mayo de 2008 · rvaquerizo

Proyecto. Text Mining con Excel (II)

Sin una tabla no hay Text Mining. Hay que idear la forma de tabular las búsquedas que realice en Google. Desde Excel puedo abrir cualquier web. En este caso abriré la búsqueda «formación business intelligence» con Excel y veré exactamente lo mismo que puedo ver con un explorador web pero en una hoja de cálculo y con una estructura determinada. Hay que aprender a leer esta estructura para tabular la información. ...

28 de abril de 2008 · rvaquerizo

Proyecto. Text Mining con Excel (I)

¿Minería de textos con Excel? ¿Se puede hacer text mining con una hoja de cálculo? La respuesta a estas dos preguntas será SÍ. Desde hoy paro mis mensajes de formación en R y en SAS y me pongo con un proyecto que lleva días rondando por mi cabeza. Voy a crear una herramienta capaz de identificar oportunidades en internet. Y lo voy a hacer con muy pocos medios: nada de SAS, nada de R, nada de WEKA, sólo con la herramienta de ofimática más habitual: Excel. ...

23 de abril de 2008 · rvaquerizo

Truco SAS. Unir todos los Excel en uno solo

Este programa SAS une todos los Excel que queramos en un único libro. Cuando estamos haciendo análisis de variables y exportamos los resultados con ODS o con otro método a Excel, resulta un poco pesado ir abriendo cada libro para ver los resultados; a mí me resulta más fácil unírmelas todas y tener toda la información contenida en un único Excel. ¡Espero que os resulte útil! /* GENERAMOS FICHEROS DE EJEMPLO */ ods noresults; ods listing close; ods html body="c:\temp\retail.xls"; proc print data=sashelp.retail; run; ods html close; ods html body="c:\temp\shoes.xls"; proc print data=sashelp.shoes; run; ods html close; ods results; ods listing; /* MACRO PARA UNIR LOS FICHEROS EMPLEANDO VBS */ %macro UNE_EXCEL(in=, out=); options noxwait; x erase "&&out"; options xwait; data _null_; file "c:\temp\class.vbs"; put 'Set XL = CreateObject("Excel.Application")' / 'XL.Visible = True'; %let n = 1; %let from = %scan(&&in, &&n, " "); %do %while("&&from" ne ""); %let fromwb = %scan(&&from, 1, "!"); %let fromws = %scan(&&from, 2, "!"); put "XL.Workbooks.Open ""&&fromwb"""; %if &&n = 1 %then put "XL.ActiveWorkbook.SaveAs ""&&out"", -4143" %str(;); %else %do; put "XL.Workbooks(""%scan(&&fromwb, -1, '\')""").Sheets(""&&fromws""").Copy ,XL.Workbooks(""%scan(&&out, -1, '\')""").Sheets(%eval(&&n-1))"; put "XL.Workbooks(""%scan(&&fromwb, -1, '\')""").Close"; %end; %let n = %eval(&&n + 1); %let from = %scan(&&in, &&n, " "); %end; put "XL.Workbooks(""%scan(&&out, -1, '\')""").Sheets(1).Activate"; put "XL.Workbooks(""%scan(&&out, -1, '\')""").Save"; put "XL.Quit"; run; x 'c:\temp\class.vbs'; %mend; /* EJEMPLO DE USO */ %UNE_EXCEL(in=c:\temp\shoes.xls!shoes c:\temp\retail.xls!retail, out=c:\temp\TodasJuntas.xls);

23 de abril de 2008 · svalle

Manual. Curso introducción de R. Capítulo 7: Funciones gráficas básicas en R

R dispone de múltiples posibilidades a la hora de realizar gráficos. De hecho, bajo mi punto de vista, puede ser una de las herramientas estadísticas más potentes al respecto; además, es gratuita y existe una comunidad detrás que pone a nuestra disposición múltiples manuales y documentación. Debido al gran material existente, este capítulo sólo será una pequeña introducción a sus posibilidades; en sucesivas entregas veremos nuevas funciones y nuevos gráficos más aplicados a ejemplos reales. ...

16 de abril de 2008 · rvaquerizo

CRM. ¡Me río de los tópicos!

Hay mucho escrito sobre CRM (Customer Relationship Management); basta con introducir esas siglas en Google y ¡aparecen 61.000.000 de resultados! Y qué puedo contar yo que en 61.000.000 de resultados de Google no se haya contado ya. Lo primero será escribir un artículo sobre CRM sin emplear las palabras: Cliente. Gestión. Estrategia (de negocio). Marketing. Oportunidad. Back-office/Front-office (estas no las usaría nunca porque suenan pedantes). Software. No emplear estas palabras es justo lo contrario al CRM. No os estoy escribiendo las palabras que vosotros queréis leer. Pero yo planteo otra cuestión: hay 61.000.000 de entradas de Google que hablan de lo mismo. Pocos aportan nada nuevo salvo el tipo que aporrea las teclas del ordenador ahora mismo. Todos están dentro de esos 61.000.000; nadie aporta un factor diferente en su discurso, todos trabajan sobre una idea masiva y nadie personaliza su opinión salvo el tipo que aporrea las teclas del ordenador ahora mismo, porque ese tipo está haciendo CRM. ...

12 de abril de 2008 · rvaquerizo