El proyecto de minería de textos con Excel ha generado el «Google Mining». Veamos cómo puede ayudar la minería de páginas de búsqueda con Google a gestionar una web. Si en el buscador de Google escribimos site:<nombre del sitio web>, obtenemos todas las páginas indexadas de nuestro sitio. En el caso de AyD, ponemos site:analisisydecision.es y tenemos 49 resultados correspondientes a las 49 páginas indexadas. La herramienta que hemos construido con macros de Excel nos tabula la información y el resultado se puede ver en Analisis titulos y metas.

Con información tabulada podemos empezar a analizar si los títulos del sitio son los correctos y si las «metas» son frases que puedan atraer entradas.

Lo primero que se considera relevante es estudiar las palabras de los títulos. El primer paso será realizar una limpieza de las palabras que no vamos a tener en cuenta. No habríamos de estudiar:

  • preposiciones.
  • conjunciones.
  • artículos (solo en algunos casos).
  • fechas.
  • signos de puntuación.
  • otros irrelevantes.

Para realizar esta limpieza, creamos un proceso en Visual Basic que, para un rango seleccionado, elimine los elementos que no participan en el análisis. En este punto se empieza a crear el diccionario para la realización de la minería de textos. Este diccionario irá creciendo y nos servirá para el total de análisis que deseemos realizar.

La metodología para buscar y eliminar las palabras irrelevantes será muy sencilla: utilizamos el método Replace:

Selection.Replace What:=" y ", Replacement:=" "

Pero habremos de introducirlo en un bucle que recorra nuestro diccionario de palabras irrelevantes. Es decir, hemos de limpiar la tabla de datos palabra por palabra. Las palabras estarán en otra hoja de Excel que denominaremos «diccionario». Con todo esto, nuestro proceso queda:

Sub Limpieza()
  ' Rutina que reemplaza por vacío
  Dim pal As String
  Dim para As Integer, i As Integer, j As Integer

  ' Palabras en diccionario
  Sheets("diccionario").Select
  para = 0
  i = 2
  While (para = 0)
    If Cells(i, 2) = "" Then
      para = 1
    Else
      i = i + 1
    End If
  Wend

  For j = 2 To i
    Sheets("diccionario").Select
    pal = " " & Cells(j, 2) & " "
    Sheets("Hoja2").Select
    Columns("A:A").Select
    Selection.Replace What:=pal, Replacement:=" "
  Next j
End Sub

En la segunda columna de una hoja Excel que denominamos «diccionario» colocamos todas las palabras que vamos a eliminar, y nuestro bucle primero encuentra cuántas son para posteriormente eliminarlas de la «Hoja2», hoja en la que se ha ubicado la tabla de datos. Todo el proceso está en desarrollo. Evidentemente, se puede mejorar el código (se aceptan sugerencias y colaboraciones); de todos modos, si encontráis problemas, tenéis dudas o incluso queréis desarrollar esta herramienta dentro de vuestra organización: rvaquerizo@analisisydecision.es. En la siguiente entrega comenzaremos a hacer informes de palabras.