Excavando la Web

Todo es más simple de lo que piensas y al mismo tiempo más complejo de lo que imaginas.
Johann Wolfgang von Goethe

Durante Noviembre recibí la buena noticia de que la postulación al programa Milenio había sido aprobada. El proyecto consiste en crear un Centro de Investigación de la Web junto a Jo Piquer, Gonzalo Navarro, Mauricio Marín y Andrea Rodríguez, aunando las áreas de recuperación de información y sistemas distribuidos. La Web es compleja: hay páginas estáticas y dinámicas, hay páginas públicas y privadas, hay páginas con o sin metadatos, tal como se muestra en el diagrama.

Uno de los temas de mayor interés en este proyecto es lo que en inglés se llama Web mining. Excavar la Web es posible en distintas partes de ella: su contenido, su estructura y su uso. A continuación detallamos cada uno de estos casos.

Excavando el Contenido

Lo más simple es recuperar información a través de buscadores como Google o directorios como Yahoo!. Pero es posible también usar análisis de lenguaje natural para entender parcialmente la semántica del texto, extraer otros objetos como imágenes o audio, aprovechar las marcas de HTML para transformar el contenido o extraer datos específicos, o mejorar los resultados de los buscadores agrupando páginas similares. Uno de los problemas principales es como encontrar las páginas que poseen el contenido que necesitamos, pues sólo encontrar todas lás páginas que son indexables ya es difícil (ver diagrama).

Desenredando la Estructura

La estructura de la Web es compleja (ver columna de Julio del 2000) y evoluciona en el tiempo. Hay desde sectores altamente conectados hasta islas que sólo conocen algunos buscadores. La estructura puede ser usada por los buscadores para jerarquizar los resultados (en base a las páginas más referenciadas usando heurísticas como Pagerank o HITS) o para encontrar grupos de páginas que se apuntan entre sí y representan comunidades de personas con intereses similares. El problema principal en este caso es entender el proceso de evolución y su relación con las personas que participan en él.

Analizando el Uso

Analizar los archivos de acceso (logs) a un sitio Web es lo más interesante desde el punto de vista comercial. Por ejemplo, una página que nunca es visitada tal vez no tiene razón de ser, o si páginas muy visitadas no están en los primeros niveles, esto sugiere mejorar la organización y navegación del sitio. Por lo tanto, es importante detectar patrones de acceso y sus tendencias. Esta detección puede ser genérica o para un usuario específico (lo que permite personalizar sitios en forma dinámica) y los resultados pueden ser usados para recomendar servicios o productos. El problema principal en este caso es poder diferenciar a los usuarios y cuándo se conectan o desconectan (determinar sesiones).


Si tiene preguntas o sugerencias, envíe e-mail a rbaeza@dcc.uchile.cl