La Estructura de la Web

La realidad siempre supera a la imaginación

En esta ocasión exploraremos los resultados de un reciente estudio sobre cómo la Web mundial está interconectada, presentado en Mayo pasado en el último congreso sobre la Web realizado en Holanda. Para conocer qué páginas Web apuntan a una página dada es necesario recorrer toda la Web, algo que los grandes buscadores como Altavista o AlltheWeb hacen periódicamente. En base a dos recorridos de Altavista durante 1999, cada uno de más de 200 millones de páginas (alrededor de un 20% de la Web de esa época) y 1.500 millones de enlaces, se confirmaron algunos resultados pero se demostró que la estructura microscópica de la Web es mucho más intrincada y se asemeja a un organismo viviente.

Conectividad

Para conocer qué páginas Web apuntan a una página dada es necesario recorrer toda la Web, algo que los grandes buscadores como Altavista o AlltheWeb hacen periódicamente. El estudio mencionado fue realizado a partir de dos recorridos de Altavista en Mayo y Octubre de 1999, cada uno de más de 200 millones de páginas (alrededor de un 20% a 25% de la Web en esa época) y 1.500 millones de enlaces. Sólo almacenar y procesar el grafo equivalente es todo un desafío. Si usted quiere saber quién lo referencia en Chile y en qué lugar de popularidad está, puede usar el nuevo servicio de conectividad del buscador TodoCL (www.todocl.cl).

Resultados preliminares ya habían indicado que la distribución de los enlaces a y desde páginas seguían una curva exponencialmente decreciente. Los nuevos resultados muestran que la fracción de páginas de la Web que son apuntadas por i páginas es proporcional a 1/i2.1, mientras que la fracción de páginas que tienen i enlaces es proporcional a 1/i2.7. Esto significa que el número de páginas muy apuntadas (populares) y el número de páginas con muchos enlaces es muy pequeño. Estos valores son casi los mismos para los dos recorridos, pese a que entre ellos pasaron 6 meses.

Estructura

Para analizar la estructura de la Web se buscan las partes del grafo que están conectadas entre sí. El núcleo o centro de la Web lo constituyen más de 56 millones de páginas, existiendo un camino para ir de cualquier página a otra, siendo el largo máximo (diámetro) al menos 28. En otras palabras, el camino más corto entre dos páginas en el peor caso implica visitar 28 de ellas. Esto contrasta con el modelo del mundo pequeño que les contaba en Marzo pasado, que predecía un diámetro máximo de 20 páginas para toda la Web. En la práctica se han encontrado caminos de hasta largo 900, lo que indica que el diámetro de la Web es mucho mayor. De todos modos, este número no es tan grande considerando que son cientos de millones de páginas.

La figura adjunta muestra el resto de la estructura. A la izquierda hay 43 millones de páginas desde las cuales se puede llegar al centro, pero no viceversa. Del mismo modo, a la derecha hay otras 43 millones de páginas que pueden ser accedidas desde el centro, pero que no enlazan páginas del núcleo. Alrededor de estos dos grupos hay tentáculos que contienen 44 millones de páginas y que son caminos sin salida, con la excepción de algunos tubos, que conectan el grupo de la izquierda con el de la derecha. Finalmente, tenemos 17 millones de páginas que están agrupadas en islas que no están conectadas al centro de la Web. Muchos se preguntarán cómo Altavista conoce estas islas si no están conectadas al resto de la Web. Es muy simple, estos son sitios Web que fueron directamente enviados al buscador y por lo tanto están en su índice aunque el resto del mundo no las conozca.

Los autores del estudio no hacen ninguna interpretación sobre esta estructura. Mi interpretación personal, es que el grupo de la izquierda son páginas más nuevas que aún no son demasiado conocidas y que si tienen éxito pasarán al centro de la Web, donde están las páginas consolidadas. En cambio, en el grupo de la derecha, deben haber páginas antiguas, que no enlazan al centro de la Web porque en su época esas páginas no existían, pero sí fueron enlazadas por nuevas páginas. También debe incluir muchos sitios Web que no tienen enlaces externos. Los tentáculos son variaciones sobre el tema, incluyendo sitios Web que no enlazan a nadie fuera de su sitio, y revelan la complejidad dinámica de la Web. Usando los recorridos de la Web chilena del buscador TodoCL, estamos realizando un estudio similar, agregando además cómo la estructura de la Web chilena se relaciona con los sitios Web categorizados disponibles en TodoCL. Todo esto, en mi próxima columna.


Si tiene preguntas o sugerencias, envíe e-mail a rbaeza@dcc.uchile.cl