Desenredando la Madeja

World Wide Web, wish, wait or what?

¿Que estructura tiene la telaraña mundial de computadores o WWW? Nadie sabe. Crece más rápido que la capacidad de ella misma para detectar los cambios. Sus conexiones son también dinámicas y muchas de ellas quedan obsoletas sin nunca ser actualizadas. En esta columna caracterizamos algunos aspectos de WWW.

Crecimiento Exponencial

Al igual que Internet, que ya sobrepaso los 30 millones de computadores conectados en más de 120 países, los servidores de WWW también crecen en forma exponencial desde 1993. Lamentablemente nadie sabe su número exacto, pues no es posible a partir de un nombre de dominio saber si es o no un servidor WWW (la mayoría comienza con www, pero muchos lugares no siguen esta convención). Por otra parte un mismo computador puede manejar distintos servidores y también existen servidores virtuales. Se estima que a fines de 1997 habían alrededor de 650 mil servidores cuyo nombre comienza con www.

Por otra parte nos gustaría distinguir servidores de sitios. Es decir, contar instituciones con servidores WWW. En 1995, el número de sitios era el 30% de los servidores y esa fracción debería crecer si la tasa de crecimiento de nuevas instituciones es mayor que la tasa de crecimiento de nuevos servidores en sitios ya registrados.

Estructura y Visibilidad

¿Cuantas referencias tiene una página HTML? Más del 75% tiene al menos una referencia, siendo lo típico tener entre 5 y 15 referencias. La mayoría de estas referencias son a páginas en el mismo servidor. De hecho la conectividad entre sitios distintos no es muy buena.En particular, la mayoría de las páginas no son apuntadas por nadie y las que si son apuntadas, son apuntadas por páginas en el mismo servidor.

Considerando sólo referencias externas (entre sitios distintos), más del 80% de las páginas tienen menos de 10 referencias a ella. Otros sitios son muy populares, teniendo decenas de miles de referencias a ellos (por ejemplo en 1995 los top-5 eran Univ. of Illinois at Urbana- Champaign, National Institute of Health, Mass. Inst. of Tech., NASA y Carnegie Mellon Univ.). Si en vez de referencias contamos sitios que apuntan a sitios, aparecen Yahoo! y Netscape entre los 5 primeros. Por otro lado, hay algunos sitios que no son apuntados por nadie (que están porque fueron incluidos por mecanismos directos en listas de URLs, pero que realmente son islas dentro de la Web). En este mismo sentido, las páginas personales también se pueden considerar como entes aislados en la mayoría de los casos. También, la mayoría de los sitios (80%) no tiene ninguna referencia hacia afuera. Esto significa que una minoría de los servidores mantiene toda la carga navegacional de la red. En particular hay sitios que tienen miles de punteros externos que son los que al final engloban la Web, siendo obviamente el mayor de todos Yahoo!.

Tamaños y características

¿Cómo es una página WWW promedio? Una página no binaria promedio en 1995 tenía alrededor de 6Kb (o mil palabras). Si agregamos audio o video, este promedio aumenta. De hecho la distribución de tamaños se dice que es de “cola pesada”. En otras palabras, aunque la mayoría de los archivos son pequeños, existe un número no despreciable de archivos grandes. Hasta 50Kb predomina el volumen de las imágenes. De allí hasta 300Kb son importantes los archivos de audio. Más alla de este límite, llegando a varias decenas de Mb, tenemos archivos de video. Los formatos más populares (en base a la extensión del nombre de archivo) son HTML, GIF, TXT, PS y JPG, en ese orden.

¿Como es una página HTML? Alrededor de la mitad de ellas no tiene ninguna imagen. Un 30% no tiene más de dos imágenes. Por otra parte hay un porcentaje no despreciable (mayor al 10%) de páginas con más de 10 imágenes. La explicación de ello es que son imágenes tipográficas, como puntos rojos, líneas de separación de color, etc. La mayoría de las páginas usan HTML simple. Sólo un porcentaje pequeño siguen todas las normas y otro porcentaje mayor (alrededor del 10%) son sólo texto. Finalmente, la calidad del texto deja mucho que desear, pues hay errores de tipeo, errores de OCR, etc. Más aún, la información contenida puede estar obsoleta, puede ser falsa o directamente engañosa. Hay que tener esto en mente cuando usemos una página WWW como fuente de información.


Si tiene preguntas o sugerencias, envíe e-mail a rbaeza@dcc.uchile.cl