Viendo la lista de bots de búsqueda que visitan este dominio, encontré uno que no habÃa visto: Grub. Al ir a su sitio, me he enterado de lo que se trata: un proyecto impulsado por la gente de LookSmart (los mismos detrás de Furl), que busca nada más y nada menos que registrar todo el web y en tiempo real (eso es ambición).
De acuerdo a sus estimaciones, existirÃan más de 10 billones de páginas web, mientras que diariamente se crearÃan o editarÃan 2 millones.
El método que proponen para poder registrar tal volumen de información es un modelo de computación distribuida, similar al que utilizan en el programa SETI@home: básicamente, se trata de descargar un cliente/salvapantallas que utiliza los recursos del computador en el que está instalado (ancho de banda y procesamiento) para visitar y registrar un conjunto de páginas web, durante el tiempo en que dicho computador no está utilizando esos recursos.
Su meta es poder lograr que existan decenas de miles de clientes donando sus recursos al proyecto, logrando la meta de registrar todas las páginas en Internet, todos los dÃas.
El cliente está disponible para Windows y Linux, y parte de su código ha abierto a través de un proyecto en Sourceforge.
Al inscribirse, existe la opción de señalar la ubicación de tu propia web para dedicar tu cliente al procesamiento de la misma. Además existe la opción de crear y unirse a equipos, los que compiten entre sà en una guerra de estadÃsticas.
Actualmente, los resultados del proyecto pueden verse en acción en WiseNut, o aprovecharse a través de una API.
Actualización: a pesar de no tener una medida de comparación, me atreverÃa a decir que el cliente funciona muy eficientemente: en un par de horas conectado, y con una configuración muy modesta (utilización de un 20% de CPU en un Pentium III a 500 Mhz y 44kbps de una conexión de cable a 128 kbps), he registrado más de 2200 páginas, analizado 1570, procesado 86MB de datos.