Otros

Una base de datos gratis de todo Internet podría generar el próximo Google

Common Crawl proporciona una base de datos de más de cinco mil millones de páginas web con la esperanza de que inspire nuevas investigaciones o servicios en línea.

por Tom Simonite | traducido por Francisco Reyes (Opinno)
28 Enero, 2013

Google es famosa por haber comenzado como poco más que un algoritmo más eficiente para clasificar páginas web. Sin embargo, el éxito de la compañía también ha dependido de su capacidad para el rastreo de la web, utilizando un software que visita cada página con el fin de construir un enorme índice de contenidos en línea.

Una organización no lucrativa llamada Common Crawl está utilizando su propio rastreador web y también está creando una copia gigante de Internet a la que podrá acceder cualquier persona. La organización ofrece hasta más de cinco mil millones de páginas web, disponibles de forma gratuita para que investigadores y empresarios puedan probar cosas que de otra manera solo serían posibles para aquellos que tuvieran acceso a recursos a la escala de Google.

"Internet representa, por lo que sé, la mayor acumulación de conocimientos, y con él se pueden construir muchas cosas", señala el empresario Gilad Elbaz, fundador de Common Crawl. "Sin embargo, solo el hecho de llevar a cabo la enorme cantidad de trabajo necesaria para acceder a toda esa información resulta un gran impedimento. Muy pocas organizaciones... han tenido los recursos para hacerlo".

Una de las cosas que se pueden construir usando un índice de la web son nuevos motores de búsqueda, señala Elbaz, quien añade que el software de traducción de Google ha sido entrenado usando texto disponible en línea en varios idiomas. "La única manera de hacerlo fue a partir de un rastreo masivo. Eso los ha puesto en camino de construir el traductor de Star Trek", afirma. "Poseer un cuerpo abierto y compartido de conocimiento humano es simplemente una forma de democratizar el acceso a la información y algo fundamental para la innovación".

Elbaz afirma que, hace unos cinco años, se dio cuenta de que aquellos investigadores con nuevas ideas sobre cómo utilizar los datos de Internet se sentían obligados a aceptar empleos en Google porque era el único lugar donde podían poner a prueba esas ideas. Señala que los datos de Common Crawl facilitarán que las ideas novedosas ganen fuerza, tanto en el mundo de las start-ups como en la investigación académica.

Elbaz fundador y director general de Factual, una compañía dedicada a trabajar con grandes volúmenes de datos, y con anterioridad fundó una compañía adquirida por Google para que fuera la base de su negocio de publicidad para páginas web. Common Crawl también cuenta con Peter Norvig, director de investigación de Google, y Joi Ito, director del MIT Media Lab, en su consejo asesor.

Hasta ahora Common Crawl ha indexado más de cinco mil millones de páginas, acumulando hasta 81 terabytes de datos, disponibles a través del servicio de computación en nube de Amazon. Por alrededor de 25 dólares (18,5 euros) un programador puede crear una cuenta en Amazon y ponerse a trabajar usando los datos de Common Crawl, señala Lisa Green, directora de Common Crawl. El Archivo de Internet, otra organización no lucrativa, también ha extraído una copia de Internet y ofrece un servicio llamado "Wayback Machine", capaz de mostrar las versiones antiguas de una página en particular. Sin embargo, no permite que cualquiera analice todos sus datos de una vez de esa manera.

Common Crawl ya ha inspirado o ayudado a algunas start-ups de Internet nuevas. TinEye, una motor de búsqueda 'inverso' que encuentra imágenes similares a una proporcionada por el usuario, utilizó parte de los primeros datos de Common Crawl para empezar. El proyecto personal de un programador con datos de Common Crawl para medir la cantidad de páginas en Internet que se conectan con Facebook (alrededor de un 22 por ciento, según sus conclusiones), lo llevó a asegurar el financiamiento para una start-up, Lucky Oyster, dedicada a ayudar a personas a encontrar información útil en sus datos sociales.

Otras ideas habilitadas por el proyecto surgieron de un concurso organizado el año pasado que otorgó premios a las mejores ideas de utilización. Uno de los ganadores utilizó enlaces de Wikipedia en los datos de rastreo para crear un servicio capaz de definir significados de palabras. Otro trató de determinar actitudes públicas hacia la legislación del Congreso de EE.UU., analizando el contenido de discusiones en línea sobre nuevas leyes.

Rich Skrenta, cofundador y director general del motor de búsqueda y start-up Blekko, señala que los datos de Common Crawl responden a una clara necesidad dentro de la comunidad de start-ups. Afirma que varias start-ups con necesidades tecnológicas se han puesto en contacto con Blekko para poder acceder a grandes volúmenes de datos en línea. "Este tipo de datos están ahora fácilmente disponibles en Common Crawl", indica Skrenta, cuya compañía aportó algunos de sus propios datos al proyecto en diciembre de 2012. Blekko compartió información de su sistema, que clasifica las páginas web según su contenido, por ejemplo etiquetando si contienen pornografía o spam.

Ben Zhao, profesor asistente de la Universidad de California en Santa Bárbara (EE.UU.), y que utiliza grandes conjuntos de datos de Internet para la investigación de la actividad en las redes sociales, señala que los datos de Common Crawl probablemente sean únicos. "Los rastreos frescos y a gran escala son muy raros, y personalmente no sé dónde acudir para obtener grandes volúmenes de datos de rastreo en Internet", señala.

Sin embargo, Zhao señala que algunas de las partes más interesantes y valiosas de Internet no estarán bien representadas en los datos de Common Crawl: "Hoy día los sitios sociales ponen mucha atención a su contenido, y ponen en práctica muchos mecanismos antirastreo para limitar la velocidad a la que cualquier persona pueda acceder a dicho contenido".

Para acceder a estos datos, los investigadores deben entablar relaciones con empresas y depender de lo que quieran poner a su disposición, algo más complicado para aquellas start-ups que pudieran ser vistas como competencia.

Otros

Una base de datos gratis de todo Internet podría generar el próximo Google

De la llegada a la Luna al desarrollo de la IA: el papel de las universidades en la innovación

Es hora de jubilar el término "usuario"

Elevar tu casa o abandonarla: el dilema del cambio climático en Luisiana