Otros

Wikipedia quiere agregar significado a sus páginas

La enciclopedia por internet está estudiando la manera de adoptar la web semántica.

por Tom Simonite | traducido por Francisco Reyes (Opinno)
07 Julio, 2010

Como recurso global construido a partir del tiempo libre de millones de voluntarios, Wikipedia quizá sea el epítome de la Web 2.0. Sin embargo la Fundación Wikimedia, la organización sin fines de lucro detrás de Wikipedia, en la actualidad está pensando, entre otros proyectos, cómo hacer que su web sea una pieza clave de la Web 3.0, conocida como la web semántica.

Esto significa hacer que algunos de los datos de los 15 millones (y la cifra sigue subiendo) de artículos de Wikipedia sean comprensibles para los ordenadores, así como para los seres humanos. Algo así permitiría que los programas supieran, por ejemplo, que los números mostrados en una de las columnas de esta tabla de presidentes de los EE.UU. son fechas. Esto podría, a su vez, crear aplicaciones que tomasen datos de Wikipedia para generar automáticamente líneas históricas, o para responder a preguntas sobre conocimientos generales que, normalmente, implicarían que el usuario tuviese que encontrar y leer datos relevantes en internet.

En la conferencia 2010 Semantic Technology llevada a cabo en San Francisco el mes pasado, el director en funciones de la fundación, Erik Möller, y su colega Trevor Parscal, desarrollador de experiencias de usuario en Wikimedia, mostraron algunos primeros pasos llevados a cabo por la fundación para estudiar la forma en que podría añadirse una mayor estructura semántica a Wikipedia. También se dirigieron a la comunidad de la web semántica, para desarrollar formas de hacer que el conocimiento de Wikipedia sea más accesible a los ordenadores y el software.

"La información semántica ya existe en Wikipedia, y hay gente que ya está trabajando sobre esa base," afirma Möller. "Desafortunadamente, no estamos siendo realmente de ayuda, y estas personas tienen que recurrir a extensos procesos para llevar a cabo esta tarea".

Un ejemplo es DBpedia, una base de datos semántica construida utilizando un software de recopilación de datos de páginas de Wikipedia, y administrada por la Universidad Libre de Berlín y la Universidad de Leipzig, ambas en Alemania. Otro ejemplo es Freebase, una base de datos con fines de lucro, cuyos conocimientos provienen en gran medida de Wikipedia. Freebase es la fuente de datos utilizada por el motor de búsqueda de preguntas-respuestas PowerSet, que fue adquirido por Microsoft para que fuera parte de su motor de búsqueda Bing.

Los primeros objetivos de Möller y Parscal son las "infoboxes" (cajas de información) que aparecen como resúmenes en muchas páginas de Wikipedia, así como las tablas de los grupos de datos, como esta que muestra el producto nacional bruto de todos los países del mundo.

"Sólo el hecho de poder reutilizar los datos de Wikipedia sería algo muy importante", señala Yaron Koren, director de una consultora especializada en Semantic MediaWiki, una extensión del software MediaWiki utilizada para construir Wikipedia. "El trabajo manual empleado en el mantenimiento de muchas tablas y listas hoy día podría ser eliminado", añade. En cambio, las listas podrían ser generadas automáticamente desde las infoboxes de otras páginas. También sería posible generar mapas, utilizando las coordenadas de localización encontradas en algunas páginas, o generar automáticamente líneas de tiempo para resumir períodos de la historia cubiertos por muchas otras páginas, afirma Möller.

Möller señala que un ejemplo del tipo de servicios que podrían habilitarse es WikiPics, desarrollado por Daniel Kinzler en la fundación alemana de Wikimedia. Kinzler creó una base de datos de todos los enlaces que conectan con diferentes páginas de Wikipedia y que están disponibles en varios idiomas, con lo que construyó un servicio de búsqueda de imágenes totalmente multilingües. Cuando un usuario introduce el término "caballo", por ejemplo, el servicio también sabe encontrar imágenes de "cheval" (francés) y "Pferd" (alemán). "Buscamos conceptos en lugar de términos", señala Möller. Sin embargo, por ahora la página tiene que hacer búsquedas en toda Wikipedia para actualizar sus conocimientos, lo que ralentiza la velocidad. Una versión semántica de Wikipedia sería capaz de mantener una base de datos en directo y que, además, pudiera ser consultada en cualquier momento.

Wikipedia se enfrenta a dos grandes retos a la hora de incorporar los conceptos semánticos, afirma Möller. Uno es que nadie ha construido un servicio web semántico a la escala de un sitio como Wikipedia, y no está claro si el software ya existente, como por ejemplo Semantic MediaWiki, está a la altura de esta tarea, señala.

Un segundo reto viene dado por la característica de Wikipedia más responsable de su éxito hasta el momento: su comunidad. "Pensar en añadir una estructura semántica es una extensión natural de lo que Wikipedia tiene que hacer, dadas las tendencias actuales," afirma Andrew Lih, desde la Universidad del Sur de California, y autor del libro The Wikipedia Revolution, publicado en 2009. "Sin embargo me preocupa un poco el aspecto relativo a la base de datos—el atractivo de las wikis, en primer lugar, viene dado por la forma en que los seres humanos las editan a mano."

Parscal ha liderado varios intentos por hacer más fácil que cualquier persona pueda añadir o editar datos pertenecientes a un gran grupo semántico. "Hemos estado trabajando en un editor visual que sugiere cómo podríamos ayudar a los usuarios a contribuir con datos estructurados, y que también facilita el proceso de edición", asegura Parscal.

La edición de Wikipedia en la actualidad ya es de por sí un proceso de enormes proporciones que necesita mejorar, admite Parscal. "Si usted ha interactuado alguna vez con nuestra interfaz", explica, "trabajar con wikitext habrá sido como recibir una bofetada en la cara" (wikitext es un lenguaje de marcación que utiliza un código especial alrededor del texto para formatear cosas tales como los enlaces, las referencias y los títulos de las secciones). El wikitext para las tablas o las infoboxes—la información más madura para la creación de estructuras semánticas—es particularmente denso y difícil de entender, afirma Parscal. "Hace poco hicimos algunos estudios de experiencia de usuario con gente que no lo había usado antes; acabaron frustrándose muy rápidamente."

En el futuro, podría ser posible eliminar por completo la necesidad de que un ser humano rellene ciertas partes de Wikipedia, afirma Möller. "Fundamentalmente, una gran cantidad de estos datos probablemente no debería ser introducida por seres humanos en primer lugar. Sólo se debería, por ejemplo, obtener la fuente de un cifra tal como el PIB una vez al año." Esa es una capacidad que Koren ya ha añadido a Semantic MediaWiki, a través de una extensión llamada ExternalData.

Otros

Wikipedia quiere agregar significado a sus páginas

Es hora de jubilar el término "usuario"

Elevar tu casa o abandonarla: el dilema del cambio climático en Luisiana

Conozca a los buzos que intentan averiguar la profundidad a la que puede llegar el ser humano