Telecomunicaciones
Una enciclopedia en línea que se redacta sola
La lectura por parte de máquinas se usa para crear carpetas de información sobre personas y organizaciones a partir de fuentes de noticias traducidas.
- Miércoles, 27 de junio de 2012
- Por David Talbot
- Traducido por Francisco Reyes (Opinno)
Tienen el aspecto de páginas de Wikipedia, escritas por una comunidad de redactores. Sin embargo, estos artículos (breves perfiles de personas y organizaciones, junto a listas de organizaciones, personas y acontecimientos relacionados) están escritos en realidad por ordenadores, en lo que supone una nueva apuesta del Pentágono por construir máquinas que puedan seguir los acontecimientos mundiales y proporcionen a los analistas de inteligencia resúmenes útiles casi en tiempo real.
Aprendizaje de máquinas: Sean Colbath, científico sénior de Raytheon BBN, ayudó a crear el sistema de análisis de emisiones de televisión de BBN.
Fuente: David Talbot
El prototipo de sistema es parte de un sitio no público construido para agencias de inteligencia por Raytheon BBN en Cambridge, Massachusetts (Estados Unidos), y está programada su entrega al Gobierno estadounidense a finales de este año. Recopila información de 40 sitios web de noticias escritas en inglés, chino y árabe, y en última instancia cubrirá cientos de sitios de noticias en todos los idiomas principales. Además, en el futuro el sistema se vinculará con una red de análisis de las emisiones de televisión ya existente.
En el nuevo sitio, si buscas información sobre el movimiento yihadista nigeriano Boko Haram, se obtiene este resumen completo generado por ordenador: "Fundado por Mohammed Yusuf en 2002, Boko Haram está liderado por Ibrahim Abubakar Shekau. (Entre sus líderes anteriores está Mohammed Yusuf). Tiene su sede en Maiduguri. Se ha descrito como 'una nueva secta fundamentalista radical', 'el principal generador de caos en el estado', 'una secta fracturada sin estructura clara' y 'la secta extremista equivocada'. "
Sin duda, el artículo en Wikipedia sobre Boko Haram es más claro. Pero el sistema de BBN captura todo lo que aparece en los sitios de noticias, no solo los temas sobre los que la gente ha elegido escribir en Wikipedia, y añade información de forma constante y automática, afirma Sean Colbath, científico sénior de BBN Technologies, que demostró la tecnología. "Me podría poner a leer 200 artículos para aprender más acerca de Bashar Al-Assad (el dictador sirio), pero me gustaría tener una máquina que me lo contase todo", afirma Colbath. (El sistema, por cierto, recoge el hecho de que el brutal Al-Assad es un oftalmólogo certificado).
El proceso comienza con la detección de una 'entidad', un nombre o una organización, como por ejemplo Boko Haram, y tiene en consideración que la ortografía del nombre puede cambiar. Después, se identifican otras entidades (eventos y personas) que estén conectadas, junto con declaraciones hechas por y sobre el tema. "Las relaciones entre las entidades se extraen de forma automática", indica Colbath. "La máquina aprende, tras recibir ejemplos, la forma de unir estas relaciones y llenar los espacios en blanco".
La página de Boko Haram pasa a enumerar las organizaciones y las declaraciones asociadas al grupo. Al hacer clic en cualquiera de ellas podemos ir a las fuentes de noticias originales, las cuales suelen ser traducciones de artículos publicados originalmente en árabe por sitios como Al-Sharq en Qatar y Al-Balad en el Líbano.
El proyecto BBN es fruto del esfuerzo más reciente de la Agencia de Proyectos Avanzados de Investigación en Defensa (DARPA) por construir máquinas que lean como lo hacen los humanos, un problema de décadas de antigüedad que investiga cada vez con más interés desde hace algunos años. Dentro del programa de investigación de la DARPA, SRI International, IBM y Raytheon BBN han construido varios prototipos.
Bonnie Dorr, directora de programa para el proyecto en la DARPA, señala que la tecnología incorpora las mejoras más recientes dentro del campo de la lectura de máquinas, lo que le permite una mejor comprensión de aquellos momentos en que el mismo evento subyacente se describe de múltiples formas, como por ejemplo 'Joe está casado con Sue' y 'Sue es la esposa de Joe', así como a la hora de determinar el sentimiento implícito en frases como 'realmente impresionante'.
Hacer un resumen automático de un texto es notoriamente difícil debido a la dificultad para detectar el humor, el sarcasmo, la información obviamente incorrecta, las expresiones idiomáticas, así como las variantes ortográficas y de sintaxis, por no hablar de los problemas inherentes a la interpretación y la traducción de las fuentes de información en diferentes idiomas.
- 1
- 2



