Computación

La inteligencia artificial ya comprende los cuentos, aunque aún no muy bien

Las máquinas ya no tienen problemas reconociendo caras o leyendo textos, pero ¿qué pasa con asuntos más complejos como un argumento de película? Un algoritmo se ha leído 300

por The Physics Arxiv Blog | traducido por Teresa Woods
22 Diciembre, 2015

Las técnicas de inteligencia artificial (IA) están arrasando. El año pasado, el equipo de investigaciones DeepMind de Google presentó una máquina que se había autoenseñado a jugar a videojuegos. Este año, un equipo de investigadores chinos demostró un sistema de reconocimiento de caras que rinde mejor que los humanos, y la semana pasada el gigante chino de internet Baidu hizo público un sistema de reconocimiento del habla capaz de transcribir tanto en inglés como en chino mandarín.

Dos factores han hecho posible estos avances. El primero es un mayor entendimiento de las redes neuronales con múltiples capas y de cómo configurarlas para la ejecución de tareas concretas. El segundo es la creación de las vastas bases de datos requeridas para entrenar estas redes.

Estas bases de datos tienen una enorme importancia. Para el reconocimiento de caras, por ejemplo, una red neuronal necesita observar miles de imágenes del mundo real en las que estén claramente etiquetadas las caras desde todos los ángulos, a veces incluso ocluidas. Eso requiere muchas horas de anotación por parte de los humanos, pero ahora es posible gracias a las técnicas de crowdsourcing y los servicios web como el Mechanical Turk de Amazon.

Estos rápidos progresos dentro del campo implican que gran parte de los frutos que se encuentran al alcance de todos se están cosechando rápidamente - el reconocimiento de caras, de objetos, del habla, y así. No obstante, resulta mucho más difícil crear bases de datos para tareas que incluyen un nivel mayor de razonamiento complejo, como entender los cuentos.

Hoy, eso empieza a cambiar gracias al trabajo de Makarand Tapaswi del Instituto Karlsruhe de Tecnología (Alemania) y sus compañeros de equipo, que han recopilado una base de datos de películas que debería servir como un campo de pruebas para las máquinas del aprendizaje profundo y su capacidad de razonar sobre el contenido de los cuentos.

El conocimiento base de su proyecto es que la habilidad de contestar preguntas acerca de un cuento o una película es un importante indicador de si se ha entendido o no. Así, el objetivo de la investigación es crear pruebas de selección múltiple sobre las películas que consten de un conjunto de preguntas y varias respuestas plausibles, de las cuales sólo una es correcta.

Su enfoque es sencillo. El equipo de Tapaswi empezó recopilando resúmenes del argumento de unas 300 películas de Wikipedia. El nivel de detalle de estos resúmenes varía entre un par de párrafos a más de 20.

Entonces conectan el resumen a la propia película, lo cual suma un importante volumen de datos. "La película media dura unas dos horas y contiene más de 198.000 fotogramas y casi 2.000 planos", detallan.

Las películas claramente muestran informaciones que pueden responder a las preguntas del tipo "¿Quién hizo qué, a quién?" Pero no siempre contienen las informaciones que responderían a preguntas acerca de por qué suceden las cosas, para lo cual a veces se necesitan conocimientos adicionales acerca de cómo funciona el mundo.

Así que el equipo de Tapaswi también recopiló información de fuentes adicionales. Por ejemplo, minaron los textos del audio explicativo para los invidentes diseñados para contener suficientes informaciones para poder entender la acción que se desarrolla en pantalla sin verla físicamente; y también minaron los guiones originales de las películas que a menudo resultan útiles, aunque los directores no siempre los siguen al pie de la letra.

Entonces el equipo pidió a unos anotadores humanos que leyesen los resúmenes de cada película. Depués tenían que formular una serie de preguntas sobre cada párrafo leído, junto con la respuesta. De media, los anotadores redactaron cinco preguntas por cada párrafo de resumen. También tuvieron que remarcar la sección del texto que contenía la respuesta a cada pregunta.

Finalmente, el equipo de Tapaswi pidió a los anotadores que leyesen cada pregunta y respuesta, y que elaboraran cuatro respuestas incorrectas para crear una prueba de selección múltiple. La base de datos resultante contiene más de 7.000 preguntas sobre 300 películas.

Las preguntas se dividen en varias categorías. Aquí detallamos algunos ejemplos (adivinen a qué película corresponde cada pregunta, si pueden):

Nombres de personajes (quién)
¿Por quién se siente atraído Epps?
¿Cuál es el mote de Jeff Lebowski?

Razonamiento (por qué)
¿Por qué quiere permanecer Arwen en la Tierra Media?
¿Por qué le dan miedo los murciélagos a Bruce?

Abstracto (el qué)
¿Qué superpoder tiene la esencia verde?
Tal y como se explicó en el juicio, ¿cuál fue la causa principal del accidente?

Razón: acción (cómo)
¿Cómo pasa el tiempo Kale al principio de su sentencia de arresto domiciliario?
¿Cómo derrota Hal a Parallax?

Ubicación (dónde)
¿Cuál es el nombre del gimnasio donde pierden el CD?
¿Hacia dónde guía Aragorn a la Comunidad del Anillo?

Acción (el qué)
¿Qué hace WALL-E cuando cree que se ha apagado Eva?
¿Qué hacen Jane y Kevin un año después de conocerse?

Objeto/Cosa (el qué)
¿Qué encuentra el grupo dentro de la cueva de los trolls?
¿Qué hacen los hombres que agreden al Nota en su casa?

Tipo de persona (el qué)
¿Quién es Daniel Cleaver?
¿Cuál es la profesión de Rachel Dawes?

Sí/No (es, hace)
¿Acepta Madeleine dinero a cambio del trabajo que realiza para Arthur Case?
¿Es Faramir el hijo mayor de Denethor?

Causalidad (qué sucede)
¿Qué hace Mark después de visitarle Bridget para pedir su perdón?
¿Qué sucede durante la cita de Miley y Travis?

Estas preguntas son relativamente sencillas para los humanos que hayan visto una película. Pero el equipo probó la base de datos con varias sencillas estrategias basadas en la contestación de preguntas para ver cómo rendían. Ninguna salió demasiado bien parada, pero la idea, claro está, consiste en ayudar a entrenar a futuras generaciones de estas máquinas que presumiblemente serán mejores.

Es mucho pedir. Una cosa interesante es que las redes neuronales profundas necesitan grandes bases de datos para ayudarles a aprender. Y cuanto más compleja sea la tarea, más grande ha de ser la base de datos de entrenamiento.

Así que una pregunta importante es, ¿cuán grande necesita ser una base de datos para entrenar un algoritmo de aprendizaje profundo que conteste preguntas sobre las películas? Resulta difícil de cuantificar.

Así que un objetivo importante será averiguar si esta base de datos se aproxima o no al tamaño necesario para ayudar a entrenar modernas máquinas de IA mientras aprenden esta tarea. Es algo que pronto averiguará el equipo de Tapaswi.

Mientras tanto, harán pública la base de datos el año que viene en este enlace. Si no llega a generar un buen resultado académico la investigación de IA, al menos resultará útil para los populares concursos de los pubs de origen anglosajón.

Ref: http://arxiv.org/abs/1512.02902: MovieQA: Understanding Stories in Movies through Question-Answeri

Computación

La inteligencia artificial ya comprende los cuentos, aunque aún no muy bien

La 'start-up' de EE UU que se enfrenta al gigante japonés de materiales para chips

ASML, la empresa que revolucionó la fabricación de chips y quiere seguir haciéndolo

‘Chiplets’: el arma de China en su batalla tecnológica contra EE UU