El software de Google dice que en esa foto sale "un grupo de jóvenes jugando al frisbee"

Fotos: Un software experimental de Google es capaz de describir con precisión escenas en fotos, como las dos de la izquierda. Aunque todavía comete errores, como se ve en las dos fotos a la derecha.

Los investigadores de Google han creado un software capaz de utilizar oraciones completas para describir con precisión escenas mostradas en fotos, lo que supone un avance significativo en el campo de la visión por ordenador. Cuando se le mostró una foto de gente jugando al frisbee, por ejemplo, el software respondió con la descripción "Un grupo de jóvenes jugando al frisbee". El software puede incluso contar, dando respuestas como "Dos pizzas colocadas en un ho o".

Hasta ahora, la mayoría de los esfuerzos por crear un software que entendiese las imágenes se habían concentrado en identificar objetos individuales, una tarea que resulta más sencilla.

"Es muy emocionante", señala el científico de investigación de Google, Oriol Vinyals. "Estoy seguro de que saldrán algunas aplicaciones potenciales de este proyecto".

El nuevo software es el último producto de investigación de Google en el uso de grandes colecciones de neuronas simuladas para procesar datos (ver "Aprendizaje profundo"). Nadie en Google programó el nuevo software con reglas sobre cómo interpretar las escenas. En vez de eso, sus redes "aprendieron" después de consumir datos. Aunque según Vinyals por ahora es sólo un proyecto de investigación, él y otros compañeros de Google ya han comenzado a pensar en cómo utilizarlo para mejorar la búsqueda de imágenes o ayudar a los discapacitados visuales a navegar en línea o en el mundo real.

Los investigadores de Google crearon el software a través de un tipo de cirugía de cerebro digital, conectando entre sí dos redes neuronales desarrolladas por separado para diferentes tareas. Una red había sido entrenada para procesar imágenes y crear una representación matemática de sus contenidos, preparándola así para la identificación de objetos. La otra había sido entrenada para generar oraciones completas en inglés como parte de programas de traducción automática.

Cuando se combinan las redes, la primera puede "mirar" una imagen y luego proporcionar la descripción matemática de lo que "ve" a la segunda, que utiliza esa información para generar una frase legible. La red combinada fue entrenada para generar descripciones más precisas. Para ello se le mostraron decenas de miles de imágenes con descripciones escritas por seres humanos. "A través del lenguaje vemos lo que pensaba que era la imagen", afirma Vinyals.

Después de este proceso de formación, el software se utilizó con varios grandes conjuntos de datos de imágenes de Flickr y otras fuentes, y se le pidió que los describiera. A continuación, se juzgó la precisión de sus descripciones con una prueba automatizada utilizada para determinar el rendimiento del software de visión por ordenador. El software de Google consiguió puntuaciones en el rango de 60 en una escala de 100 puntos. Los seres humanos que hacen la prueba normalmente logran una puntuación en el rango de 70, según Vinyals.

Ese resultado sugiere que Google está muy por delante de otros investigadores dedicados a crear software para describir escenas. Recientemente, investigadores de Stanford han publicado los detalles de su propio sistema, asegurando que obtuvo entre 40 y 50 en la misma prueba estándar.

Sin embargo, Vinyals señala que los investigadores de Google y en otros lugares siguen estando en las primeras etapas de comprensión sobre cómo crear y probar este tipo de software. Cuando Google pidió a seres humanos que evaluaran las descripciones de su software de imágenes en una escala del 1 al 4, el promedió fue de sólo 2,5, lo que sugiere que todavía tiene un largo camino por recorrer.

Vinyals predice que la investigación sobre la comprensión y descripción de escenas va a intensificarse. Uno de los problemas que podrían provocar retrasos es que, aunque se han creado grandes bases de datos de imágenes etiquetadas a mano para entrenar el software a reconocer objetos individuales, hay menos fotos etiquetadas de escenas más naturales.

Este año, Microsoft lanzó una base de datos llamada COCO para intentar arreglar esta situación. Google utilizó COCO en su nueva investigación, pero sigue siendo relativamente pequeña. "Espero que otros colaboradores contribuyan a mejorarla", concluye Vinyals.

Hasta ahora, la mayoría de los esfuerzos por crear un software que entendiese las imágenes se habían concentrado en identificar objetos individuales, una tarea que resulta más sencilla.

"Es muy emocionante", señala el científico de investigación de Google, Oriol Vinyals. "Estoy seguro de que saldrán algunas aplicaciones potenciales de este proyecto".

Buscar en MIT Technology Review

Explorar Temas

Secciones

El software de Google dice que en esa foto sale "un grupo de jóvenes jugando al frisbee"