.

Inteligencia Artificial

Microsoft ya sabe si te has emborrachado gracias al álbum de fotos de la fiesta

1

La compañía ha logrado entrenar una máquina para que entienda y narre las historias que hay detrás de las fotos. Si sales de fiesta y luego dormido en un sofá, el programa sabrá qué ha pasado

  • por Signe Brewster | traducido por Teresa Woods
  • 28 Abril, 2016

Cuando los usuarios de las redes sociales suben fotos y añaden una descripción (pie o leyenda), no sólo describen el contenido de las imágenes. Sus breves textos cuentan una historia, lo que proporciona contexto para las fotos y y un significado emocional adicional.

Un trabajo publicado por Microsoft Research describe un sistema de generación de pies de foto para imágenes que imita el estilo único de los humanos de narración visual. Empresas como Microsoft, Google y Facebook llevan años enseñando a los ordenadores a etiquetar el contenido de las imágenes, pero esta nueva investigación lo lleva un paso más allá al enseñar un sistema basado en redes neuronales a inferir una historia a partir de varias imágenes. Algún día podría ser empleado para generar automáticamente descripciones para conjuntos de imágenes, o para aportar lenguaje "humano" a otras aplicaciones de la inteligencia artificial.

"En lugar de proporcionar una descripción sosa o descafeinada de lo que sucede en las imágenes, se consigue un contexto narrativo más amplio", explica el doctorando de la Universidad de Johns Hopkins y coautor del trabajo Frank Ferraro. El responsable detalla: "Puedes empezar a inferir las situaciones más probables que pueden estar ocurriendo". 

Consideremos un álbum de fotos que retrata un grupo de amigos que celebra un cumpleaños en un bar. Algunas de las primeras fotos muestran a la gente pidiendo cerveza y bebiéndola, mientras una foto posterior muestra a alguien dormido en un sofá.

"Un sistema de leyendas podría decir simplemente: 'Una persona tumbada en un sofá'", dice Ferraro. "Pero un sistema narrativo podría ser capaz de decir: 'Dado que creo que esta gente estaba de juerga o habían quedado para comer y beber, entonces esta persona podría estar borracha'".

Foto: El perro estaba listo para salir de paseo. Crédito: Microsoft.

Foto: Se lo pasó en grande. Crédito: Microsoft.

Foto: Estuvo encantado de estar en el campo. Crédito: Microsoft.

Foto: Su madre se sentía muy orgullosa de él. Crédito: Microsoft.

Foto: Para él, fue un gran día. Crédito: Microsoft.

Un ejemplo descrito en el trabajo incluye una serie de cinco imágenes. Muestran una familia reunida en torno a una mesa, un plato de marisco, un perro e imágenes de la playa. La red neuronal las describió con una historia que se leía así: "La familia se juntó para una parrillada. Disfrutaron de muchos platos deliciosos. El perro se alegraba de acompañarlos. Se lo pasaron en grande en la playa. Hasta se bañaron."

El equipo, que fue liderado por la investigadora de Microsoft Margaret Mitchell e incluía becarios de Microsoft como Ferraro y un investigador de Facebook AI, convirtió una llamada red neuronal de secuencia recurrente en un narrador al entrenarlo con imágenes de Flickr. Dispusieron de unos ayudantes que redactaron leyendas para las imágenes y para series de imágenes de secuencia fija.

Un enfoque similar a los que se emplean para describir el contenido de fotos individuales produjo historias demasiado genéricas. Para remediarlo, el equipo desarrolló una manera para que la red elija las palabras que tengan una alta probabilidad de ser visualmente sobresalientes. También entrenaron al sistema para que no repitiese palabras.

La narración representa una parte importante del ser humano, según el director del Laboratorio de Visión de la Universidad de Stanford (EEUU), Fei-Fei Li, que no participó en la investigación. Una tecnología capaz de imitar las técnicas humanas para documentar las historias ha de poder contrastar los objetos y personajes captados en múltiples fotos e inferir las relaciones entre personas, objetos y lugares.

"El trabajo publicado sólo representa el inicio de este tipo de tecnologías", apunta Li, y concluye: "Pero representa un buen paso hacia la ejecución de un proyecto tan ambicioso. Estoy ansioso por leer más trabajos de seguimiento de estos autores y otros".

Inteligencia Artificial

 

La inteligencia artificial y los robots están transformando nuestra forma de trabajar y nuestro estilo de vida.

  1. La ley de la IA de la UE en cuatro claves

    El trabajo duro empieza ahora.

    Un candado azul con las estrellas amarillas de la UE de fondo
  2. La IA generativa puede convertir tus recuerdos en fotos que nunca existieron

    El proyecto Synthetic Memories ayuda a familias de todo el mundo a recuperar un pasado que nunca se fotografió

    Una imagen en blanco y negro generada por ai de una mujer y un niño mirando por una ventana
  3. "La pregunta es cuánta participación humana se necesita para que algo sea arte"

    Alex Reben hace arte con (y sobre) IA. Hablé con él sobre lo que la nueva ola de modelos generativos significa para el futuro de la creatividad humana

    Detalle de un cuadro de una cabeza deformada en la que unas enormes orejas en la parte frontal de la cara tapan los ojos y una lengua brillante con textura de fresa sobresale de la boca abierta.