Computación

Los ordenadores tienen los mismos problemas para ver que los humanos

La visión de máquinas emplea redes neuronales simuladas que imitan el procesamiento del cerebro humano para la vista. Una investigación revela increíbles similitudes entre ambas

por Emerging Technology From The Arxiv | traducido por Teresa Woods
09 Mayo, 2016

Las redes neuronales convolucionales profundas (DCCN, por sus siglas en inglés) han conquistado el mundo de la inteligencia artificial. Estas máquinas ya superan de forma habitual el rendimiento humano en muchas tareas, desde el reconocimiento de caras y objetos hasta jugar al ancestral juego Go.

La ironía, por supuesto, es que las redes neuronales se basan en la estructura del cerebro humano. Resulta que existen unas increíbles similitudes entre la estructura más amplia de las redes neuronales convolucionales profundas subyacentes de la visión de máquinas y la estructura del cerebro responsable de la vista humana. La segunda evolucionó durante millones de años, la primera se creó en solo unas décadas.. Ambas parecen funcionar de la misma forma.

Y eso suscita una pregunta interesante: Si la visión de máquinas y la visión humana funcionan de manera parecida, ¿también comparten las mismas limitaciones? ¿Luchan los humanos y las máquinas por superar los mismos retos relacionados con la visión?

Hoy recibimos una respuesta gracias al trabajo de Saeed Reza Kheradpisheh de la Universidad de Teherán (Irán) y un equipo internacional de investigadores. Su proyecto ha sometido a humanos y máquinas a los mismos retos de visión. Sus resultados demuestran que, efectivamente, comparten el mismo tipo de problemas.

Primero, algunos antecedentes. El canal del cerebro responsable de la visión humana opera mediante varias capas. Se cree que cada una de ellas va añadiendo más información sobre la imagen visualizada, como el movimiento, la forma, el color, y así sucesivamente. Cada capa consiste en grandes cantidades de neuronas conectadas con una vasta red.

Las DCCN tienen una estructura similar. También constan de capas, y cada una de ellas representa una red de circuitos diseñada para imitar el comportamiento de las neuronas, de allí el término 'red neuronal'.

Con mucho ensayo y error, los informáticos han encontrado que estas capas rinden mejor cuando cada una extrae datos sobre la imagen de forma progresiva. Al examinar el comportamiento de cada capa por separado, los investigadores encontraron increíbles similitudes con la función de capas determinadas del cerebro.

Pero, mientras que al cerebro humano se le da bien reconocer objetos, no es perfecto. De alguna manera, altera las imágenes y no siempre resulta fácil reconocer el objeto que contiene.

Imaginemos una foto de un coche sacada desde el lateral, por ejemplo. Hay varias maneras en las que esta imagen puede ser alterada. Una consiste en traducir el objeto, para desplazarlo de una parte de la imagen a otra. Otra consiste en agrandarla o encogerla.

Después hay dos tipos de rotación. Uno es una rotación "en plano" que muestra el coche desde un lateral, pero boca abajo, por ejemplo.

También existen rotaciones en profundidad. En este caso, hay que imaginar el coche como un objeto en 3D visto desde el lateral. La rotación en profundidad entonces muestra el coche desde delante, atrás o una vista de tres cuartos, y así sucesivamente.

Pero, dadas dos imágenes del mismo coche desde distintos puntos de vista, ¿cuán difícil resulta asegurar que ambos muestran el mismo vehículo? Está claro que algunos tipos de distorsión presentan un reto mayor que otros, pero, ¿cuáles? Y, ¿sufren las mismas dificultades las máquinas?

Para averiguarlo, el equipo de Kheradpisheh coprodujo variaciones de imágenes de cuatro tipos de objetos distintos y después probó la precisión de los humanos y las redes neuronales convolucionales profundas a la hora de lidiar con la tarea de reconocerlos.

La prueba para humanos incluyó la selección de una imagen al azar que se mostraba en pantalla durante 12,5 microsegundos. El participante debía pulsar uno de cuatro botones para indicar si la imagen muestra un coche, un barco, una moto o un animal.

El equipo sometió a 89 humanos a la prueba, que vieron 960 imágenes cada uno. Los investigadores emplearon la velocidad y precisión de las respuestas de cada participante para medir lo bien que había reconocido cada objeto.

El equipo también ejecutó una prueba similar con dos de las DCCN diseñadas para el reconocimiento de objetos más potentes, una desarrollada por la Universidad de Toronto (Canadá) y otra de la Universidad de Oxford (Reino Unido).

Los resultados representan una lectura interesante. Kheradpisheh afirma: "Encontramos que los humanos y las DCCN tuvieron más o menos las mismas dificultades en cada tipo de variación. La rotación en profundidad es con creces la transformación más difícil de resolver, seguida por la escala y finalmente la posición (mucho más fácil)".

Es un trabajo interesante que tiene algunas implicaciones inmediatas. Para empezar, los informáticos tendrán que tener mucho más cuidado con la manera en que generan las bases de datos para desarrollar y probar la visión de máquinas. En el futuro, tendrán que controlar los factores que más dificultades presentan para las máquinas.

Pero también demuestra el potencial de las DCCN para ayudar a probar la manera en la que funciona la cognición humana. El diseño de determinadas imágenes es una tarea crucial en aplicaciones como el control de tráfico aéreo, las salidas de emergencia y las instrucciones para el uso de equipos salvavidas, entre otras.

Utilizar humanos para evaluar estas imágenes es una tarea larga y cara. Pero tal vez estos tipos de redes neuronales podrían asumir este trabajo o al menos filtrar los peores ejemplos, dejando para los humanos una tarea mucho mejor definida y menos pesada.

Más allá, podría ser posible diseñar sistemas de visión de máquinas que no se dejen engañar de la misma manera que los humanos y por tanto pudiera aumentar la capacidad de toma de decisiones humana en situaciones críticas como la conducción.

Y eso es sólo el principio. Las redes neuronales ya están revolucionando todo tipo de tareas que antes representaban un territorio exclusivamente humano, y estos cambios no harán más que acelerarse.

Ref: arxiv.org/abs/1604.06486: Humans and Deep Networks Largely Agree on Which Kinds of Variation Make Object Recognition Harder

Computación

Los ordenadores tienen los mismos problemas para ver que los humanos

La 'start-up' de EE UU que se enfrenta al gigante japonés de materiales para chips

ASML, la empresa que revolucionó la fabricación de chips y quiere seguir haciéndolo

‘Chiplets’: el arma de China en su batalla tecnológica contra EE UU