Aprendizaje profundo

Cuando, en julio del año pasado, Ray Kurzweil se reunió con el director general de Google -Larry Page- no estaba buscando trabajo. Kurzweil es un inventor respetado que se ha convertido en un futurista de la inteligencia de máquinas, y quería hablar de su próximo libro, How to Create a Mind.

Le comentó a Page, quien había leído un primer borrador, que quería crear una empresa para desarrollar sus ideas sobre cómo construir un ordenador verdaderamente inteligente: uno que pudiera entender el lenguaje para después hacer inferencias y decisiones por sí mismo.

Pronto se hizo evidente que este esfuerzo requeriría nada menos que la escala de datos y potencia de cómputo que Google puede ofrecer. "Podría intentar darte algún tipo de acceso a todo ello", respondió Page a Kurzweil. "Pero para una empresa independiente, va a ser muy difícil hacerlo". Así que Page sugirió que Kurzweil, que nunca había tenido un trabajo excepto en sus propias compañías, se uniera a Google. Kurzweil no tardó mucho tiempo en tomar una decisión: en enero comenzó a trabajar para Google como director de ingeniería. "Esta es la culminación tras 50 años -literalmente- centrado en la inteligencia artificial", señala.

Kurzweil no solo se sintió atraído por los recursos informáticos de Google, sino también por el sorprendente progreso que la compañía ha hecho en una rama de la IA denominada aprendizaje profundo. El software de aprendizaje profundo intenta imitar la actividad de las distintas capas de neuronas en la corteza cerebral, el arrugado 80 por ciento del cerebro donde se produce el pensamiento. El software aprende, en un sentido muy real, a reconocer patrones en representaciones digitales de sonidos, imágenes y otros datos.

La idea de base, es decir, que el software pueda simular la gran variedad de neuronas del neocórtex en una 'red neuronal' artificial, tiene décadas de antigüedad, y ha dado lugar a tantas decepciones como avances. Sin embargo, debido a las mejoras en las fórmulas matemáticas y al uso de ordenadores cada vez más potentes, los científicos informáticos pueden hoy día modelar muchas más capas de neuronas virtuales que antes.

Gracias a esta mayor profundidad, se están produciendo avances notables en el reconocimiento del habla e imágenes. En junio pasado, un sistema de aprendizaje profundo de Google, al que se le habían mostrado 10 millones de imágenes de vídeos de YouTube, logró ser casi dos veces mejor que cualquier esfuerzo de reconocimiento de imagen anterior a la hora de identificar objetos como por ejemplo gatos. Google también ha utilizado la tecnología para reducir la tasa de errores en el reconocimiento de voz en su último software Android para teléfonos móviles. En octubre, el director de investigación de Microsoft, Rick Rashid, cautivó a los asistentes a una conferencia en China con una demostración de software de voz que transcribió sus palabras habladas a texto en inglés con una tasa de error del 7 por ciento, después lo tradujo a texto en chino, y más tarde simuló su propia voz para pronunciar el texto en mandarín. Ese mismo mes, un equipo de tres estudiantes de posgrado y dos profesores ganó un concurso realizado por Merck para identificar moléculas que pudieran conducir a nuevos fármacos. El grupo utilizó el aprendizaje profundo para centrarse en aquellas moléculas más propensas a unirse a sus objetivos.

Google, en particular, se ha convertido en un imán para todos los profesionales del aprendizaje profundo y la IA. En marzo, la compañía compró una start-up cofundada por Geoffrey Hinton, profesor de ciencias informáticas de la Universidad de Toronto (Canadá), que fue parte del equipo que ganó el concurso de Merck. Hinton, que dividirá su tiempo entre la universidad y Google, señala que planea "sacar ideas de este campo y aplicarlas a problemas reales", como el reconocimiento de imágenes, las búsquedas y la comprensión de lenguaje natural, asegura.

Todo esto hace que los investigadores dedicados a la IA, que normalmente son bastante cautelosos, tengan la esperanza de que las máquinas inteligentes puedan, finalmente, ir más allá de las páginas de ciencia ficción. De hecho, la inteligencia artificial está empezando a transformarlo todo, desde las comunicaciones y la informática hasta la medicina, la industria manufacturera y el transporte. Las posibilidades resultan evidentes en casos como el ordenador Watson de IBM, ganador del concurso americano de preguntas y repuestas Jeopardy!, que utiliza algunas técnicas de aprendizaje profundo y hoy día está siendo entrenado para ayudar a los médicos a tomar mejores decisiones. Microsoft ha incorporado el aprendizaje profundo a su teléfono Windows y la búsqueda por voz de Bing.

Extender el aprendizaje profundo a aplicaciones más allá del reconocimiento del habla e imágenes requerirá más avances conceptuales y de software, por no hablar de muchos más avances en potencia de procesamiento. Y es probable que no contemos con máquinas que todos consideremos capaces de poder pensar por sí mismas durante años, quizá décadas, si es que alguna vez logran crearse. Pero por ahora, según Peter Lee, director de Microsoft Research EE.UU., el "aprendizaje profundo ha reavivado algunos de los grandes retos de la inteligencia artificial".

La construcción de un cerebro

Se han dado muchos enfoques opuestos para superar esos desafíos. Uno de ellos ha consistido en aportar a los ordenadores información y reglas sobre el mundo, lo cual ha exigido a los programadores escribir laboriosamente un tipo de software que estuviera familiarizado con los atributos de, por ejemplo, un borde o un sonido. Eso ha llevado muchísimo tiempo y aún así los sistemas no pueden hacer frente a datos ambiguos. Se limitan a aplicaciones de corto alcance y controladas, como por ejemplo sistemas de menú de teléfono que te pidan que hagas consultas diciendo palabras específicas.

Las redes neuronales, desarrolladas en la década de los 50 poco después de los albores de la investigación en IA, parecía prometedora puesto que trataba de simular la forma en que el cerebro funcionaba, aunque de modo muy simplificado. Un programa traza un conjunto de neuronas virtuales y asigna valores numéricos aleatorios, o 'pesos', a las conexiones entre ellas. Estos pesos determinan cómo responde cada neurona simulada, con una salida matemática entre 0 y 1, ante una característica digitalizada, como por ejemplo un borde o un tono de azul en una imagen, o a un nivel de energía en una frecuencia particular de un fonema, la unidad individual de sonido en sílabas habladas.

Algunas de las redes neuronales artificiales de hoy día pueden ser entrenadas para reconocer patrones complejos.

Los programadores podrían formar una red neuronal para detectar un objeto o un fonema mediante el bombardeo de la red con versiones digitalizadas de imágenes que contengan esos objetos u ondas sonoras que contengan los fonemas. Si la red no reconoce con precisión un patrón particular, un algoritmo ajustaría los pesos. El objetivo final de este entrenamiento era conseguir que la red reconociera de forma consistente patrones de discurso o conjuntos de imágenes que nosotros los humanos conocemos como, por ejemplo, el fonema 'd' o la imagen de un perro. Esto se parece mucho a la forma en que un niño aprende qué es un perro mediante la observación de los detalles de la forma de la cabeza, el comportamiento y otras características en animales peludos y que ladran, conocidos por las personas como perros.

Sin embargo, las redes neuronales iniciales solo podían simular un número muy limitado de neuronas al mismo tiempo, por lo que no podían reconocer patrones de gran complejidad. Acabaron languideciendo a lo largo de la década de los 70.

A mediados de la década de los 80, Hinton y otros expertos contribuyeron a un renacimiento del interés en las redes neuronales con los llamados modelos 'profundos', que hacían un mejor uso de varias capas de neuronas de software. Sin embargo, la técnica todavía requería una gran cantidad de intervención humana: los programadores tenían que etiquetar los datos antes de dárselos a la red. Y el reconocimiento del habla o imágenes complejas requería más potencia informática de la que entonces estaba disponible.

Finalmente, sin embargo, en la última década Hinton y otros investigadores hicieron algunos avances conceptuales fundamentales. En 2006, Hinton desarrolló una forma más eficiente de entrenar a las capas individuales de neuronas. La primera capa aprende características primitivas, como un borde en una imagen o la unidad más pequeña de sonido del habla. Lo hace buscando combinaciones de píxeles digitales u ondas de sonido que se produzcan con más frecuencia de lo que deberían por casualidad. Una vez que esa capa reconoce con precisión esas características, son enviadas a la capa siguiente, que se entrena a sí misma para reconocer características más complejas, como una esquina o una combinación de sonidos del habla. El proceso se repite en capas sucesivas hasta que el sistema puede reconocer con seguridad fonemas u objetos.

Un ejemplo son los gatos. En junio pasado, Google hizo una demostración de una de las mayores redes neuronales creadas hasta ahora, con más de mil millones de conexiones. Un equipo dirigido por el profesor de informática de Stanford Andrew Ng y el Miembro de Google Jeff Dean mostró al sistema imágenes de 10 millones de videos de YouTube elegidos al azar. Una neurona simulada en el modelo de software se centró en las imágenes de gatos. Otras se centraron en rostros humanos, flores amarillas y otros objetos. Y gracias a la potencia del aprendizaje profundo, el sistema identificó estos objetos discretos a pesar de que ningún humano jamás los había definido o etiquetado.

Lo que sorprendió a algunos expertos de IA, sin embargo, fue la magnitud de la mejora en el reconocimiento de imágenes. El sistema clasificó correctamente los objetos y temas de las imágenes de YouTube el 16 por ciento de las veces. Esto quizá no suene demasiado impresionante, pero resultó ser un 70 por ciento mejor que los métodos anteriores. Además, Dean señala que se podía elegir entre 22.000 categorías. Asignar de forma correcta los objetos en algunas de ellas requería, por ejemplo, distinguir entre dos variedades similares de pez raya. Eso habría sido difícil incluso para la mayoría de los seres humanos. Cuando se le pidió al sistema clasificar las imágenes en 1000 categorías más generales, la tasa de precisión subió por encima del 50 por ciento.

Una gran cantidad de datos

El entrenamiento de las numerosas capas de neuronas virtuales en el experimento requirió 16.000 procesadores, el tipo de infraestructura de computación que Google ha desarrollado para su motor de búsqueda y otros servicios. Al menos el 80 por ciento de los recientes avances en IA se pueden atribuir a la disponibilidad de más potencia informática, estima Dileep George, cofundador de la start-up de aprendizaje de máquinas Vicarious.

Sin embargo, se requiere algo más aparte del enorme tamaño de los centros de datos de Google. El aprendizaje profundo también se ha beneficiado del método de división de las tareas de computación entre muchas máquinas, para así poder efectuarlas con mayor rapidez. Esa es una tecnología que Dean ayudó a desarrollar con anterioridad, a lo largo de su carrera de 14 años en Google. Acelera enormemente el entrenamiento de las redes neuronales de aprendizaje profundo, permitiendo a Google trabajar con redes más grandes y usar muchos más datos con ellas.

El aprendizaje profundo ya ha logrado mejorar la búsqueda por voz en los teléfonos inteligentes. Hasta el año pasado, el software Android de Google utilizaba un método que entendía mal muchas palabras. Sin embargo, durante la preparación de una nueva versión de Android en julio pasado, Dean y su equipo ayudaron a reemplazar parte del sistema de voz por uno basado en el aprendizaje profundo. Puesto que las múltiples capas de neuronas permiten un entrenamiento más preciso basado en las múltiples variantes de un sonido, el sistema puede reconocer fragmentos de sonido de forma más fiable, especialmente en ento os ruidosos como una plataforma de metro. Y puesto que es más probable que entienda lo que realmente se ha pronunciado, es más probable que el resultado que devuelva sea también preciso. En muy poco tiempo, el número de errores se redujo hasta en un 25 por ciento, y los resultados son tan buenos que muchos críticos consideran actualmente que la búsqueda de voz de Android es más inteligente que la del famoso asistente de voz Siri de Apple.

A pesar de todos los avances, no todo el mundo cree que el aprendizaje profundo pueda llevar la inteligencia artificial hasta un punto en que rivalice con la inteligencia humana. Algunos críticos señalan que el aprendizaje profundo y la IA en general ignora gran parte de la biología del cerebro en favor de la fuerza bruta de computación.

Uno de estos críticos es Jeff Hawkins, fundador de Palm Computing, cuya última empresa, Numenta, está desarrollando un sistema de aprendizaje automático que se inspira en la biología, pero no utiliza el aprendizaje profundo. El sistema de Numenta puede ayudar a predecir los patrones de consumo de energía y la probabilidad de que una máquina, como por ejemplo una turbina eólica, esté a punto de fallar. Hawkins, autor del libro On Intelligence en 2004, que trata sobre el funcionamiento del cerebro y la forma en que podría proporcionar una guía para la construcción de máquinas inteligentes, señala que el aprendizaje profundo no tiene en cuenta el concepto de tiempo. Los cerebros procesan flujos de datos sensoriales, asegura, y el aprendizaje humano depende de nuestra capacidad para recordar secuencias de patrones: cuando ves un vídeo de un gato haciendo algo divertido, lo que importa es el movimiento, y no una serie de imágenes fijas como las que Google utilizó en su experimento. "Para Google, usar una gran cantidad de datos lo compensa todo", afirma Hawkins.

Pero incluso si no lo compensa todo, los recursos informáticos que una empresa como Google ha dedicado a estos problemas no pueden ser ignorados. Son cruciales, afirman los defensores del aprendizaje profundo, ya que el cerebro es aún mucho más complejo que cualquiera de las redes neuronales actuales. "Se necesitan muchísimos recursos computacionales para que las ideas funcionen", afirma Hinton.

¿Qué es lo próximo?

Aunque Google da muy pocos detalles sobre aplicaciones futuras, las perspectivas son muy interesantes. Está claro que por ejemplo una mejor búsqueda de imágenes ayudaría a YouTube. Y Dean señala que los modelos de aprendizaje profundo pueden utilizar datos de fonemas en inglés para entrenar rápidamente a los sistemas y que reconozcan sonidos hablados en otros idiomas. También es probable que el uso de un reconocimiento de imagen más sofisticado pueda hacer que los coches autoconducidos de Google mejoren notablemente. Además están las búsquedas y los anuncios relacionados con todo ello. Ambas cosas podrían mejorar enormemente gracias a cualquier tecnología que sea mejor y más rápida a la hora de reconocer lo que la gente realmente esté buscando, tal vez incluso antes de que se den cuenta.

Sergey Brin ha dicho que quiere construir una versión benigna de HAL en 2001: Una odisea del espacio.

Esto es lo que intriga a Kurzweil, de 65 años, que desde hace mucho tiempo tiene su propia visión sobre las máquinas inteligentes. En la escuela secundaria, escribió un programa que permitió a un ordenador crear música original en varios estilos clásicos, y del que hizo una demostración en 1965 en el programa estadounidense de televisión I've Got a Secret. Desde entonces, entre sus inventos se encuentran varias primicias: una máquina de lectura de impresión a voz, un software capaz de escanear y digitalizar textos impresos en cualquier tipo de letra, sintetizadores de música para recrear el sonido de los instrumentos de una orquesta, y un sistema de reconocimiento de voz con un amplio vocabulario.

Actualmente tiene en mente un 'amigo cibe ético' que escuche nuestras conversaciones telefónicas, lea el correo electrónico y realice un seguimiento de todos nuestros movimientos, si se lo permitimos, por supuesto, para que nos pueda decir cosas que queramos saber, incluso antes de preguntarlas. Este no es su objetivo inmediato en Google, pero coincide con el del cofundador de la empresa, Sergey Brin, quien afirmó durante los primeros días de la compañía que quería construir el equivalente al ordenador HAL en 2001: Una odisea del espacio, con la salvedad de que este no mataría a nadie.

Por ahora, Kurzweil tiene como objetivo ayudar a los ordenadores a entender e incluso hablar en lenguaje natural. "Mi misión es dar a los ordenadores suficiente comprensión del lenguaje natural para hacer cosas útiles: mejorar búsquedas, mejorar la respuesta a preguntas", señala. Esencialmente, espera crear una versión más flexible del ordenador Watson de IBM, que admira por su capacidad de entender frases de Jeopardy! tan singulares como "un largo y tedioso discurso pronunciado por un pastel de espuma batida". (La respuesta correcta de Watson: "¿Qué es una arenga merengue?")

Kurzweil no se centra exclusivamente en el aprendizaje profundo, aunque señala que su enfoque para el reconocimiento de voz se basa en teorías similares acerca del funcionamiento del cerebro. Quiere modelar el significado real de las palabras, frases y oraciones, incluyendo ambigüedades con las que suelan tropezar los ordenadores. "Tengo una idea sobre un modo gráfico de representar el significado semántico de la lengua", asegura.

A su vez, esto requerirá crear gráficos de la sintaxis de las oraciones de una forma más integral. Google ya está utilizando este tipo de análisis para mejorar la gramática en las traducciones. La comprensión de lenguaje natural también requerirá que los ordenadores entiendan lo que los humanos piensan como significado de sentido común. Para ello, Kurzweil hará uso del Gráfico del Conocimiento, el catálogo de Google sobre unos 700 millones de temas, lugares, personas y más datos, además de miles de millones de relaciones entre ellos. Se presentó el año pasado como forma de proporcionar a los buscadores respuestas a sus consultas, y no solo enlaces.

Por último, Kurzweil tiene previsto aplicar algoritmos de aprendizaje profundo para ayudar a los ordenadores a hacer frente a los "límites y ambigüedades del lenguaje". Si todo esto suena desalentador, es porque lo es. "La comprensión del lenguaje natural no es un objetivo que se alcance en algún momento dado, y lo mismo ocurre con las búsquedas", afirma. "No es un proyecto que creo que vaya a acabar jamás".

Aunque la visión de Kurzweil está todavía a años de convertirse en una realidad, es probable que el aprendizaje profundo impulse otras aplicaciones más allá del reconocimiento del habla y las imágenes a más corto plazo. Por un lado, está el descubrimiento de fármacos. La victoria por sorpresa del grupo de Hinton en el concurso de Merck demostró claramente la utilidad del aprendizaje profundo en un campo en el que muy poca gente esperaba que lograse crear algún tipo de impacto.

Eso no es todo. Peter Lee desde Microsoft afirma que las primeras investigaciones sobre los usos potenciales del aprendizaje profundo en la visión de máquinas son prometedoras. Estas tecnologías usan imágenes para aplicaciones tales como la inspección industrial y la guía de robots. También prevé la creación de sensores personales que las redes neuronales profundas podrían utilizar para predecir problemas médicos. Y sensores en toda la ciudad que enviarían datos a sistemas de aprendizaje profundos que podrían, por ejemplo, predecir dónde van a producirse atascos.

En un campo que trata de algo tan profundo como el modelado del cerebro humano, es inevitable que una técnica no vaya a resolver todos los problemas. Pero por ahora, esta está liderando el camino dentro de la inteligencia artificial. "El aprendizaje profundo", señala Dean, "es una metáfora muy potente para aprender sobre el mundo".