AlphaGo Zero ha derrotado a su hermano mayor en 100 a 0 sin ayuda humana

A AlphaGo el título de mejor jugador de Go del planeta no le ha durado mucho tiempo (ver La nueva victoria de AlphaGo demuestra una inteligencia imbatible para los humanos). Ya hay una nueva versión del magistral programa de inteligencia artificial, y es un monstruo. En un enfrentamiento cara a cara, AlphaGo Zero venció al programa original 100 a cero.

Lo realmente genial es cómo AlphaGo Zero ha logrado esta supremacía. Mientras que el AlphaGo original aprendió a jugar mediante la ingesta de datos de cientos de miles de partidas jugadas por expertos humanos, AlphaGo Zero (también desarrollado por la filial de Alphabet DeepMind) sólo tenía un tablero en blanco y las reglas del juego. ¿Cómo aprendió? Jugando millones de partidas contra sí mismo y usando lo adquirido en cada juego para mejorar.

El nuevo programa representa un paso adelante en la búsqueda de la construcción de máquinas realmente inteligentes. Esto se debe a que las máquinas necesitarán encontrar soluciones a problemas difíciles incluso cuando no exista una gran cantidad de datos de los que aprender.

"Lo más sorprendente es que ya no hace falta ningún dato humano", dice el CEO y cofundador de DeepMind, Demis Hassabis (ver El hombre que convenció a Stephen Hawking de que los robots no van a destrui os). El investigador dice que las técnicas utilizadas para construir AlphaGo Zero son lo suficientemente potentes como para aplicarse en situaciones del mundo real donde es necesario explorar un vasto panorama de posibilidades, que incluyen el descubrimiento de fármacos y la ciencia de los materiales. La investigación detrás de AlphaGo Zero se publicó la semana pasada en la revista Nature.

Sorprendentemente, durante este proceso de autoaprendizaje, AlphaGo Zero descubrió muchos de los trucos y técnicas que los jugadores de Go humanos han desarrollado en los últimos miles de años. "A los pocos días, redescubre las mejores jugadas conocidas, y al final consigue ir más allá de esas jugadas para encontrar algo aún mejor. Verlo es genial", dice Hassabis.

DeepMind, con sede en Londres (Reino Unido), fue adquirida por Google en 2014. La compañía utiliza los juegos, la simulación y el aprendizaje automático para intentar hacer grandes avances en inteligencia artificial. Y ya ha contratado a cientos de investigadores de inteligencia artificial para lograr este objetivo. El desarrollo de AlphaGo Zero involucró a alrededor de 15 personas y probablemente millones de euros en recursos informáticos, dice Hassabis.

Tanto AlphaGo como AlphaGo Zero utilizan un enfoque de aprendizaje automático conocido como aprendizaje reforzado (ver 10 Tecnologías Emergentes de 2017: Aprendizaje reforzado) y redes neuronales profundas. El aprendizaje reforzado está inspirado en la forma en que los animales parecen aprender a través de la experimentación y la retroalimentación, y DeepMind ha utilizado esta técnica para lograr un rendimiento sobrehumano en los juegos más simples de Atari (ver La inteligencia artificial de Google juega al Space Invaders mejor que los humanos).

Foto: El número de configuraciones posibles en el tablero Go es mayor que el número de átomos en el universo. Crédito: www.alphagomovie.com.

No obstante, dominar el juego de mesa Go fue algo especialmente significativo, ya que el juego es increíblemente complejo y los mejores jugadores realizan sus movimientos de forma instintiva. En otras palabras: las reglas para jugar bien no pueden explicarse ni escribirse fácilmente con código.

El aprendizaje reforzado también parece tener potencial para automatizar la programación de máquinas en muchos otros contextos, incluidos aquellos en los que no sería práctico programarlas a mano. Ya se está probando como una forma de enseñar a los robots a agarrar objetos incómodos, por ejemplo, y como medio para conservar energía en los centros de datos mediante la reconfiguración de hardware sobre la marcha. Pero en muchas situaciones del mundo real puede que no haya un gran número de ejemplos de los que aprender, lo que significa que las máquinas tendrán que aprender por sí mismas. Éste es el punto interesante de AlphaGo Zero.

El investigador principal de DeepMind y profesor del University College de Londres (Reino Unido), David Silver, detalla:"Al no usar datos humanos ni experiencia humana, hemos eliminado las limitaciones del conocimiento humano. El programa es capaz de crear conocimiento por sí mismo a partir de principios primitivos".

Para lograr la supremacía de Go, AlphaGo Zero simplemente jugó contra sí mismo, al principio de manera aleatoria. Al igual que el original, utilizó una red neuronal profunda y un potente algoritmo de búsqueda para elegir el siguiente movimiento. Pero en AlphaGo Zero, una sola red neuronal se ocupó de ambas funciones.

El profesor de la Universidad de Alberta (Canadá) Martin Mueller, que ha realizado un importante trabajo sobre el software que juega a Go, se siente impresionado por el diseño de AlphaGo Zero y dice que significa un avance para el aprendizaje reforzado. "La arquitectura es más simple, pero más potente que las versiones anteriores", señala.

DeepMind ya es el favorito de la industria de la IA. Su último logro ya está acaparando titulares y probablemente desatará el debate sobre el progreso hacia formas mucho más poderosas de inteligencia artificial (ver Mil millones de dólares para evitar que la IA sea 'mala' con la humanidad).

Sin embargo, hay razones para tomarse el anuncio con cautela. El profesor de la Universidad de Washington (EEUU) Pedro Domingos señala que el programa aún necesita jugar muchos millones de partidas para dominar Go, muchas más de las que un jugador humano experto necesita. Esto sugiere que la inteligencia que emplea el programa es, de alguna manera, fundamentalmente diferente.

El experto detalla: "Es una buena ilustración del progreso reciente en el aprendizaje profundo y el aprendizaje reforzado, pero yo no me lo tomaría como una señal de lo que las computadoras pueden aprender sin el conocimiento humano. Lo que sería realmente impresionante es que AlphaGo venciera a Lee Sedol [el legendario campeón surcoreano] después de haber jugado más o menos tantos juegos como jugó él en su carrera antes de convertirse en campeón. No estamos cerca de eso".

De hecho, tanto Silver como Hassabis admiten que encontrar maneras de que las máquinas aprendan con mucha menos información será importante en la búsqueda constante de dominar la inteligencia. Esto puede implicar el desarrollo de nuevos enfoques para permitir que las máquinas transfieran lo que han aprendido de un dominio a otro y aprender de observar a otros (tanto humanos como otras inteligencias artificiales).

A pesar del trabajo que aún queda por hacer, Hassabis tiene la esperanza de que dentro de 10 años la IA desempeñará un papel clave para solucionar problemas importantes en ciencias, medicina u otros campos. El experto concluye: "Espero que este tipo de algoritmos y sus versiones futuras trabajen de manera rutinaria con nosotros para avanzar en las fronteras de la ciencia y la medicina. Tal vez todo tipo de cosas serán diseñadas y descubiertas en parte por este tipo de algoritmos, trabajando en conjunto con humanos muy inteligentes".

Foto: El número de configuraciones posibles en el tablero Go es mayor que el número de átomos en el universo. Crédito: www.alphagomovie.com.

Buscar en MIT Technology Review

Explorar Temas

Secciones

AlphaGo Zero ha derrotado a su hermano mayor en 100 a 0 sin ayuda humana