RETRO, la pequeña IA de lenguaje de DeepMind que iguala a los gigantes del campo

En los dos años que han pasado desde que OpenAI lanzó su modelo de lenguaje GPT-3, la mayoría de los laboratorios de inteligencia artificial (IA) más prestigiosos han desarrollado sus propios imitadores de lenguaje. Google, Facebook y Microsoft, así como un puñado de empresas chinas, han creado sistemas de IA capaces de generar texto convincente, de chatear con personas, de responder a preguntas y mucho más.

Conocidos como grandes modelos de lenguaje (LLM, por sus siglas en inglés) debido al enorme tamaño de las redes neuronales que los sustentan, se han convertido en una tendencia dominante en la IA, mostrando tanto sus puntos fuertes (una sorprendente capacidad para usar el lenguaje) como los débiles, especialmente los sesgos inherentes de la IA y la cantidad insostenible de la potencia informática que pueden consumir.

Hasta ahora, DeepMind ha brillado por su ausencia en este campo. Pero la semana pasada, la empresa con sede en Reino Unido, responsable de algunos de los logros más impresionantes en IA, incluidos AlphaZero y AlphaFold, ha entrado en este terreno de forma repentina con la publicación simultánea de tres nuevos estudios sobre los grandes modelos de lenguaje. El resultado principal de DeepMind es una IA con un toque especial: su mejora consiste en una memoria exte a en forma de una vasta base de datos que contiene fragmentos de texto, que la IA utiliza como una especie de chuleta para generar nuevas frases.

La IA, denominada RETRO (por "Retrieval-Enhanced Transformer"), iguala el rendimiento de redes neuronales 25 veces más grandes, lo que reduce el tiempo y el coste necesarios para entrenar a LLM. Los investigadores también afirman que la base de datos facilita el análisis de lo que la IA ha aprendido, lo que podría ayudar a filtrar fuera el sesgo y el lenguaje tóxico.

"Ser capaz de buscar cosas sobre la marcha en vez de tener que memorizarlo todo suele ser útil, de la misma manera que lo es para las personas", explica el jefe de investigación de LLM de DeepMind, Jack Rae.

Los modelos de lenguaje generan texto prediciendo qué palabras vienen a continuación en una frase o en una conversación. Cuanto más grande es un modelo, más información sobre el mundo puede aprender durante el entrenamiento, lo que mejora sus predicciones. GPT-3 tiene 175.000 millones de parámetros, que son los valores en una red neuronal que almacenan datos y se ajustan a medida que el modelo aprende. El modelo de lenguaje de Microsoft, Megatron-Turing, tiene 530.000 millones de parámetros. Pero los LLM también requieren una gran cantidad de potencia informática para entrenarse, lo que los pone fuera del alcance de la mayoría de las organizaciones, excepto las más ricas.

Con RETRO, DeepMind ha intentado bajar el coste del entrenamiento sin reducir la cantidad de datos que aprende la IA. Los investigadores entrenaron el modelo en un enorme conjunto de datos de artículos de noticias, páginas de Wikipedia, libros y textos de GitHub, un repositorio de código online. El conjunto de datos contiene texto en 10 idiomas, incluidos inglés, español, alemán, francés, ruso, chino, suajili y urdu.

La red neuronal de RETRO tiene solo 7.000 millones de parámetros, pero lo compensa con una base de datos con alrededor de dos billones de fragmentos de texto. Tanto la base de datos como la red neuronal se entrenan al mismo tiempo.

Cuando RETRO genera texto, utiliza la base de datos para buscar y comparar fragmentos similares al texto que está escribiendo, lo que hace que sus predicciones sean más precisas. Pasar una parte de la memoria de la red neuronal a la base de datos exte a permite que RETRO haga más con menos.

La idea no es nueva, pero esta es la primera vez que se desarrolla un sistema de búsqueda para un gran modelo de lenguaje, y la primera vez que se ha demostrado que los resultados del enfoque están a la altura con el rendimiento de las mejores IA de lenguaje.

Más grande no siempre es mejor

RETRO se basa en otros dos estudios publicados por DeepMind la semana pasa, uno que analiza cómo el tamaño de un modelo afecta su rendimiento y otro que trata los posibles daños causados por estas IA.

Para estudiar el tamaño, DeepMind construyó un LLM llamado Gopher, con 280.000 millones de parámetros, que superó a los modelos más avanzados en el 82 % de los más de 150 desafíos de lenguaje común que utilizaron para las pruebas. Luego, lo compararon con RETRO y encontraron que sus 7.000 millones de parámetros igualaban el desempeño de Gopher en la mayoría de las tareas.

El estudio de ética es un resumen completo de los ya conocidos problemas inherentes de los LLM. Estos modelos recogen el sesgo, la desinformación y el lenguaje tóxico, como el discurso de odio, de los artículos y libros en los que se entrenan. Como resultado, a veces producen declaraciones dañinas, reflejando lo que han encontrado en el texto de entrenamiento sin saber lo que eso significa. "Incluso un modelo que imitara perfectamente los datos estaría sesgado", destaca Rae.

Según DeepMind, RETRO podría ayudar a solucionar este problema porque es más fácil ver lo que la IA ha aprendido a partir del análisis de la base de datos que estudiando la red neuronal. En teoría, esto podría permitir filtrar ejemplos de lenguaje dañino o compararlos con otros no dañinos. Pero DeepMind aún no ha demostrado esta afirmación. La científica investigadora de DeepMind Laura Weidinger admite: "No lo tenemos completamente resuelto y estamos trabajando para abordar estos desafíos".

La base de datos también se puede actualizar sin tener que volver a entrenar la red neuronal. Esto significa que se puede agregar rápidamente información nueva, como quién ganó el US Open, y eliminar la información obsoleta o falsa.

Los sistemas como RETRO son más transparentes que los modelos de caja negra como GPT-3, afirma el estudiante de doctorado en la Universidad McGill (Canadá) Devendra Sachan. "Pero esto no es una garantía de que vaya a evitar la toxicidad y el sesgo", añade. Sachan desarrolló un precursor de RETRO en una colaboración anterior con DeepMind, pero no ha participado en este último trabajo.

Sachan opina que corregir el comportamiento dañino de los modelos de lenguaje requiere una cuidadosa edición de los datos de entrenamiento antes de iniciarlo. Aun así, los sistemas como RETRO pueden ayudar: "Resulta más fácil adoptar estas pautas cuando un modelo utiliza datos exte os para sus predicciones", concluye.

Puede que DeepMind haya llegado más tarde a este debate, pero en vez de intentar superar la competencia en su mismo terreno de juego, la está igualando con un enfoque alte ativo. "Este es el futuro de los LLM", asegura Sachan.

Más grande no siempre es mejor

Buscar en MIT Technology Review

Explorar Temas

Secciones

RETRO, la pequeña IA de lenguaje de DeepMind que iguala a los gigantes del campo

Más grande no siempre es mejor

Más grande no siempre es mejor