Google DeepMind financia investigaciones sobre los peligros potenciales de situaciones en las que millones de diferentes agentes de IA interactúan entre sí en línea.
Según Rohin Shah, quien dirige la investigación de seguridad y alineamiento de AGI de la compañía, la llegada al mercado masivo de agentes capaces de llevar a cabo tareas sin supervisión humana y de seguir instrucciones dadas por otros agentes crea una clase de riesgo completamente nueva.
En un esfuerzo por abordar esto, Google DeepMind —que convirtió las herramientas basadas en agentes en un elemento central del Google I/O el mes pasado— se ha asociado con varias otras organizaciones para anunciar un fondo de 10 millones de dólares para que los investigadores estudien el comportamiento de los sistemas multiagente y propongan formas de prevenir escenarios inseguros. A Google DeepMind se unen Schmidt Sciences, una fundación filantrópica establecida por Eric y Wendy Schmidt; ARIA, la agencia moonshot del gobie o del Reino Unido; la fundación Cooperative AI, una entidad de investigación sin ánimo de lucro con sede en el Reino Unido; y la rama benéfica de Google, Google.org.
Pregunté a Shah y a James Fox, quien dirige el programa Ciencia de la IA Confiable en Schmidt Sciences, qué esperan lograr con esos 10 millones de dólares. No es una suma pequeña, pero queda empequeñecida por los presupuestos que manejan los propios equipos de investigación de Google DeepMind.
El objetivo es impulsar la investigación fuera de las empresas tecnológicas, afirma Shah: “La fortaleza de la academia reside en que puede mirar bastante lejos en el futuro y realizar el tipo de trabajo que no es prioritario en los laboratorios de la industria”.
“El problema principal es que realmente todavía no existe un campo de investigación para la seguridad multiagente”, añade. “Y nos gustaría que lo hubiera”.
La preocupación es que, a medida que se desplieguen cada vez más agentes de IA y empiecen a trabajar juntos, podríamos alcanzar un punto de inflexión en el que los escenarios imaginados se hagan realidad. «Esto también lo vemos con la humanidad», afirma Shah. «Nuestras instituciones pueden lograr cosas que ningún ser humano individual puede.»
Shah cree que nos quedan unos meses más antes de que los agentes se desplieguen por toda la economía en cantidades que conviertan los riesgos potenciales en una preocupación real. Quiere anticiparse a ese momento.
Negocio arriesgado
¿Exactamente, de qué riesgos estamos hablando? Las posibilidades que Shah y Fox tienen en mente se reducen principalmente a versiones amplificadas de problemas que ya ocurren en inte et: estafas, inyecciones de instrucciones (donde un agente de IA recibe instrucciones maliciosas, convirtiéndolo en un *malware* autodirigido), y otras formas de ciberataque. Observamos lo que hacen los humanos ahora y nos preguntamos cuál sería la versión de agente de aquello, afirma Shah.
“Contamos con unos bienes comunes digitales que son esenciales para el funcionamiento de la sociedad, y hay que asegurar que esto no degenere en una anarquía total”, señala Fox.
(Le pregunté a Shah si estaban considerando algún escenario del peor caso más en el extremo catastrofista del espectro, como un colapso económico generalizado. «Ciertamente no si hablamos de aquí a finales de año», dijo. ¡Eso es en solo seis meses! Se rio. «Vale, un tiempo después de eso».)
Tanto Shah como Fox creen que la única manera de entender lo que podría pasar cuando un gran número de sistemas multiagente interactúan entre sí es ejecutar simulaciones realistas. Quieren que los investigadores introduzcan agentes de IA en ento os de prueba y estudien lo que hacen.
No se puede predecir lo que sucederá estudiando agentes individuales, o incluso pequeños grupos de agentes, de forma aislada. No se puede asumir que los agentes de IA respaldados por LLM siempre actuarán de forma racional, afirma Fox. Y la complejidad surge de la gran cantidad de interacciones simultáneas.
Algunos investigadores, incluido un equipo de Google DeepMind, han argumentado que la inteligencia artificial general (si es que es posible) podría no provenir de un único modelo superinteligente, sino de una especie de mente colmena de agentes, donde las capacidades del conjunto suman más que la suma de sus partes.
Falta de confianza
Google DeepMind no es la única de las principales firmas de IA que advierte sobre los riesgos de la tecnología que está desarrollando. Hace un par de semanas, Anthropic publicó unas directrices para desplegar agentes de IA basadas en un enfoque de ciberseguridad conocido como zero trust, que parte de la premisa de que un sistema informático es vulnerable, un agente es un atacante y se producirá una brecha.
Refael Angel, cofundador y CTO de Akeyless, una empresa de ciberseguridad con sede en Tel Aviv, coincide en que comprender los nuevos riesgos introducidos por los sistemas basados en agentes es crucial.
Cada enfoque de seguridad en el pasado ha asumido que la máquina en cuestión era software escrito por un humano, que realizaba tareas fijas por rutas preestablecidas, afirma Angel: «Un agente rompe todas esas suposiciones. Razona, improvisa y puede ser secuestrado por una única frase oculta en un documento que se le pidió leer».
Ángel celebra esta nueva financiación. “Ningún laboratorio debería dictar por sí solo los estándares de seguridad en los que todos los demás tengan que confiar”, afirma. Pero advierte que los investigadores de seguridad pueden pasar por alto problemas mundanos que ya existen en favor de otros más exóticos e hipotéticos.
Y, sin embargo, Fox señala que los riesgos que eran hipotéticos hace unos años son ahora muy reales: “El futuro ha llegado más deprisa de lo quizás esperado.”

