El 5 de junio, 404 Media informó que unos atacantes habían estado utilizando el agente de atención al cliente de IA de Meta para robar cuentas de Instagram. Su enfoque fue sencillo: pidieron al agente que vinculara las cuentas a direcciones de correo electrónico que ellos controlaban, y el agente accedió. Un atacante irrumpió en la cuenta inactiva de la Casa Blanca de Obama y realizó publicaciones a favor de Irán; otros tomaron el control de cuentas con valiosos nombres de usuario de una sola palabra, posiblemente para venderlas.
Las preocupaciones sobre la ciberseguridad de la IA no son nada nuevo. Desde que Anthropic anunció en abril que su modelo Mythos era demasiado hábil para los ataques informáticos como para ser lanzado al público general, tanto comentaristas como investigadores y funcionarios federales se han obsesionado con la idea de que los sistemas de IA superpotentes podrían devastar nuestra infraestructura informática. Eso no es exactamente lo que fue este 'hackeo' de Instagram: ahí, la IA fue el objetivo en lugar del atacante, y el método fue mucho más sencillo de lo que Mythos podría idear. Pero a medida que las empresas descargan más trabajo en la IA, estos ataques comparativamente poco sofisticados podrían causar sus propios estragos.
“A medida que la IA se utilice cada vez más —especialmente cuando la IA se utilice cada vez más para automatizar nuestros flujos de trabajo, como la recuperación de cuentas—, creo que los atacantes estarán cada vez más motivados para atacar a la propia IA”, dice Neil Gong, profesor de ingeniería eléctrica e informática en la Universidad de Duke.
Gong y otros académicos llevan tiempo advirtiendo sobre las vulnerabilidades de seguridad de los agentes de IA. Publican artículos y entradas de blog que detallan exploits como la inyección indirecta de prompts, que implica el secuestro de agentes mediante comandos ocultos en sitios web, correos electrónicos u otras fuentes de datos aparentemente anodinas. En comparación con estas técnicas, el hackeo de Meta fue sorprendentemente sencillo. La única complicación que tuvieron que superar los hackers fue usar una VPN que coincidiera con la ubicación real del propietario de la cuenta; luego le pidieron directamente al agente de soporte que cambiara la dirección de correo electrónico de la cuenta, y este accedió.
Meta no ha comentado públicamente cómo esta vulnerabilidad pasó desapercibida. Pero dada la simplicidad del exploit, dice Gong, debería haberse detectado fácilmente, antes de que el agente fuera desplegado. "Es realmente sorprendente", afirma. "No entiendo por qué no encontraron este problema tan simple."
Jessica Ji, analista sénior de investigación en el Centro de Seguridad y Tecnologías Emergentes de Georgetown, está de acuerdo. «Plantea preguntas como: ¿Había siquiera salvaguardias implementadas?», dice. «¿Alguien pensó en probar este tipo de escenario?» Señala que el descuido es particularmente sorprendente viniendo de una empresa como Meta, que tiene una amplia experiencia tanto en IA como en ciberseguridad. Meta no respondió a una solicitud de comentarios para este artículo, pero el lunes un portavoz de Meta dijo en X que la vulnerabilidad había sido resuelta.
Por muy embarazoso que pueda ser este momento para Meta en particular, también subraya algunas vulnerabilidades fundamentales compartidas por todos los agentes de IA. A diferencia del software tradicional, los agentes pueden responder de formas flexibles —e inesperadas— a nuevas circunstancias, razón por la cual podrían sustituir a los agentes humanos de atención al cliente. Pero los agentes de IA también pueden ser engañados de maneras que los humanos no lo serían, y, dado que pueden realizar acciones en el mundo real, esos errores tienen consecuencias. «Un humano diría: 'Vale, ¿por qué quieres cambiar la dirección de correo electrónico?' y quizás respondería con una pregunta de seguridad», dice Somesh Jha, profesor de informática en la Universidad de Wisconsin-Madison. «Lo que ocurre con estos agentes es que están muy ansiosos por terminar la tarea. Es casi como un estudiante de primaria que solo quiere complacer al profesor.»
Hay formas de mitigar los riesgos. Las empresas pueden usar software tradicional para construir mecanismos de contención que aseguren que los agentes sigan reglas estrictas, como solicitar siempre las respuestas a preguntas de seguridad antes de enviar información sensible de la cuenta a una nueva dirección de correo electrónico. Y los expertos consultados para este artículo coinciden en que los agentes deberían someterse a un riguroso «red-teaming», un proceso en el que los desarrolladores se esfuerzan por atacar un sistema para descubrir sus vulnerabilidades antes de su despliegue.
Pero también existen fuerzas contrarias. Las empresas desean desplegar agentes capaces, y cuanta más potencia tenga un agente —y a menos salvaguardas esté sujeto—, más trabajo podrá asumir potencialmente. «La seguridad y la utilidad siempre tienen un compromiso», afirma Bo Li, profesor de informática en la Universidad de Illinois Urbana-Champaign. Y un red-teaming adecuado puede resultar caro. Los defensores tienen que dedicar más recursos que los atacantes, porque estos últimos solo necesitan descubrir un único exploit, mientras que los defensores intentan descubrir y parchear tantos como sea posible. Cuando los atacantes persiguen algo tan valioso como un nombre de usuario de Instagram de una sola palabra, volcarán recursos en encontrar exploits, por lo que los defensores tienen que gastar aún más dinero para proteger ese premio.
A medida que los modelos de IA sigan mejorando, reforzar sus defensas podría, de hecho, volverse más fácil. Aunque la naturaleza probabilística de los grandes modelos de lenguaje significa que los agentes LLM siempre serán vulnerables a algunas formas de ataque, un modelo más sofisticado podría haber identificado como sospechoso un intento de cambiar el correo electrónico asociado a la cuenta de la Casa Blanca de Obama. Y los sistemas de IA pueden utilizarse para el red-teaming de agentes, de forma muy parecida a como los participantes en el Project Glasswing de Anthropic usan Mythos para identificar vulnerabilidades en su software.
Sin embargo, los expertos esperan que el problema de asegurar los agentes de IA se vuelva cada vez más apremiante en el futuro. A medida que los agentes sean más capaces, las empresas que los adopten podrían querer darles más poder, tanto para ofrecer más servicios con menos humanos como para evitar quedarse atrás frente a sus competidores. En el vertiginoso mundo de la IA, el tiempo necesario para asegurar cuidadosamente los sistemas agénticos arriesgados podría parecer una demora imperdonable.
“Todo el mundo quiere ser el primero en hacer algo y simplemente lanzar las cosas sin un escrutinio minucioso ni la realización de pruebas de equipo rojo”, dice Jha. “Creo que es algo muy peligroso”.

