Una entrevista de dos horas es suficiente para captar con precisión tus valores y preferencias, según una nueva investigación de Stanford y Google DeepMind
Imagínese sentarse con un modelo de inteligencia artificial para una entrevista oral de dos horas. Una voz amigable lo guía a través de una conversación que abarca desde su infancia, sus recuerdos formativos y su carrera hasta sus pensamientos sobre la política de inmigración. Poco después, una réplica virtual de usted es capaz de encarnar sus valores y preferencias con una precisión asombrosa.
Eso ahora es posible, según un nuevo artículo de un equipo que incluye investigadores de Stanford y Google DeepMind, que se ha publicado en arXiv y aún no ha sido revisado por pares.
Dirigido por Joon Sung Park, estudiante de doctorado en informática de Stanford, el equipo reclutó a 1.000 personas de distintas edades, sexo, raza, región, educación e ideología política. Se les pagó hasta 100 dólares por su participación. A partir de las entrevistas con ellos, el equipo creó réplicas de esos agentes. Para comprobar lo bien que imitaban los agentes a sus homólogos humanos, los participantes realizaron una serie de pruebas de personalidad, encuestas sociales y juegos de lógica, dos veces cada una, con dos semanas de diferencia; luego, los agentes completaron los mismos ejercicios. Los resultados fueron 85% similares.
"Si puedes tener un montón de pequeños 'tú' corriendo por ahí y tomando las decisiones que tú habrías tomado, eso, creo, es en última instancia el futuro", dice Joon.
En el artículo, las réplicas se denominan agentes de simulación y el objetivo de su creación es facilitar a los investigadores de las ciencias sociales y otros campos la realización de estudios que serían costosos, poco prácticos o poco éticos si se hicieran con sujetos humanos reales. Si se pueden crear modelos de IA que se comporten como personas reales, se piensa que se pueden utilizar para probar todo, desde la eficacia de las intervenciones en las redes sociales para combatir la desinformación hasta qué comportamientos provocan atascos de tráfico.
Estos agentes de simulación son ligeramente diferentes de los agentes que dominan el trabajo de las principales empresas de IA en la actualidad. Se denominan agentes basados en herramientas y son modelos diseñados para hacer cosas por usted, no para conversar con usted. Por ejemplo, pueden ingresar datos, recuperar información que haya almacenado en algún lugar o, algún día, reservar viajes para usted y programar citas. Salesforce anunció sus propios agentes basados en herramientas en septiembre, seguido por Anthropic en octubre, y OpenAI planea lanzar algunos en enero, según Bloomberg .
Los dos tipos de agentes son diferentes, pero comparten puntos en común. La investigación sobre agentes de simulación, como los de este artículo, probablemente conduzca a agentes de IA más fuertes en general, afirma John Horton, profesor asociado de tecnologías de la información en la Escuela de Administración Sloan del MIT, que fundó una empresa para realizar investigaciones utilizando participantes simulados por IA.
“Este artículo muestra cómo se puede hacer una especie de híbrido: usar humanos reales para generar personajes que luego se pueden usar de manera programática o en simulación de maneras que no se podrían hacer con humanos reales”, dijo a MIT Technology Review en un correo electrónico.
La investigación tiene algunas advertencias, y una de ellas, y no la menor, es el peligro que señala. Así como la tecnología de generación de imágenes ha hecho que sea fácil crear deepfakes dañinos de personas sin su consentimiento, cualquier tecnología de generación de agentes plantea preguntas sobre la facilidad con la que las personas pueden crear herramientas para personificar a otros en línea, diciendo o autorizando cosas que no tenían intención de decir.
Los métodos de evaluación que utilizó el equipo para comprobar lo bien que los agentes de IA replicaban a sus correspondientes humanos también eran bastante básicos. Entre ellos se encontraban la Encuesta Social General (que recoge información sobre la demografía, la felicidad, los comportamientos y otros aspectos de la personalidad) y evaluaciones de los cinco grandes rasgos de personalidad: apertura a la experiencia, escrupulosidad, extroversión, amabilidad y neuroticismo. Estas pruebas se utilizan habitualmente en la investigación de las ciencias sociales, pero no pretenden captar todos los detalles únicos que nos hacen ser nosotros mismos. Los agentes de IA también fueron peores a la hora de replicar a los humanos en pruebas de comportamiento como el "juego del dictador", que pretende arrojar luz sobre cómo los participantes consideran valores como la justicia.
Para construir un agente de IA que replique bien a las personas, los investigadores necesitaban formas de destilar nuestra singularidad en un lenguaje que los modelos de IA pudieran entender. Eligieron entrevistas cualitativas para hacer precisamente eso, dice Joon. Dice que estaba convencido de que las entrevistas son la forma más eficiente de aprender sobre alguien después de aparecer en innumerables podcasts a raíz de un artículo de 2023 que escribió sobre agentes generativos, que despertó un enorme interés en el campo. "Iba a una entrevista de podcast de quizás dos horas, y después de la entrevista, sentí que la gente sabe mucho sobre mí ahora", dice. "Dos horas pueden ser muy poderosas".
Estas entrevistas también pueden revelar idiosincrasias que es menos probable que aparezcan en una encuesta. “Imagínese que alguien acaba de tener cáncer pero finalmente se curó el año pasado. Esa es una información muy única sobre usted que dice mucho sobre cómo podría comportarse y pensar sobre las cosas”, dice. Sería difícil elaborar preguntas de encuesta que susciten este tipo de recuerdos y respuestas.
Sin embargo, las entrevistas no son la única opción. Las empresas que ofrecen crear “gemelos digitales” de los usuarios, como Tavus , pueden hacer que sus modelos de IA ingieran correos electrónicos de los clientes u otros datos. Suele ser necesario un conjunto de datos bastante grande para replicar la personalidad de alguien de esa manera, me dijo el director ejecutivo de Tavus, Hassaan Raza, pero este nuevo artículo sugiere una ruta más eficiente.
“Lo que realmente fue genial aquí es que demostraron que tal vez no se necesite tanta información”, dice Raza, y agrega que su empresa experimentará con el enfoque. “¿Qué tal si simplemente hablas con un entrevistador de IA durante 30 minutos hoy, 30 minutos mañana? Y luego usamos eso para construir este gemelo digital de ti”.