Esta conversación exclusiva con los creadores de ChatGPT evidencia la sorpresa de su éxito

Cuando a finales de noviembre de 2022 OpenAI lanzó ChatGPT, sin apenas fanfarria, esta empresa de inteligencia artificial (IA) con sede en San Francisco (EE UU) tenía pocas expectativas. Nadie dentro de OpenAI estaba preparado para su megaéxito viral. Desde entonces, a la compañía le ha costado seguir el ritmo y capitalizar su éxito.

Inte amente lo consideraron un "adelanto de la investigación", según Sandhini Agarwal, dedicado a estrategia dentro de OpenAI. Ya que era una versión más pulida de otra tecnología que tenía dos años y, lo que es más importante, un intento de resolver algunos problemas de sus defectos, recogiendo comentarios del usuario. "No queríamos alabarlo en exceso como un gran avance fundamental", afirma Liam Fedus, científico de OpenAI que trabajó en ChatGPT.

Para conocer la historia desde dentro (cómo se hizo el chatbot, cómo OpenAI lo ha actualizado desde su lanzamiento y qué opinan sus creadores sobre ese éxito), hablé con cuatro de sus creadores sobre una de las aplicaciones de inte et más populares del mundo. Además de Agarwal y Fedus, hablé con John Schulman, cofundador de OpenAI, y Jan Leike, líder del equipo de alineación de OpenAI, que trabaja para que la IA haga lo que los usuarios quieren que haga (y nada más).

La sensación que me quedó es que OpenAI todavía está desconcertado por el éxito de su adelanto de investigación. Pero aprovechó la oportunidad para impulsar esta tecnología, observando cómo millones de personas la utilizan y tratando de solucionar los peores problemas, a medida que iban surgiendo.

Desde noviembre de 2022, OpenAI ya ha actualizado ChatGPT varias veces. Los investigadores utilizan una técnica llamada entrenamiento antagónico para evitar que ChatGPT permita que los usuarios lo engañen para que se comporte mal (conocido como jailbreaking). Este método enfrenta a varios chatbots entre sí: uno juega a ser adversario y ataca a otro chatbot generando texto para obligarlo a desafiar sus restricciones habituales y crear respuestas no deseadas. Los ataques exitosos se añaden a los datos de entrenamiento de ChatGPT con la esperanza de que aprenda a ignorarlos.

OpenAI también firmó un acuerdo multimillonario con Microsoft y anunció una alianza con Bain, la consultora de gestión global, que planea utilizar los modelos de IA generativa de OpenAI en campañas de marketing para sus clientes, incluida Coca-Cola. Fuera de OpenAI, el alboroto sobre ChatGPT ha desencadenado otra fiebre del oro en to o a los grandes modelos de lenguaje, con empresas e inversores de todo el mundo uniéndose a la carrera.

Esto es mucha publicidad en solo tres meses. ¿De dónde vino ChatGPT? ¿Qué pasos tomó OpenAI para asegurarse de que estuviera listo para su lanzamiento? ¿Y cuál es el próximo paso?

Las siguientes declaraciones han sido editadas por su longitud y para mayor claridad.

Jan Leike: Ha sido abrumador, sinceramente. Nos ha sorprendido y hemos tratado de seguir el ritmo.

John Schulman: Estuve leyendo mucho Twitter en los días posteriores al lanzamiento, y hubo un período disparatado donde el feed se llenaba con capturas de pantalla de ChatGPT. Esperaba que fuera intuitivo para la gente, y que ganara seguidores, pero no que alcanzara este nivel de popularidad.

Sandhini Agarwal: Fue una sorpresa para todos nosotros la cantidad de gente que comenzó a usarlo. Trabajamos tanto en estos modelos que nos olvidamos a veces lo sorprendentes que pueden ser para el mundo exterior.

Liam Fedus: Nos sorprendió el buen recibimiento que tuvo. Hubo tantos intentos anteriores de un chatbot de propósito general que sabía que las probabilidades jugaban en nuestra contra. Sin embargo, nuestra versión beta privada nos había dado la confianza de que teníamos algo que la gente podría disfrutar.

Jan Leike: Me encantaría entender mejor qué está impulsando todo esto, qué está provocando esa viralidad. No lo entendemos, no lo sabemos.

Parte del desconcierto del equipo proviene del hecho de que la mayoría de la tecnología dentro de ChatGPT no es nueva. ChatGPT es una versión mejorada de GPT-3.5, una familia de grandes modelos de lenguaje que OpenAI lanzó meses antes que este chatbot. GPT-3.5 es por su parte una versión actualizada de GPT-3, que apareció en el año 2020. La empresa pone a disposición estos modelos en su web como interfaces de programación de aplicaciones (API, por sus siglas en inglés) lo que facilita que otros desarrolladores de software inserten modelos en su propio código. En enero de 2022, OpenAI también lanzó una versión anterior mejorada de GPT-3.5, llamada InstructGPT. Pero ninguna de estas versiones tecnológicas anteriores se había lanzado al público general.

Liam Fedus: El modelo de ChatGPT se actualiza a partir del mismo modelo de lenguaje que InstructGPT, y usamos una metodología similar para mejorarlo. Agregamos algunos datos conversacionales, y ajustamos el proceso de entrenamiento. Por eso no queríamos alabarlo en exceso como un gran avance fundamental. Al final resultó que los datos conversacionales tuvieron un gran impacto positivo en ChatGPT.

John Schulman:Las capacidades técnicas básicas, según la evaluación de los puntos de referencia estándar, no difieren entre los modelos de manera sustancial, pero ChatGPT es más accesible y funcional.

Jan Leike: ChatGPT puede entenderse como una versión de un sistema de IA que tuvimos durante un tiempo. No es un modelo más capaz que el que teníamos antes. Los mismos modelos básicos habían estado disponibles en la API casi un año antes de que saliera ChatGPT. Por otro lado, lo alineamos más con el uso que los usuarios quieren darle. Habla de forma dialogada, es accesible en una interfaz de chat, e intenta ser útil. Es un progreso asombroso, y creo que la gente se está dando cuenta de ello.

John Schulman: El modelo deduce más fácilmente lo que el usuario intenta conseguir. Y los usuarios pueden conseguir lo que quieren probándolo y revisándolo.

ChatGPT fue entrenado de una manera similar a InstructGPT, utilizando la técnica de aprendizaje reforzado a partir del feedback del usuario (RLHF, por sus siglas en inglés). Este es el ingrediente secreto de ChatGPT. La idea básica es tomar un gran modelo de lenguaje con tendencia a responder lo que quiera, GPT-3.5 en este caso, y mejorarlo enseñándole qué tipo de respuestas prefieren los usuarios.

Jan Leike: Tuvimos un gran grupo de personas que leyeron las indicaciones y respuestas de ChatGPT para luego señalar si una respuesta era preferible a otra. Después, todos estos datos se fusionaron en una ejecución de entrenamiento. En su mayoría, fue lo mismo que habíamos hecho con InstructGPT. Queremos que sea útil, veraz, y que no sea tóxico. Además, hay elementos específicos para producir diálogos y ayudar, por ejemplo: si la consulta del usuario no es clara, el modelo debería hacer preguntas de seguimiento. También debe indicar que es un sistema de IA. No debe asumir una identidad que no tiene, ni debe afirmar tener habilidades que no posee. Y, cuando un usuario le pide que haga tareas que se supone que no debe hacer, tiene que escribir un mensaje rechazándolo. Una de las frases que surgieron durante este entrenamiento fue: "Como un modelo de lenguaje entrenado por OpenAI...". No se introdujo explícitamente allí, pero es uno de los factores que los evaluadores humanos calificaron como más alto.

Sandhini Agarwal: Había una lista de varios criterios para que los evaluadores humanos calificaran el modelo, como la veracidad. Pero también comenzaron a preferir elementos que consideraban buenas prácticas, como no pretender ser algo que no es.

Como ChatGPT se había creado con las mismas técnicas que OpenAI había usado con anterioridad, el equipo no hizo nada diferente cuando se preparaba para lanzar este modelo al público. Les parecía que el listón que habían establecido para los modelos anteriores era suficiente.

Sandhini Agarwal: Cuando nos preparamos para el lanzamiento, no pensábamos en este modelo como un riesgo nuevo. GPT-3.5 ya existía, y sabemos que era lo suficientemente seguro. A través del entrenamiento de ChatGPT con las preferencias humanas, el modelo aprendió automáticamente el comportamiento de denegación para rechazar muchas solicitudes.

Jan Leike: Sí habíamos creado algunos "equipos rojos" adicionales para ChatGPT, cuando todos en OpenAI intentaron romper el modelo. Además, teníamos grupos exte os haciendo lo mismo. También contábamos con un programa de acceso anticipado con usuarios de confianza, que dieron su opinión.

Sandhini Agarwal: Descubrimos que había generado ciertas respuestas no deseadas, pero ya era algo que GPT-3.5 también hacía. Así que, en cuanto a riesgo, nos pareció bien como un avance de la investigación, porque esa era la pretensión inicial.

John Schulman: No puede esperarse hasta que el sistema esté perfecto para lanzarlo. Habíamos probado durante unos meses la versión beta de las anteriores, y los probadores beta tenían impresiones positivas del producto. Nuestra mayor preocupación giraba en to o a los datos, porque al modelo le gusta inventarse cosas. Pero InstructGPT y otros grandes modelos de lenguaje ya estaban disponibles. Y pensamos que, mientras ChatGPT sea mejor que esos modelos en términos de veracidad y seguridad, estaría listo. Antes del lanzamiento, confirmamos que los modelos parecían más veraces y seguros que otros, según nuestras limitadas evaluaciones, por lo que decidimos continuar con el lanzamiento.

Desde su lanzamiento, OpenAI ha estado observando cómo las personas utilizan ChatGPT y estudiando por primera vez cómo funciona un gran modelo de lenguaje cuando se pone en manos de decenas de millones de usuarios, que pueden estar probando sus límites y encontrando sus fallos. El equipo ha tratado de aprovechar los ejemplos más problemáticos que ChatGPT puede producir, desde canciones sobre el amor de Dios por parte de sacerdotes violadores hasta el código de malware que roba números de tarjetas de crédito, para así controlar futuras versiones del modelo.

Sandhini Agarwal: Tenemos muchos próximos pasos. Sin duda, la viralidad de ChatGPT ha hecho que surgieran muchos problemas que sabíamos que existían, y se volvieran críticos. Son elementos que queremos resolver lo antes posible. Además, sabemos que el modelo todavía está muy sesgado. Si bien ChatGPT es muy bueno para rechazar las solicitudes inadecuadas, también resulta bastante fácil escribir indicaciones para que no rechace lo que queríamos que rechazara.

Liam Fedus: Ha sido emocionante ver las aplicaciones tan diversas y creativas de los usuarios, pero siempre nos enfocamos en las áreas de mejora. Creemos que, a través de un proceso iterativo donde recibimos comentarios e implementamos las mejoras, podemos producir una tecnología más alineada y capaz. A medida que nuestra tecnología evoluciona, inevitablemente surgen nuevos problemas.

Sandhini Agarwal: En las semanas posteriores al lanzamiento, observamos algunos de los ejemplos más terribles que los usuarios habían encontrado, lo peor que la gente veía. Analizamos cada ejemplo, y hablamos sobre cómo deberíamos solucionarlo.

Jan Leike: A veces, algo se ha viralizado en Twitter, pero otras personas interactúan en silencio.

Sandhini Agarwal: Encontramos muchos jailbreaks, claramente es un problema que debemos solucionar. Pero como los usuarios tienen que probar estos intrincados métodos para que el modelo responda algo erróneo, no es que se nos pasara por alto, o que nos sorprendiera demasiado. Aun así, es algo que estamos trabajando en este momento. Cuando encontramos jailbreaks, los agregamos a nuestros datos de entrenamiento y prueba. Todos los datos que vemos alimentan al siguiente modelo.

Jan Leike: Cada vez que tenemos un modelo mejor, queremos mostrarlo y probarlo. Somos optimistas al pensar que un poco de entrenamiento antagónico puede mejorar la situación sobre el jailbreaking. No está claro si estos problemas desaparecerán por completo, pero creemos que podemos dificultar el jailbreaking. Insisto, no es que no supiéramos que el jailbreaking era posible antes del lanzamiento. Es difícil anticipar cuáles serán los verdaderos problemas de seguridad con estos sistemas una vez implementados. Por lo tanto, ponemos mucho énfasis en monitorear para qué utilizan las personas el sistema, ver qué sucede para luego reaccionar ante eso. Esto no quiere decir que no debamos mitigar de manera proactiva los problemas de seguridad cuando los anticipamos. Pero es muy complicado prever todo lo que ocurrirá cuando un sistema llegue al mundo real.

En enero de 2023, Microsoft reveló Bing Chat, un chatbot de búsqueda que muchos suponen que es una versión del GPT-4 no anunciada oficialmente por OpenAI. Pues OpenAI afirma: "Bing funciona con uno de nuestros modelos de próxima generación que Microsoft personalizó específicamente para su motor de búsqueda. Incorpora avances de ChatGPT y GPT-3.5". El uso de chatbots por parte de gigantes tecnológicos con reputaciones multimillonarias que proteger crea nuevos desafíos para los encargados de construir otros modelos subyacentes.

Sandhini Agarwal: Sin duda, lo que está en juego es más que hace seis meses, pero no tanto como lo que podría estar en juego dentro de un año. El contexto de cómo se utilizan es lo que importa de verdad con estos modelos. Al igual que con Google y Microsoft, solo una cosa que no sea cierta se convierte en un gran problema, porque están pensados para ser motores de búsqueda. El comportamiento que requiere un gran modelo de lenguaje para la búsqueda es muy diferente al que solo iba a ser un chatbot para jugar. Tenemos que descubrir cómo transitar la línea entre estos usos tan diferentes, creando algo útil para las personas en una variedad de contextos, donde el comportamiento deseado puede variar. Eso añade más presión. Ahora sabemos que estamos construyendo estos modelos para que puedan convertirse en productos; ChatGPT es un producto, ya que tenemos la API. Estamos construyendo esta tecnología de propósito general, y debemos asegura os de que funcione bien en todo. Es uno de los desafíos clave a los que nos enfrentamos en estos momentos.

John Schulman: Subestimé hasta qué punto la gente investigaría y se preocuparía por la política de ChatGPT. Quizás pudimos haber tomado mejores decisiones al recopilar datos de entrenamiento para disminuir este problema. Estamos trabajando en ello actualmente.

Jan Leike: Desde mi punto de vista, ChatGPT falla bastante, hay mucho por hacer. No parece que hayamos resuelto estos problemas. Todos debemos ser claros con nosotros mismos y con los demás sobre las limitaciones de la tecnología. Quiero decir, los modelos de lenguaje ya llevan existiendo un tiempo, pero aún es pronto. Sabemos todos los problemas que conllevan. Solo tenemos que ser directos, manejar las expectativas y dejar claro que este no es un producto terminado.