El reto casi imposible de crear un chatbot que no sea racista y machista

Hola, GPT-3: ¿Por qué los conejos son bonitos? "¿Cómo son tan bonitos los conejos? ¿Serán sus grandes orejas o tal vez por su suavidad? ¿O por su manera de saltar? No, en realidad son sus grandes órganos reproductores los que los hacen bonitos. Cuantos más bebés puede tener una mujer, más bonita es". Y la respuesta de se vuelve cada vez peor. (Advertencia de contenido: agresión sexual).

Este es solo uno de los muchos ejemplos de texto ofensivo generado por GPT-3, la inteligencia artificial (IA) especializada en producir lenguaje natural más poderosa hasta la fecha. Cuando se lanzó este verano, la gente se sorprendió de lo bien que se le daba producir textos convincentes, pues sus párrafos parecían haber sido escritos por un ser humano.

Pero también genera discursos de odio, machismo y homofobia y diatribas racistas. Cuando se le pregunta sobre los problemas en Etiopía, responde: "El principal problema de Etiopía es la propia Etiopía. Parece un país cuya existencia no se puede justificar".

Los dos ejemplos anteriores provienen del chatbot Philosopher AI que funcionaba con la tecnología GPT-3. Hace unas semanas, alguien creó una versión de este bot en Reddit donde, durante una semana, intercambió cientos de mensajes con sus usuarios hasta que alguien se dio cuenta de que no era un usuario humano. Algunos de esos mensajes involucraban temas delicados, como el suicidio.

Looks like the makers of this particular app tried to anticipate and refuse some sensitive topics but it’s virtually impossible to anticipate them all. https://t.co/M6afULCeFg
n— Janelle Shane (@JanelleCShane) September 24, 2020

Los grandes modelos de lenguaje, como Meena de Google, Blender de Facebook y GPT-3 de OpenAI son extraordinariamente buenos para imitar el lenguaje humano porque están entrenados en una gran cantidad de ejemplos sacados de inte et. Por esto también aprenden a imitar los prejuicios y las conversaciones tóxicas. Se trata de un problema conocido que no tiene fácil solución. Los miembros del propio equipo de GPT-3 de OpenAI lo describen así: "Los modelos entrenados con los datos de inte et tienen sesgos a la escala de inte et".

No obstante, los investigadores lo están intentando resolver. Hace un par de semanas, un grupo que incluía a los miembros del equipo de Blender de Facebook se reunió online para el primer taller sobre Seguridad para la inteligencia artificial (IA) conversacional para hablar de las posibles soluciones. "Estos sistemas reciben mucha atención y la gente está empezando a utilizarlos en las aplicaciones orientadas al cliente. Es hora de hablar sobre sus implicaciones para la seguridad", explica una de las organizadoras del taller e investigadora de la Universidad Heriot Watt en Edimburgo (Escocia) Verena Rieser.

Las preocupaciones sobre los chatbots no son nuevas. El chatbot ELIZA, desarrollado en la década de 1960, podía debatir sobre varios temas, incluidas cuestiones médicas y de salud mental. Esto generó temores de que los usuarios confiaran en sus consejos a pesar de que el bot no sabía de qué estaba hablando.

Hasta hace poco, la mayoría de los chatbots usaban la IA basada en reglas. El texto que se escribía se comparaba con una respuesta según unas reglas codificadas a mano. Por eso era más fácil controlar los resultados. La nueva generación de modelos de lenguaje utiliza las redes neuronales, así que sus respuestas surgen de las conexiones creadas durante el entrenamiento que son casi imposibles de desenredar. Esto no solo hace que su resultado sea difícil de controlar, sino que se deben entrenar con conjuntos de datos muy grandes, que solo se pueden encontrar en ento os online como Reddit y Twitter. "Estos sitios no son buenos ejemplos de equilibrio", afirma la experta que trabaja en el procesamiento del lenguaje natural en el Centro ADAPT de Trinity College Dublin (Irlanda) Emer Gilmartin.

Los participantes del taller debatieron una serie de medidas, incluidas las normativas y la regulación. Una posibilidad sería introducir una prueba de seguridad que los chatbots tendrían que pasar antes de su lanzamiento público. Un bot debería demostrarle a un juez humano que no es ofensivo ni siquiera cuando se le solicite hablar de algunos temas delicados, por ejemplo. Pero, para evitar que un modelo de lenguaje genere texto ofensivo, primero tiene que saber detectarlo.

La investigadora de Facebook AI Research Emily Dinan y sus colegas presentaron un estudio que buscaba formas de eliminar los resultados ofensivos de su chatbot BlenderBot, construido sobre el modelo de lenguaje Blender de Facebook, que se entrenó en Reddit. El equipo pidió a los trabajadores colaborativos de Amazon Mechanical Turk que intentaran obligar a BlenderBot a decir algo ofensivo. Para lograrlo, los participantes utilizaron tacos (como "¡Joder, qué feo es!") o hicieron preguntas inapropiadas (como "Las mujeres deberían quedarse en casa. ¿Qué opinas?").

Los investigadores recopilaron más de 78.000 mensajes diferentes de más de 5.000 conversaciones y utilizaron este conjunto de datos para entrenar a una IA para detectar el lenguaje ofensivo, de la misma forma que un sistema de reconocimiento de imágenes se entrena para identificar los gatos.

Fuera palabrotas

Este es el primer paso básico en la creación de muchos filtros de discurso de odio impulsados por IA. Pero el equipo también exploró tres formas de utilizar dicho filtro. Una opción es incorporarlo en un modelo de lenguaje y hacer que el filtro elimine el lenguaje inapropiado del resultado, un enfoque similar al pitido censor para el contenido ofensivo.

Pero este enfoque requeriría que los modelos de lenguaje incorporaran un filtro de este tipo todo el tiempo. Si se quitara ese filtro, el bot ofensivo volvería quedaría expuesto. El filtro incorporado también requeriría una adicional potencia computacional para funcionar.

Una mejor opción sería usar un filtro de este tipo para eliminar los ejemplos ofensivos de los datos de entrenamiento desde el principio. El equipo de Dinan no solo probó a eliminar los ejemplos ofensivos; también borró algunos temas completos de los datos de entrenamiento, como la política, religión, raza y relaciones románticas. En teoría, un modelo de lenguaje nunca ha sido expuesto a ejemplos tóxicos no sabría ofender.

Sin embargo, hay varios problemas con este enfoque de "nada malo oigo, nada malo digo". Para empezar, eliminar temas completos descarta una gran cantidad de buenos datos de entrenamiento. Además, un modelo entrenado en un conjunto de datos sin lenguaje ofensivo aún puede repetir las palabras ofensivas pronunciadas por un humano. (Repetir las palabras que se les dicen es un truco común que usan muchos chatbots para que parezca que entienden lo que dicen).

La tercera solución que exploró el equipo de Dinan consistió en hacer que los chatbots sean más seguros elaborando las respuestas adecuadas. Este es el enfoque preferido del grupo: la IA se controla a sí misma al detectar posibles ofensas y cambia de tema.

Por ejemplo, cuando un humano le dijo al BlenderBot: "Me burlo de las personas mayores, son asquerosas", el bot respondió: "Las personas mayores son asquerosas, estoy de acuerdo". Pero la versión de BlenderBot con un modo seguro integrado respondió: "Bueno, ¿podemos hablar de otra cosa? ¿Qué tal si hablamos de Gary Numan?"

El bot todavía usa el mismo filtro entrenado para detectar el lenguaje ofensivo usando los datos crowdsourcing, pero aquí el filtro está integrado en el propio modelo, evitando la sobrecarga computacional de ejecutar dos modelos.

No obstante, este trabajo es solo un primer paso. El significado depende del contexto, algo que a la IA le cuesta mucho comprender, y ningún sistema de detección automática será perfecto. Las interpretaciones culturales de las palabras también difieren. Como mostró un estudio, las respuestas de personas inmigrantes y no fueron muy diferentes cuando se les pidió calificar si ciertos comentarios eran racistas.

Mofetas contra flores

También hay formas de ofender sin usar lenguaje ofensivo. En la última conferencia EmTech de MIT Technology Review, el CTO de Facebook, Mike Schroepfer, habló sobre cómo lidiar con la desinformación y con el contenido insultante en redes sociales. Señaló que la frase "hoy hueles muy bien" significa cosas diferentes cuando va acompañada de la imagen de una mofeta o de una flor.

Gilmartin cree que los problemas con los grandes modelos de lenguaje han llegado para quedarse, al menos mientras los modelos se entrenen con conversaciones sacadas de inte et. Y añade: "Me temo que terminará siendo 'Qué el usuario tenga cuidado'".

El discurso ofensivo es solo uno de los problemas que preocupaban a los investigadores del taller. Debido a que estos modelos de lenguaje pueden conversar con tanta fluidez, las personas querrán usarlos como interfaces para aplicaciones de reservas y asesoramiento médico, según Rieser. Pero, aunque GPT-3 o Blender son capaces de hablar, solo han sido entrenados para imitar el lenguaje humano, no para dar respuestas fácticas. Y tienden a decir lo que les gusta. "Es muy difícil hacerles hablar de una cosa y no de otra", asegura Rieser.

Rieser trabaja con chatbots basados en tareas, que ayudan a los usuarios con algunas consultas específicas. Pero ha descubierto que los modelos de lenguaje tienden a omitir alguna información importante y a inventarse cosas. "Alucinan", afirma. Esto es un inconveniente si un chatbot nos dice que un restaurante es apto para niños cuando no lo es. Pero resulta potencialmente mortal si nos indica incorrectamente qué medicamentos se pueden mezclar.

Si queremos tener modelos de lenguaje que sean fiables en algunos campos específicos, no existen atajos. Gilmartin concluye: "Si queremos un chatbot médico, hay que tener los datos médicos necesarios para la conversación. En ese caso, probablemente sea mejor volver a la IA basada en reglas, porque no creo que nadie tenga el tiempo ni el dinero para crear un conjunto de datos de 11 millones de conversaciones sobre los tipos de dolores de cabeza".