Ariel Davis

Inteligencia Artificial

Modelos de lenguaje: el nuevo gran problema social de la IA

A medida que las grandes empresas crean sistemas plagados de sesgos y con potencial de causar daño, una coalición internacional de científicos colabora para crear un gran modelo abierto y multilingüe de investigación que ayude a encontrar los mejores enfoques de diseño y uso para esta tecnología

por Karen Hao | traducido por Ana Milutinovic
27 Mayo, 2021

El 18 de mayo, el CEO de Google, Sundar Pichai, anunció una nueva e impresionante herramienta: un sistema de inteligencia artificial (IA) denominado LaMDA capaz de chatear con los usuarios sobre cualquier tema.

Para empezar, Google planea integrar LaMDA en su portal de búsqueda principal, en su asistente de voz y en Workplace, su entorno de software en la nube que incluye Gmail, Docs y Drive. Pero el objetivo final, según Pichai, consiste en crear una interfaz de conversación que permita a las personas acceder a cualquier tipo de información (texto, visual, audio) en todos los productos de Google con solo preguntar.

El lanzamiento de LaMDA muestra una forma más en la que las tecnologías de generación de lenguaje se están integrando en nuestra vida cotidiana. Pero la llamativa presentación de Google contradice el debate ético que rodea a estos sistemas de vanguardia. LaMDA es lo que se conoce como un gran modelo de lenguaje (LLM, por sus siglas en inglés), un algoritmo de aprendizaje profundo entrenado en enormes cantidades de datos de texto.

Los estudios ya han demostrado cómo las ideas racistas, sexistas y abusivas están incrustadas en estos modelos, al asociar categorías como médicos con hombres y enfermeras con mujeres, y los aspectos positivos con las personas blancas y los negativos, con las negras. Y, ante ciertas indicaciones, también pueden impulsar el genocidio, las autolesiones y el abuso sexual infantil. Debido a su tamaño, tienen una huella de carbono increíblemente alta. Gracias a su fluidez, confunden fácilmente a las personas haciéndoles pensar que un humano escribió sus resultados, lo que los expertos advierten que podría permitir la producción masiva de desinformación.

En diciembre del año pasado, Google cesó a su codirectora de Ética para la IA, Timnit Gebru, después de que ella se negara a retractarse de un artículo que resaltaba muchos de estos puntos. Unos meses más tarde, después de una denuncia a gran escala de lo que una carta abierta de los empleados de Google denominó como "censura de investigación sin precedentes" por parte de la compañía, Google también despidió a la otra coautora del artículo en cuestión y codirectora del equipo de Gebru, Margaret Mitchell.

Google no es la única empresa inmersa en esta tecnología. Hasta ahora, los modelos de lenguaje de más alto perfil han sido GPT-2 y GPT-3 de OpenAI, capaces de redactar párrafos de texto extraordinariamente convincentes e incluso se pueden usar para terminar composiciones musicales y códigos informáticos. Microsoft tiene derecho de uso exclusivo sobre GPT-3 y puede implementarlos en productos aún desconocidos. Facebook ha desarrollado sus propios LLM para la traducción y moderación de contenido. Y distintas start-ups están creando docenas de productos y servicios basados en los modelos de los gigantes tecnológicos. Muy pronto, todas nuestras interacciones digitales se filtrarán a través de LLM (enviar correos electrónicos, buscar o publicar algo en las redes sociales).

Lamentablemente, se están realizando muy pocas investigaciones para comprender cómo las deficiencias de esta tecnología podrían afectar a las personas o para descubrir cómo diseñar mejores LLM que mitiguen estos desafíos. Las pocas empresas lo suficientemente ricas para entrenar y mantener LLM tienen un gran interés económico en negarse a examinarlo detenidamente, como ocurrió con Google, Gebru y Mitchell. En otras palabras, los LLM se están integrando cada vez más en la infraestructura lingüística de internet sobre unas bases científicas inestables.

Más de 500 investigadores de todo el mundo quieren aprender más, y cuanto antes, sobre las capacidades y limitaciones de estos modelos. Bajo el paraguas del proyecto BigScience dirigido por la start-up Huggingface, que tiene un enfoque de "ciencia abierta" para comprender el procesamiento del lenguaje natural (PLN o NLP, por sus siglas en inglés), estos científicos quieren construir un LLM de código abierto que sirva como un recurso compartido para la comunidad científica. El objetivo es generar la mayor cantidad posible de investigación en un solo año. Su pregunta central: ¿cómo y cuándo deberían desarrollarse e implementarse los LLM para cosechar beneficios sin consecuencias dañinas?

El director científico de Huggingface, Thomas Wolf, que codirige la iniciativa, advierte: "No podemos detener la locura en torno a los grandes modelos de lenguaje, cuando todo el mundo quiere entrenarlos. Pero lo que sí podemos hacer es tratar de empujarlo en una dirección que, al final, sea más beneficiosa".

Loros estocásticos

En el mismo mes en el que BigScience inició sus actividades, la start-up Cohere salió discretamente de su sigilo. Fundada por antiguos investigadores de Google, promete llevar los LLM a cualquier empresa, con una sola línea de código. Ha desarrollado una técnica para entrenar y alojar su propio modelo con los restos inactivos de los recursos computacionales en un centro de datos, lo que reduce los costes de alquilar el espacio en la nube para el mantenimiento y la implementación.

Entre sus primeros clientes se encuentra la start-up Ada Support, la plataforma para crear chatbots de atención al cliente sin código, que a su vez tiene clientes como Facebook y Zoom. Y la lista de los inversores de Cohere incluye algunos de los nombres más importantes en el campo: el pionero de la visión artificial Fei-Fei Li, el ganador del premio Turing Geoffrey Hinton y el director de inteligencia artificial de Apple, Ian Goodfellow.

Cohere es una de varias start-ups e iniciativas que quieren llevar LLM a distintas industrias. También está la start-up Aleph Alpha, con sede en Alemania que intenta construir un GPT-3 en alemán; una empresa sin nombre iniciada por varios antiguos investigadores de OpenAI; y la iniciativa de código abierto Eleuther, que recientemente lanzó GPT-Neo, una reproducción gratuita (y un poco menos potente) de GPT-3.

Pero lo que más preocupa a cada vez más investigadores es la brecha entre los LLM y los que aspiran a serlo. Los LLM son las tecnologías de autocompletado más poderosas del mundo. Al ingerir millones de frases, párrafos e incluso ejemplos de diálogo, aprenden los patrones estadísticos que indican cómo cada uno de estos elementos debe ensamblarse en un orden sensato. Esto significa que los LLM pueden mejorar ciertas actividades: por ejemplo, son buenos para crear chatbots más interactivos y fluidos en las conversaciones con un guion bien establecido. Pero en realidad no comprenden lo que leen o dicen. Además, muchas de las funciones más avanzadas de los LLM solo están disponibles en inglés.

Esto es, entre otras cosas, lo que advirtieron Gebru, Mitchell y otros cinco científicos en su artículo en el que se refieren a los LLM como "loros estocásticos". "La tecnología del lenguaje puede ser muy útil si es adecuadamente enfocada, ubicada y definida", afirma la profesora de lingüística en la Universidad de Washington (EE. UU.) y una de las coautoras del artículo Emily Bender. Pero el propósito general de los LLM y lo convincente que resulta su imitación del lenguaje atraen a las empresas a usarlos en áreas para las que no están necesariamente preparados.

En un reciente discurso en una de las conferencias de inteligencia artificial más importantes del mundo, Gebru relacionó este despliegue apresurado de los LLM con las consecuencias que había experimentado en su propia vida. Gebru nació y se crio en Etiopía, donde la guerra intensificada ha devastado Tigray, la región más al norte del país. Etiopía es también un estado donde se hablan 86 idiomas, casi todos desconocidos por las tecnologías lingüísticas convencionales.

A pesar de que los LLM tienen estas deficiencias lingüísticas, Facebook depende en gran medida de ellos para automatizar la moderación de su contenido a nivel mundial. Cuando estalló la guerra en Tigray en noviembre del año pasado, Gebru vio que la plataforma era incapaz de controlar la avalancha de desinformación. Es algo emblemático de un patrón persistente que los investigadores han observado en la moderación del contenido. Las comunidades que hablan idiomas no prioritarios para Silicon Valley (EE. UU.) sufren los entornos digitales más hostiles.

Gebru señaló que el daño no acababa ahí. Cuando las noticias falsas, el discurso de odio e incluso las amenazas de muerte no se moderan, se recogen como datos de entrenamiento para construir la próxima generación de LLM. Y esos modelos, repitiendo como loros lo que han aprendido, terminan regurgitando en internet estos patrones lingüísticos tóxicos.

En muchos casos, los investigadores no han trabajado lo suficiente para saber cómo esta toxicidad podría manifestarse en las aplicaciones posteriores. Pero existen algunos estudios. La profesora asociada de información y estudios afroamericanos en la Universidad de California, Los Ángeles (EE. UU.), Safiya Noble, en su libro Algorithms of Oppression, publicado en 2018, documentó cómo los sesgos incrustados en la búsqueda de Google perpetuaban el racismo y, en algunos casos extremos, incluso motivaban la violencia racial.

"Las consecuencias son bastante graves y significativas", asegura. Google no es solo el principal portal de conocimiento para el ciudadano medio. También proporciona la infraestructura de información para instituciones, universidades y gobiernos estatales y federales.

Google ya utiliza un LLM para optimizar algunos de sus resultados de búsqueda. Con su último anuncio de LaMDA y una propuesta de rediseño que publicó como preprint, la compañía ha dejado claro que su dependencia de esta tecnología no va a hacer más que aumentar. A Noble le preocupa que esto pueda empeorar los problemas que descubrió: "El hecho de que el equipo de Ética para la IA de Google fuera despedido por plantear cuestiones muy importantes sobre los patrones racistas y sexistas de discriminación incrustados en los grandes modelos lingüísticos debería haber sido una llamada de atención".

BigScience

El proyecto BigScience comenzó como respuesta directa a la creciente necesidad de un escrutinio científico de los LLM. Al observar la rápida proliferación de la tecnología y el intento de censura de Gebru y Mitchell por parte de Google, Wolf y varios colegas se dieron cuenta de que era hora de que la comunidad de investigadores tomara las riendas en este asunto.

Inspirándose en colaboraciones científicas abiertas como la Organización Europea para la Investigación Nuclear (CERN, por sus siglas en francés) en física de partículas, concibieron una idea para un LLM de código abierto que se podría utilizar para realizar investigaciones críticas independientes de cualquier empresa. En abril de este año, el grupo recibió una subvención para desarrollar su proyecto en el superordenador del Gobierno francés.

En las empresas tecnológicas, los LLM los suelen construir solo media docena de personas elegidas principalmente por sus conocimientos técnicos. BigScience quería atraer a cientos de investigadores de una amplia variedad de países y disciplinas para participar en la construcción de modelos verdaderamente colaborativos. Wolf, que es francés, contactó primero a la comunidad francesa de PLN. A partir de ahí, la iniciativa se convirtió en una operación global con más de 500 personas involucradas.

La colaboración está organizada libremente en una docena de grupos de trabajo, que va en aumento, cada uno de los cuales aborda diferentes aspectos del desarrollo del modelo y de la investigación. Un grupo medirá el impacto ambiental del modelo, junto con la huella de carbono del entrenamiento y de la ejecución del LLM y tendrá en cuenta los costes del ciclo de vida del superordenador. Otro se centrará en desarrollar formas responsables de obtener los datos de entrenamiento, buscando alternativas a simplemente extraer los datos de la web, como transcribir archivos de radio históricos o podcasts. El objetivo es evitar el lenguaje tóxico y la recopilación no consensuada de información privada.

Otros grupos de trabajo se dedican a desarrollar y evaluar el "multilingüismo" del modelo. Para empezar, BigScience ha elegido ocho idiomas o familias de idiomas, que incluyen el inglés, chino, árabe, al grupo índico de lenguas (incluidos el hindi y el urdu) y bantú (incluido swahili). El plan consiste en trabajar en estrecha colaboración con cada comunidad lingüística para trazar la mayor cantidad posible de sus dialectos regionales y garantizar que se respeten sus distintas normas de privacidad de datos. "Queremos que la gente pueda opinar sobre cómo se utilizan sus datos", destaca el investigador de Huggingface Yacine Jernite.

No se trata de construir un LLM comercialmente viable para competir con GPT-3 o LaMDA. El modelo será demasiado grande y lento para las empresas, explica la profesora asociada de la Universidad de Sorbona (Francia) Karën Fort. En cambio, se está diseñado exclusivamente para la investigación. Cada punto de datos y cada decisión de modelado se documentan de manera cuidadosa y pública, por lo que es más fácil analizar cómo todas las piezas afectan los resultados del modelo. La investigadora de Facebook Angela Fan detalla: "No se trata solo de entregar el producto final. Visualizamos cada pieza como un punto de entrega de datos, como un artefacto".

El proyecto es, sin duda, ambicioso, más colaborativo y expansivo globalmente que cualquier otro que la comunidad de IA haya visto antes. La logística de coordinar a tantos investigadores es en sí misma un desafío. (De hecho, también hay un grupo de trabajo para eso). Además, cada investigador contribuye de forma voluntaria. La subvención del Gobierno francés cubre solo los recursos computacionales, no los humanos.

Pero los investigadores afirman que la necesidad compartida que unió a la comunidad ha impulsado un nivel impresionante de energía e ímpetu. Muchos confían en que, para el final del proyecto, que durará hasta mayo del próximo año, no solo habrán producido una investigación más profunda sobre las limitaciones de los LLM, sino también mejores herramientas y prácticas para construirlos e implementarlos de manera responsable.

Los organizadores esperan que su visión inspire a más personas dentro de la industria a incorporar esas prácticas en su propia estrategia sobre los LLM, aunque son los primeros en admitir que están siendo idealistas. En todo caso, la gran cantidad de investigadores involucrados, incluidos muchos de los gigantes tecnológicos, ayudará a establecer nuevas normas dentro de la comunidad de PLN.

De alguna manera, las reglas ya han cambiado. En respuesta a los debates sobre el despido de Gebru y Mitchell, Cohere recibió preocupaciones por la seguridad de la tecnología de varios de sus clientes sus. En su sitio web se ha incluido una página con el compromiso de invertir continuamente en la investigación técnica y no técnica para mitigar los posibles daños generados por su modelo. También creará un consejo asesor compuesto por expertos externos para ayudar a formular políticas sobre los usos permitidos de sus tecnologías.

Fort concluye: "El PLN se encuentra en un punto de inflexión muy importante. Por eso BigScience resulta tan apasionante. Permite a la comunidad impulsar la investigación y proporcionar una alternativa esperanzadora al statu quo de la industria. Nos dice: 'Vayamos más lejos. Hagámoslo juntos, para descubrir todas las formas y todas las cosas que podríamos hacer para ayudar a la sociedad'. Quiero que el PLN ayude a las personas sin menospreciarlas".

Inteligencia Artificial

Modelos de lenguaje: el nuevo gran problema social de la IA

Loros estocásticos

BigScience

La ley de la IA de la UE en cuatro claves

La IA generativa puede convertir tus recuerdos en fotos que nunca existieron

"La pregunta es cuánta participación humana se necesita para que algo sea arte"