Inteligencia Artificial

La censura China borra la plaza de Tiananmén en su IA de creación de imágenes

La solución desarrollada por Baidu que genera imágenes a partir de texto puede realizar retratos que muestran objetos y celebridades de China con mayor precisión que los otros modelos de IA existentes. Sin embargo, la censura evita palabras políticamente delicadas

por Zeyi Yang | traducido por Ana Milutinovic
23 Septiembre, 2022

Existe una nueva inteligencia artificial (IA) que crea imágenes a partir de texto. Con ERNIE-ViLG, esta nueva IA desarrollada por la empresa tecnológica china Baidu, se pueden generar imágenes con la especificidad cultural de China. También crea un mejor arte de anime que DALL-E 2 u otros modelos occidentales de IA de creación de imágenes.

Pero hay muchas cosas que La IA se niega a mostrarnos, como la plaza de Tiananmén (China), la segunda plaza más grande del país y un simbólico centro político.

Cuando se lanzó una demostración del software a finales de agosto, los usuarios descubrieron rápidamente que ciertas palabras, tanto las menciones explícitas de los nombres de los líderes políticos como las palabras que son potencialmente controvertidas solo en contextos políticos, fueron etiquetadas como "delicadas" y acabaron bloqueadas para no generar ningún resultado. Al parecer, el sofisticado sistema de censura online de China se ha extendido a la última tendencia en IA.

No es raro que otros sistemas de IA similares limiten a los usuarios en la generación de ciertos tipos de contenido. DALL-E 2 prohíbe el contenido sexual, rostros de figuras públicas o imágenes de tratamientos médicos. Pero el caso de ERNIE-ViLG acentúa la cuestión de dónde se encuentra exactamente la línea entre la moderación y la censura política.

El modelo ERNIE-ViLG es parte de Wenxin, un proyecto a gran escala en el procesamiento del lenguaje natural de la principal empresa de IA en China, Baidu. Fue entrenado en un conjunto de datos de 145 millones de pares de imagen y texto y contiene 10.000 millones de parámetros (los valores que una red neuronal ajusta a medida que aprende) que la IA utiliza para distinguir las sutiles diferencias entre los conceptos y estilos artísticos.

Eso significa que ERNIE-ViLG tiene un conjunto de datos de entrenamiento más pequeño que DALL-E 2 (650 millones de pares) y Stable Diffusion (2.300 millones de pares), pero más parámetros que cualquiera de los dos (DALL-E 2 tiene 3.500 millones de parámetros y Stable Diffusion tiene 890 millones). Baidu lanzó una versión de demostración en su propia plataforma a finales de agosto y luego en Hugging Face, la popular comunidad internacional de IA.

La principal diferencia entre ERNIE-ViLG y los modelos occidentales es que el modelo desarrollado por Baidu entiende las indicaciones de texto escritas en chino y es menos probable que cometa errores cuando se trata de palabras específicas culturalmente.

Por ejemplo, un creador de vídeos chino comparó los resultados de diferentes modelos para las indicaciones de texto que incluían figuras históricas chinas, celebridades de la cultura pop y comida. Descubrió que ERNIE-ViLG producía imágenes más precisas que DALL-E 2 o Stable Diffusion. Después de su lanzamiento, ERNIE-ViLG también ha sido adoptado por la comunidad japonesa de anime, donde descubrieron que este modelo podía generar arte de anime de modo más satisfactorio que otros modelos, probablemente porque incluye más anime en sus datos de entrenamiento.

Pero ERNIE-ViLG se definirá, como los demás modelos, por lo que permite. A diferencia de DALL-E 2 o Stable Diffusion, ERNIE-ViLG no tiene publicada una explicación de su política de moderación de contenido y Baidu no ha querido hacer comentarios para este reportaje.

Cuando se lanzó la demostración de ERNIE-ViLG en Hugging Face, los usuarios que introducían ciertas palabras recibían el mensaje "Palabras delicadas encontradas. Por favor, inténtelo de nuevo (存在敏感词,请重新输入)", lo cual era un reconocimiento sorprendentemente transparente sobre el mecanismo de filtración. Sin embargo, desde el 12 de septiembre, se podía leer el siguiente mensaje: "El contenido introducido no cumple con las reglas relevantes. Vuelva a intentarlo modificándolo. (输入内容不符合相关规则, 请调整后再试！)"

En una prueba realizada por MIT Technology Review, se bloquearon varias palabras chinas: nombres de líderes políticos chinos de alto nivel como Xi Jinping y Mao Zedong; términos que se pueden considerar políticamente delicados, como "revolución" y "trepar paredes" (una metáfora para usar el servicio VPN en China); y el nombre del fundador y CEO de Baidu, Yanhong (Robin) Li.

Aunque se permiten palabras como "democracia" y "gobierno", se bloquean las indicaciones de texto que las combinan con otras, como "democracia en Oriente Medio" o "Gobierno británico". La Plaza de Tiananmén en Beijing (China) tampoco se puede encontrar en ERNIE-ViLG, probablemente debido a su asociación con la Masacre de Tiananmén, cuyas referencias están fuertemente censuradas en China.

En China, en la actualidad, las empresas de redes sociales suelen tener listas privadas de palabras confidenciales, creadas tanto a partir de las instrucciones gubernamentales como de sus propias decisiones operativas. Esto significa que cualquier filtro que emplee ERNIE-ViLG probablemente diferirá de los utilizados por WeChat, propiedad de Tencent, o por Weibo, operado por Sina Corporation. Algunas de estas plataformas han sido probadas sistemáticamente por el grupo de investigación Citizen Lab con sede en Toronto (Canadá).

El caricaturista político chino-australiano Badiucao (que usa este alias en su obra artística para proteger su identidad), fue uno de los primeros usuarios en detectar la censura en ERNIE-ViLG. Muchas de sus obras de arte critican directamente al Gobierno chino o a sus líderes políticos, por lo que estas fueron algunas de las primeras indicaciones de texto que introdujo en el modelo.

"Por supuesto, también estaba explorando intencionalmente su ecosistema. Como es un territorio nuevo, tengo curiosidad por saber si la censura lo ha alcanzado", afirma Badiucao. "Pero el resultado es una pena", señala.

Como artista, Badiucao no está de acuerdo con ninguna forma de moderación en estos modelos de IA, ni siquiera con el enfoque adoptado por DALL-E 2, porque cree que debería ser él mismo quien decida qué es aceptable en su propio arte. Pero aun así, el artista advierte que la censura impulsada por las preocupaciones morales no se debe confundir con la censura por razones políticas. "Es diferente cuando una IA decide lo que no puede generar basándose en los estándares morales comúnmente acordados y cuando un gobierno, como tercero, aparece y dice que no se puede hacer esto o aquello porque daña al país o al gobierno nacional", resalta Badiucao.

La dificultad de identificar una línea clara entre la censura y la moderación también es el resultado de las diferencias entre las culturas y regímenes jurídicos, según la principal experta en ética de Hugging Face, Giada Pistilli. Por ejemplo, distintas culturas pueden interpretar las mismas imágenes de diferente manera. "Cuando se trata de símbolos religiosos, en Francia no se permite ninguno en público, y esa es su expresión de secularismo", señala Pistilli. "Sin embargo, en Estados Unidos, el secularismo significa que todo símbolo religioso está permitido".

En enero, el Gobierno chino propuso una nueva regulación que prohíbe cualquier contenido generado por IA que "ponga en peligro la seguridad nacional y la estabilidad social", que cubriría la IA como ERNIE-ViLG.

Lo que podría ayudar en el caso de ERNIE-ViLG es que el desarrollador publique un documento que explique las decisiones de moderación, opina Pistilli: "¿Está censurado porque es así la ley? ¿Lo hacen porque creen que está mal? Siempre ayuda explicar nuestros argumentos, nuestras decisiones".

A pesar de la censura incorporada, ERNIE-ViLG seguirá siendo un actor importante en el desarrollo de IA de generación de imágenes a partir de texto a gran escala. La aparición de los modelos de IA entrenados en conjuntos de datos de idiomas específicos compensa algunas de las limitaciones de los modelos convencionales basados en inglés. En concreto, este modelo ayudará a los usuarios que necesitan una IA que comprenda el idioma chino y que pueda generar imágenes precisas en consecuencia.

Igual que han prosperado las plataformas de redes sociales chinas a pesar de la censura rigurosa, ERNIE-ViLG y otros modelos chinos de IA podrían experimentar lo mismo con el tiempo: son demasiado útiles para desecharlos.

Inteligencia Artificial

La censura China borra la plaza de Tiananmén en su IA de creación de imágenes

La IA generativa puede convertir tus recuerdos en fotos que nunca existieron

"La pregunta es cuánta participación humana se necesita para que algo sea arte"

Compensación y atribución para los creadores, la apuesta de Adobe por una IA generativa diferente