Al habla con la IA: el reto de lograr voces más diversas e inclusivas

La inteligencia artificial basada en voz está en auge, tal y como demuestra la nueva generación de asistentes desarrollados por gigantes tecnológicos como Apple y OpenAI. Sin embargo, las voces predeterminadas de estos asistentes suelen ser las de personas blancas estadounidenses —o británicas, en el mejor de los casos— y, por supuesto, hablan el inglés normativo de estas regiones.

Esto representa solo una pequeña fracción de la diversidad de dialectos y acentos dentro de este lenguaje, que varía según el lugar y la cultura. Además, para los miles de millones de personas que no hablan inglés, la experiencia es aún más limitada: estas herramientas no ofrecen la misma calidad.

Esto se debe a que la información utilizada para entrenar estos modelos es limitada. En la investigación sobre IA, la mayoría de los datos proceden de inte et y están en inglés, lo que refleja principalmente la cultura angloamericana. Sin embargo, está en marcha una iniciativa para que las voces de la IA sean más inclusivas: Common Voice, de Mozilla.

El conjunto de datos recopilado por Common Voice a lo largo de los últimos siete años se ha convertido en un recurso clave para quienes desarrollan generadores de voz con IA. Las descargas de esta herramienta, impulsadas en parte por el auge de la inteligencia artificial, han crecido en los últimos meses. De manera reciente han superado los cinco millones, un crecimiento considerable en comparación con las 38.500 registradas en 2020. Además, la creación de este conjunto de datos ha sido un reto, ya que depende de la colaboración de un amplio grupo de voluntarios. Su comunidad también ha crecido, y ha pasado tener 500.000 miembros en 2020 a más de 900.000 en 2024. Sin embargo, algunos sostienen que, al ceder sus datos de manera gratuita, Mozilla está provocando que los voluntarios trabajen de manera gratuita para las grandes empresas tecnológicas.

Desde 2017, los voluntarios del proyecto Common Voice han recopilado un total de 31.000 horas de datos de voz en 180 idiomas, que incluyen desde el ruso y el catalán hasta el marathi. Si has utilizado algún servicio que emplea IA de audio, es probable que haya sido entrenado, al menos en parte, con los datos de Common Voice.

La propuesta de Mozilla es loable. A medida que la inteligencia artificial se integra cada vez más en nuestras vidas y manera de comunica os, es fundamental que refleje nuestra diversidad lingüística. La tecnología tiene el potencial de superar barreras comunicativas y facilitar la transmisión de información, por ejemplo, a personas que no saben leer. Sin embargo, el enfoque predominante en el inglés podría reforzar un nuevo orden mundial colonial y amenazar la supervivencia de muchas lenguas.

"Sería un error si, en lugar de crear modelos de traducción multimodales, multilingües y de alto rendimiento, y de promover un mundo más diverso lingüísticamente, obligamos a todos a utilizar el inglés o el francés", afirma EM Lewis-Jong, director de Common Voice.

Common Voice es un proyecto de código abierto y permite a cualquier persona consultar su información para utilizarlo de forma gratuita. Esta transparencia es muy poco común en los grandes conjuntos de datos de voz utilizados para entrenar modelos de inteligencia artificial. La mayoría no están disponibles al público y proceden de plataformas como YouTube, según una investigación realizada por un equipo de la Universidad de Washington y las universidades Ca egie Mellon y Northweste .

Una gran parte de los datos lingüísticos son recogidos por voluntarios como Bülent Özden, un investigador de Turquía. Desde 2020, no solo ha aportado su voz, sino que también ha promovido el proyecto para animar a más personas. Pasó dos meses a tiempo completo corrigiendo datos y verificando errores tipográficos en turco. Para él, mejorar los modelos de IA no es el único motivo para involucrarse en este trabajo. "Lo hago para preservar las culturas, especialmente las más vulnerables", explica Özden. Asimismo, ha comenzado a recoger muestras de algunas de las lenguas más minoritarias de Turquía, como el circasiano y el zaza.

Sin embargo, al examinar más a fondo el conjunto de datos de Common Voice, se observa una gran desigualdad en la representación de idiomas y acentos. Solo hay 22 horas de voces en finés de 231 personas. En comparación, el conjunto contiene 3.554 horas de inglés de 94.665 hablantes. Algunas lenguas, como el coreano y el panyabí, están aún más subrepresentadas. A pesar de contar con decenas de millones de hablantes, solo disponen de un par de horas de grabaciones.

Este desequilibrio se debe a que la recopilación de datos comienza desde las propias comunidades lingüísticas, según explica Lewis-Jong: "Nuestro objetivo es proporcionar a las comunidades las herramientas necesarias para crear sus propios conjuntos de datos de entrenamiento de IA. Nos enfocamos especialmente en aquellas comunidades lingüísticas que carecen de datos o que no son prioritarias para las grandes empresas tecnológicas". Confían en que, con el apoyo de voluntarios y diversas subvenciones, el conjunto de datos de Common Voice abarque cerca de 200 idiomas a finales de año.

La licencia permisiva de Common Voice ha generado gran confianza entre diversas empresas. Un ejemplo de ello es la start-up sueca Mabel AI, que desarrolla herramientas de traducción para proveedores de servicios sanitarios. Uno de los primeros idiomas que la empresa incorporó fue el ucraniano, con el objetivo de crear una herramienta de traducción que facilitara la interacción de los refugiados ucranianos con los servicios sociales suecos, explica Karolina Sjöberg, fundadora y directora ejecutiva de Mabel AI. Desde entonces, el equipo ha ampliado su trabajo a otros idiomas, como el árabe y el ruso.

Según Sjöberg, el problema de muchos conjuntos de datos de audio es que proceden de personas que leen libros o textos, lo que hace que el resultado suene artificial y distante de situaciones emocionales, como la angustia o el sufrimiento. A diferencia de otros proyectos, en Common Voice cualquier persona puede enviar frases para que sean leídas en voz alta, lo que permite incluir expresiones más coloquiales y naturales.

No obstante, la muestra sigue sin ser representativa por completo. El equipo de Mabel AI pronto descubrió que la mayoría de los datos de voz en los idiomas que necesitaba eran de hombres jóvenes, algo bastante común en los conjuntos de datos.

"Los refugiados con los que pretendíamos utilizar la aplicación eran cualquier cosa menos hombres jóvenes. Por tanto, los datos de voz que teníamos no coincidían con los que realmente necesitábamos", señala Sjöberg. Ante esta situación, el equipo comenzó a recopilar sus propios datos de voz, centrándose en mujeres ucranianas y personas mayores.

Common Voice pide a los participantes que indiquen su género y detallen su acento porque, como afirma Rebecca Ryakitimbo, autora del plan de acción de género del proyecto, una mayor diversidad no sólo mejora la representación, sino también los modelos. En cambio, los sistemas entrenados con datos limitados y homogéneos tienden a arrojar resultados estereotipados. "No queremos que un chatbot con nombre femenino ofrezca respuestas diferentes según si interactúa con una mujer o con un hombre", añade la experta en género.

Ryakitimbo ha recopilado datos de voz en suajili en Tanzania, Kenia y la República Democrática del Congo. Explica que su objetivo era obtener muestras de hablantes en diferentes contextos socioeconómicos, sobre todo de mujeres jóvenes y mayores de zonas rurales, porque muchas de ellas no saben leer ni escribir o no tienen acceso a dispositivos.

Recoger este tipo de datos es todo un desafío. Aunque su importancia puede resultar extraña para muchas personas, especialmente si no están familiarizadas con las tecnologías, Ryakitimbo y su equipo se acercaban a las mujeres en espacios donde se sintieran cómodas, como charlas sobre higiene menstrual. Allí explicaban cómo la tecnología podría, por ejemplo, ayudar a difundir información sobre la menstruación. A las mujeres que no sabían leer, el equipo les leía las frases que luego ellas repetían para la grabación.

El proyecto Common Voice se basa en la convicción de que las lenguas son una parte fundamental de la identidad. "No se trata solo del idioma, sino de transmitir la cultura y el patrimonio, y de preservar el contexto cultural único de cada persona", explica Lewis-Jong. "Existen muchos modismos y expresiones culturales que no se pueden traducir", añade.

Common Voice es el único conjunto de datos de audio que no está dominado por el inglés, tal y como apunta Willie Agnew, investigador de la Universidad Ca egie Mellon, quien ha analizado diversos conjuntos de datos de este tipo. "Estoy realmente impresionado por lo bien que lo han hecho, por lo diverso que es. Parece que están muy por delante de casi todos los otros proyectos que hemos estudiado", asegura.

Para comprobarlo, pasé un tiempo en la plataforma revisando las grabaciones de otros hablantes de finés. Escuchar sus voces fue algo que me emocionó. Todos estábamos unidos por un mismo propósito: conseguir que los datos de la IA fueran más inclusivos y garantizar que nuestra cultura y lengua estuvieran adecuadamente representadas en la próxima generación de herramientas digitales.

No obstante, tenía dudas sobre qué ocurriría con mi voz si la donaba. Una vez incluida en el conjunto de datos, perdería el control sobre su uso posterior. El sector tecnológico no se caracteriza por reconocer los méritos de las personas, y los datos quedan a disposición de cualquiera.

"Por mucho que queramos beneficiar las comunidades locales, existe el riesgo de que las grandes empresas tecnológicas también utilicen estos datos para crear productos comerciales", señala Ryakitimbo. Aunque Mozilla no revela quién ha descargado Common Voice, Lewis-Jong comenta que empresas como Meta y Nvidia han confirmado su uso.

Por otro lado, el acceso abierto a estos datos lingüísticos, que son difíciles de obtener y poco comunes, no es algo que todos los colectivos minoritarios deseen, explica Harry H. Jiang, investigador de la Universidad Ca egie Mellon y miembro del equipo que llevó a cabo la investigación de auditoría. Por ejemplo, algunos grupos indígenas han expresado su preocupación al respecto.

El "extractivismo" es algo que ha preocupado a Mozilla durante los últimos 18 meses, según Lewis-Jong. A finales de este año, el proyecto planea colaborar con las comunidades para probar nuevas licencias alte ativas, como la Nwulite Obodo Open Data License. Esta licencia, desarrollada por investigadores de la Universidad de Pretoria, busca compartir conjuntos de datos africanos de manera más equitativa. Por ejemplo, se podría solicitar a quienes descarguen los datos que expliquen cómo los utilizarán, restringir su uso a ciertos productos o un periodo limitado, o pedirles que contribuyan a proyectos comunitarios enfocados en la reducción de la pobreza.

Lewis-Jong explica que el proyecto piloto es una oportunidad de aprendizaje para evaluar si las personas estarían dispuestas a usar datos con licencias alte ativas y si estas opciones son viables para las comunidades que las gestionan. La esperanza es que pueda dar paso a una especie de "código abierto 2.0".

Al final, decidí donar mi voz. Recibí una lista de frases, me senté frente al ordenador y presioné el botón de grabar. Espero que, en el futuro, mi contribución ayude a una empresa o a un investigador a desarrollar una IA que suene menos genérica y más parecida a mi propia voz.

Buscar en MIT Technology Review

Explorar Temas

Secciones

Al habla con la IA: el reto de lograr voces más diversas e inclusivas