.

STEPHANIE ARNETT / MIT TR | ENVATO

Inteligencia Artificial

Meta usa la Biblia para su nueva IA de lenguaje de más de 1.000 idiomas

1

Los nuevos modelos de lenguaje podrían ayudar a crear aplicaciones de voz para muchas más lenguas de las que existen ahora

  • por Rhiannon Williams | traducido por
  • 23 Mayo, 2023

Meta ha creado modelos de inteligencia artificial que pueden reconocer y producir el habla de más de 1.000 lenguas, un avance que multiplica por diez la oferta actual. Se trata de un paso importante hacia la preservación de lenguas que corren el riesgo de desaparecer, afirma la empresa.

Meta pone sus modelos a disposición del público a través del servicio de alojamiento de código GitHub. Afirma que hacerlos de código abierto ayudará a los desarrolladores que trabajan en distintos idiomas a crear nuevas aplicaciones de lenguaje, como servicios de mensajería que entiendan a todo el mundo o sistemas de realidad virtual que puedan utilizarse en cualquier idioma.

En el mundo hay unas 7.000 lenguas, pero los modelos de reconocimiento del habla existentes solo cubren de forma exhaustiva unas 100. Esto se debe a que este tipo de modelos suelen requerir grandes cantidades de datos de entrenamiento etiquetados, que solo están disponibles para un pequeño número de idiomas, entre ellos el inglés, el español y el chino.

Los investigadores de Meta sortearon este problema reentrenando un modelo de IA existente desarrollado por la empresa en 2020 que es capaz de aprender patrones de lenguaje a partir de audio sin necesidad de grandes cantidades de datos etiquetados como pueden ser las transcripciones.

Lo entrenaron con dos nuevos conjuntos de datos: uno que contiene grabaciones de audio de la Biblia del Nuevo Testamento y su correspondiente texto extraídos de internet en 1.107 idiomas, y otro que contiene grabaciones de audio del Nuevo Testamento sin etiquetar en 3.809 idiomas. El equipo procesó el audio hablado y los datos de texto para mejorar su calidad antes de ejecutar un algoritmo diseñado para alinear las grabaciones de audio con el texto que las acompaña. A continuación, repitieron este proceso con un segundo algoritmo entrenado con los datos recién alineados. Con este método, los investigadores pudieron enseñar al algoritmo a aprender un nuevo idioma más fácilmente, incluso sin el texto que lo acompañaba.

"Podemos utilizar lo que ha aprendido ese modelo para construir rápidamente sistemas de voz con muy pocos datos", afirma Michael Auli, investigador científico de Meta que ha trabajado en el proyecto.

"Para el inglés tenemos montones y montones de buenos conjuntos de datos, y los tenemos para algunas lenguas más, pero no los tenemos para lenguas que hablan unas 1.000 personas".

Los investigadores afirman que sus modelos pueden conversar en más de 1.000 idiomas, pero reconocen más de 4.000.

Compararon los modelos con los de empresas competidoras, como OpenAI Whisper, y afirmaron que el suyo tenía la mitad de porcentaje de error, a pesar de abarcar 11 veces más idiomas.

Sin embargo, el equipo advierte de que el modelo sigue corriendo el riesgo de transcribir mal ciertas palabras o frases, y podría dar lugar a etiquetas inexactas o potencialmente ofensivas. También reconocen que sus modelos de reconocimiento de voz arrojaron más palabras sesgadas que otros modelos, aunque solo un 0,7% más.

Aunque el alcance de la investigación es impresionante, el uso de textos religiosos para entrenar modelos de IA puede ser controvertido, afirma Chris Emezue, investigador de Masakhane, una organización que trabaja en el procesamiento del lenguaje natural para lenguas africanas, y que no participó en el proyecto.

"La Biblia tiene muchos prejuicios y tergiversaciones", afirma.

Inteligencia Artificial

 

La inteligencia artificial y los robots están transformando nuestra forma de trabajar y nuestro estilo de vida.

  1. El contrato de OpenAI con la empresa de defensa Anduril certifica su giro militarista

    La asociación con Anduril desplegará la IA en el campo de batalla. Representa un cambio de la posición de la empresa en solo un año.

  2. Google desvela su Proyecto Astra, la apuesta para imponerse en los agentes de IA

    Google ha lanzado una serie de nuevos productos entre los que destaca el Proyecto Astra, un asistente universal todavía en fase de desarrollo capaz de enfocar con la cámara un objeto y ofrecer respuestas en tiempo real basadas en lo que captura

    Google desvela su Proyecto Astra
  3. EE UU se prepara para enfrentarse a los 'deepfakes'

    El Departamento de Defensa de EE UU ha firmado un acuerdo con Hive AI, start-up de inteligencia artificial, para mejorar el desarrollo de tecnología que detecte imágenes falsas generadas con IA

    EE UU se prepara para enfrentarse a los 'deepfakes'