La IA aprende a traducir lenguas muertas automáticamente

En 1886, el arqueólogo británico Arthur Evans encontró una piedra antigua con un curioso conjunto de inscripciones en un idioma desconocido. La piedra provenía de la isla mediterránea de Creta, así que Evans inmediatamente viajó hasta allí para buscar más evidencias. Pronto encontró numerosas piedras y lápidas con escritos similares y las dató alrededor del año 1400 a. C.

Eso situó a la inscripción como una de las primeras formas de escritura jamás descubiertas. Evans argumentó que, claramente, su forma lineal tenía su origen en los simples dibujos trazados que representaban los inicios del arte, lo que destacó su importancia en la historia de la lingüística.

Las investigaciones posteriores determinaron que las piedras y lápidas estaban escritas en dos lenguas diferentes. La más antigua, llamada Lineal A, data de entre 1800 y 1400 a. C., cuando la isla estaba dominada por la civilización minoica de la Edad del Bronce. La otra escritura, Lineal B, es más reciente, aparece después de 1400 a. C., cuando la isla fue conquistada por los micénicos griegos de la parte continental.

Durante muchos años, Evans y otros investigadores intentaron descifrar las escrituras antiguas, pero esas lenguas muertas resistieron todos los intentos. El problema no se resolvió hasta 1953, cuando un lingüista aficionado llamado Michael Ventris descifró el código de Lineal B.

Su solución se basaba en dos descubrimientos claves. Primero, supuso que muchas de las palabras repetidas en el vocabulario de Lineal B eran nombres de lugares de la isla de Creta. Eso resultó ser correcto. Su segundo descubrimiento fue la suposición de que la escritura representaba una forma temprana del griego antiguo. Esa idea le permitió descifrar rápidamente el resto de la lengua. En este proceso, Ventris demostró que el antiguo griego había aparecido por primera vez en forma escrita muchos siglos antes de lo que se pensaba.

El trabajo de Ventris fue un gran logro. Pero la escritura más antigua, el Lineal A, ha seguido siendo uno de los grandes problemas de la lingüística hasta el día de hoy.

Es fácil pensar que los recientes avances en la traducción automática podrían ayudar. En pocos años, el estudio de la lingüística se ha revolucionado gracias a la disponibilidad de enormes bases de datos anotadas y al desarrollo de técnicas para que las máquinas aprendan de ellas. En consecuencia, la traducción automática de un idioma a otro se ha convertido en algo rutinario. Y aunque no es perfecta, ha proporcionado una forma completamente nueva de pensar sobre el lenguaje.

Así que los investigadores del MIT Jiaming Luo y Regina Barzilay y el del laboratorio de inteligencia artificial de Google en Califo ia (EE. UU.) Yuan Cao han decido usarla para resolver el problema. El equipo ha desarrollado un sistema de aprendizaje automático capaz de descifrar lenguas muertas, y lo han demostrado descifrando Lineal B. Esta demostración se ha convertido en la primera traducción automática de esta lengua. Sin embargo, su enfoque no se parece nada a las técnicas estándar de traducción automática.

Primero algunos antecedentes. La gran idea en la que se basa la traducción automática es que las palabras están relacionadas entre sí, independientemente del idioma en cuestión.

Entonces, el proceso comienza al trazar estas relaciones para un idioma específico. Esto requiere enormes bases de datos de texto. Luego, el algoritmo analiza el texto para ver con qué frecuencia aparece una palabra junto a otra. Este patrón es una firma única que define a una palabra en un espacio de parámetros multidimensional. De hecho, una palabra puede considerarse como un vector dentro de este espacio. Y este vector actúa como un poderoso limitante sobre cómo puede aparecer esa palabra en cualquier traducción que surja del algoritmo.

Estos vectores siguen algunas reglas matemáticas simples. Por ejemplo: rey - hombre + mujer = reina. Y una frase puede considerarse como un conjunto de vectores que siguen uno tras otro para formar una especie de trayectoria a través de este espacio.

La idea clave que permite la traducción automática es que las palabras en diferentes idiomas ocupan los mismos puntos en sus respectivos espacios de parámetros. Eso permite mapear un idioma completo encima de otro con una correspondencia directa. De esta manera, el proceso de traducir frases se convierte en el proceso de encontrar trayectorias similares a través de estos espacios. El algoritmo ni siquiera necesita "saber" qué significan las frases.

El enfoque se basa fundamentalmente en los grandes conjuntos de datos. Pero hace un par de años, un equipo de investigadores alemanes mostró cómo un enfoque similar con bases de datos mucho más pequeñas podría ayudar a traducir idiomas mucho más raros que carecen de las grandes bases de datos de texto. El truco consiste en encontrar una forma diferente de limitar el enfoque automático sin depender de la base de datos.

Luo y sus colegas han ido más lejos para mostrar que la traducción automática es capaz de descifrar idiomas que se han perdido por completo. La limitación que utilizan tiene que ver con la forma en la que los idiomas evolucionan con el tiempo.

La idea consiste en que cualquier idioma solo puede cambiar de ciertas maneras; por ejemplo, los símbolos en idiomas relacionados presentan distribuciones similares, las palabras relacionadas tienen el mismo orden de caracteres, etcétera. Con estas reglas que limitan el algoritmo, es mucho más fácil descifrar un idioma, siempre que se conozca el idioma progenitor.

Luo y sus colegas pusieron a prueba la técnica con dos lenguas muertas, el Lineal B y el ugarítico. Los lingüistas saben que el Lineal B es una versión primigenia del griego antiguo y que el ugarítico, descubierto en 1929, es una forma temprana del hebreo.

Dada la información y las limitaciones impuestas por la evolución lingüística, el algoritmo logró traducir ambos idiomas con extraordinaria precisión. La investigación detalla: "Pudimos traducir correctamente el 67,3 % de los cognados de Lineal B a sus equivalentes griegos con la hipótesis de desciframiento. Hasta donde sabemos, nuestro experimento es el primer intento de descifrar automáticamente la lengua Lineal B".

Se trata de un trabajo impresionante que lleva la traducción automática a un nuevo nivel. Pero también plantea la interesante cuestión sobre los otros idiomas perdidos, especialmente aquellos nunca descifrados, como el Lineal A. En su artículo, el idioma Lineal A brilla por su ausencia. Luo y sus colegas ni siquiera lo mencionan, pero seguramente lo tengan muy presente, al igual que todos los lingüistas. Sin embargo, aún hacen falta importantes avances para que este idioma pueda ser traducido automáticamente.

Por ejemplo, nadie sabe qué idioma representa la lengua Lineal A. Los intentos de descifrarlo en griego antiguo han fracasado. Y sin el lenguaje progenitor, la nueva técnica no funciona. Pero la gran ventaja de los enfoques automáticos es que pueden probar un idioma tras otro rápidamente sin fatigarse. Por lo tanto, es muy posible que Luo y compañía aborden la lengua Lineal A con un enfoque de fuerza bruta, y se limiten a intentar descifrarlo en todos los idiomas para los que ya funciona la traducción automática.

Si funciona, será un logro impresionante que sorprendería hasta al mismísimo Michael Ventris.

Ref: arxiv.org/abs/1906.06718: Neural Decipherment via Minimum-Cost Flow: from Ugaritic to Linear B

El trabajo de Ventris fue un gran logro. Pero la escritura más antigua, el Lineal A, ha seguido siendo uno de los grandes problemas de la lingüística hasta el día de hoy.

Primero algunos antecedentes. La gran idea en la que se basa la traducción automática es que las palabras están relacionadas entre sí, independientemente del idioma en cuestión.

Si funciona, será un logro impresionante que sorprendería hasta al mismísimo Michael Ventris.

Ref: arxiv.org/abs/1906.06718: Neural Decipherment via Minimum-Cost Flow: from Ugaritic to Linear B

Buscar en MIT Technology Review

Explorar Temas

Secciones

La IA aprende a traducir lenguas muertas automáticamente