Computación

Un programa que traduce nuestra voz a otros idiomas

Un software de investigación de Microsoft sintetiza las palabras en idiomas extranjeros, pero con una voz que suena parecida a la nuestra.

por Tom Simonite | traducido por Francisco Reyes (Opinno)
12 Marzo, 2012

Investigadores de Microsoft han desarrollado un software capaz de aprender el sonido de nuestra voz y hacer que hablemos en un idioma distinto al materno. El sistema podría utilizarse para hacer que el software de aprendizaje de idiomas fuera más personal, o para crear herramientas para viajeros.

En una demostración realizada el martes de la semana pasada en Redmond, Washington (EE.UU.), el científico de investigación de Microsoft Frank Soong mostró cómo su software es capaz de leer un texto en español usando la voz de su jefe, Rick Rashid, director de las iniciativas de investigación de Microsoft. Durante una segunda demostración, Soong utilizó su software para hacer que Craig Mundie, jefe de investigación y director de estrategia de Microsoft, pudiera hablar mandarín.

En inglés, una versión sintética de la voz de Mundie dio la bienvenida a los asistentes a una jornada de puertas abiertas celebrada por Microsoft Research, que acabó con la siguiente frase: "Con la ayuda de este sistema, puedo hablar mandarín". La frase se repitió en chino mandarín, con una voz similar a la de Mundie.

"Podremos crear distintas aplicaciones", señaló Soong, que desarrolló el sistema con sus colegas de Microsoft Research Asia, el segundo laboratorio de investigación más grande de la compañía localizado en Beijing, China.

"Para un hablante monolingüe que viaje a un país extranjero, ofreceremos reconocimiento de voz seguido por una traducción, y finalmente por un texto pasado a voz en un idioma diferente, pero conservando su propia voz", indicó Soong.

La nueva técnica también podría usarse para ayudar a los estudiantes a aprender un idioma, añadió. Proporcionar ejemplos de frases extranjeras con la voz propia de una persona podría ser alentador, o fácil de imitar. Soong también mostró cómo su nuevo sistema podría mejorar una aplicación telefónica de direcciones de navegación, permitiendo a una voz sintética en inglés leer a la perfección textos escritos en señales de tráfico chinas a lo largo de una ruta en Beijing.

El sistema necesita alrededor de una hora de entrenamiento para desarrollar un modelo capaz de leer cualquier texto con la voz de una persona. Ese modelo se convierte en otro capaz de leer textos en otro idioma, comparándolo con el modelo base de texto a voz del idioma de destino. Los sonidos individuales utilizados por el primer modelo para construir palabras con la voz de una persona en su propia lengua han sido cuidadosamente ajustados para dar al nuevo modelo de texto a voz plena capacidad para pronunciar frases en la segunda lengua.

Soong afirma que este enfoque puede convertir frases entre cualquier combinación de 26 idiomas, entre ellos el chino mandarín, el español y el italiano.

Preservar la voz de una persona y sintetizar el diálogo a otro idioma probablemente resulte alentador para el usuario, y podría hacer que las interacciones que dependan del uso de software de traducción sean más significativas, afirma Shrikanth Narayanan, profesor de la Universidad del Sur de California en Los Ángeles (EE.UU.), y director de un grupo de investigación que trabaja en sistemas para traducir el habla en situaciones tales como las consultas entre médicos y pacientes.

"La palabra es solo una parte de lo que dice una persona," afirma, y para dar a conocer realmente toda la información contenida en el discurso de un individuo los sistemas de traducción tendrán que ser capaces de preservar las voces y muchos otros aspectos. "Preservar la voz y la entonación es importante, y este proyecto lo tiene muy claro", afirma Narayanan. "Nuestros sistemas tienen que captar la expresión que una persona está tratando de transmitir, quiénes son y cómo lo están diciendo".

Su grupo de investigación está investigando el modo en que características tales como el énfasis, la entonación y las pausas o dudas afectan a la eficacia y la calidad percibida de una traducción palabra por palabra. "Nos preguntamos si se pueden construir sistemas capaces de mediar entre las personas, además de reemplazar las palabras", indica. "Considero esta investigación de Microsoft como parte del modo de conseguirlo", concluye.

Computación

Un programa que traduce nuestra voz a otros idiomas

La 'start-up' de EE UU que se enfrenta al gigante japonés de materiales para chips

ASML, la empresa que revolucionó la fabricación de chips y quiere seguir haciéndolo

‘Chiplets’: el arma de China en su batalla tecnológica contra EE UU