.

Computación

Un programa que traduce nuestra voz a otros idiomas

1

Un software de investigación de Microsoft sintetiza las palabras en idiomas extranjeros, pero con una voz que suena parecida a la nuestra.

  • por Tom Simonite | traducido por Francisco Reyes (Opinno)
  • 12 Marzo, 2012

Investigadores de Microsoft han desarrollado un software capaz de aprender el sonido de nuestra voz y hacer que hablemos en un idioma distinto al materno. El sistema podría utilizarse para hacer que el software de aprendizaje de idiomas fuera más personal, o para crear herramientas para viajeros.

En una demostración realizada el martes de la semana pasada en Redmond, Washington (EE.UU.), el científico de investigación de Microsoft Frank Soong mostró cómo su software es capaz de leer un texto en español usando la voz de su jefe, Rick Rashid, director de las iniciativas de investigación de Microsoft. Durante una segunda demostración, Soong utilizó su software para hacer que Craig Mundie, jefe de investigación y director de estrategia de Microsoft, pudiera hablar mandarín.

En inglés, una versión sintética de la voz de Mundie dio la bienvenida a los asistentes a una jornada de puertas abiertas celebrada por Microsoft Research, que acabó con la siguiente frase: "Con la ayuda de este sistema, puedo hablar mandarín". La frase se repitió en chino mandarín, con una voz similar a la de Mundie.

"Podremos crear distintas aplicaciones", señaló Soong, que desarrolló el sistema con sus colegas de Microsoft Research Asia, el segundo laboratorio de investigación más grande de la compañía localizado en Beijing, China.

"Para un hablante monolingüe que viaje a un país extranjero, ofreceremos reconocimiento de voz seguido por una traducción, y finalmente por un texto pasado a voz en un idioma diferente, pero conservando su propia voz", indicó Soong.

La nueva técnica también podría usarse para ayudar a los estudiantes a aprender un idioma, añadió. Proporcionar ejemplos de frases extranjeras con la voz propia de una persona podría ser alentador, o fácil de imitar. Soong también mostró cómo su nuevo sistema podría mejorar una aplicación telefónica de direcciones de navegación, permitiendo a una voz sintética en inglés leer a la perfección textos escritos en señales de tráfico chinas a lo largo de una ruta en Beijing.

El sistema necesita alrededor de una hora de entrenamiento para desarrollar un modelo capaz de leer cualquier texto con la voz de una persona. Ese modelo se convierte en otro capaz de leer textos en otro idioma, comparándolo con el modelo base de texto a voz del idioma de destino. Los sonidos individuales utilizados por el primer modelo para construir palabras con la voz de una persona en su propia lengua han sido cuidadosamente ajustados para dar al nuevo modelo de texto a voz plena capacidad para pronunciar frases en la segunda lengua.

Soong afirma que este enfoque puede convertir frases entre cualquier combinación de 26 idiomas, entre ellos el chino mandarín, el español y el italiano.

Preservar la voz de una persona y sintetizar el diálogo a otro idioma probablemente resulte alentador para el usuario, y podría hacer que las interacciones que dependan del uso de software de traducción sean más significativas, afirma Shrikanth Narayanan, profesor de la Universidad del Sur de California en Los Ángeles (EE.UU.), y director de un grupo de investigación que trabaja en sistemas para traducir el habla en situaciones tales como las consultas entre médicos y pacientes.

"La palabra es solo una parte de lo que dice una persona," afirma, y para dar a conocer realmente toda la información contenida en el discurso de un individuo los sistemas de traducción tendrán que ser capaces de preservar las voces y muchos otros aspectos. "Preservar la voz y la entonación es importante, y este proyecto lo tiene muy claro", afirma Narayanan. "Nuestros sistemas tienen que captar la expresión que una persona está tratando de transmitir, quiénes son y cómo lo están diciendo".

Su grupo de investigación está investigando el modo en que características tales como el énfasis, la entonación y las pausas o dudas afectan a la eficacia y la calidad percibida de una traducción palabra por palabra. "Nos preguntamos si se pueden construir sistemas capaces de mediar entre las personas, además de reemplazar las palabras", indica. "Considero esta investigación de Microsoft como parte del modo de conseguirlo", concluye.

Computación

Las máquinas cada vez más potentes están acelerando los avances científicos, los negocios y la vida.

  1. Balance de la caída de Microsoft: "Muestra lo fácil que es infligir un daño global"

    Pese a la magnitud de la caída de Microsoft provocada por el fallo en la actualización de Crowdstrike, los expertos creen que las consecuencias podrían haber sido peores si se hubiera tratado de un ataque de 'ransomware'. Ya hay soluciones para evitar la llamada "pantalla azul de la muerte". 

  2. Estas estructuras de madera que se moldean solas anticipan el futuro de la arquitectura sostenible

    Achim Menges utiliza técnicas asistidas por ordenador destinadas a hacer los edificios más sostenibles y asequibles

    Menges con una estructura de madera a pequeña escala.
  3. Cómo la gamificación pasó de una fuerza positiva a la coacción

    La gamificación siempre ha sido conductismo disfrazado de píxeles y sistemas de puntos. ¿Por qué hemos caído en ella?

    Collage de mensajes pop up de aplicaciones gamificadas