.

Computación

Un programa que traduce nuestra voz a otros idiomas

1

Un software de investigación de Microsoft sintetiza las palabras en idiomas extranjeros, pero con una voz que suena parecida a la nuestra.

  • por Tom Simonite | traducido por Francisco Reyes (Opinno)
  • 12 Marzo, 2012

Investigadores de Microsoft han desarrollado un software capaz de aprender el sonido de nuestra voz y hacer que hablemos en un idioma distinto al materno. El sistema podría utilizarse para hacer que el software de aprendizaje de idiomas fuera más personal, o para crear herramientas para viajeros.

En una demostración realizada el martes de la semana pasada en Redmond, Washington (EE.UU.), el científico de investigación de Microsoft Frank Soong mostró cómo su software es capaz de leer un texto en español usando la voz de su jefe, Rick Rashid, director de las iniciativas de investigación de Microsoft. Durante una segunda demostración, Soong utilizó su software para hacer que Craig Mundie, jefe de investigación y director de estrategia de Microsoft, pudiera hablar mandarín.

En inglés, una versión sintética de la voz de Mundie dio la bienvenida a los asistentes a una jornada de puertas abiertas celebrada por Microsoft Research, que acabó con la siguiente frase: "Con la ayuda de este sistema, puedo hablar mandarín". La frase se repitió en chino mandarín, con una voz similar a la de Mundie.

"Podremos crear distintas aplicaciones", señaló Soong, que desarrolló el sistema con sus colegas de Microsoft Research Asia, el segundo laboratorio de investigación más grande de la compañía localizado en Beijing, China.

"Para un hablante monolingüe que viaje a un país extranjero, ofreceremos reconocimiento de voz seguido por una traducción, y finalmente por un texto pasado a voz en un idioma diferente, pero conservando su propia voz", indicó Soong.

La nueva técnica también podría usarse para ayudar a los estudiantes a aprender un idioma, añadió. Proporcionar ejemplos de frases extranjeras con la voz propia de una persona podría ser alentador, o fácil de imitar. Soong también mostró cómo su nuevo sistema podría mejorar una aplicación telefónica de direcciones de navegación, permitiendo a una voz sintética en inglés leer a la perfección textos escritos en señales de tráfico chinas a lo largo de una ruta en Beijing.

El sistema necesita alrededor de una hora de entrenamiento para desarrollar un modelo capaz de leer cualquier texto con la voz de una persona. Ese modelo se convierte en otro capaz de leer textos en otro idioma, comparándolo con el modelo base de texto a voz del idioma de destino. Los sonidos individuales utilizados por el primer modelo para construir palabras con la voz de una persona en su propia lengua han sido cuidadosamente ajustados para dar al nuevo modelo de texto a voz plena capacidad para pronunciar frases en la segunda lengua.

Soong afirma que este enfoque puede convertir frases entre cualquier combinación de 26 idiomas, entre ellos el chino mandarín, el español y el italiano.

Preservar la voz de una persona y sintetizar el diálogo a otro idioma probablemente resulte alentador para el usuario, y podría hacer que las interacciones que dependan del uso de software de traducción sean más significativas, afirma Shrikanth Narayanan, profesor de la Universidad del Sur de California en Los Ángeles (EE.UU.), y director de un grupo de investigación que trabaja en sistemas para traducir el habla en situaciones tales como las consultas entre médicos y pacientes.

"La palabra es solo una parte de lo que dice una persona," afirma, y para dar a conocer realmente toda la información contenida en el discurso de un individuo los sistemas de traducción tendrán que ser capaces de preservar las voces y muchos otros aspectos. "Preservar la voz y la entonación es importante, y este proyecto lo tiene muy claro", afirma Narayanan. "Nuestros sistemas tienen que captar la expresión que una persona está tratando de transmitir, quiénes son y cómo lo están diciendo".

Su grupo de investigación está investigando el modo en que características tales como el énfasis, la entonación y las pausas o dudas afectan a la eficacia y la calidad percibida de una traducción palabra por palabra. "Nos preguntamos si se pueden construir sistemas capaces de mediar entre las personas, además de reemplazar las palabras", indica. "Considero esta investigación de Microsoft como parte del modo de conseguirlo", concluye.

Computación

Las máquinas cada vez más potentes están acelerando los avances científicos, los negocios y la vida.

  1. Quienes pierdan su empleo por culpa de la IA deberían recibir un sueldo para formarse en otra cosa

    Ese es el nuevo 'New Deal' que propone el experto en inteligencia artificial Andrew Ng, consciente de que aunque la tecnología no avance más, ya es capaz de destruir muchos puestos de trabajo como el de los operadores telefónicos, los radiólogos y los camioneros

  2. Rastrear pavos con 'blockchain' en Acción de Gracias, el inicio de una revolución

    Sí, ha oído bien. Algunos consumidores pudieron comprobar de dónde procedían exactamente sus ejemplares gracias a esta tecnología. Más allá de las finanzas y los seguros, la cadena de bloques podría transformar la cadena de suministro de alimentos y fomentar la transparencia

  3. Si queremos luchar contra la parálisis hay que cortar los cables de las interfaces cerebro-ordenador

    Esta tecnología podría ser el salvavidas que necesitan las personas con discapacidades motrices, pero si los aparatos no reducen su tamaño, mejoran sus capacidades y se vuelven portátiles e inalámbricos, será imposible que lleguen a los hogares de quienes más los necesitan