.

Inteligencia Artificial

El sistema de aprendizaje profundo de Baidu entiende el lenguaje casi mejor que las personas

1

La empresa de internet dominante en China presenta Deep Speech 2 supera las habilidades humanas para entender mandarín e inglés

  • por Will Knight | traducido por Teresa Woods
  • 21 Diciembre, 2015

La empresa líder en China de búsquedas de internet, Baidu, ha desarrollado un sistema de voz capaz de reconocer el habla inglesa y mandarina mejor que las personas, en algunos casos.

El nuevo sistema, llamado Deep Speech 2, es especialmente significativo por su dependencia completa del aprendizaje de máquinas para la traducción. Donde los sistemas más antiguos de reconocimiento de voz incluyen muchos componentes desarrollados a mano para ayudar con el procesamiento de audio y la transcripción, el sistema de Baidu aprendió a reconocer palabras desde cero, simplemente al escuchar miles de horas de audio transcrito.

La tecnología depende de una potente técnica conocida como aprendizaje profundo, que incluye el entrenamiento de una enorme red virtual de múltiples capas de neuronas para reconocer patrones dentro de vastas cantidades de datos. La app de Baidu para smartphone permite que los usuarios busquen por voz, y también incluye un asistente personal controlado por voz llamado Duer (ver Baidu se lanza al control por voz con su asistente personal Duer). Las consultas hechas por voz son más populares en China porque requiere más tiempo introducir el texto, y porque algunos usuarios no saben utilizar Pinyin, el sistema fonético para transcribir el mandarín utilizando caracteres del latín.

"Históricamente, la gente veía al chino y al inglés como dos idiomas completamente diferentes, así que había una necesidad de diseñar unas prestaciones muy diferentes", explica Andrew Ng, un antiguo profesor de la Universidad de Stanford (EEUU) e investigador de Google, y ahora el científico jefe de la empresa china. "Los algoritmos de aprendizaje ahora son tan generales que simplemente te los puedes aprender".

El aprendizaje profundo tiene sus raíces en ideas desarrolladas por primera vez hace más de 50 años, pero durante los últimos años unas nuevas técnicas matemáticas, junto con la mayor potencia computacional y enormes cantidades de datos de entrenamiento, han dado paso a unos progresos asombrosos, especialmente en tareas que requieran algún tipo de percepción audio o visual. La técnica ya ha mejorado el rendimiento del reconocimiento de voz y el procesado de imágenes, y algunas grandes empresas como Google, Facebook y Baidu la están aplicando a los masivos conjuntos de datos que poseen.

El aprendizaje profundo también está siendo adaptado para cada vez más tareas. Facebook, por ejemplo, emplea el aprendizaje profundo para identificar caras dentro de las fotos que suben sus usuarios. Y hace poco ha hecho progresos en el uso del aprendizaje profundo para analizar textos escritos (ver El hombre que enseña a las máquinas a entender el lenguaje). Google ahora emplea el aprendizaje profundo en más de 100 proyectos distintos, desde búsquedas hasta coches autónomos.

En 2013, Baidu lanzó su propio esfuerzo por aprovechar esta nueva tecnología, el Instituto de Aprendizaje Profundo, coubicado en la sede principal de la empresa en Pekín (China) y en Silicon Valley (EEUU). Deep Speech 2 fue principalmente desarrollado por un equipo radicado en California (EEUU).

Al desarrollar Deep Speech 2, Baidu también ha creado una nueva arquitectura de hardware para el aprendizaje profundo que se ejecuta siete veces más rápido que la versión anterior. El aprendizaje profundo generalmente depende de los procesadores gráficos, porque estos resultan buenos para las intensivas computaciones en paralelo que incluye.

La rapidez alcanzada les "permitió hacer la experimentación en una escala mucho más grande de lo que nadie había logrado con anterioridad", afirma Jesse Engel, un investigador científico de Baidu y uno de más de 30 investigadores nombrados en un trabajo que describe Deep Speech 2. "Fuimos capaces de buscar por muchas arquitecturas [de redes neuronales], y  reducir la tasa de error de palabra en un 40%".

Ng añade que esto ha producido recientemente algunos resultados impresionantes. "Para frases cortas, fuera de contexto, parece que estamos superando los niveles humanos de reconocimiento", dice.

Añade: "En mandarín, existen muchos dialectos regionales que son hablados por poblaciones mucho más pequeñas, así que existen menos datos. Esto podría ayudarnos a reconocer mejor estos dialectos".

Inteligencia Artificial

 

La inteligencia artificial y los robots están transofrmando nuestra forma de trabajar y nuestro estilo de vida.

  1. El mundo empieza a sentir la urgencia de proteger a los niños de la IA

    Los más pequeños son los más vulnerables a las amenazas de los algoritmos, por eso, Unicef y la Academia de Inteligencia Artificial de Pekín (China) han publicado sendas recomendaciones y van a lanzar proyectos piloto para que empresas y gobiernos empiecen a crear protecciones especiales para ellos

  2. Facebook crea un espacio virtual para robots que parece y suena real

    Su plataforma Habitat ahora permite incorporar sonidos realistas para que los modelos de IA aprendan cosas como abrir la puerta cuando alguien está llamando. El objetivo es mejorar la capacidad de navegación simulada y trasladar esos conocimientos a robots para que los apliquen en el mundo físico

  3. Estas normas internacionales impedirán que la IA engañe a los médicos

    Hasta ahora, los sistemas de inteligencia artificial utilizados en ensayos clínicos no se sometían a auditorías independientes ni debían rendir cuentas sobre su diseño, lo que permitía exagerar sus capacidades, pero eso está a punto de acabar gracias a estos nuevos estándares