.

Robótica

Los audios falsos de la inteligencia artificial engañan a los humanos

1

Un programa ha aprendido a generar sonidos para acompañar a vídeos cortos que resultan tan realistas que los humanos los confunden con los reales el 70% de las veces. Le ofrecemos un ejemplo para que se ponga prueba

  • por Emerging Technology From The Arxiv | traducido por Teresa Woods
  • 26 Diciembre, 2017

El aprendizaje automático está cambiando nuestra forma de relacionarnos con las imágenes y también los procesos para crearlas. Los investigadores han entrenado máquinas capaces de generar caras, dibujar caricaturas e incluso transferir el estilo de las pinturas a fotografías (ver ¿Qué pinta tendrá su cara dentro de 30 años? La inteligencia artificial lo sabe). A un paso de estas técnicas está la de crear videos de la misma manera, algo que ya se está empezando a conseguir.

Estos avances nos dirigen hacia un punto en el que una máquina pueda crear entornos virtuales de forma totalmente autónoma (ver La inteligencia artificial diseña videojuegos que superan la imaginación humana). Eso abre todo tipo de posibilidades para el futuro de la experiencia humana).

Pero hay un problema. El vídeo no es solo una experiencia visual, también es auditiva, por lo que generar audio realista es igual de importante. Entonces, una pregunta interesante es si las máquinas pueden generar convincentemente el componente de audio de un vídeo.

Hoy recibimos una respuesta gracias al trabajo del investigador de la Universidad de Carolina del Norte en Chapel Hill (EEUU) y Adobe Research Yipin Zhou y sus compañeros. El equipo ha entrenado un algoritmo de aprendizaje automático para generar pistas de audio realistas para vídeos cortos.

De hecho, estos sonidos parecen tan reales que engañan a la mayoría de los humanos, haciéndoles creer que son de verdad. Póngase a sí mismo a prueba con este vídeo y compruebe si es capaz de notar la diferencia.

Vídeo: ¿Es capaz usted de identificar correctamente cuáles de estos vídeos contienen sonidos reales y cuales han sido generados por ordenador?

Para ello, el equipo a utilizado el enfoque estándar del aprendizaje automático. Los algoritmos solo son tan buenos como los datos utilizados para entrenarlos, por lo que el primer paso consiste en crear un gran conjunto de datos etiquetados de alta calidad.

El equipo creó este conjunto de datos con un subconjunto de cortes de vídeo de una colección de Google llamada Audioset, que consta de más de dos millones de clips de 10 segundos de YouTube que incluyen pistas de audio. Estos videos están divididos en categorías etiquetadas por humanos que se centran en cosas como perros, motosierras, helicópteros y más.

Para entrenar la máquina, el equipo debe disponer de vídeos en los que la fuente de sonido es claramente visible. Por lo tanto, cualquier vídeo que contenga audio de eventos que transcurren fuera de pantalla no es adecuado. El equipo los filtró mediante crowdsourcing del servicio Mechanical Turk de Amazon para encontrar aquellos en los que la fuente de audio es claramente visible y domina la pista de audio.

Eso produjo un nuevo conjunto de datos con más de 28.000 vídeos, cada uno de aproximadamente siete segundos de duración, de 10 categorías diferentes.

A continuación, el equipo los utilizó para entrenar una máquina para reconocer las formas de onda asociadas a cada categoría y para reproducirlas desde cero utilizando una red neuronal llamada SampleRNN.

Finalmente, probaron los resultados al pedir a evaluadores humanos que calificaran la calidad del sonido que acompaña un vídeo y determinasen si había sido generado de manera real o artificial.

Los resultados sugieren que las máquinas pueden rendir bastante bien en esta tarea. La investigación detalla: "Nuestros experimentos demuestran que los sonidos generados son bastante realistas y tienen una buena sincronización temporal con las entradas visuales".

Y los evaluadores humanos parecen estar de acuerdo. "Las evaluaciones demuestran que más del 70% del sonido generado por nuestros modelos puede engañar a los humanos haciéndoles creer que son reales", afirman los investigadores.

Es un trabajo interesante que allana el camino para la edición automatizada de sonidos. Un problema común con los videos es que el ruido superfluo de una fuente fuera de pantalla puede arruinar un clip. Por lo tanto, será útil tener una forma de reemplazar automáticamente el sonido con una alternativa realista generada por máquina. Y con la participación de Adobe en esta investigación, puede que no pase mucho tiempo antes de que veamos este tipo de capacidad en el software comercial de edición de vídeos.

Ref: arxiv.org/abs/1712.01393: Visual to Sound: Generating Natural Sound for Videos in the Wild

Robótica

 

La inteligencia artificial y los robots están transofrmando nuestra forma de trabajar y nuestro estilo de vida.

  1. Los robots más inteligentes que nos acompañarán en 2018

    Muchos temen la revolución de los robots, pero los más optimistas creen que obtendremos más beneficios que perjuicios. Las volteretas hacia atrás quizá no son muy útiles, pero los brazos robóticos y los coches autónomos podrían transformar nuestra vida de una forma que no imaginamos.

  2. Baidu empieza a probar su software de conducción autónoma de código abierto

    Baidu ha optado por un enfoque muy similar al sistema operativo para móviles de Google, Android, para desarrollar su primer programa de conducción autónoma, Apollo. Su objetivo es que otras empresas ayuden a mejorar el software aportando sus propios datos. 

  3. Google y Uber quieren incorporar la incertidumbre a sus IA para hacerlas más seguras

    Si los sistemas de inteligencia artificial tienen una medida de la seguridad que tienen sobre sus propias predicciones, tendrán más argumentos para decidir si actuar o no. Incorporar la capacidad de la incertidumbre ha sido posible gracias al aprendizaje profundo y la programación probabilística.