.

Samuel Dixon | Unsplash

Inteligencia Artificial

Una IA convierte el sonido mono en envolvente al verlo en un vídeo

1

La inteligencia artificial identifica la dirección de la que procede el audio y luego lo modifica para que parezca que se produce ahí y resulte inmersivo. Sus creadores lo han bautizado como sonido en 2,5D

  • por Emerging Technology From The Arxiv | traducido por Ana Milutinovic
  • 26 Febrero, 2019

Si escuchamos el canto de un pájaro de un árbol cercano, no nos hace falta mirar para identificar dónde está. Si oímos el rugido del motor de un coche mientras cruzamos la calle, normalmente somos capaces de darnos cuenta inmediatamente de si el coche está detrás de nosotros. La capacidad humana para localizar un sonido en un espacio tridimensional es extraordinaria. El fenómeno se conoce bien: es el resultado de la forma asimétrica de nuestros oídos y de la distancia entre ellos.

Pero mientras los investigadores han descubierto cómo crear imágenes en 3D capaces de engañar fácilmente a nuestros sistemas visuales, nadie ha encontrado una manera satisfactoria de crear sonidos sintéticos en 3D que engañen de modo convincente a nuestros sistemas auditivos.

Pero esto está cambiando, al menos en parte, gracias al trabajo del investigador de la Universidad de Texas (EE.UU.) Ruohan Gao en y a la de Facebook Research Kristen Grauman. El equipo ha utilizado un truco para enseñar a un sistema de inteligencia artificial (IA) a convertir los sonidos monoaruales comunes (mono) en sonidos 3D. Los investigadores lo llaman sonido 2,5D.

Primero algunos antecedentes. El cerebro utiliza una variedad de pistas para determinar de dónde proviene un sonido en un espacio tridimensional. Una pista importante es la diferencia de tiempo de llegada de un sonido a cada oído: la diferencia de tiempo interaural. Un sonido producido a nuestra izquierda obviamente llegará a nuestro oído izquierdo antes que al derecho. Y aunque no somos conscientes de esta diferencia, el cerebro la usa para determinar de dónde viene el sonido.

Otra pista es la diferencia de volumen. Este mismo sonido sonará más alto en el oído izquierdo que en el derecho, y el cerebro también utiliza esta información para hacer su cálculo. Esto se llama la diferencia interaural de intensidad. Estas diferencias dependen de la distancia entre las orejas. Las grabaciones en estéreo no reproducen este efecto por la separación de los micrófonos en estéreo.

La forma en la que el sonido interactúa con las orejas también es importante. Las orejas distorsionan el sonido en función de la dirección desde la que llegan. Por ejemplo, un sonido frontal llega al canal auditivo antes de chocar con la oreja. En cambio, el mismo sonido procedente de detrás de la cabeza se distorsiona por la oreja antes de llegar al canal auditivo.

El cerebro también puede sentir estas diferencias. De hecho, la forma asimétrica de la oreja es la razón por la que podemos distinguir un sonido que viene desde arriba, por ejemplo, o desde muchas otras direcciones. El truco para reproducir artificialmente un sonido 3D consiste en replicar el efecto que toda esta geometría tiene sobre el sonido. Pero es bastante difícil.

Una forma de medir la distorsión es mediante una grabación binaural con un micrófono en cada oreja para captar estas pequeñas variaciones. Al analizar las variaciones, los investigadores pueden reproducirlas mediante un algoritmo matemático conocido como función de transferencia relacionada con la cabeza (HRTF por sus siglas en inglés). La fórmula convierte cualquier par de auriculares ordinarios en máquinas extraordinarias de sonido en 3D.

Pero como los oídos de cada persona son diferentes, todos escuchamos el sonido de una manera distinta. Así que crear una HRTF para una persona concreta es necesario medir la forma de sus oídos antes de reproducir una grabación. Y aunque se puede hacer en el laboratorio, nadie ha conseguido hacerlo en el mundo real.

Aún así, hay formas de aproximarse al sonido 3D mediante las distorsiones de sonido que no dependen de la forma del oído, ni de las diferencias del tiempo interaural ni de la intensidad.

El truco que utilizan Grauman y Gao consiste en determinar de dónde viene un sonido a través de pistas visuales (como a menudo hacen los humanos). Así que, con un vídeo de una escena y una grabación de sonido en mono, un sistema de aprendizaje automático ha sido capaz de descubrir de dónde vienen los sonidos y de distorsionar las diferencias interaurales de tiempo e intensidad para producir ese efecto para el oyente.

Por ejemplo, imagine un vídeo que muestre a un par de músicos tocando un tambor y un piano. Si el tambor está en el lado izquierdo del campo de visión y el piano a la derecha, es fácil suponer que los sonidos de la batería deben venir de la izquierda y los del piano desde la derecha. Y eso es justo lo que hace esta IA, que luego distorsiona el sonido en consecuencia.

El método de los investigadores es relativamente sencillo. El primer paso para entrenar a cualquier sistema de aprendizaje automático consiste en crear una base de datos con ejemplos del efecto que debería aprender. Grauman y Gao crearon una haciendo grabaciones binaurales de más de 2.000 clips musicales que también registraron en vídeo. Su grabadora binaural consiste en un par de orejas artificiales separadas por el ancho de una cabeza humana, que también graba la escena con una GoPro.

Luego, el equipo utilizó estas grabaciones para entrenar un algoritmo de aprendizaje automático para reconocer de dónde venía un sonido a partir del vídeo de la escena. Una vez aprendido esto, la IA es capaz de ver un vídeo y distorsionar una grabación monoaural para simular de dónde debería venir el sonido. La investigación detalla: "El resultado lo llamamos sonido visual 2,5D: la transmisión visual ayuda a 'elevar' el audio plano de un solo canal a un sonido espacializado".

Los resultados son impresionantes. Se puede ver un vídeo de su trabajo aquí, pero hay que usar auriculares. La grabación compara los resultados de las grabaciones en 2,5D con la grabación monoaural y muestra la calidad que puede tener. Los investigadores afirman: "El sonido visual 2.5D ofrece una experiencia de audio más envolvente".

Sin embargo, no produce un sonido 3D completo debido a las razones mencionadas anteriormente: los investigadores no han creado una función de transferencia relacionada con la cabeza personalizada.

También hay algunas situaciones en las que al algoritmo le cuesta trabajar. Obviamente, la IA no puede manejar ninguna fuente de sonido que aparezca en el vídeo. Tampoco puede tratar aquellas fuentes de sonido que su entrenamiento no le haya enseñado a reconocer. El sistema está claramente enfocado a videoclips musicales.

No obstante, Grauman y Gao ofrecen una estrategia inteligente y que funciona bien para muchos vídeos musicales. Y esperan poder ampliar sus aplicaciones. La investigación concluye: "Planeamos explorar formas de incorporar la localización de objetos y el movimiento, y simular explícitamente los sonidos de las escenas".

Ref: arxiv.org/abs/1812.042042.5D Visual Sound

Inteligencia Artificial

 

La inteligencia artificial y los robots están transformando nuestra forma de trabajar y nuestro estilo de vida.

  1. La IA generativa puede convertir tus recuerdos en fotos que nunca existieron

    El proyecto Synthetic Memories ayuda a familias de todo el mundo a recuperar un pasado que nunca se fotografió

    Una imagen en blanco y negro generada por ai de una mujer y un niño mirando por una ventana
  2. "La pregunta es cuánta participación humana se necesita para que algo sea arte"

    Alex Reben hace arte con (y sobre) IA. Hablé con él sobre lo que la nueva ola de modelos generativos significa para el futuro de la creatividad humana

    Detalle de un cuadro de una cabeza deformada en la que unas enormes orejas en la parte frontal de la cara tapan los ojos y una lengua brillante con textura de fresa sobresale de la boca abierta.
  3. Compensación y atribución para los creadores, la apuesta de Adobe por una IA generativa diferente

    La empresa afirma que es la prueba de que los modelos de IA de calidad no tienen por qué incluir polémicos contenidos protegidos por derechos de autor

    Imagen generada mediante IA de una mano que utiliza una cuchilla de precisión para cortar un dibujo de la realidad