Computación

Esta bolsa de patatas canta 'Mary tenía un corderito'

Un algoritmo recupera el sonido ejercido sobre objetos gracias a las vibraciones que el audio les provoca, lo que permitiría escuchar una grabación muda

por Sergio Ferrer | traducido por
27 Octubre, 2014

Pie de foto: Es posible extraer sonido de un objeto a partir de sus vibraciones. Crédito: JD Hancock.

Mary tenía un corderito fue la primera canción que sonó en el fonógrafo inventado por Edison en 1876. En 2014, esta conocida melodía ha sido reinterpretada por una bolsa de patatas fritas. Investigadores del MIT han logrado extraer audio de vídeos mudos, en los que diferentes objetos estáticos son expuestos a la canción. En otras palabras, han conseguido obtener sonido de información puramente visual. Para lograrlo, un algoritmo analiza las imperceptibles vibraciones –al menos para el ojo humano– de las ondas sonoras sobre los objetos. Las aplicaciones policiales del descubrimiento permitirían escuchar conversaciones con tan solo grabarlas desde lejos y recuperar el sonido de las vibraciones de los elementos circundantes.

Las hojas de una planta, un trozo de papel de aluminio y un vaso con agua han sido los otros objetos de los que el equipo ha logrado extraer el sonido de sus vibraciones. Estos movimientos equivalen a la décima parte de un micrómetro (que representa la millonésima parte de un metro) y crean una señal muy sutil e invisible para el ojo humano, pero que un ordenador es capaz de analizar.

La precisión del audio reconstruido a partir de un vídeo dependerá de la calidad de cámara y su capacidad para registrar las vibraciones. Los investigadores emplearon una de alta velocidad, que graba a frecuencias de entre 2.000 y 6.000 imágenes por segundo (fps, de sus siglas en inglés) y que en los mejores modelos puede alcanzar los 100.000 fps. Frecuencias muy superiores a las 60 fps de un smartphone como el iPhone 6.

Pero para escuchar lo que dice una bolsa de patatas o una planta no será necesario comprar una cámara de alta velocidad, cuyo precio puede alcanzar los 30.000 euros. Los investigadores también fueron capaces de extraer sonido de grabaciones hechas mediante un móvil a 60 fps.

El audio obtenido con una cámara convencional es de menor calidad, pero suficiente como para reconocer el número de personas, el género del interlocutor y hasta identificar al hablante. “La técnica siempre dirá algo”, explica el autor principal del estudio e investigador del MIT, Abe Davis, “aunque dependerá de lo que se quiera hacer”. El experto en computación asegura que sin una cámara de alta velocidad con una buena lente es “difícil” recuperar conversaciones, pero sí se podrían escuchar los latidos de un feto.

Hacer visible lo invisible

Para lograr detectar variaciones doscientas veces más pequeñas que un píxel los investigadores reciclaron un algoritmo desarrollado por el mismo grupo, que amplifica las variaciones de un vídeo, por ínfimas que sean. Sucesivos fotogramas de una grabación pasan a través de un filtro capaz de detectar las fluctuaciones más pequeñas en el color o la posición de las imágenes. Davis ha actualizado este algoritmo para que interprete el movimiento de los objetos “como un todo” al ser impactados por ondas de sonido.

De esta forma se convierte lo invisible en visible y permite ver movimientos tan imperceptibles como el pulso de la muñeca. El investigador del MIT y creador del sistema, Michael Rubinstein, asegura que se podría utilizar para controlar los signos vitales en los hospitales como un escáner “sin contacto”. Algo interesante para pacientes frágiles como bebés prematuros, a quienes “es mejor poner el mínimo posible de sensores físicos”. El investigador especializado en visión artificial de la Universidad Politécnica de Valencia, Ismael Salvador, considera que “hasta ahora” no se había conseguido algo así, pero opina que de momento es solo “una curiosidad”.

Davis, por su arte, asegura que hay situaciones en las que sería muy útil: “Imagina que quieres saber lo que ocurre tras una ventana al otro lado de la calle”. En esa situación, el sistema desarrollado en el MIT funcionaría, aunque Davis advierte que sería caro: “Tendrías que tener un gran interés en escuchar la conversación”.

De momento la técnica no funciona con objetos en movimiento, ya que el algoritmo no podría diferenciar las vibraciones. Davis asegura que están interesados en lograrlo, pero lo considera un “problema difícil”. El investigador asegura que trabajan para encontrar “nuevas y excitantes” aplicaciones de su tecnología que “nadie esperaría” y que podrían abrir “una nueva forma de escaneo”. Actualmente el equipo trabaja para determinar la estructura y material de los objetos a partir de su reacción al sonido. De momento será mejor no decir nada comprometedor cerca de una bolsa de patatas fritas, ni siquiera si Mary tenía un corderito.

Computación

Esta bolsa de patatas canta 'Mary tenía un corderito'

La 'start-up' de EE UU que se enfrenta al gigante japonés de materiales para chips

ASML, la empresa que revolucionó la fabricación de chips y quiere seguir haciéndolo

‘Chiplets’: el arma de China en su batalla tecnológica contra EE UU