Inteligencia Artificial

El padre de los 'deepfakes' lucha contra el monstruo en el que se han convertido

Si su iPhone es capaz de convertirle en un unicornio es gracias al trabajo de Hao Li. Después de perfeccionar su trabajo para aplicarlo el cine y la medicina, se ha centrado en encontrar formas de detectar estas falsificaciones cada vez más realistas, fáciles de crear y difíciles de identificar

por Will Knight | traducido por Ana Milutinovic
21 Agosto, 2019

Es junio en Dalian (China), una ciudad a cientos de kilómetros de Pekín (China) en una dirección y a otros tantos de la frontera con Corea del Norte en la otra. Hao Li está de pie dentro de un edificio cavernoso y angular que fácilmente podría ser la guarida de un villano de las películas de James Bond. Fuera, el aire es sofocante y la seguridad, estricta. La conferencia anual del Foro Económico Mundial está teniendo lugar en esta ciudad.

Cerca de Li, diferentes políticos y directores ejecutivos de todo el mundo esperan su turno para entrar en una cabina. En el interior, se ríen mientras ven cómo su rostro se transforma en el de algún personaje famoso: Bruce Lee, Neil Armstrong o Audrey Hepburn. El truco ocurre en tiempo real, y funciona casi a la perfección.

La extraordinaria máquina de intercambio de caras no se creó solo para distraer y divertir a los más ricos y poderosos del mundo. Li quiere que estas personas sean conscientes de las consecuencias que los vídeos manipulados (los deepfakes) con inteligencia artificial (IA) podrían tener para toda la sociedad.

Durante mucho tiempo, la desinformación ha sido una popular herramienta de sabotaje geopolítico, pero las redes sociales no han hecho más que echar leña al fuego de la difusión de noticias falsas. El hecho de que ahora sea tan fácil crear vídeos falsos es una garantía virtual de que serán usados como arma. Para cualquiera que quiera influir en unas elecciones, arruinar la carrera y la reputación de un enemigo o provocar violencia étnica, resulta difícil imaginar una herramienta más efectiva que un vídeo que parece auténtico, y que se propaga como la pólvora a través de Facebook, WhatsApp o Twitter.

Como pionero del engaño digital, a Li le preocupa que los deepfakes sean solo el principio. A pesar de haber contribuido al inicio de una era en la que ya no podemos fiarnos de nuestros ojos, él quiere usar sus habilidades para intentar solucionar el inminente, ubicuo y casi perfecto problema de los vídeos falsos.

La pregunta es, ¿acaso ya es demasiado tarde?

Reescribir la realidad

Li no es el típico deepfaker. No deambula por Reddit publicando pornografía falsa ni edita películas famosas para que las protagonice Nicolas Cage. Lleva toda su carrera desarrollando técnicas para intercambiar rostros de manera más fácil y convincente, algo que ya ha logrado con algunas de las caras más famosas del mundo en los últimos éxitos de taquilla, engañando a millones de personas a creer en una sonrisa o un guiño que nunca existió. Hablando una tarde por Skype desde su oficina en Los Ángeles (EE. UU.), menciona Will Smith estuvo ahí hace poco por una película en la que está trabajando.

Muchos actores suelen acudir su laboratorio en la Universidad del Sur de California (USC, en EE. UU.) para escanear digitalmente su imagen. Se colocan dentro de un espacio repleto de luces y cámaras de visión artificial que capturan la forma de su rostro, expresiones faciales, y el tono y textura de su piel hasta llegar a cada uno de los poros. El equipo de efectos especiales de en una película puede manipular algunas escenas ya grabadas, o incluso añadir a un actor en una nueva escena en la fase de postproducción.

Este tipo de engaño cada vez es más común en las películas de gran presupuesto. Los fondos se suelen representar digitalmente, y ya es habitual que la cara de un actor se inserte sobre la de otra persona en una escena de acción. Esta tendencia ha generado algunos momentos impresionantes para los cinéfilos, como cuando la joven princesa Leia apareció brevemente al final de Rogue One: A Star Wars Story, a pesar de que la actriz que había interpretado a Leia, Carrie Fisher, tenía casi 60 años cuando se rodó la película.

Hacer que estos efectos parezcan creíbles suele requerir una gran experiencia y millones de euros. Pero gracias a los avances en inteligencia artificial, ya se pueden intercambiar dos caras en un vídeo desde un ordenador portátil. Basta un poco de conocimiento adicional para hacer que un político, un CEO o un enemigo personal diga o haga lo que queramos (como en el vídeo de abajo en el que Li puso la cara de Elon Musk sobre la mía).

Una historia de engaños

En persona, Li tiene pinta de ciberpunk, con el cabello rapado, suele llevar una camiseta negra y una chaqueta de cuero. Cuando habla, tiene la extraña costumbre de parpadear de una manera que demuestra que ha pasado muchas noches despierto hasta muy tarde mirando bajo el cálido resplandor de la pantalla de un ordenador. Le encanta promocionar la brillantez de su tecnología. Durante las conversaciones, suele sacar su teléfono inteligente para mostrar algo nuevo.

Li creció en Saarbrücken (Alemania) como hijo de inmigrantes taiwaneses. Fue a una escuela secundaria franco-alemana y aprendió a hablar cuatro idiomas con fluidez (francés, alemán, inglés y mandarín). Recuerda el momento en el que decidió pasar su tiempo borrando la línea entre la realidad y la fantasía. Era 1993, cuando vio un enorme dinosaurio moviéndose lentamente en el Parque Jurásico de Steven Spielberg. Mientras los actores miraban boquiabiertos a la bestia generada por el ordenador, Li, que entonces tenía 12 años, comprendió que todo era producto de la tecnología. Li recuerda: "Me di cuenta de que básicamente se puede crear cualquier cosa, incluso algo que ni siquiera existe".

Li obtuvo su doctorado en el ETH Zúrich (Suiza), donde uno de sus mentores lo recuerda como un brillante estudiante y un bromista incorregible. Los vídeos de sus trabajos académicos a veces incluían caricaturas poco halagadoras de sus profesores.

Paul Walker

Foto: Los hermanos de Paul Walker proporcionaron una plantilla para su imagen digital en 'Furious 7'. Créditos: Weta Digital.

Poco después de entrar en USC, Li creó la tecnología de creación facial que se usó para hacer una versión digital del fallecido actor Paul Walker para la película de acción Furious 7. Fue un gran logro, ya que Walker, que murió en un accidente de coche a mitad del rodaje, no había sido escaneado previamente, y su personaje todavía tenía que aparecer en un montón de escenas. La tecnología de Li se usó para pegar la cara de Walker en los cuerpos de sus dos hermanos, que se turnaban para actuar en su lugar en más de 200 escenas.

La película, que recaudó más de un millón de euros en taquilla, fue la primera que dependía tanto de una estrella recreada digitalmente. Li menciona el papel virtual de Walker cuando habla de lo bueno que se está volviendo el engaño mediante vídeos. Y reconoce: "Ni siquiera yo sé cuáles son falsos".

Virtualmente igual

En 2009, menos de una década antes de que surgieran los deepfakes, Li desarrolló una forma de capturar la cara de una persona en tiempo real y usarla para manejar un avatar virtual. Esto suponía usar sensores de profundidad y un nuevo software para mapear la cara y sus expresiones en una máscara hecha de material virtual deformable.

Vídeo: Un ejemplo de seguimiento de rostro basado en marcadores. Créditos: Faceware Technologies

Lo más importante fue que este enfoque funcionó sin necesidad de agregar docenas de marcadores de seguimiento de movimiento a la cara de una persona, que es una técnica estándar de este sector para seguir el movimiento de un rostro. Li contribuyó al desarrollo de un software llamado Faceshift, que luego se comercializó como una spin-off de su universidad. La compañía fue adquirida por Apple en 2015, y su tecnología se utilizó para crear el software Animoji que, en los últimos iPhones, nos puede transformar en unicornios o en un montón de caca.

Li y sus estudiantes han publicado docenas de artículos sobre avatares que reflejan los movimientos de todo el cuerpo, sobre pelo virtual muy realista y sobre piel simulada que se estira igual que la piel real. En los últimos años, su grupo se ha centrado en los avances en el aprendizaje automático y especialmente en el aprendizaje profundo, una forma de entrenar a los ordenadores para hacer tareas mediante una gran red neuronal simulada. Su investigación también se ha aplicado a la medicina a través del desarrollo de técnicas para encontrar tumores dentro del cuerpo y modelar las propiedades de los huesos y los tejidos.

Actualmente, Li divide su tiempo entre la enseñanza, la consultoría para estudios de cine y la dirección de una nueva start-up, Pinscreen. La compañía usa una inteligencia artificial más avanzada que la que está detrás de los deepfakes para hacer avatares virtuales. Su aplicación convierte una sola foto en un avatar 3D fotorrealista en pocos segundos. Utiliza los algoritmos de aprendizaje automático entrenados para mapear una cara en un modelo 3D usando miles de imágenes fijas y correspondientes escaneos en 3D. El proceso se mejora mediante lo que se conoce como redes generativas antagónicas, o GAN (que no se usan para la mayoría de los deepfakes). Esto significa que un algoritmo produce imágenes falsas mientras que otro juzga si son falsas o no, un proceso que gradualmente mejora el engaño. Puede hacer que el avatar realice bailes tontos y pruebe diferentes atuendos, y es posible controlar las expresiones faciales del avatar en tiempo real, usando nuestra propia cara a través de la cámara en nuestro teléfono inteligente.

El exempleado Iman Sadeghi ha demandado a Pinscreen, alegando que fingió una presentación de esta tecnología en la conferencia SIGGRAPH en 2017. MIT Technology Review ha visto cartas de varios expertos y organizadores de SIGGRAPH rechazando esas afirmaciones.

Pinscreen trabaja con distintos renombrados minoristas de ropa que usan su tecnología para que las personas se prueben las prendas sin tener que ir a una tienda física. La tecnología también podría servir para videoconferencias, realidad virtual y juegos. Solo imagine un personaje de Fortnite que no solo se parece a nosotros, sino que también se ríe y baila de la misma manera.

Avatares creados con la aplicación Pin Screen.

Foto: Avatares creados con la aplicación Pin Screen. Créditos: Cortesía de Hao Li.

Pero, debajo de esas maravillas digitales surge una tendencia preocupante: la inteligencia artificial hace que la edición de imágenes avanzada resulte más rápida en un teléfono inteligente que en un ordenador. FaceApp, una app desarrollada por una compañía de San Petersburgo (Rusia), ha atraído a millones de usuarios y generado controversia al permitir cambiar una cara en el teléfono con solo un clic. Puede añadir una sonrisa a una foto, eliminar imperfecciones o cambiar la edad o el sexo (de nosotros o de otra persona). Otras docenas más de aplicaciones ofrecen manipulaciones similares con solo un clic.

Pero no a todo el mundo le gusta la idea de que esta tecnología se masifique. El director de la organización sin ánimo de lucro centrada en vídeos y derechos humanos Witness, Sam Gregory, afirma: "[Los profesionales como Li] intentan hacer deepfakes a partir de una sola imagen, móvil y en tiempo real. Ese es el nivel de amenaza que me preocupa, cuando [se convierte] en algo que es menos fácil de usar y más accesible para una variedad de actores".

Afortunadamente, la mayoría de los deepfakes todavía resultan extraños. Una cara inestable, un ojo torcido o un tono raro de piel hace que sean bastante fáciles de detectar. Pero de la misma forma que un experto puede eliminar esos fallos, los avances en IA prometen quitarlos automáticamente, haciendo que los vídeos falsos sean más fáciles de crear y más difíciles de detectar.

A pesar de que Li sigue avanzando con el engaño digital, también le preocupa el posible daño. "El problema lo tenemos delante de nosotros", sostiene.

Atrapar a los impostores

Ante las elecciones presidenciales que EE. UU. vivirá el año que viene, los legisladores están especialmente preocupados sobre cómo se podrían utilizar los deepfakes para difundir noticias falsas y bulos. A principios de este mes, el Comité de Inteligencia de la Cámara preguntó a Facebook, Google y Twitter cómo planeaban afrontar la amenaza de los deepfakes. Cada compañía afirmó que estaba trabajando en ese problema, pero ninguna ofreció una solución.

DARPA, la bien financiada agencia de investigación del ejército de EE. UU., también está preocupada por el aumento de la manipulación digital. En 2016, antes de que los deepfakes se pusieran de moda, DARPA lanzó un programa llamado Media Forensics, o MediFor, para animar a los expertos forenses digitales a desarrollar herramientas automatizadas para encontrar imágenes manipuladas. Un experto podría usar una variedad de métodos para detectar manipulaciones fotográficas, desde analizar incoherencias en los datos de un archivo o las características de píxeles específicos hasta buscar contradicciones físicas como una sombra fuera de lugar o un ángulo improbable.

Ahora, gran parte del foco de MediFor se centra en detectar deepfakes. Detectarlos es más difícil que crearlos porque los algoritmos de inteligencia artificial pueden aprender a ocultar los detalles que delatan las falsificaciones. Los primeros métodos de detección de deepfakes incluían el parpadeo antinatural y los movimientos extraños de los labios. Pero los últimos deepfakes ya han aprendido a suavizar automáticamente esos problemas técnicos.

A principios de este año, el director del programa DARPA para MediFor, Matt Turek, pidió a Li que mostrara sus falsificaciones a los investigadores de MediFor. Así llegaron a una colaboración con el profesor de la Universidad de California en Berkeley y una de las principales autoridades mundiales en la ciencia forense digital Hany Farid. Esta pareja ahora participa en un juego digital del gato y ratón. Li desarrolla deepfakes para que Farid los encuentre, y luego los perfecciona para evitar la detección.

Farid, Li y otros han publicado recientemente un artículo que describe una nueva forma y más poderosa de detectar los deepfakes. Consiste en entrenar un algoritmo de aprendizaje automático para reconocer las peculiaridades de las expresiones faciales y los movimientos de la cabeza de una persona específica. Si simplemente pegamos la imagen de alguien en otra cara, esas características no se transferirán. Se necesitaría mucha potencia informática y datos de entrenamiento, es decir, imágenes o vídeos de esa persona, para crear un deepfake que incorpore estas características. Pero un día será posible. "Las soluciones técnicas seguirán mejorando en el lado defensivo. Pero, ¿serán perfectas? Lo dudo", afirma Turek.

Pixel perfecto

De vuelta en Dalian, está claro que la gente empieza a darse cuenta del peligro de los deepfakes. La mañana antes de reunirme con Li, un político europeo iba a entrar en la cabina de intercambio de caras, pero sus acompañantes lo detuvieron. Les preocupaba que el sistema pudiera capturar su imagen en detalle, lo que facilitaría que alguien creara vídeos falsos de él.

Un empleado de Pinscreen demuestra un sistema de intercambio de caras en vivo en el Foro Económico Mundial

Foto: Un empleado de Pinscreen demuestra un sistema de intercambio de caras en directo en la conferencia del Foro Económico Mundial en Dalian, China, en julio. Créditos: Cortesía de Hao Li.

Mientras observa a las personas que usan la cabina, Li me explica que no hay una razón técnica por la cual los deepfakes deban ser detectables. "Los vídeos son solo píxeles con un cierto valor de color", sostiene.

Hacerlos perfectos es solo cuestión de tiempo y recursos, y como lo demuestra su colaboración con Farid, cada vez resulta más fácil. "Estamos presenciando una carrera armamentista entre las manipulaciones digitales y la capacidad de detectarlas, con los avances de los algoritmos basados en IA que catalizan a ambos lados", afirma.

Para Lí, la mala noticia es que al final ganará él. Cree que dentro de unos años, se podrán crear deepfakes indetectables con un solo clic. El investigador concluye: "Cuando llegue ese momento, debemos ser conscientes de que no todos los vídeos que vemos son verdaderos".