"Estamos muy lejos de conseguir que la inteligencia artificial comprenda cómo es el mundo"

Componer melodías improvisadas para piano y crear innumerables dibujos de gatos distintos con inteligencia artificial (IA) no suena como un proyecto típico de Google, pero para Douglas Eck este trabajo tiene mucho sentido.

Eck lleva unos 15 años estudiando inteligencia artificial y música, y actualmente es miembro del equipo de Google Brain, donde lidera Magenta, el proyecto de investigación de código abierto de Google centrado en hacer arte y música con aprendizaje automático.

Eck ha hablado con MIT Technology Review sobre cómo Google está creando nuevos sonidos con redes neuronales profundas, los avances musicales de Magenta con inteligencia artificial, y sobre por qué a los ordenadores se les da mal contar chistes. A continuación se muestra un extracto editado de la entrevista.

Usar inteligencia artificial para crear arte no es nuevo, así que ¿qué tiene de único el enfoque de Google?

Estamos explorando esta dirección muy concreta relacionada con las redes neuronales profundas y las redes neuronales recurrentes, y con otros tipos de aprendizaje automático. Y también estamos intentando involucrar tanto a la comunidad artística como a programadores creativos y desarrolladores de código abierto, por eso hemos hecho que el proyecto sea de código abierto.

Buena parte de Magenta se centra en la música. ¿Por qué la inteligencia artificial es buena para hacer y enriquecer la música?

Para ser honesto, es sólo un sesgo mío. Toda mi carrera de investigación ha sido sobre música y audio. Creo que el propósito de Magenta siempre ha sido el arte en general, la narración, la música, la literatura, las imágenes, y tratar de entender cómo utilizar la IA como una herramienta creativa. Pero tienes que empezar en alguna parte. Y creo que si haces avances serios en algo tan complicado y tan importante para nosotros como la música, entonces mi esperanza es que algo de eso se pueda extrapolar a otros ámbitos.

¿Podemos escuchar algo de música que se haya hecho con Magenta?

Esto es algo de música creada por un modelo llamado Performance RNN .

Presta atención a la textura y todo lo que hay. Es una especie de composición musical, pero al mismo tiempo también es una actuación musical, ya que el modelo no sólo está generando notas negras, está decidiendo cómo de rápido van a ser ejecutadas, cómo de alto van a ser tocadas, y de hecho está reproduciendo su información de entrenamiento, que fueron un montón de actuaciones de piano de una competición.

Como muestra esa pieza, la música que se ha creado hasta ahora con Magenta es esencialmente improvisación. ¿Se puede utilizar IA para crear una pieza musical coherente y con estructura?

Estamos trabajando en eso. Una de las principales futuras direcciones de nuestra investigación es aprender a crear estructuras. Y, francamente, es una dirección para todo el campo de los modelos generativos. Me refiero a modelos de aprendizaje automático capaces de generar algo nuevo. Y eso se muestra en la música aquí. Se escucha que no hay un modelo general que esté decidiendo por dónde deben ir las cosas.

Si quisiéramos darle progresión armónica, incluso los símbolos del cambio de acordes, y que aprenda contextualmente cómo aprovechar esos cambios de acordes, podríamos hacerlo. Incluso podríamos tener un modelo separado que generara progresiones armónicas. Nuestro objetivo es conseguir que modelo integral descubra todos estos niveles de estructura por sí solo.

Hábleme de Sketch-RNN, un experimento reciente de Magenta que permite dibujar con una red neuronal recurrente. Básicamente, empiezas a dibujar una piña y luego Sketch-RNN toma el control y la completa, una y otra vez, en muchos estilos diferentes.

Tuvimos la oportunidad de usar un montón de dibujos hechos por personas jugando a Pictionary contra un algoritmo de aprendizaje automático, Quick, Draw! [otro experimento de dibujo con IA de Google hecho por Google Creative Lab]

Hay límites en los datos. Hay un máximo de lo que puedes conseguir a partir de estos diminutos dibujos hechos en 20 segundos. Pero creo que el trabajo realizado por el investigador principal [de Sketch-RNN], David Ha, era realmente hermoso. Básicamente entrenó a una red neuronal recurrente para aprender a reproducir estos dibujos. Digamos que forzó al modelo a aprender cuáles son los elementos importantes. El modelo no era lo suficientemente poderoso como para memorizar todo el dibujo. Dado que no puede memorizar todos los trazos que está viendo, su trabajo simplemente consiste en reproducir muchos gatos, o lo que sea, y se ve obligado a aprender qué es lo importante de los gatos. ¿Cuáles son los aspectos que de un gato que se repiten en millones de dibujos? Y así, cuando juegas con este modelo puedes pedirle que genere nuevos gatos de la nada. Genera gatos realmente interesantes que se parecen, creo, pasmosamente a cómo la gente dibujaría gatos.

Un gato dibujado por Quick, Draw! de Google

Leí que estás trabajando con Magenta para enseñar a los ordenadores a contar chistes. ¿Qué tipo de chistes generan los ordenadores? (Esto no era en sí mismo la primera línea de un chiste.)

El proyecto era muy preliminar, muy exploratorio, se hacía la pregunta: ¿podemos entender el componente de contar un chiste que es la sorpresa? Especialmente los chistes que tienen que ver con un golpe final y los juegos de palabras, ahí hay claramente un punto donde todo funciona como es de esperar, creo que sé lo que está pasando con esta frase, y luego, ¡pam! ¿Cierto? Y también creo, intuitivamente, que hay una geometría para el golpe final. Es, como: '¡Oh, claro, lo pillo!' ¿Sabes? Y ese sentido de "lo pillo" es, creo, una especie de retroceso que te ves obligado a hacer para entenderlo. Así que estábamos buscando tipos particulares de modelos de aprendizaje automático que puedan generar estos llamados vectores de verdad que tratan de entender lo que está sucediendo semánticamente en una oración y luego, ¿podemos manipularlos activamente para obtener un efecto diferente?

Y el tipo de chiste que escuchábamos era: - "Por favor, ¿la Calle Sagasta? - Si la pisa mucho...". Hay un juego de palabras entre el nombre de la calle y que suena como si dijeras: "Se gasta", lo pillas, ¿no?

Sí. Pero se tiene que saber mucho sobre las palabras y el lenguaje para entenderlo.

Sí, tienes que saber mucho. No sólo es que el modelo no lograra inventarse ningún chiste, gracioso o no, sino que en realidad no conseguimos que el código convergiera.

¿Qué estáis tratando de averiguar con Magenta ahora mismo?

Estamos tratando de entender más sobre la estructura de la música a largo plazo y también tratando de ramificar hacia otra cuestión interesante: ¿podemos aprender de la retroalimentación, no de un artista, sino de la audiencia?

Esto contempla el proceso artístico como algo iterativo. Los Beatles sacaron 12 álbumes y cada uno de ellos era diferente. Y en todos ellos se muestra que estos músicos aprenden de la retroalimentación que reciben de sus compañeros y de las multitudes, pero también de otras cosas que están sucediendo con otros artistas. Están realmente conectados a la cultura. Los artistas no son estáticos.

Y esta idea muy simple: ¿se puede hacer algo útil sacando fuera un modelo generativo y aprovechando la retroalimentación que obtiene? "Eso estuvo bien, eso fue mal". Esa retroalimentación que recibimos, el artista puede aprender de ella de una manera, pero tal vez el modelo de aprendizaje automático también puede aprender de ella, y decir: "Oh, ya veo, esto es lo que la gente piensa de lo que estoy haciendo, y tengo estos parámetros". Y podemos establecer esos parámetros en función de la retroalimentación, con aprendizaje reforzado, y estamos trabajando en eso, también.

Mientras escucho la música creada con Magenta, me pregunto: si usas datos para entrenar inteligencia artificial, ¿se puede crear realmente original, o será simplemente derivado de aquello en lo que ha sido entrenada, ya sea canciones de Madonna o pinturas impresionistas, o ambos?

Creo que depende de lo que entendamos por original. Considero poco probable que un algoritmo de aprendizaje automático logre generar alguna manera nueva y transformadora de hacer arte. Una persona que trabaja con esta tecnología sí podría ser capaz de hacer eso. Y creo que estamos muy lejos de conseguir que una inteligencia artificial comprenda cómo es el mundo realmente. Muy, muy lejos. Al mismo tiempo, creo que mucho arte es original en otro sentido. Puedo hacer una canción chula de música electrónica si meto el subidón en el momento justo. La canción es divertida de bailar y es nueva, pero tal vez no represente la creación de un género completamente nuevo. Y creo que ese tipo de creatividad también es realmente interesante. La mayoría de lo que hacemos está dentro de un género que entendemos, y probamos cosas nuevas, y creo que en ese tipo de creatividad artificial que tenemos ahora puede jugar un papel enorme. No se está repitiendo el conjunto de datos, ¿verdad? Está mezclando cosas.