.

Roman Muradov

Inteligencia Artificial

"Alexa, entiéndeme ya y déjame tener las manos libres para siempre"

1

Los dispositivos de inteligencia artificial operados por voz no son sólo gramolas con carácter. Al igual que los teléfonos inteligentes revolucionaron el día a día, estos asistentes podrían convertirse en la principal forma de interactuar con nuestras máquinas

  • por George Anders | traducido por Patricia R. Guevara
  • 21 Agosto, 2017

El 31 de agosto de 2012, cuatro ingenieros de Amazon presentaron la patente básica de lo que finalmente se convertiría en Alexa, un sistema de inteligencia artificial (IA) diseñado para interactuar con uno de los conjuntos de datos más grandes y enmarañados del mundo: el habla humana. Los ingenieros sólo necesitaron 11 palabras y un diagrama sencillo para describir cómo funcionaría. Un usuario masculino en una habitación en silencio dice: "Por favor, pon Let It Be, de los Beatles". Una pequeña máquina de mesa responde: "No hay problema, John" y la canción solicitada empieza a sonar.

Desde ese modesto comienzo, la inteligencia artificial para el reconocimiento de voz para el hogar se ha convertido en un gran negocio para Amazon y, cada vez más, en un campo de batalla estratégico contra sus rivales tecnológicos. Google, Apple, Samsung y Microsoft han puesto a miles de investigadores y especialistas en negocios a trabajar en versiones irresistibles e insuperables de dispositivos fáciles de usar con los que podamos hablar. El director ejecutivo de Witlingo, Ahmed Bouzid, cuya compañía desarrolla aplicaciones de voz de todo tipo para bancos, universidades, bufetes de abogados y otros, afirma:"Hasta ahora, todos hemos cedido ante la tecnología y nos hemos acostumbrado a ella, en términos de mecanografía, de teclear o de pasar la tarjeta. Ahora, son las nuevas interfaces de usuario las que se están adaptando a nosotros".

Para Amazon, lo que empezó como una plataforma para ofrecer una gramola mejorada se ha convertido en algo mucho más grande: un sistema de inteligencia artificial construido a partir de datos humanos, y que sigue aprendiendo de ellos constantemente. Su cilindro Echo impulsado por Alexa y el Amazon Echo Dot, de menor tamaño, son unos ayudantes omnipresentes del hogar capaces de apagar las luces, contar chistes y leerle las noticias. Estos dispositivos también recogen remesas de datos sobre sus usuarios, utilizados para mejorar Alexa y añadir la nueva información a sus funciones. 

Decenas de millones de máquinas Alexa han sido vendidas desde su lanzamiento comercial en 2014. En el mercado estadounidense de dispositivos de IA con reconocimiento de voz, se espera que Amazon acumule aproximadamente el 70% de las ventas aunque la competencia se está caldeando. Google Home también ha vendido millones de unidades, y Apple y Microsoft van a lanzar pronto sus propias versiones.

El beneficio final es la oportunidad de controlar, o al menos influir, en tres mercados importantes: domótica o automatización del hogar, entretenimiento en el hogar y compras. Es difícil saber cuántas personas quieren hablar con sus refrigeradores, pero los patrones de la vida cotidiana están cambiando muy rápidamente. Al igual que los teléfonos inteligentes lo han cambiado todo, desde las citas hasta la velocidad de los peatones al andar, la IA basada en el reconocimiento de voz está comenzando a alterar muchos aspectos de la vida doméstica. ¿Por qué levantarse para cerrar la puerta principal o encender la calefacción del coche en un día muy frío, cuando Alexa o sus parientes tecnológicos pueden hacerlo por usted?

Por ahora, Amazon no está intentando recaudar ingresos de empresas que fabrican termostatos inteligentes, bombillas u otros dispositivos que están conectados a Alexa. Pero es fácil imaginar que en el futuro podrían aparecer estrategias para repartir los ingresos u otro tipo de cobros. El menor de estos tres mercados, la automatización del hogar, ya acumula ventas anuales por valor de unos 4.300 millones de euros. Por su parte, las ventas al por menor movieron unos 4,2 billones de euros el año pasado sólo en EEUU. Ahora, Amazon ya hace dinero con los dispositivos en sí, con precios que oscilan entre los 43 euros para los Dots y los casi 200 euros para los Echos de gama alta con pantallas de vídeo. Además, obtiene un segundo beneficio si los usuarios terminan comprando en la enorme tienda virtual de Amazon. (Amazon no revela sus cifras de tráfico en la web).

Para que el uso de los Echos se masifique tanto como el de los smartphones, Amazon aún tendrá que dar muchos pasos. Con ese objetivo, la compañía está animando a desarrolladores independientes a construir nuevos servicios para la plataforma, tal como hace Apple con los desarrolladores de aplicaciones. Más de 15.000 "habilidades", o aplicaciones, se han construido hasta ahora, y las herramientas para crearlas se han vuelto tan fáciles de combinar que ahora se puede crear una nueva función sencilla para Alexa en aproximadamente una hora, y sin necesidad de tener muchos conocimientos de programación. Entre las aplicaciones más populares se encuentran las opciones de Uber y Lyft. Por otro lado, algunos fiascos incluyen 48 funciones distintas que bombardean a los oyentes con insultos.

Entre los desarrolladores más ambiciosos están las empresas que fabrican hardware o que venden servicios compatibles con Alexa. Por ejemplo, la compañía Capital One ofrece pagos basados ​​en el asistente inteligente a sus clientes bancarios; y Ecobee, con sede en Canadá, es uno de los fabricantes de termostatos inteligentes que instala versiones que permiten a los usuarios ajustar la temperatura con sólo unas palabras. Su director ejecutivo, Stuart Lombard, detalla: "Nuestros clientes tienen una vida ocupada". La empresa ahora obtiene aproximadamente el 40% de sus ventas totales de los dispositivos compatibles con Alexa, que ha resultado ser la línea de productos de más rápido crecimiento de la compañía, que tiene una antigüedad de 10 años. El responsable añade: "Nuestros clientes tienen que hacer frente al tráfico para llegar a casa, y una vez allí, dar de comer a los niños, cambiar el pañal del bebé, y quién sabe qué más. Nosotros les proporcionamos una manera de hacer cosas sin que tengan que emplear las manos, para que así puedan continuar con otras tareas".

Cuando el habla encontró a la inteligencia artificial

Lo que hace que la IA para el reconocimiento de voz resulte tan atractiva es su promesa de amoldarse al consumidor, de responder a cómo hablamos (y pensamos) sin necesidad de que escribamos en un teclado o en una pantalla. Es esta misma ventaja la que también hace que este sistema sea tan técnicamente difícil de construir. No somos nada ordenados al hablar. En lugar de eso, nos interrumpimos. Dejamos que los pensamientos oscilen. Utilizamos palabras, interjecciones y gruñidos de formas extrañas, y asumimos que estamos hablando con sentido incluso cuando no lo estamos haciendo.

Algunas personas dicen: "No, no, no"; otras prefieren: "Cancela eso"; y un tercer grupo se decanta por: "Espera, de hecho, esto es lo que quiero en lugar de lo anterior". Alexa no necesita descodificar cada enunciado.

Miles de empleados de Amazon en Estados Unidos trabajan en este desafío. Pese a ello, la página de ofertas de trabajo de Amazon ofreció recientemente 1.100 puestos más para empleos relacionados con Alexa, distribuidos en una docena de departamentos, incluyendo 215 cargos para especialistas en aprendizaje automático. Durante una reunión de la compañía, le pregunté al jefe científico de Alexa, Rohit Prasad, por qué necesitaba tanta gente, y que cuándo creía que su equipo de investigación estaría completamente construido.

Prasad respondió: "Me río de cada uno de los aspectos de tu pregunta".

Después de unos segundos y tras recuperar la compostura, Prasad explicó que lleva 20 años trabajando en la tecnología relacionada, y los resultados han sido frustrantemente lentos la mayor parte del tiempo. Pero en los últimos cinco años se han abierto oportunidades enormes. La creación de una inteligencia artificial realmente efectiva y activada por voz es una tarea compleja que aún no ha sido conquistada del todo. Pero, mientras que los científicos del habla antes intentaban averiguar el significado exacto de frases a veces caóticas a la primera, los nuevos enfoques del aprendizaje automático están progresando gracias a una táctica muy diferente: parten de combinaciones imperfectas para luego hacer una rápida afinación de suposiciones provisionales. La clave es trabajar a través de grandes franjas de datos del usuario y aprender de errores anteriores. Cuanto más tiempo pasa Alexa con sus usuarios, más datos recopila para aprender, y más inteligente se vuelve. Con el progreso también vienen más oportunidades, y la necesidad de más mano de obra.

Prasad continúa: "Deja que te de un ejemplo. Si le preguntas a Alexa: '¿Cuál fue el primer álbum de Adele?', la respuesta debería ser '19'. Si entonces le dices: 'Ponlo', Alexa sabrá lo suficiente para poder empezar a reproducir el disco". Pero ¿qué pasa si hay algo de conversación en el medio? ¿Qué pasa si antes le preguntas en qué año salió el álbum y cuántas copias vendió? Si terminas ese intercambio con un críptico "Tócalo", las versiones anteriores de Alexa se habrían atascado. Ahora la tecnología puede seguir ese tren de pensamiento, al menos a veces, y entender que ese "lo" todavía hace referencia a "19".

Esta mejora ha sido posible gracias a técnicas de aprendizaje automático que reexaminaron miles de intercambios previos en los que Alexa se había atascado. El sistema aprende qué canciones realmente querían oír los usuarios, y en qué partes anteriores de la conversación identificaron por primera vez esa pieza de música. "Debes hacer algunas suposiciones al principio sobre la forma en la que la gente pide las cosas. Luego recopila datos y ajusta sus modelos", explica el jefe del grupo de sistemas de habla del MIT (EEUU), James Glass..

El caso de este enfoque de aprendizaje automático es muy apreciado, indica Glass, pero hacerlo funcionar requiere muchos más datos de los que los investigadores universitarios podrían reunir con facilidad. Con el aumento del uso de Alexa, Amazon ahora tiene acceso a un extenso repositorio de interacciones de voz entre humanos y ordenadores, dándole esa ventaja en el ajuste de su tecnología de voz de la que Google ha disfrutado durante mucho tiempo gracias a las consultas de búsqueda por texto. Los datos externos también sirven: una enorme base de datos de letras de canciones cargadas en Alexa en 2016, por ejemplo, ha ayudado a asegurar que los usuarios que pidan una canción diciendo: "drove my Chevy to the levee" serán dirigidos a American Pie de Don McLean [la frase de la petición es un fragmento de la letra de la canción].

Uno de los proyectos más nuevos del grupo de Prasad destaca la flexibilidad de este enfoque. La idea trata de descifrar cuándo los usuarios cambian de idea sobre sus solicitudes iniciales. Las frases de señalización pueden variar enormemente. Algunas personas dicen: "No, no, no"; otras prefieren: "Cancela eso"; y un tercer grupo se decanta por: "Espera, de hecho, esto es lo que quiero en lugar de lo anterior". Alexa no necesita descodificar cada enunciado. Las muestras grandes y el aprendizaje automático semisupervisado le permiten esbozar un grupo de marcadores probables para el discurso que se ha negado, y luego recoger una nueva solicitud coherente después del cambio de curso en el diálogo.

Además de hacer que el dispositivo sea un mejor oyente, los expertos en IA de Amazon están utilizando la riqueza de los datos para convertirlo en un mejor orador, afinando las cadencias de la voz femenina sintética de la máquina, para aumentar el uso prolongado de la voz. Los intentos tradicionales de sintetizar el habla se basan en la fusión de muchos fragmentos de grabaciones del habla humana. Si bien esta técnica puede producir un sonido razonablemente natural, no encaja bien para susurros, ironía u otras modulaciones que un hablante humano interesante podría usar. Para agudizar el manejo de Alexa con cualquier tipo de conversación, desde un diálogo intenso hasta un recital tranquilo, los algoritmos de aprendizaje automático de Amazon pueden adoptar un enfoque diferente, entrenándose en las diferentes voces (entusiastas, ansiosas e inteligentes) de los narradores profesionales. Para esto, el hecho de que Amazon sea propietaria del audiolibro Audible es una gran ventaja.

Mucho de lo que hablar

Entre los seguidores más apasionados de la IA basada en voz están las personas que no pueden escribir fácilmente en teléfonos y tabletas. El director ejecutivo de Inglis, Gavin Kerr, cuya empresa ofrece alojamiento y servicios para personas con discapacidades, ha instalado dispositivos Echo y Dot de Amazon en ocho residencias y espera ampliarlos a todas ellas, en las que viven unas 300 personas, una vez que las pruebas piloto estén completas. Kerr afirma: "Es una bendición increíble para los residentes. Están mucho más cómodos. Alexa les da independencia".

Kerr trabaja con cientos de personas que padecen esclerosis múltiple u otras condiciones debilitantes. Para aquellos que están en cama o que usan sillas de ruedas, un termostato de pared de difícil acceso puede ser una fuente constante de tormento. "A su propio organismo le cuesta para regular la temperatura. Pueden sentir que una habitación que está a unos 22 ºC está caliente, y a la hora siguiente, fría", detalla Kerr. Con movilidad limitada, no hay manera fácil de acomodarse, especialmente si la asistencia 24 horas no está disponible.

Con ciertos retoques, el software de Alexa puede servir incluso a aquellos con un discurso severamente restringido. Kerr cuenta el caso de un hombre de unos 30 años que quería dejar un centro de cuidados a largo plazo y regresar a una comunidad corriente: "Nos dijo: 'Nunca podré usar los comandos de Alexa'. Entonces le preguntamos: '¿Qué puedes decir?', y volvimos a trabajar el software para que Alexa pudiera trabajar en sus términos. Ahora dice: 'Mamá' cuando quiere encender las luces de la cocina, y 'Juan' cuando necesita encender las luces del baño".

Aunque Inglis proporciona a sus usuarios de Echo cuatro horas de entrenamiento, es mucho más común que vayan encontrando el camino por sí mismos. Si saca un dispositivo Echo de la caja, su embalaje de presentación destacará aplicaciones especialmente comunes, como reproducir música, establecer alarmas y actualizar listas de compras. Los usuarios organizados pueden dar un toque a los paneles de control de Alexa desde sus teléfonos inteligentes o desde los ordenadores portátiles para ajustar la configuración, buscar nuevas aplicaciones y obtener orientación sobre qué mensajes harán que una aplicación funcione mejor.

El mayor éxito de Alexa reside en su capacidad para aliviar el estrés de una vida sobresaturada. Es un compañero que siempre está listo para participar.

En un post muy leído de junio, el gerente de producto de Microsoft, Darren Austin, escribió que el mayor éxito de Alexa reside en su capacidad para aliviar el estrés de una vida sobresaturada. El texto continuaba: "Con la simple acción de preguntar, Alexa alivia las emociones negativas de la incertidumbre y el miedo al olvido". Los usuarios se enganchan a provocar en Alexa todo tipo de confusiones o deseos momentáneos, sostuvo; es el compañero que siempre está listo para participar.

Cada semana, a veces con más frecuencia, el gerente general de Alexa, Rob Pulciani, escanea los datos agregados sobre los enunciados más comunes de los usuarios de Alexa y Dot. Normalmente, la parte superior de la lista está dominada por solicitudes de música, noticias, clima, tráfico y juegos. La primavera pasada, sin embargo, una solicitud recién llegada estaba aumentando rápidamente. La frase era: "Alexa, ayúdame a relajarme".

Cuando los usuarios hacen esta petición, Alexa los dirige a una colección de sonidos relajantes. Pájaros que gorjean, olas lejanas que golpean la orilla, trenes de carga que ruedan por la noche. Estos bucles de ruido ambiental pueden seguir reproduciéndose durante horas si los usuarios lo eligen. Pulciani había considerado estas aplicaciones como rarezas menores cuando aparecieron por primera vez en la plataforma Alexa, en 2015. Pero, rápidamente, su número de seguidores ha comenzado a aumentar. Los adultos estresados ​​utilizan los sonidos para quedarse dormidos. Los padres los convierten en sustitutos de nanas para los bebés malhumorados. Durante las siguientes semanas tras su descubrimiento, Pulciani y sus colegas ajustaron la arquitectura interna de Alexa para que los nuevos compradores de Echo pudieran descubrir rápidamente esos sonidos relajantes cuando pedían indicaciones sobre qué nuevas habilidades del dispositivo podían probar.

Una larga conversación

Las plataformas de inteligencia artificial de Google, Apple, Microsoft y Amazon muestran diferentes puntos fuertes. Google Assistant es el mejor en las instrucciones de búsqueda de gran alcance. Siri de Apple y Cortana de Microsoft tienen otros talentos. Por su parte, Alexa funciona especialmente bien con los comandos de compras.

El triunfo final para la IA basada en el reconocimiento de voz llegará cuando se pueda llevar a cabo una conversación realista y de varios minutos con los usuarios. Tal hazaña requerirá grandes avances en la capacidad de las máquinas para entender y diferenciar la intención de los hablantes humanos, incluso cuando no hay una petición evidente. Los seres humanos pueden darse cuenta de que si un amigo les dice: "No he ido al gimnasio en semanas", probablemente quiera hablar de estrés o autoestima. Para el software de inteligencia artificial, eso es un paso demasiado complejo. Los cambios repentinos en alusiones tópicas (o indirectas) también son difíciles de captar.

Hace un año, Amazon invitó a estudiantes de ingeniería de una docena de universidades de todo el mundo a construir bots de voz que pudieran mantener una conversación de 20 minutos. El campus que haya conseguido más progresos el próximo noviembre ganará un premio de casi medio millón de euros. Durante un fin de semana, probé media docena de esos bots, partiendo de preguntas sencillas hasta declaraciones de opinión abiertas más complicadas que invitaban a todo tipo de posibles respuestas. La cosa empezó bien cuando un bot me preguntó: "¿Has visto alguna película hace poco?". "Sí, Figuras Ocultas", le respondí. En lugar de imitar las críticas periodísticas de esta conmovedora película sobre los primeros años de la NASA, el robot social respondió: "Pensé que Figuras Ocultas era muy pobre en las verdaderas matemáticas de todo el asunto". No es mi opinión sobre la película, pero me pareció una afirmación encantadoramente apropiada para un programa de inteligencia artificial. Nuestra conversación se estancó poco después, pero al menos tuvimos ese breve y hermoso momento.

Por desgracia, ninguno de los demás bots se acercaba a algo así. El más despistado dejó escapar frases como: "¿Te gusta el servicio de frenado?", cuando estábamos tratando de hablar sobre las webs de internet. Después, dije algo tal vez un poco agudo sobre las limitaciones del bot, y entonces me preguntó: "¿Puede negociar colectivamente?".

Unos días más tarde, cuando le pregunté a Prasad, de Amazon, por su opinión sobre los bots sociales, no se mostró molesto por esos fallos iniciales. Su respuesta fue: "Es una parte muy importante. Es donde Alexa podría dirigirse en términos de llegar a ser muy inteligente. Pero esto es mucho más difícil que jugar a juegos como el Go o el ajedrez. Con esos juegos, a pesar de que tienen un montón de movimientos posibles, se sabe cuál es el objetivo final. Con una conversación, ni siquiera sabes a dónde quiere llegar la otra persona". Cuando Alexa sea capaz de entender eso, entonces estaremos hablando de verdad.

George Anders ha cubierto Amazon en las publicaciones nacionales desde finales de los años 90. Su libro más reciente es You Can Do Anything.

Inteligencia Artificial

 

La inteligencia artificial y los robots están transformando nuestra forma de trabajar y nuestro estilo de vida.

  1. La ley de la IA de la UE en cuatro claves

    El trabajo duro empieza ahora.

    Un candado azul con las estrellas amarillas de la UE de fondo
  2. La IA generativa puede convertir tus recuerdos en fotos que nunca existieron

    El proyecto Synthetic Memories ayuda a familias de todo el mundo a recuperar un pasado que nunca se fotografió

    Una imagen en blanco y negro generada por ai de una mujer y un niño mirando por una ventana
  3. "La pregunta es cuánta participación humana se necesita para que algo sea arte"

    Alex Reben hace arte con (y sobre) IA. Hablé con él sobre lo que la nueva ola de modelos generativos significa para el futuro de la creatividad humana

    Detalle de un cuadro de una cabeza deformada en la que unas enormes orejas en la parte frontal de la cara tapan los ojos y una lengua brillante con textura de fresa sobresale de la boca abierta.