Inteligencia Artificial

El asistente de Amazon derrotará a Siri detectando las emociones del usuario

Google y Apple están preparando dispositivos domésticos controlados por voz, así que Amazon está enseñando a Alexa a reconocer cuándo el usuario está enfadado o contento para mejorar la interacción

por Will Knight | traducido por Teresa Woods
14 Junio, 2016

Crédito: Amazon.

Cuando un asistente virtual malinterpreta repetidamente lo que se le dice puede resultar increíblemente frustrante. Pero muy pronto, algunos podrían empezar a detectar la irritación en su voz, y pedirle disculpas.

Amazon está trabajando en importantes actualizaciones para Alexa, el ayudante virtual que vive dentro del dispositivo doméstico controlado por voz llamado Amazon Echo. Incluirán mejores características de lenguaje y tal vez la capacidad de reconocer la carga emocional de su voz.

Una fuente familizarizada con el proyecto Echo afirma que los investigadores de Amazon están buscando maneras de perpetuar su ventaja frente a sus rivales, sobre todo mediante un mejorado entendimiento de las intenciones con el usuario. Los investigadores están explorando nuevas técnicas de procesamiento del lenguaje natural, pero también vías para detectar la emoción de la voz del usuario. "Cómo se reconocen las emociones humanas para ser reflejadas después por la voz [de Alexa] será un área clave de las labores de I+D [de Amazon]", afirma esta fuente.

Amazon lanzó Echo, con poco bombo, en noviembre de 2014. El dispositivo ha sido un éxito inesperado, cosa que desde luego no ha pasado inadvertida por la competencia.

Echo parece hacer realidad la promesa de la voz como una manera más natural y libre de roces de interactuar con la tecnología.

Unas mejoras clave podrían ayudar a Amazon a mantener su ventaja mientras Google y Apple escalan sus propios dispositivos domésticos controlados por voz. Google anunció recientemente un nuevo asistente virtual y un dispositivo del estilo del Echo, llamado Google Home (ver Google saca un antiSiri más potente en un intento de alejarse de las búsquedas). Y se rumorea que Apple está trabajando para abrir Siri a los desarrolladores de apps, y también que está desarrollando su propia respuesta al Echo.

Aunque otros asistentes de software controlados por voz, como Siri de Apple y Cortana de Microsoft, son anteriores a Alexa, solo son funciones opcionales. De hecho, los estudios sugieren que Siri solo se una para unas cuantas tareas, principalmente para hacer llamadas, enviar mensajes y poner alarmas. Echo es el primer ordenador para el cual la interfaz principal es la voz del usuario. Los únicos controles manuales son un interruptor de encendido/apagado, un botón para desactivar el el micrófono y un dial para controlar el volumen; pero también puede ser controlado mediante una app.

Unas mejoras generales en la capacidad de Alexa de entender el lenguaje natural probablemente ayudarían al dispositivo a interpretar las solicitudes ambiguas con mayor precisión al aplicar técnicas probabilísticas, según esta fuente. Por ejemplo, podría considerar que una persona de Seattle (EEUU) tiene más probabilidades de estar refiriéndose al equipo de fútbol americano los Seattle Seahawks (halcones de mar) cuando pregunta: "¿Cómo van los halcones?"

Amazon ya emplea datos sobre los intereses del usuario para preparar el sistema de reconocimiento de voz. Alexa tiene mayores probabilidades de reconocer solicitudes de escuchar artistas de jazz hechas por usuarios que hayan añadido temas de jazz a su biblioteca digital de música, por ejemplo.

Más mejoras permitirán a Alexa mantener mejores conversaciones. Podría recordar cosas que haya dicho anteriormente una persona, y apliccar ese conocimiento a las interacciones posteriores. "Es una de las áreas más activas. Es supervital que la conversación sea mágica", afirma la fuente.

Hace mucho que los investigadores predicen que las pistas emocionales podrían aumentar mucho la inteligencia de las interfaces hombre-máquina, pero hasta ahora tales tecnologías no han sido incoporadas a ninguna tecnología de consumo.

La profesora del MIT Media Lab (EEUU) Rosalind Picard afirma que añadir la detección de emociones a la electrónica personal podría mejorarla: "Sí, desde luego es un acierto total". En el libro Affective Computing publicado en 1997, Picard mencionó por primera vez la idea de cambiar la voz de un asistente virtual en función del estado emocional del usuario. Señala que las investigaciones han demostrado cómo igualar el tono de voz al del usuario puede lograr que las comunicaciones sean más eficientes y eficaces. "Puede ayudar de muchas maneras", afirma.

El software requerido para detectar el estado emocional mediante la voz de una persona ya existe. Desde hace tiempo, las empresas de apoyo telefónico han empleado esta tecnología para detectar cuándo un cliente se está irritando cuando trata con sus sistema de grabación. En años recientes, nuevas técnicas de aprendizaje de máquinas han mejorado la vanguardia, posibilitando detectar más estados emocionales con una precisión mayor, aunque el enfoque dista mucho de ser perfecto.

Aun así, la relevancia de las emociones aparentemente ha captado la atención de algunas grandes empresas tecnológicas. En enero, Apple compró Emotient, una empresa especializada en la detección de las emociones, principalmente mediante las expresiones faciales.

El CEO de Talla, Rob May, cuya empresa está desarrollando agentes de software para los negocios, dice que el mejorado análisis del lenguaje y la detección de estados emocionales podrían mejorar los asistentes virtuales, pero dejar que los usuarios los entrenen por sí mismos sería aún mejor. May sugiere: "Si yo estuviera en el lugar de Apple, querría encontrar la manera de proporcionar a la gente la capacidad de entrenar Siri".

Inteligencia Artificial

El asistente de Amazon derrotará a Siri detectando las emociones del usuario

"La pregunta es cuánta participación humana se necesita para que algo sea arte"

Compensación y atribución para los creadores, la apuesta de Adobe por una IA generativa diferente

Hacia una definición única y consensuada de la IA de código abierto más allá de las 'big tech'