Chat GPT se vuelve hablador: OpenAI incorpora la voz a su IA

En una de las mayores actualizaciones de ChatGPT hasta la fecha, OpenAI ha lanzado dos nuevas formas de interactuar con su aplicación viral.

En primer lugar, ChatGPT ahora tiene voz. Podrás elegir una de las cinco voces sintéticas y mantener una conversación con el chatbot como si estuvieras en una llamada, obteniendo respuestas a tus preguntas en tiempo real.

Ahora, ChatGPT también responde a preguntas sobre imágenes. Ya en marzo OpenAI anunció esta función con la presentación de GPT-4 (el modelo de ChatGPT), pero hasta el momento no había estado disponible para el público general. Es decir, ya se pueden subir imágenes a la aplicación y hacerle preguntas sobre lo que muestran.

Estas actualizaciones se suman al anuncio de la semana pasada de que DALL-E 3, la última versión del modelo de creación de imágenes de OpenAI. Este se conectará a ChatGPT para conseguir que el chatbot genere imágenes.

La capacidad de hablar con ChatGPT se basa en dos modelos distintos. Por un lado, Whisper, el modelo de voz a texto de OpenAI, que convierte lo hablado en un texto, que luego se envía al chatbot. Por otro, un nuevo modelo de texto a voz convierte las respuestas de ChatGPT en palabras orales.

En una demostración que la empresa me hizo la semana pasada, Joanne Jang, directora de Producto, mostró la gama de voces sintéticas de ChatGPT. Fueron creadas al entrenar el modelo de texto a voz gracias a las voces de actores contratados por OpenAI. En el futuro, incluso permitiría a los usuarios crear sus propias voces. "A la hora de crear las voces, el criterio principal fue si esta era una voz que pudiera escucharse todo el día", afirma Jang.

Pueden ser charlatanes y entusiastas, pero no son del gusto de todos. "Tengo un buen presentimiento sobre nuestra colaboración", dice uno de los chatbots. "Solo quiero decir que estoy encantado de trabajar con ustedes, y estoy impaciente por empezar", reconoce otro. "¿Cuál es el plan?"

OpenAI comparte este modelo de conversión de texto a voz con otras empresas, entre ellas, Spotify. El 25 de septiembre, la empresa reveló que está utilizando la misma tecnología de voz sintética para traducir podcasts de famosos -incluidos El podcast de Lex Fridman y el nuevo programa de Trevor Noah, que se lanzará a finales de 2023- a varios idiomas, que se hablarán con versiones sintéticas de las propias voces de los podcasters.

Esta serie de actualizaciones demuestra lo rápido que OpenAI está convirtiendo sus modelos experimentales en productos atractivos. Desde su sorprendente éxito con ChatGPT en noviembre de 2022, OpenAI ha dedicado gran parte de su tiempo a perfeccionar su tecnología y venderla tanto a particulares como a socios comerciales.

ChatGPT Plus, la app premium de la empresa, es ahora una elegante ventanilla única para lo mejor de los modelos de OpenAI, que integra GPT-4 y DALL-E en una única aplicación para smartphone que rivaliza con Siri de Apple, Google Assistant y Alexa de Amazon.

Hace un año solo estaba al alcance de ciertos desarrolladores de software, ahora está disponible para cualquiera por 20 dólares (19 euros) al mes. "Intentamos que ChatGPT sea más útil", afirma Jang.

En la demostración de mediados de septiembre, Raul Puri, un científico que trabaja en GPT-4, hizo un rápido recorrido por la función de reconocimiento de imágenes. Subió una foto de los deberes de matemáticas de un niño, rodeó un rompecabezas tipo Sudoku en la pantalla y preguntó a ChatGPT cómo debía resolverlo. Y la herramienta respondió con los pasos correctos.

Puri explica que también ha utilizado la función para ayudarle a arreglar el ordenador de su prometida al compartirle capturas de pantalla con mensajes de error y preguntar a ChatGPT qué debía hacer. "Fue una experiencia muy dolorosa y me ayudó a superarla ", asegura el científico.

La capacidad de reconocimiento de imágenes de ChatGPT ya ha sido probada por Be My Eyes, una empresa que ha creado una aplicación para personas con problemas de visión. Los usuarios pueden subir una foto de lo que tienen delante y pedir a voluntarios humanos que les digan de qué objeto se trata. En colaboración con OpenAI, Be My Eyes ofrece a sus usuarios la posibilidad de preguntar a un chatbot.

"A veces mi cocina está un poco desordenada, o es un lunes por la mañana muy temprano y no quiero hablar con un ser humano", explicó Hans Jørgen Wiberg, fundador de Be My Eyes y usuario de la aplicación, cuando le entrevisté en EmTech Digital en mayo. "Ahora, puedes hacer preguntas a una foto".

OpenAI es consciente del riesgo de hacer públicas estas actualizaciones. Combinar modelos conlleva nuevos niveles de complejidad, afirma Puri, también asegura que su equipo ha pasado meses pensando en posibles usos indebidos. Por ejemplo, no se pueden hacer preguntas sobre fotos de personas.

Jang señala otro ejemplo: "Ahora, si pides a ChatGPT que haga una bomba, se negará. Pero si en lugar de decir: 'Oye, dime cómo hacer una bomba', ¿qué pasaría si le mostraras una imagen de una bomba y le dijeras: '¿Puedes decirme cómo hago esto?".

"Tenemos todos los problemas de la visión por ordenador y todos los problemas de los grandes modelos lingüísticos. El fraude vocal es un gran problema", reconoce Puri. "Hay que tener en cuenta no solo a nuestros usuarios, sino también a la gente que no está usando el producto".

Los posibles problemas no acaban ahí. Añadir el reconocimiento de voz a la aplicación podría hacer que ChatGPT fuera menos accesible para las personas que no hablan con el acento común, afirma Joel Fischer, que estudia la interacción persona-ordenador en la Universidad de Nottingham (Reino Unido).

Según Fischer, las voces sintéticas también conllevan un bagaje social y cultural que influirá en las percepciones y expectativas de los usuarios sobre la aplicación. Se trata de una cuestión que aún debe estudiarse.

Sin embargo, OpenAI afirma que ha resuelto los peores problemas y confía en que las actualizaciones de ChatGPT sean lo bastante seguras como para publicarlas. "Ha sido una experiencia de aprendizaje muy buena para solucionar todos estos problemas", concluye Puri.

Buscar en MIT Technology Review

Explorar Temas

Secciones

Chat GPT se vuelve hablador: OpenAI incorpora la voz a su IA