Inteligencia Artificial

La AI Overviews de Google revela el gran problema de la IA

La nueva función de búsqueda inteligente de Google es un desastre. ¿Por qué nos dice que comamos piedras y pizza con pegamento? ¿Puede arreglarse?

por Rhiannon Williams | traducido por
06 Junio, 2024

'MIT Technology Review' Explica: Deja que nuestros redactores desentrañen el complejo y desordenado mundo de la tecnología para ayudarte a entender lo que está por venir. Puedes leer más aquí.

Cuando Google anunció el lanzamiento de su función de búsqueda basada en inteligencia artificial a principios de este mes, prometió que "Google googleará por ti". La nueva función, llamada AI Overviews, ofrece breves resúmenes generados por IA que destacan información clave y enlaces en la parte superior de los resultados de búsqueda.

Por desgracia, los sistemas de inteligencia artificial son poco fiables. Pocos días después de su lanzamiento en EE UU, los usuarios compartieron ejemplos de respuestas que, en el mejor de los casos, eran extrañas. Sugirió que los usuarios añadieran pegamento a la pizza o comieran al menos una piedra pequeña al día, y que el expresidente de EE UU Andrew Johnson obtuvo títulos universitarios entre 1947 y 2012, a pesar de haber muerto en 1875.

El jueves, Liz Reid, responsable de Google Search, anunció que la empresa ha estado introduciendo mejoras técnicas en el sistema para que sea menos probable que genere respuestas incorrectas, incluidos mejores mecanismos de detección de consultas sin sentido. También está limitando la inclusión de contenido satírico, humorístico y generado por los usuarios en las respuestas, ya que este tipo de material podría dar lugar a consejos engañosos.

Pero, ¿por qué AI Overviews devuelve información poco fiable y potencialmente peligrosa? ¿Y qué se puede hacer para solucionarlo?

¿Cómo funciona AI Overviews?

Para entender por qué los motores de búsqueda basados en IA se equivocan, tenemos que ver cómo han sido optimizados para funcionar. Sabemos que AI Overviews utiliza un nuevo modelo de IA generativa en Gemini, la familia de modelos lingüísticos de gran tamaño (LLM, por sus siglas en inglés) de Google, que se ha personalizado para Google Search. Este modelo se ha integrado con los principales sistemas de clasificación web de Google y se ha diseñado para extraer resultados relevantes de su índice de sitios web.

La mayoría de los LLM se limitan a predecir la siguiente palabra (o token) de una secuencia, lo que les hace parecer fluidos pero también les hace propensos a inventarse cosas. No se apoyan en ninguna verdad fundamental, sino que eligen cada palabra en función de un cálculo estadístico. Esto da lugar a alucinaciones. Es probable que el modelo Gemini de AI Overviews lo solucione utilizando una técnica de inteligencia artificial llamada generación aumentada por recuperación (RAG, por sus siglas en inglés), que permite a un LLM comprobar fuentes específicas fuera de los datos con los que ha sido entrenado, como determinadas páginas web, explica Chirag Shah, profesor de la Universidad de Washington (Seattle, Washington, EE UU) especializado en búsquedas en línea.

Una vez que el usuario introduce una consulta, se coteja con los documentos que constituyen las fuentes de información del sistema y se genera una respuesta. Como el sistema es capaz de cotejar la consulta original con partes concretas de páginas web, es capaz de citar de dónde ha sacado su respuesta, algo que los LLM normales no pueden hacer.

Una de las principales ventajas de la RAG es que las respuestas que genera a las consultas de los usuarios deberían estar más actualizadas y ser más precisas y pertinentes que las de un modelo típico que se limita a generar una respuesta basada en sus datos de entrenamiento. La técnica se utiliza a menudo para tratar de evitar que los LLM alucinen. (Un portavoz de Google no quiso confirmar si AI Overviews utiliza RAG).

Entonces, ¿por qué da respuestas erróneas?

Pero RAG está lejos de ser infalible. Para que un LLM que utilice RAG dé una buena respuesta, tiene que recuperar la información correctamente y generar la respuesta también correctamente. Una mala respuesta se produce cuando una o ambas partes del proceso fallan.

En el caso de la recomendación de AI Overviews de una receta de pizza que contiene pegamento —a partir de una broma publicada en Reddit—, es probable que la publicación pareciera relevante para la consulta original del usuario sobre queso que no se pegue a la pizza, pero algo salió mal en el proceso de recuperación, dice Shah. "Que sea relevante no significa que sea correcto, y la parte de generación del proceso no lo cuestiona", afirma.

Del mismo modo, si un sistema RAG se encuentra con información contradictoria, como un manual de políticas y una versión actualizada del mismo manual, es incapaz de determinar de qué versión debe extraer su respuesta. En su lugar, puede combinar la información de ambas para crear una respuesta potencialmente engañosa.

"El LLM genera un lenguaje fluido basado en las fuentes proporcionadas, pero lenguaje fluido no es lo mismo que información correcta", afirma Suzan Verberne, profesora de la Universidad de Leiden (Países Bajos) especializada en procesamiento del lenguaje natural.

Cuanto más específico es un tema, mayor es la probabilidad de desinformación en el resultado de un modelo lingüístico de gran tamaño, afirma, y añade: "Es un problema en el ámbito médico, pero también en la educación y la ciencia".

Según el portavoz de Google, en muchos casos, cuando AI Overviews devuelve respuestas incorrectas es porque no hay mucha información de alta calidad disponible en la web que mostrar para la consulta, o porque la consulta se asemeja más a sitios satíricos o publicaciones en broma.

El portavoz afirma que la gran mayoría de los resúmenes de IA proporcionan información de alta calidad y que muchos de los ejemplos de respuestas incorrectas se produjeron en respuesta a consultas poco comunes, añadiendo que los resúmenes de IA con contenido potencialmente dañino, obsceno o inaceptable se produjeron en respuesta a menos de una de cada 7 millones de consultas únicas. Google sigue eliminando los resúmenes de IA en determinadas consultas de acuerdo con sus políticas de contenido.

No se trata solo de malos datos de entrenamiento

Aunque la metedura de pata del pegamento en la pizza es un buen ejemplo de un caso en el que los resúmenes de IA remitían a una fuente poco fiable, el sistema también puede generar información errónea a partir de fuentes objetivamente correctas. Melanie Mitchell, investigadora de inteligencia artificial del Instituto Santa Fe de Nuevo México (EE UU), buscó en Google "¿Cuántos presidentes musulmanes ha tenido EE UU?". AI Overviews respondió: "Estados Unidos ha tenido un presidente musulmán, Barack Hussein Obama".

Aunque Barack Obama no es musulmán, lo que hace que la respuesta de AI Overviews sea errónea, pero el modelo extrajo su información de un capítulo de un libro académico titulado Barack Hussein Obama: ¿El primer presidente musulmán de Estados Unidos?. Así que el sistema de IA no solo no entendió el sentido del ensayo, sino que lo interpretó exactamente al revés de lo que pretendía, dice Mitchell. "Hay varios problemas para la IA: uno es encontrar una buena fuente que no sea una broma, pero otro es interpretar correctamente lo que dice la fuente", añade. "Esto es algo que los sistemas de IA tienen problemas para hacer, y es importante tener en cuenta que incluso cuando consigue una buena fuente, puede cometer errores".

¿Se puede solucionar el problema?

En última instancia, sabemos que los sistemas de IA no son fiables, y mientras utilicen la probabilidad para generar texto palabra por palabra, la alucinación siempre va a ser un riesgo. Y aunque es probable que AI Overviews mejore a medida que Google lo ajuste entre bastidores, nunca podremos estar seguros de que sea preciso al 100%.

Google ha dicho que está añadiendo restricciones para las consultas en las que los resúmenes de IA no estaban resultando especialmente útiles y ha añadido "refinamientos de activación" adicionales para las consultas relacionadas con la salud. La empresa podría añadir un paso al proceso de recuperación de información diseñado para identificar una consulta de riesgo y hacer que el sistema se niegue a generar una respuesta en estos casos, afirma Verberne. Google no pretende mostrar resúmenes de IA para temas explícitos o peligrosos, ni para consultas que indiquen una situación vulnerable, según el portavoz de la empresa.

Técnicas como el aprendizaje por refuerzo a partir de comentarios humanos, que incorpora dichos comentarios al entrenamiento de un LLM, también pueden ayudar a mejorar la calidad de sus respuestas.

Del mismo modo, los LLM podrían ser entrenados específicamente para la tarea de identificar cuándo una pregunta no puede ser respondida, y también podría ser útil instruirlos para que evalúen cuidadosamente la calidad de un documento recuperado antes de generar una respuesta, dice Verbene: "¡Una instrucción adecuada ayuda mucho!".

Aunque Google ha añadido una etiqueta a las respuestas de AI Overviews en la que se lee "La IA generativa es experimental", debería plantearse dejar mucho más claro que la función está en fase beta y recalcar que no está preparada para ofrecer respuestas totalmente fiables, dice Shah. "Hasta que deje de ser beta, como lo es actualmente sin lugar a dudas y lo seguirá siendo durante algún tiempo, debería ser completamente opcional. No se nos debería imponer como parte de la búsqueda principal".

Inteligencia Artificial

La AI Overviews de Google revela el gran problema de la IA

¿Cómo funciona AI Overviews?

Entonces, ¿por qué da respuestas erróneas?

No se trata solo de malos datos de entrenamiento

¿Se puede solucionar el problema?

La IA puede impulsar la creatividad de algunos, pero limitarla en su conjunto

Del asistente al "agente": así es la siguiente generación de la IA

Seis formas en las que IA puede convertirse en tu asistente de viaje