Inteligencia Artificial

Una nueva investigación descubre dieciséis problemas importantes con los sistemas RAG, incluida la perplejidad

Publicado 4 de noviembre.

Martin anderson

Imagen generada por ChatGPT-4o, con el mensaje 'Crea una imagen panorámica altamente fotorrealista de un robot que busca frenéticamente en Internet en una computadora portátil. No estilices esta imagen para que parezca una imagen falsa o creada por IA'

Un estudio reciente de EE. UU. ha descubierto que el rendimiento en el mundo real de los programas populares Recuperación Generación Aumentada Los sistemas de investigación (RAG) como Perplexity y Bing Copilot están muy lejos de alcanzar las expectativas de marketing y la adopción popular que han acaparado los titulares en los últimos 12 meses.

El proyecto, que implicó una amplia participación en una encuesta en la que participaron 21 expertos, encontró no menos de 16 áreas en las que los sistemas RAG estudiados (You Chat, Bing Copilot y Perplexity) generaron motivos de preocupación:

1: Falta de detalles objetivos en las respuestas generadas, con resúmenes genéricos y escasa profundidad contextual o matices.

2. Refuerzo del sesgo percibido por el usuario, donde un motor RAG con frecuencia no presenta una variedad de puntos de vista, sino que infiere y refuerza el sesgo del usuario, basándose en la forma en que el usuario formula una pregunta.

3. Lenguaje excesivamente confiado, particularmente en respuestas subjetivas que no pueden establecerse empíricamente, lo que puede llevar a los usuarios a confiar en la respuesta más de lo que merece.

4: Lenguaje simplista y falta de pensamiento crítico y creatividad. donde las respuestas efectivamente tratan al usuario con condescendencia, brindándole información 'simplificada' y 'agradable', en lugar de análisis y reflexión meditada.

5: Atribución errónea y citación errónea de fuentes, donde el motor de respuestas utiliza fuentes citadas que no respaldan sus respuestas, fomentando la ilusión de credibilidad.

6: Seleccionar información a partir del contexto inferido, donde el agente RAG parece estar buscando respuestas que respalden su afirmación generada y su estimación de lo que el usuario quiere escuchar, en lugar de basar sus respuestas en un análisis objetivo de fuentes confiables (lo que posiblemente indique un conflicto entre los datos LLM "preparados" del sistema y los datos que obtiene sobre la marcha de Internet en respuesta a una consulta).

7: Omitir citas que respalden las afirmaciones, donde no existe material fuente para las respuestas.

8: Sin proporcionar ningún esquema lógico para sus respuestas, donde los usuarios no pueden cuestionar por qué el sistema priorizó ciertas fuentes sobre otras.

9: Número limitado de fuentes, donde la mayoría de los sistemas RAG suelen proporcionar alrededor de tres fuentes de apoyo para una declaración, incluso cuando sería aplicable una mayor diversidad de fuentes.

10: Fuentes huérfanas, donde los datos de todas o algunas de las citas de apoyo del sistema no están realmente incluidos en la respuesta.

11: Uso de fuentes no confiables, donde el sistema parece haber preferido una fuente que es popular (es decir, en términos de SEO) en lugar de una que sea factualmente correcta.

12: Fuentes redundantes, donde el sistema presenta múltiples citas en las que los artículos fuente son esencialmente el mismo en contenido.

13: Fuentes sin filtrar, donde el sistema no ofrece al usuario ninguna forma de evaluar o filtrar las citas ofrecidas, forzando a los usuarios a confiar en los criterios de selección.

14: Falta de interactividad o explorabilidad, En donde varios de los participantes del estudio de usuarios se sintieron frustrados porque los sistemas RAG no hacían preguntas aclaratorias, sino que asumían la intención del usuario desde la primera consulta.

15: La necesidad de verificación externa, donde los usuarios se sienten obligados a realizar una verificación independiente de las respuestas proporcionadas, eliminando en gran medida la supuesta conveniencia de RAG como "reemplazo de la búsqueda".

16: Uso de métodos de citación académica, como [ 1 ] or [ 34 ];esta es una práctica estándar en los círculos académicos, pero puede resultar poco intuitiva para muchos usuarios.

Para el trabajo, los investigadores reunieron a 21 expertos en inteligencia artificial, atención médica y medicina, ciencias aplicadas, educación y ciencias sociales, todos ellos investigadores posdoctorales o candidatos a doctorado. Los participantes interactuaron con los sistemas RAG probados mientras expresaban sus procesos de pensamiento en voz alta, para aclarar (para los investigadores) su propio esquema racional.

El artículo cita extensamente las inquietudes y preocupaciones de los participantes sobre el rendimiento de los tres sistemas estudiados.

La metodología del estudio de usuarios fue luego sistematizada en un estudio automatizado de los sistemas RAG, utilizando suites de control de navegadores:

'Una evaluación automatizada a gran escala de sistemas como You.com, Perplexity.ai y BingChat mostró que ninguno cumplió con un desempeño aceptable en la mayoría de las métricas, incluidos aspectos críticos relacionados con el manejo de alucinaciones, declaraciones sin fundamento y precisión de citas.'

Los autores argumentan extensamente (y con asiduidad, en el exhaustivo artículo de 27 páginas) que tanto los usuarios nuevos como los experimentados deben tener cuidado al utilizar la clase de sistemas RAG estudiados. Además, proponen un nuevo sistema de métricas, basado en las deficiencias encontradas en el estudio, que podría formar la base de una mayor supervisión técnica en el futuro.

Sin embargo, a pesar de la crecer El uso público de los sistemas RAG impulsa a los autores también a abogar por una legislación adecuada y un mayor nivel de política gubernamental aplicable con respecto a las interfaces de búsqueda de IA asistidas por agentes.

La Estudio proviene de cinco investigadores de la Universidad Estatal de Pensilvania y Salesforce, y se titula Los motores de búsqueda en la era de la inteligencia artificial: la falsa promesa de respuestas veraces y verificables citadas en las fuentesEl trabajo cubre los sistemas RAG hasta el estado del arte en agosto de 2024.

El equilibrio entre RAG y GFX

Los autores comienzan su trabajo reiterando cuatro deficiencias conocidas de los modelos de lenguaje grandes (LLM) cuando se utilizan en los motores de respuestas.

En primer lugar, son propensos a alucinar información, y carecen de la capacidad para Detectar inconsistencias fácticasEn segundo lugar, tienen dificultades. evaluando la precisión de una cita en el contexto de una respuesta generada. En tercer lugar, tienden a datos a favor a partir de sus propios pesos preentrenados, y pueden resistir datos de documentación recuperada externamente, incluso aunque dichos datos puedan ser más recientes o más precisos.

Finalmente, los sistemas RAG tienden a complacer a la gente. comportamiento adulador, a menudo a expensas de la exactitud de la información en sus respuestas.

Todas estas tendencias se confirmaron en ambos aspectos del estudio, entre muchas observaciones novedosas sobre los peligros del RAG.

El artículo analiza el impacto de OpenAI BuscarGPT Producto RAG (liberado a los suscriptores la semana pasada, después de que se presentó el nuevo artículo), como una medida que probablemente fomente la adopción por parte de los usuarios de sistemas de búsqueda basados en RAG, a pesar de las deficiencias fundamentales que los resultados de la encuesta indican*:

'El lanzamiento de 'SearchGPT' de OpenAI, comercializado como un 'El asesino de las búsquedas de Google', lo que agrava aún más las preocupaciones. A medida que aumenta la dependencia de estas herramientas, también aumenta la urgencia de comprender su impacto. Lindemann introduce el concepto de Conocimiento Sellado, que critica cómo estos sistemas limitan el acceso a diversas respuestas condensando las consultas de búsqueda en respuestas singulares y autorizadas, descontextualizando efectivamente la información y limitando usuario perspectivas.

'Este “sellado” del conocimiento perpetúa los sesgos de selección y restringe los puntos de vista marginados.'

El Estudio

Los autores primero probaron su procedimiento de estudio en tres de los 24 participantes seleccionados, todos invitados por medios como LinkedIn o correo electrónico.

La primera etapa, para los 21 restantes, implicó Recuperación de información especializada, donde los participantes realizaron un promedio de seis consultas de búsqueda durante una sesión de 40 minutos. Esta sección se concentró en la recopilación y verificación de basado en hechos Preguntas y respuestas, con potenciales soluciones empíricas.

La segunda fase se centró en Recuperación de información sobre debates, que trataba más bien de cuestiones subjetivas, entre ellas la ecología, el vegetarianismo y la política.

Respuestas de estudio generadas a partir de Perplexity (izquierda) y You Chat (derecha). Fuente: https://arxiv.org/pdf/2410.22349

Respuestas de estudio generadas de Perplexity (izquierda) y You Chat (derecha). Fuente: https://arxiv.org/pdf/2410.22349

Dado que todos los sistemas permitían al menos algún nivel de interactividad con las citas proporcionadas como apoyo a las respuestas generadas, se alentó a los sujetos del estudio a interactuar con la interfaz tanto como fuera posible.

En ambos casos, se pidió a los participantes que formularan sus consultas a través de un sistema RAG. y un motor de búsqueda convencional (en este caso, Google).

Los tres motores de respuesta (You Chat, Bing Copilot y Perplexity) fueron elegidos porque son de acceso público.

La mayoría de los participantes ya eran usuarios de sistemas RAG, con distintas frecuencias.

Debido a limitaciones de espacio, no podemos desglosar cada una de las dieciséis deficiencias clave exhaustivamente documentadas encontradas en el estudio, pero aquí presentamos una selección de algunos de los ejemplos más interesantes y esclarecedores.

Falta de detalles objetivos

El artículo señala que los usuarios encontraron que las respuestas de los sistemas frecuentemente carecían de detalles objetivos, tanto en las respuestas objetivas como en las subjetivas. Uno comentó:

"Simplemente estaba tratando de responder sin darme una respuesta sólida o más pensada, algo que puedo obtener con múltiples búsquedas en Google".

Otro observó:

Es demasiado corto y lo resume todo demasiado. [El modelo] necesita proporcionarme más datos para la afirmación, pero está muy resumido.

Falta de un punto de vista holístico

Los autores expresan su preocupación por esta falta de matices y especificidad, y afirman que los motores de respuesta con frecuencia no lograron presentar múltiples perspectivas sobre ningún argumento, tendiendo a apoyar un sesgo percibido inferido a partir de la propia formulación de la pregunta por parte del usuario.

Un participante dijo:

'Quiero saber más sobre el otro lado del argumento... todo esto se toma con pinzas porque no conocemos el otro lado ni las pruebas ni los hechos'.

Otro comentó:

No te presenta ambos lados del argumento; no te discute. En cambio, [el modelo] simplemente te dice: "Tienes razón... y aquí están las razones".

Lenguaje seguro

Los autores observan que los tres sistemas evaluados exhibieron el uso de un lenguaje excesivamente confiado, incluso en las respuestas que abordaban cuestiones subjetivas. Sostienen que este tono tenderá a inspirar una confianza injustificada en la respuesta.

Un participante señaló:

Escribe con tanta seguridad que me convence sin siquiera mirar la fuente. Pero cuando la reviso, es mala y eso me hace cuestionarla de nuevo.

Otro comentó:

«Si alguien no sabe exactamente la respuesta correcta, confiará en ella incluso aunque sea incorrecta».

Citas incorrectas

Otro problema frecuente fue la atribución errónea de fuentes citadas como autoridad para las respuestas de los sistemas RAG; uno de los sujetos del estudio afirmó:

Esta afirmación no parece estar en la fuente. Es decir, es cierta; es válida... pero ni siquiera sé de dónde saca esta información.

Los autores del nuevo artículo comentan ^†:

'Los participantes sintieron que los sistemas eran Usando citas para legitimar su respuesta, creando una ilusión de credibilidad. Esta fachada solo fue revelada a unos pocos usuarios que procedieron a examinar las fuentes.

Selección de información adecuada para la consulta

Volviendo a la noción de comportamiento adulador y complaciente en las respuestas del RAG, el estudio encontró que muchas respuestas resaltaban un punto de vista particular en lugar de resumir exhaustivamente el tema, como observó un participante:

Siento que [el sistema] es manipulador. Solo requiere cierta información y siento que me manipulan para que solo vea una cara de la moneda.

Otro opinó:

'[La fuente] en realidad tiene tanto pros como contras, y se eligió escoger solo el tipo de argumentos necesarios de este enlace sin tener el panorama completo'.

Para ejemplos más detallados (y múltiples citas críticas de los participantes de la encuesta), remitimos al lector al artículo original.

RAG automatizado

En la segunda fase del estudio más amplio, los investigadores utilizaron scripts basados en navegador para solicitar sistemáticamente consultas a los tres motores RAG estudiados. Posteriormente, utilizaron un sistema LLM (GPT-4o) para analizar las respuestas de los sistemas.

Las declaraciones fueron analizadas para Relevancia de la consulta y Declaraciones a favor y en contra (es decir, si la respuesta es a favor, en contra o neutral, con respecto al sesgo implícito de la consulta.

An Puntuación de confianza en la respuesta También se evaluó en esta fase automatizada, con base en la escala Likert Método de prueba psicométrica. En este caso, el juez de LLM contó con la ayuda de dos anotadores humanos.

Una tercera operación implicó el uso de web-scraping para obtener el contenido de texto completo de las páginas web citadas, a través de la herramienta Jina.ai Reader. Sin embargo, como se señala en otra parte del artículo, la mayoría de las herramientas de web-scraping no son más capaces de acceder a sitios de pago que la mayoría de las personas (aunque los autores observan que se sabe que Perplexity.ai Evitar esta barrera).

Otras consideraciones fueron si las respuestas citaban o no una fuente (calculada como una "matriz de citas"), así como una "matriz de apoyo fáctico", una métrica verificada con la ayuda de cuatro anotadores humanos.

De esta manera se obtuvieron 8 métricas generales: respuesta unilateral; respuesta demasiado confiada; declaración pertinente; fuentes no citadas; declaraciones sin respaldo; necesidad de fuente; precisión de la cita; y Minuciosidad de la cita.

El material con el que se probaron estas métricas consistió en 303 preguntas seleccionadas de la fase de estudio de usuarios, lo que dio como resultado 909 respuestas en los tres sistemas probados.

Evaluación cuantitativa de los tres sistemas RAG probados, basada en ocho métricas.

Respecto a los resultados, el documento afirma:

'Al observar las tres métricas relacionadas con el texto de la respuesta, encontramos que los motores de respuesta evaluados generan con frecuencia (50-80%) respuestas unilaterales, favoreciendo el acuerdo con una formulación cargada de una pregunta de debate por sobre la presentación de múltiples perspectivas en la respuesta, y Perplexity tiene un desempeño peor que los otros dos motores.

'Este hallazgo coincide con [los hallazgos] de nuestros resultados cualitativos. Sorprendentemente, aunque la perplejidad es más propensa a generar una respuesta unilateral, también genera las respuestas más largas (18.8 afirmaciones por respuesta en promedio), lo que indica que la falta de diversidad de respuestas no se debe a la brevedad de las respuestas.

"En otras palabras, aumentar la longitud de las respuestas no mejora necesariamente la diversidad de las respuestas".

Los autores también señalan que Perplexity tiene más probabilidades de utilizar un lenguaje seguro (90% de las respuestas) y que, por el contrario, los otros dos sistemas tienden a utilizar un lenguaje más cauteloso y menos seguro cuando hay contenido subjetivo en juego.

You Chat fue el único marco RAG que logró cero fuentes no citadas para una respuesta, con Perplexity con un 8% y Bing Chat con un 36%.

Todos los modelos evidenciaron una "proporción significativa" de afirmaciones sin fundamento, y el artículo declara:^†:

'Se anuncia que el marco RAG resuelve el comportamiento alucinatorio de los LLM al exigir que un LLM genere una respuesta basada en documentos fuente, Sin embargo, los resultados muestran que los motores de respuestas basados en RAG todavía generan respuestas que contienen una gran proporción de afirmaciones no respaldadas por las fuentes que proporcionan."

Además, todos los sistemas probados tuvieron dificultades para respaldar sus afirmaciones con citas:

'You.Com y [Bing Chat] tienen un desempeño levemente mejor que Perplexity, con aproximadamente dos tercios de las citas que apuntan a una fuente que respalda la declaración citada, y Perplexity tiene un desempeño peor con más de la mitad de sus citas siendo inexactas.

'Este resultado es sorprendente: la cita no solo es incorrecta para afirmaciones que no están respaldadas por ninguna (fuente), sino que encontramos que incluso cuando existe una fuente que respalda una afirmación, todos los motores todavía citan con frecuencia una fuente incorrecta diferente, perdiendo la oportunidad de proporcionar información correcta al usuario.

"En otras palabras, el comportamiento alucinatorio no sólo se manifiesta en afirmaciones que no están respaldadas por las fuentes, sino también en citas inexactas que impiden a los usuarios verificar la validez de la información."

Los autores concluyen:

'Ninguno de los motores de respuestas logra un buen desempeño en la mayoría de las métricas, lo que resalta el gran margen de mejora que tienen los motores de respuestas'.

* Mi conversión de las citas en línea de los autores a hipervínculos. Cuando fue necesario, seleccioné la primera de varias citas para el hipervínculo, por cuestiones prácticas de formato.

^† Énfasis del autor, no mío.

Publicado por primera vez el lunes 4 de noviembre de 2024

Temas relacionados:procesamiento natural del lenguaje nlp RAG Arquitecturas basadas en RAG RAG en tiempo real