Refresh

This website www.unite.ai/ca/new-research-finds-sixteen-major-problems-with-rag-systems-including-perplexity/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

Connecteu-vos amb nosaltres

Intel·ligència Artificial

Una nova investigació troba setze problemes principals amb els sistemes RAG, inclosa la perplexitat

mm

publicat

 on

Imatge generada per ChatGPT-4o, amb el missatge "Creeu una imatge panoràmica molt fotorealista d'un robot buscant frenèticament a Internet en un ordinador portàtil. No estilitzeu aquesta imatge perquè sembli una imatge falsa o creada per IA'

Un estudi recent dels EUA ha descobert que el rendiment real del món popular Recuperació de la generació augmentada Els sistemes d'investigació (RAG) com Perplexity i Bing Copilot estan molt lluny de l'exageració de màrqueting i de l'adopció popular que ha assolit els titulars durant els darrers 12 mesos.

El projecte, que va implicar una àmplia participació d'enquestes amb 21 veus expertes, va trobar no menys de 16 àrees en les quals els sistemes RAG estudiats (You Chat, Bing Copilot i Perplexity) van generar motius de preocupació:

1: Falta de detall objectiu en les respostes generades, amb resums genèrics i escassa profunditat o matís contextual.

2. Reforç del biaix percebut de l'usuari, on un motor RAG sovint no presenta una sèrie de punts de vista, sinó que dedueix i reforça el biaix de l'usuari, en funció de la manera com l'usuari formula una pregunta.

3. Llenguatge massa confiat, sobretot en respostes subjectives que no es poden establir empíricament, que poden portar els usuaris a confiar en la resposta més del que mereix.

4: Llenguatge simplista i manca de pensament crític i creativitat, on les respostes patrocinen eficaçment a l'usuari amb informació "tonta" i "agradable", en lloc d'una meditació i anàlisi reflexiva.

5: Atribució i citació incorrecta de fonts, on el motor de respostes utilitza fonts citades que no donen suport a les seves respostes, fomentant la il·lusió de credibilitat.

6: Informació de recollida de cireres del context inferit, on l'agent RAG sembla estar buscant respostes que donen suport a la seva afirmació generada i la seva estimació del que l'usuari vol escoltar, en lloc de basar les seves respostes en l'anàlisi objectiva de fonts fiables (possiblement indicant un conflicte entre les dades de LLM "cobertes" del sistema i les dades que obté sobre la marxa d'Internet en resposta a una consulta).

7: Omissió de cites que donen suport a afirmacions, on no hi ha material font per a les respostes.

8: Sense proporcionar cap esquema lògic per a les seves respostes, on els usuaris no poden qüestionar per què el sistema va prioritzar determinades fonts sobre altres fonts.

9: Nombre limitat de fonts, on la majoria dels sistemes RAG solen proporcionar al voltant de tres fonts de suport per a una declaració, fins i tot quan s'aplicaria una major diversitat de fonts.

10: Fonts òrfenes, on les dades de totes o algunes de les cites de suport del sistema no s'inclouen realment a la resposta.

11: Ús de fonts poc fiables, on sembla que el sistema ha preferit una font que sigui popular (és a dir, en termes de SEO) en lloc de la correcta.

12: Fonts redundants, on el sistema presenta múltiples cites en què els articles d'origen són essencialment els mateixos en contingut.

13: Fonts no filtrades, on el sistema no ofereix a l'usuari cap manera d'avaluar o filtrar les citacions que s'ofereixen, forçant els usuaris a prendre els criteris de selecció de confiança.

14: Manca d'interactivitat o explorabilitat, on diversos dels participants de l'estudi d'usuaris es van frustrar perquè els sistemes RAG no fessin preguntes clarificadores, sinó que assumien la intenció de l'usuari des de la primera consulta.

15: La necessitat de verificació externa, on els usuaris se senten obligats a realitzar una verificació independent de les respostes proporcionades, eliminant en gran mesura la suposada comoditat de RAG com a "reemplaçament de la cerca".

16:  Ús de mètodes de citació acadèmica, tal com [1] or [34]; aquesta és una pràctica estàndard en cercles acadèmics, però pot ser poc intuïtiva per a molts usuaris.

Per al treball, els investigadors van reunir 21 experts en intel·ligència artificial, salut i medicina, ciències aplicades i educació i ciències socials, tots ells investigadors postdoctorals o candidats a doctorat. Els participants van interactuar amb els sistemes RAG provats mentre parlaven els seus processos de pensament en veu alta, per aclarir (per als investigadors) el seu propi esquema racional.

El document cita àmpliament els recels i les preocupacions dels participants sobre el rendiment dels tres sistemes estudiats.

La metodologia de l'estudi de l'usuari es va sistematitzar després en un estudi automatitzat dels sistemes RAG, utilitzant suites de control del navegador:

"Una avaluació automatitzada a gran escala de sistemes com You.com, Perplexity.ai i BingChat va demostrar que cap va aconseguir un rendiment acceptable en la majoria de mètriques, inclosos els aspectes crítics relacionats amb la gestió d'al·lucinacions, declaracions no compatibles i precisió de les cites".

Els autors argumenten llargament (i amb assiduïtat, en el document complet de 27 pàgines) que tant els usuaris nous com els experimentats haurien de tenir precaució quan utilitzen la classe de sistemes RAG estudiats. A més, proposen un nou sistema de mètriques, basat en les deficiències trobades a l'estudi, que podria constituir la base d'una major supervisió tècnica en el futur.

No obstant això, la creixent L'ús públic dels sistemes RAG demana als autors també a defensar una legislació adequada i un nivell més gran de política governamental aplicable pel que fa a les interfícies de cerca d'AI assistides per agents.

La estudiar prové de cinc investigadors de la Pennsylvania State University i Salesforce, i es titula Motors de cerca en una era de la IA: la falsa promesa de respostes fetes i verificables citades per fonts. El treball cobreix els sistemes RAG fins a l'estat de l'art a l'agost de 2024

La compensació RAG

Els autors introdueixen el seu treball reiterant quatre deficiències conegudes dels grans models de llenguatge (LLM) on s'utilitzen dins de Answer Engines.

En primer lloc, són propensos a fer-ho informació al·lucinada, i no tenen la capacitat de fer-ho detectar incoherències de fets. En segon lloc, tenen dificultats valorant la precisió d'una cita en el context d'una resposta generada. En tercer lloc, acostumen a fer-ho afavorir les dades dels seus propis pesos entrenats prèviament i poden resistir dades de la documentació recuperada externament, encara que aquestes dades puguin ser més recents o més precises.

Finalment, els sistemes RAG tendeixen a agradar a les persones, comportament sicofàntic, sovint a costa de l'exactitud de la informació en les seves respostes.

Totes aquestes tendències es van confirmar en ambdós aspectes de l'estudi, entre moltes observacions noves sobre les trampes del RAG.

El document visualitza els OpenAI Cerca GPT producte RAG (alliberat als subscriptors la setmana passada, després de l'enviament del nou document), és probable que fomenti l'adopció dels sistemes de cerca basats en RAG, malgrat les deficiències fonamentals que els resultats de l'enquesta insinuen*:

"El llançament del 'SearchGPT' d'OpenAI, comercialitzat com a "Assassí de cerca de Google", agreuja encara més [preocupacions]. A mesura que creix la dependència d'aquestes eines, també augmenta la urgència d'entendre el seu impacte. Lindeman  introdueix el concepte de coneixement segellat, que critica com aquests sistemes limiten l'accés a respostes diverses condensant les consultes de cerca en respostes singulars i autoritzades, descontextualitzant eficaçment la informació i reduint-la. user perspectives.

"Aquest "segellament" del coneixement perpetua els biaixos de selecció i restringeix els punts de vista marginats".

L'estudi

Els autors van provar primer el seu procediment d'estudi en tres dels 24 participants seleccionats, tots convidats per mitjans com LinkedIn o correu electrònic.

La primera etapa, per als 21 restants, va participar Recuperació d'informació d'expertesa, on els participants van fer una mitjana d'unes sis consultes de cerca durant una sessió de 40 minuts. Aquesta secció es va centrar en la recollida i verificació de basat en fets preguntes i respostes, amb possibles solucions empíriques.

La segona fase es refereix Recuperació d'informació de debat, que tractava en canvi temes subjectius, com l'ecologia, el vegetarianisme i la política.

Respostes d'estudi generades de Perplexity (esquerra) i You Chat (dreta). Font: https://arxiv.org/pdf/2410.22349

Respostes d'estudi generades de Perplexity (esquerra) i You Chat (dreta). Font: https://arxiv.org/pdf/2410.22349

Com que tots els sistemes permetien almenys un cert nivell d'interactivitat amb les cites proporcionades com a suport per a les respostes generades, es va animar als subjectes de l'estudi a interactuar amb la interfície tant com fos possible.

En ambdós casos, es va demanar als participants que formulessin les seves consultes ambdós mitjançant un sistema RAG i un cercador convencional (en aquest cas, Google).

Els tres motors de resposta (You Chat, Bing Copilot i Perplexity) es van triar perquè són d'accés públic.

La majoria dels participants ja eren usuaris de sistemes RAG, a diferents freqüències.

A causa de les limitacions d'espai, no podem desglossar cadascuna de les setze deficiències clau de l'estudi documentades de manera exhaustiva, però aquí presentem una selecció d'alguns dels exemples més interessants i aclaridors.

Manca de detall objectiu

El document assenyala que els usuaris van trobar que les respostes dels sistemes sovint no tenien detalls objectius, tant a les respostes factuals com a les subjectives. Un va comentar:

"Només estava intentant respondre sense donar-me una resposta sòlida o una resposta més pensada, que puc obtenir amb diverses cerques a Google".

Un altre va observar:

"És massa curt i només ho resumeix molt. [El model] m'ha de donar més dades per a la reclamació, però està molt resumida".

Manca de punt de vista holístic

Els autors expressen la seva preocupació per aquesta manca de matisos i especificitat, i afirmen que els Answer Engines sovint no van presentar múltiples perspectives sobre cap argument, tendint a posar-se del costat d'un biaix percebut inferit de la formulació de la pregunta de l'usuari.

Un participant va dir:

"Vull saber més sobre l'altra cara de l'argument... tot això amb una mica de sal perquè no coneixem l'altra cara i les proves i els fets".

Un altre va comentar:

'No t'està donant les dues cares de l'argument; no és discutir amb tu. En canvi, [el model] només et diu: "Teniu raó... i aquí teniu els motius".

Llenguatge de confiança

Els autors observen que els tres sistemes provats mostraven l'ús d'un llenguatge excessivament segur, fins i tot per a respostes que cobreixen qüestions subjectives. Afirmen que aquest to tendirà a inspirar confiança injustificada en la resposta.

Un participant va assenyalar:

"Escriu amb tanta confiança que em sento convençut sense ni tan sols mirar la font. Però quan mires la font, està malament i això em fa tornar a qüestionar-ho'.

Un altre va comentar:

"Si algú no sap exactament la resposta correcta, hi confiarà fins i tot quan sigui incorrecta".

Citacions incorrectes

Un altre problema freqüent va ser la mala atribució de les fonts citades com a autoritat per a les respostes dels sistemes RAG, amb un dels subjectes de l'estudi afirmant:

"[Aquesta] afirmació no sembla estar a la font. Vull dir que l'afirmació és certa; és vàlid... però ni tan sols sé d'on treu aquesta informació.

Els autors del nou article comenten :

'Els participants van sentir que els sistemes ho eren utilitzant cites per legitimar la seva resposta, creant una il·lusió de credibilitat. Aquesta façana només es va revelar a uns quants usuaris que van procedir a escrutar les fonts.'

Informació de selecció de cireres per adaptar-se a la consulta

Tornant a la noció de comportament adulador i agradable a les persones a les respostes RAG, l'estudi va trobar que moltes respostes destacaven un punt de vista particular en lloc de resumir de manera exhaustiva el tema, com va observar un participant:

"Sento que [el sistema] és manipulador. Només necessita una mica d'informació i sento que estic manipulat per veure només una cara de les coses.

Un altre va opinar:

"[La font] en realitat té pros i contres, i s'ha escollit només el tipus d'arguments necessaris d'aquest enllaç sense la imatge sencera".

Per a més exemples en profunditat (i múltiples cites crítiques dels participants de l'enquesta), remetem el lector al document d'origen.

RAG automatitzat

A la segona fase de l'estudi més ampli, els investigadors van utilitzar scripts basats en navegador per sol·licitar de manera sistemàtica consultes dels tres motors RAG estudiats. Després van utilitzar un sistema LLM (GPT-4o) per analitzar les respostes dels sistemes.

S'han analitzat les declaracions rellevància de la consulta i Declaracions Pro vs (és a dir, si la resposta és a favor, en contra o neutral, pel que fa al biaix implícit de la consulta.

An Puntuació de confiança de la resposta també es va avaluar en aquesta fase automatitzada, a partir de la Escala Likert mètode de prova psicomètrica. Aquí el jutge de LLM va ser augmentat per dos anotadors humans.

Una tercera operació va implicar l'ús del web-scraping per obtenir el contingut de text complet de les pàgines web citades, mitjançant l'eina Jina.ai Reader. No obstant això, com s'apunta en un altre lloc del document, la majoria de les eines de raspat web no poden accedir als llocs amb murs de pagament més que la majoria de la gent (tot i que els autors observen que se sap que Perplexity.ai saltar aquesta barrera).

Les consideracions addicionals van ser si les respostes citaven o no una font (calculada com a "matriu de citació"), així com una "matriu de suport factual", una mètrica verificada amb l'ajuda de quatre anotadors humans.

Així, es van obtenir 8 mètriques generals: resposta unilateral; resposta excessivament confiada; declaració pertinent; fonts no citades; declaracions sense suport; necessitat de la font; precisió de la citació, I minuciositat de la citació.

El material amb el qual es van provar aquestes mètriques constava de 303 preguntes seleccionades de la fase d'estudi de l'usuari, donant lloc a 909 respostes en els tres sistemes provats.

Avaluació quantitativa dels tres sistemes RAG provats, basada en vuit mètriques.

Avaluació quantitativa dels tres sistemes RAG provats, basada en vuit mètriques.

Pel que fa als resultats, el document diu:

"Si observem les tres mètriques relacionades amb el text de resposta, trobem que tots els motors de respostes avaluats sovint (50-80%) generen respostes unilaterals, afavorint l'acord amb una formulació carregada d'una pregunta de debat sobre la presentació de múltiples perspectives a la resposta. amb Perplexity amb un rendiment pitjor que els altres dos motors.

"Aquesta troballa s'adhereix a [les troballes] dels nostres resultats qualitatius. Sorprenentment, tot i que és més probable que Perplexity generi una resposta unilateral, també genera les respostes més llargues (18.8 afirmacions per resposta de mitjana), cosa que indica que la manca de diversitat de respostes no es deu a la brevetat de les respostes.

"En altres paraules, augmentar la longitud de les respostes no millora necessàriament la diversitat de respostes".

Els autors també assenyalen que Perplexity és més probable que utilitzi un llenguatge confiat (90% de les respostes) i que, en canvi, els altres dos sistemes solen utilitzar un llenguatge més prudent i menys segur quan hi ha contingut subjectiu en joc.

You Chat va ser l'únic marc de RAG que va aconseguir zero fonts no citades per obtenir una resposta, amb Perplexity al 8% i Bing Chat al 36%.

Tots els models van evidenciar una "proporció significativa" de declaracions no recolzades, i declara el document:

"El marc RAG s'anuncia per resoldre el comportament al·lucinatori dels LLM fent complir que un LLM generi una resposta basada en documents font. no obstant això, els resultats mostren que els motors de respostes basats en RAG encara generen respostes que contenen una gran proporció d'afirmacions no recolzades per les fonts que proporcionen.'

A més, tots els sistemes provats tenien dificultats per donar suport a les seves declaracions amb citacions:

"You.Com i [Bing Chat] tenen un rendiment lleugerament millor que Perplexity, amb aproximadament dos terços de les citacions que apunten a una font que dóna suport a l'afirmació citada, i Perplexity funciona pitjor, amb més de la meitat de les seves citacions inexactes.

"Aquest resultat és sorprenent: la citació no només és incorrecta per a afirmacions que no estan recolzades per cap (font), sinó que trobem que fins i tot quan hi ha una font que admet una declaració, tots els motors encara citen amb freqüència una font incorrecta diferent, perdent oportunitat de proporcionar informació correcta a l'usuari.

'En altres paraules, el comportament al·lucinatori no només s'exhibeix en declaracions que no estan recolzades per les fonts, sinó també en cites inexactes que prohibeixen als usuaris verificar la validesa de la informació.'

Els autors conclouen:

"Cap dels motors de respostes aconsegueix un bon rendiment en la majoria de les mètriques, cosa que destaca l'ampli marge de millora dels motors de respostes".

 

 

* La meva conversió de les cites en línia dels autors a hiperenllaços. Si cal, he escollit la primera de les múltiples cites per a l'hiperenllaç, a causa de aspectes pràctics de format.

L'èmfasi dels autors, no el meu.

Publicat per primera vegada el dilluns 4 de novembre de 2024

Escriptor d'aprenentatge automàtic, especialista en dominis en síntesi d'imatges humanes. Antic cap de continguts de recerca de Metaphysic.ai.
Lloc personal: martinanderson.ai
Poseu-vos en contacte amb: [protegit per correu electrònic]
Twitter: @manders_ai