Artificiell intelligens
Ny forskning finner sexton stora problem med RAG-system, inklusive perplexitet

En nyligen genomförd studie från USA har funnit att den faktiska prestationen av populära Retrieval Augmented Generation (RAG)-forskningsystem, såsom Perplexity och Bing Copilot, vida understiger både marknadsföringshype och populär adoption som har genererat rubriker under de senaste 12 månaderna.
Projektet, som involverade omfattande enkätmedverkan med 21 expertröster, fann inte mindre än 16 områden där de studerade RAG-systemen (You Chat, Bing Copilot och Perplexity) gav anledning till oro:
1: Brist på objektiv detalj i de genererade svaren, med generiska sammanfattningar och knapp kontextuell djup eller nyans.
2. Förstärkning av upplevd användarbias, där en RAG-motor ofta misslyckas med att presentera ett spektrum av perspektiv, utan istället antyder och förstärker användarbias, baserat på hur användaren formulerar en fråga.
3. Överdrivet självsäkert språk, särskilt i subjektiva svar som inte kan etableras empiriskt, vilket kan leda användare att lita på svaret mer än det förtjänar.
4: Förenklat språk och brist på kritiskt tänkande och kreativitet, där svaren i effektivt bemöter användaren med “förklarande” och “överensstämmande” information, istället för genomtänkt eftertanke och analys.
5: Felaktig tillskrivning och felcitering av källor, där svarsmotorn använder citerade källor som inte stöder dess svar, och skapar illusionen av trovärdighet.
6: Urval av information från antydd kontext, där RAG-agenter verkar söka svar som stöder dess genererade påstående och dess uppskattning av vad användaren vill höra, istället för att basera sina svar på objektiv analys av tillförlitliga källor (möjligen indikerar en konflikt mellan systemets “inbyggda” LLM-data och de data som det erhåller på begäran från internet i svar på en fråga).
7: Utelämnande av citat som stöder påståenden, där källmaterial för svaren är frånvarande.
8: Inget logiskt schema för dess svar, där användare inte kan ifrågasätta varför systemet prioriterade vissa källor över andra källor.
9: Begränsat antal källor, där de flesta RAG-system vanligtvis tillhandahåller runt tre stödjande källor för ett påstående, även där en större mångfald av källor skulle vara tillämplig.
10: Föräldralösa källor, där data från alla eller vissa av systemets stödjande citat inte faktiskt ingår i svaret.
11: Användning av opålitliga källor, där systemet verkar ha föredragit en källa som är populär (dvs. i SEO-termer) snarare än faktamässigt korrekt.
12: Redundanta källor, där systemet presenterar flera citat där källhandlingarna i princip är desamma till innehåll.
13: Ofiltrerade källor, där systemet erbjuder användaren inget sätt att utvärdera eller filtrera de erbjudna citaten, och tvingar användare att lita på urvalskriterierna.
14: Brist på interaktivitet eller utforskbarhet, där flera av deltagarna i användarstudien blev frustrerade över att RAG-systemen inte ställde förtydligande frågor, utan antog användaravsikter från den första frågan.
15: Behov av extern verifikation, där användare känner sig tvungna att utföra oberoende verifikation av de tillhandahållna svaren, vilket i stor utsträckning tar bort den påstådda bekvämligheten med RAG som en “ersättning för sökning”.
16: Användning av akademiska citeringsmetoder, såsom [1] eller [34]; detta är standardpraxis i akademiska kretsar, men kan vara svårtolkat för många användare.
För arbetet samlade forskarna 21 experter inom artificiell intelligens, hälso- och sjukvård, tillämpad vetenskap och utbildning samt samhällsvetenskap, alla antingen postdoktorala forskare eller doktorkandidater. Deltagarna interagerade med de testade RAG-systemen medan de talade sina tankeprocesser högt, för att klargöra (för forskarna) deras egen rationella schema.
Papperet citerar omfattande deltagarnas tvivel och bekymmer om prestationen hos de tre system som studerades.
Metodiken för användarstudien systematiserades sedan till en automatiserad studie av RAG-systemen, med hjälp av webbläsarstyrningssviter:
‘En stor skala automatiserad utvärdering av system som You.com, Perplexity.ai och BingChat visade att ingen uppfyllde acceptabel prestanda över de flesta mått, inklusive kritiska aspekter relaterade till hantering av hallucinationer, ostrukturerade påståenden och citeringsnoggrannhet.’
Författarna hävdar utförligt (och omsorgsfullt, i den omfattande 27-sidiga papperet) att både nya och erfarna användare bör utöva försiktighet när de använder klassen av RAG-system som studerats. De föreslår också ett nytt system av mått, baserat på bristerna som hittats i studien, som kunde utgöra grunden för en större teknisk tillsyn i framtiden.
Men den växande allmänna användningen av RAG-system gör att författarna också förespråkar lämplig lagstiftning och en högre nivå av genomförbar regeringspolitik i fråga om agentbaserade AI-söksystem.
Studien kommer från fem forskare på Pennsylvania State University och Salesforce, och har titeln Sökmaskiner i en AI-era: Det falska löftet om faktiska och verifierbara källciterade svar. Arbetet täcker RAG-system upp till den aktuella tekniken i augusti 2024
RAG-avvägningen
Författarna inleder sitt arbete med att upprepa fyra kända brister i Large Language Models (LLM) där de används inom svarsmaskiner.
Först är de benägna att hallucinera information, och saknar förmågan att upptäcka faktamässiga inkonsekvenser. Andra, de har svårt att bedöma noggrannheten av en citering i sammanhanget med ett genererat svar. Tredje, de tenderar att föredra data från deras egna förtränade vikter, och kan motstå data från externa dokument, även om sådan data kan vara mer aktuell eller mer korrekt.
Slutligen tenderar RAG-system mot människovänlig, sycophantiskt beteende, ofta på bekostnad av informationsnoggrannhet i deras svar.
Alla dessa tendenser bekräftades i båda aspekterna av studien, tillsammans med många nya observationer om fallgroparna i RAG.
Papperet ser OpenAIs SearchGPT RAG-produkt (släppt till prenumeranter i förra veckan, efter att den nya papperet skickades in), som sannolikt kommer att uppmuntra användarantagandet av RAG-baserade söksystem, trots de grundläggande bristerna som studieresultaten antyder*:
‘Släppandet av OpenAIs “SearchGPT”, marknadsfört som en “Google-sök-dödare”, förvärrar [bekymmer]. När beroendet av dessa verktyg växer, så ökar också brådskan att förstå deras påverkan. Lindemann introducerar begreppet Förseglad Kunskap, som kritiserar hur dessa system begränsar tillgången till mångfaldiga svar genom att kondensera sökfrågor till singulära, auktoritativa svar, och effektivt avkontextualiserar information och begränsar användar perspektiv.
‘Denna “försegling” av kunskap förstärker urvalsbias och begränsar marginaliserade perspektiv.’
Studien
Författarna testade först sin studieprocedur på tre av 24 utvalda deltagare, alla inbjudna via medel som LinkedIn eller e-post.
Den första fasen, för de återstående 21, involverade Expertis Information Retrieval, där deltagarna i genomsnitt hade runt sex sökfrågor under en 40-minuters session. Denna sektion koncentrerade sig på att skörda och verifiera faktabaserade frågor och svar, med potentiella empiriska lösningar.
Den andra fasen berörde Debatt Information Retrieval, som handlade med subjektiva ämnen, inklusive ekologi, vegetarianism och politik.

Genererade studiebesvar från Perplexity (vänster) och You Chat (höger). Källa: https://arxiv.org/pdf/2410.22349
Eftersom alla system tillät minst någon form av interaktivitet med citaten som tillhandahölls som stöd för de genererade svaren, uppmuntrades studieföremålen att interagera med gränssnittet så mycket som möjligt.
I båda fallen ombads deltagarna att formulera sina förfrågningar både genom ett RAG-system och en konventionell sökmotor (i det här fallet, Google).
De tre svarsmotorerna – You Chat, Bing Copilot och Perplexity – valdes eftersom de är offentligt tillgängliga.
Majoriteten av deltagarna var redan användare av RAG-system, i varierande frekvens.
På grund av utrymmesbegränsningar kan vi inte bryta ner var och en av de utförligt dokumenterade sexton nyckelbristerna som hittades i studien, men här presenterar vi ett urval av några av de mest intressanta och upplysande exemplen.
Brist på objektiv detalj
Papperet noterar att användare fann att systemens svar ofta saknade objektiv detalj, över både de faktiska och subjektiva svaren. En kommenterade:
‘Det försökte bara svara utan att faktiskt ge mig ett solidt svar eller ett mer genomtänkt svar, som jag kan få med flera Google-sökningar.’
En annan observerade:
‘Det är för kort och bara sammanfattar allt mycket. [Modellen] behöver ge mig mer data för påståendet, men det är mycket sammanfattat.’
Brist på holistiskt perspektiv
Författarna uttrycker oro över denna brist på nyans och specificitet, och hävdar att svarsmotorerna ofta misslyckades med att presentera flera perspektiv på något argument, och tenderade att stödja en upplevd bias som härleddes från användarens egen formulering av frågan.
En deltagare sade:
‘Jag vill veta mer om den motsatta sidan av argumentet… detta är allt med en nypa salt eftersom vi inte vet den andra sidan och bevisen och faktan.’
En annan kommenterade:
‘Det ger mig inte båda sidor av argumentet; det argumenterar inte med mig. Istället säger [modellen] bara att du har rätt… och här är skälen till varför.
Självsäkert språk
Författarna observerar att alla tre testade systemen visade användning av överdrivet självsäkert språk, även för svar som täcker subjektiva ämnen. De hävdar att denna ton kommer att tendera att inspirera oberättigad tillit till svaret.
En deltagare noterade:
‘Det skriver så självsäkert, jag känner mig övertygad utan att ens titta på källan. Men när du tittar på källan är den dålig och det gör mig tvivla igen.’
En annan kommenterade:
‘Om någon inte exakt vet det rätta svaret, kommer de att lita på detta även när det är fel.’
Felaktiga citat
Ett annat vanligt problem var felaktig tillskrivning av källor som citerades som auktoritet för RAG-systemens svar, med en av studieobjekten som hävdade:
‘[Detta] påstående verkar inte vara i källan. Jag menar att påståendet är sant; det är giltigt… men jag vet inte var det får informationen ifrån.’
Författarna till det nya papperet kommenterar †:
‘Deltagarna kände att systemen använde citat för att legitimera sitt svar, och skapade en illusion av trovärdighet. Denna fasad avslöjades bara för ett fåtal användare som gick vidare för att granska källorna.’
Urval av information för att passa frågan
När vi återvänder till begreppet människovänlig, sycophantiskt beteende i RAG-svar, fann studien att många svar betonade en viss synvinkel istället för att sammanfatta ämnet på ett omfattande sätt, som en deltagare observerade:
‘Jag känner [systemet] är manipulativt. Det tar bara viss information och det känns som att jag manipuleras för att bara se en sida av saker.’
En annan menade:
‘[Källan] har faktiskt både för- och nackdelar, och det har valt att plocka ut bara de krävda argumenten från den här länken utan hela bilden.’
För ytterligare exempel (och flera kritiska citat från enkätundersökningens deltagare), hänvisar vi läsaren till källpapperet.
Automatiserad RAG
I den andra fasen av den bredare studien använde forskarna webbläsarstyrningssviter för att systematiskt söka efter förfrågningar från de tre studerade RAG-motorerna. De använde sedan ett LLM-system (GPT-4o) för att analysera systemens svar.
Uttrycken analyserades för frågerelevant och Pro vs. Con-uttalanden (dvs. om svaret är för, mot eller neutralt i förhållande till den implicita biasen i frågan.
Ett Svarskonfidenspoäng utvärderades också i denna automatiserade fas, baserat på Likert-skala psykometrisk testmetod. Här förstärktes LLM-domaren av två mänskliga annotatorer.
En tredje operation innebar användning av webbskrapning för att erhålla fullständigt innehåll av citerade webbsidor, med hjälp av Jina.ai Reader-verktyget. Men som noterats på annat ställe i papperet kan de flesta webbskrapningsverktyg inte komma åt betalväggar mer än de flesta människor (även om författarna noterar att Perplexity.ai har varit känd för att kringgå denna barriär).
Ytterligare överväganden var om svaren citerade en källa (beräknad som en “citatmatris”), samt en “faktamässig stödmatris” – en mått som verifierades med hjälp av fyra mänskliga annotatorer.
Således erhölls 8 övergripande mått: ensidigt svar; överdrivet självsäkert svar; relevant uttalande; ociterade källor; ostödda påståenden; källnödvändighet; citeringsnoggrannhet; och citeringstörhet.
Materialet som dessa mått testades mot bestod av 303 kuraterade frågor från användarstudiefasen, vilket resulterade i 909 svar över de tre testade systemen.

Kvantitativ utvärdering över de tre testade RAG-systemen, baserat på åtta mått.
Vad gäller resultaten, skriver papperet:
‘När vi tittar på de tre måtten relaterade till svartexten, finner vi att de utvärderade svarsmotorerna ofta (50-80%) genererar ensidiga svar, som föredrar överensstämmelse med en laddad formulering av en debattfråga över att presentera flera perspektiv i svaret, med Perplexity som presterar sämre än de andra två motorerna.
‘Detta fynd överensstämmer med [fynden] från våra kvalitativa resultat. Förvånansvärt, även om Perplexity är mest benägna att generera ett ensidigt svar, genererar den också de längsta svaren (18,8 uttalanden per svar i genomsnitt), vilket indikerar att bristen på svardiversitet inte beror på svarkorthet.
‘Med andra ord, ökar svarlängden inte nödvändigtvis svardiversiteten.’
Författarna noterar också att Perplexity är mest benägna att använda självsäkert språk (90% av svaren), och att, i kontrast, de andra två systemen tenderar att använda mer försiktig och mindre självsäkert språk där subjektivt innehåll är i fokus.
You Chat var den enda RAG-ramen som uppnådde noll ociterade källor för ett svar, med Perplexity på 8% och Bing Chat på 36%.
Alla modeller visade en “betydande andel” ostrukturerade påståenden, och papperet förklarar†:
‘RAG-ramen marknadsförs för att lösa den hallucinatoriska beteendet hos LLM genom att tvinga en LLM att generera ett svar grundat i källdokument, men resultaten visar att RAG-baserade svarsmotorer fortfarande genererar svar som innehåller en stor andel uttalanden som inte stöds av de källor de tillhandahåller.‘
Dessutom hade alla testade system svårt att stödja sina påståenden med citat:
‘You.Com och [Bing Chat] presterar något bättre än Perplexity, med cirka två tredjedelar av citaten som pekar på en källa som stöder det citerade påståendet, och Perplexity presterar sämre med mer än hälften av sina citat som är felaktiga.
‘Detta resultat är förvånansvärt: citering är inte bara felaktig för påståenden som inte stöds av någon (källa), men vi finner att även när det finns en källa som stöder ett påstående, misslyckas alla motorer fortfarande ofta med att citera en annan felaktig källa, och förhindrar användarna från att verifiera informationsvaliditet.
‘Med andra ord, hallucinatoriskt beteende visas inte bara i påståenden som inte stöds av källor, utan också i felaktiga citat som förhindrar användare från att verifiera informationsvaliditet.‘
Författarna slutsats:
‘Ingen av svarsmotorerna uppnår god prestanda på de flesta mått, vilket betonar det stora utrymmet för förbättring i svarsmotorer.’
* Min omvandling av författarnas inline-citat till hyperlänkar. Där det var nödvändigt valde jag den första av flera citat för hyperlänken, på grund av praktiska formateringsaspekter.
† Författarnas betoning, inte min.
Publicerad första gången måndag, 4 november 2024








