Connect with us

Kunstmatige intelligentie

Nieuw onderzoek vindt zestien grote problemen met RAG-systemen, waaronder Perplexity

mm
Image generated by ChatGPT-4o, with prompt ' Create a highly photorealistic panoramic image of a robot frantically searching the internet on a laptop. Do not stylize this image so that it looks like a false or AI-created image'

Een recente studie uit de VS heeft aangetoond dat de prestaties van populaire Retrieval Augmented Generation (RAG) onderzoeks-systemen zoals Perplexity en Bing Copilot ver achterblijven bij zowel de marketinghype als de populaire adoptie die de afgelopen 12 maanden de koppen heeft gehaald.

Het project, dat uitgebreide enquête-deelname omvatte met 21 expert-stemmen, vond niet minder dan 16 gebieden waarin de bestudeerde RAG-systemen (You Chat, Bing Copilot en Perplexity) aanleiding gaven tot bezorgdheid:

1: Een gebrek aan objectieve details in de gegenereerde antwoorden, met generieke samenvattingen en schamele contextuele diepte of nuance.

2. Versterking van waargenomen gebruikersvoorkeur, waar een RAG-motor vaak niet in staat is om een reeks standpunten te presenteren, maar in plaats daarvan de gebruikersvoorkeur versterkt, op basis van de manier waarop de gebruiker een vraag formuleert.

3. Te zelfverzekerd taalgebruik, met name in subjectieve antwoorden die niet empirisch kunnen worden vastgesteld, wat gebruikers ertoe kan brengen het antwoord meer te vertrouwen dan het verdient.

4: Eenvoudig taalgebruik en een gebrek aan kritisch denken en creativiteit, waar antwoorden effectief de gebruiker paternalistisch behandelen met ‘vereenvoudigde’ en ‘overeenstemmende’ informatie, in plaats van doordachte overweging en analyse.

5: Verkeerde toeschrijving en verkeerde citaten, waar de antwoordengine bronnen citeert die de reactie niet ondersteunen, waardoor de illusie van geloofwaardigheid wordt gecreëerd.

6: Cherry-picking van informatie uit afgeleide context, waar de RAG-agent lijkt te zoeken naar antwoorden die de gegenereerde bewering ondersteunen en de inschatting van wat de gebruiker wil horen, in plaats van antwoorden te baseren op objectieve analyse van betrouwbare bronnen (mogelijk een conflict tussen de ‘ingebakken’ LLM-gegevens en de gegevens die het verkrijgt via internet in reactie op een query).

7: Weglaten van citaten die uitspraken ondersteunen, waar bronmateriaal voor antwoorden ontbreekt.

8: Geen logische schema voor de antwoorden, waar gebruikers niet kunnen vragen waarom het systeem bepaalde bronnen boven andere bronnen prioriteert.

9: Beperkt aantal bronnen, waar de meeste RAG-systemen doorgaans ongeveer drie ondersteunende bronnen voor een uitspraak bieden, zelfs waar een grotere diversiteit aan bronnen van toepassing zou zijn.

10: Weesbronnen, waar gegevens van alle of sommige van de ondersteunende citaten van het systeem niet daadwerkelijk in het antwoord zijn opgenomen.

11: Gebruik van onbetrouwbare bronnen, waar het systeem lijkt te hebben de voorkeur gegeven aan een bron die populair is (d.w.z. in SEO-termen) in plaats van feitelijk correct.

12: Overbodige bronnen, waar het systeem meerdere citaten presenteert waarin de bronartikelen in wezen hetzelfde zijn in inhoud.

13: Ongefilterde bronnen, waar het systeem de gebruiker geen manier biedt om de aangeboden citaten te evalueren of te filteren, waardoor gebruikers genoodzaakt zijn de selectiecriteria te vertrouwen.

14: Gebrek aan interactie of verkenbaarheid, waarin verschillende van de deelnemers aan de gebruikersstudie gefrustreerd waren dat RAG-systemen geen verduidelijkende vragen stelden, maar gebruikersintentie veronderstelden vanaf de eerste query.

15: De noodzaak van externe verificatie, waar gebruikers zich genoodzaakt voelen om onafhankelijke verificatie van de verstrekte antwoord(en) uit te voeren, waardoor de vermeende gemakkelijkheid van RAG als ‘vervanging voor zoekopdrachten’ grotendeels wordt tenietgedaan.

16: Gebruik van academische citatiemethoden, zoals [1] of [34]; dit is standaardpraktijk in academische kringen, maar kan voor veel gebruikers onintuïtief zijn.

Voor het werk verzamelden de onderzoekers 21 experts in kunstmatige intelligentie, gezondheidszorg en geneeskunde, toegepaste wetenschappen en onderwijs en sociale wetenschappen, allemaal postdoctorale onderzoekers of PhD-kandidaten. De deelnemers interacteerden met de geteste RAG-systemen terwijl ze hun gedachten hardop uitspraken, om (voor de onderzoekers) hun eigen rationele schema te verduidelijken.

Het papier citeert uitgebreid de twijfels en zorgen van de deelnemers over de prestaties van de drie bestudeerde systemen.

De methodologie van de gebruikersstudie werd vervolgens geïntegreerd in een geautomatiseerde studie van de RAG-systemen, met behulp van browsercontrole suites:

‘Een grootschalige geautomatiseerde evaluatie van systemen zoals You.com, Perplexity.ai en BingChat toonde aan dat geen van deze systemen aanvaardbare prestaties behaalden op de meeste metrics, waaronder kritische aspecten met betrekking tot het omgaan met hallucinaties, onondersteunde uitspraken en citatie-accuraatheid.’

De auteurs betogen uitgebreid (en zorgvuldig, in het uitgebreide 27-pagina’s tellende papier) dat zowel nieuwe als ervaren gebruikers voorzichtig moeten zijn bij het gebruik van de klasse van RAG-systemen die in de studie zijn onderzocht. Zij stellen verder een nieuw systeem van metrics voor, gebaseerd op de tekortkomingen die in de studie zijn gevonden, die de basis kunnen vormen voor een grotere technische toezicht in de toekomst.

Echter, het groeiende openbare gebruik van RAG-systemen leidt ertoe dat de auteurs ook pleiten voor passende wetgeving en een groter niveau van afdwingbare overheidsbeleid met betrekking tot agent-ondersteunde AI-zoekinterfaces.

De studie komt van vijf onderzoekers uit de Pennsylvania State University en Salesforce, en heeft als titel Search Engines in an AI Era: The False Promise of Factual and Verifiable Source-Cited Responses. Het werk behandelt RAG-systemen tot de stand van de techniek in augustus 2024

De RAG-ruil

De auteurs beginnen hun werk met het herhalen van vier bekende tekortkomingen van Large Language Models (LLM’s) waar ze worden gebruikt binnen Antwoordengines.

Ten eerste zijn ze geneigd om hallucinatoire informatie te produceren, en ontbreekt het hen aan de mogelijkheid om feitelijke inconsistenties te detecteren. Ten tweede hebben ze moeite om de nauwkeurigheid van een citaat in de context van een gegenereerd antwoord te beoordelen. Ten derde hebben ze de neiging om gegevens te bevorchten uit hun eigen vooraf getrainde gewichten, en kunnen ze weerstand bieden tegen gegevens uit extern opgehaalde documentatie, zelfs als deze gegevens meer recent of meer accuraat zouden zijn.

Ten slotte hebben RAG-systemen de neiging om mensen te pleasen, sycophantisch gedrag, vaak ten koste van de nauwkeurigheid van de informatie in hun antwoorden.

Al deze neigingen werden bevestigd in beide aspecten van de studie, naast veel nieuwe observaties over de valkuilen van RAG.

Het papier ziet OpenAI’s SearchGPT RAG-product (uitgebracht aan abonnees in de afgelopen week, na het indienen van het nieuwe papier), als waarschijnlijk om de gebruikersadoptie van RAG-gebaseerde zoeksystemen te stimuleren, ondanks de fundamentale tekortkomingen die de resultaten van de enquête suggereren*:

‘De release van OpenAI’s ‘SearchGPT,’ gemarkeerd als een ‘Google search killer’, verergert [zorgen]. Naarmate de afhankelijkheid van deze tools groeit, groeit ook de urgentie om hun impact te begrijpen. Lindemann introduceert het concept van Sealed Knowledge, dat kritiek levert op hoe deze systemen de toegang tot diverse antwoorden beperken door zoekopdrachten samen te voegen tot enkele, gezaghebbende antwoorden, waardoor informatie wordt gedecontextualiseerd en gebruikersperspectieven worden beperkt.

‘Deze “afsluiting” van kennis in stand houdt selectievoorkeuren en beperkt gemarginaliseerde standpunten.’

De Studie

De auteurs testten eerst hun studieprocedure op drie van de 24 geselecteerde deelnemers, allemaal uitgenodigd via middelen zoals LinkedIn of e-mail.

De eerste fase, voor de overige 21, omvatte Expertise Information Retrieval, waar deelnemers gemiddeld ongeveer zes zoekopdrachten uitvoerden tijdens een sessie van 40 minuten. Deze sectie concentreerde zich op het verzamelen en verifiëren van feit-gebaseerde vragen en antwoorden, met potentieel empirische oplossingen.

De tweede fase had betrekking op Debate Information Retrieval, die in plaats daarvan te maken had met subjectieve kwesties, waaronder ecologie, vegetarisme en politiek.

Gegenereerde studie-antwoorden van Perplexity (links) en You Chat (rechts). Bron: https://arxiv.org/pdf/2410.22349

Gegenereerde studie-antwoorden van Perplexity (links) en You Chat (rechts). Bron: https://arxiv.org/pdf/2410.22349

Aangezien alle systemen ten minste enige mate van interactie met de citaten toestonden die als ondersteuning voor de gegenereerde antwoorden werden verstrekt, werden de studieonderwerpen aangemoedigd om zo veel mogelijk met de interface te interageren.

In beide gevallen werden de deelnemers gevraagd om hun vragen te formuleren via een RAG-systeem en een conventionele zoekmachine (in dit geval Google).

De drie Antwoordengines – You Chat, Bing Copilot en Perplexity – werden gekozen omdat ze openbaar toegankelijk zijn.

De meerderheid van de deelnemers waren al gebruikers van RAG-systemen, met variabele frequentie.

Vanwege ruimtebeperkingen kunnen we niet elk van de uitgebreid gedocumenteerde zestien belangrijke tekortkomingen die in de studie zijn gevonden, opsplitsen, maar presenteren we hier een selectie van enkele van de meest interessante en verhelderende voorbeelden.

Gebrek aan objectieve details

Het papier merkt op dat gebruikers vaak ontdekten dat de antwoorden van de systemen vaak een gebrek aan objectieve details vertoonden, zowel in feitelijke als subjectieve antwoorden. Een deelnemer merkte op:

‘Het was gewoon proberen om een antwoord te geven zonder me een solide antwoord of een meer doordachte antwoord te geven, wat ik kan krijgen met meerdere Google-zoekopdrachten.’

Een andere observeerde:

‘Het is te kort en samenvat alles veel. [Het model] moet me meer gegevens voor de claim geven, maar het is erg samengevat.’

Gebrek aan holistisch standpunt

De auteurs uiten hun bezorgdheid over dit gebrek aan nuance en specificiteit, en stellen dat de Antwoordengines vaak niet in staat waren om meerdere perspectieven op een argument te presenteren, maar de voorkeur gaven aan een veronderstelde voorkeur die werd afgeleid van de manier waarop de gebruiker de vraag formuleerde.

Een deelnemer zei:

‘Ik wil meer te weten komen over de andere kant van het argument… dit is allemaal met een korrel zout, omdat we de andere kant niet kennen en de bewijzen en feiten.’

Een andere opmerking:

‘Het geeft je niet beide kanten van het argument; het is niet in discussie met je. In plaats daarvan [het model] zegt gewoon dat je gelijk hebt… en hier zijn de redenen waarom.’

Zelfverzekerd taalgebruik

De auteurs observeren dat alle drie geteste systemen het gebruik van zelfverzekerd taalgebruik vertoonden, zelfs voor antwoorden die subjectieve onderwerpen behandelen. Zij beweren dat deze toon de neiging heeft om ongerechtvaardigd vertrouwen in het antwoord te inspireren.

Een deelnemer merkte op:

‘Het schrijft zo zelfverzekerd, ik voel me overtuigd zonder zelfs maar naar de bron te kijken. Maar als je naar de bron kijkt, is het slecht en dat maakt me het weer twijfelen.’

Een andere opmerking:

‘Als iemand niet exact weet wat het juiste antwoord is, zullen ze dit vertrouwen, zelfs als het verkeerd is.’

Onjuiste citaten

Een ander veelvoorkomend probleem was de verkeerde toeschrijving van bronnen die als autoriteit voor de antwoorden van de RAG-systemen werden aangehaald, waar een van de deelnemers aan de studie beweerde:

‘[Deze] verklaring lijkt niet in de bron te staan. Ik bedoel dat de verklaring waar is; het is geldig… maar ik weet niet waar het deze informatie vandaan haalt.’

De auteurs van het nieuwe papier merken op :

‘Deelnemers voelden dat de systemen citaten gebruikten om hun antwoord te legitimeren, waardoor een illusie van geloofwaardigheid werd gecreëerd. Deze façade werd alleen aan een paar gebruikers onthuld die de bronnen verder onderzochten.’

Cherry-picking van informatie om aan de query te voldoen

Terugkerend naar het idee van mensen behagen, sycophantisch gedrag in RAG-antwoorden, ontdekte de studie dat veel antwoorden een bepaald standpunt benadrukten in plaats van een samenhangende samenvatting van het onderwerp, zoals een deelnemer opmerkte:

‘Ik voel [het systeem] manipulatief. Het neemt alleen sommige informatie en het voelt alsof ik gemanipuleerd word om alleen één kant van de dingen te zien.’

Een andere meende:

[De bron] heeft eigenlijk zowel voor- als nadelen, en [het systeem] heeft ervoor gekozen om alleen de vereiste argumenten uit deze link te kiezen zonder het hele beeld.’
Voor verdere diepgaande voorbeelden (en meerdere kritische citaten van de deelnemers aan de enquête), verwijzen wij de lezer naar het bronpapier.

Geautomatiseerde RAG

In de tweede fase van de bredere studie gebruikten de onderzoekers browser-gebaseerde scripting om systematisch vragen te stellen aan de drie bestudeerde RAG-motoren. Zij gebruikten vervolgens een LLM-systeem (GPT-4o) om de antwoorden van de systemen te analyseren.

De uitspraken werden geanalyseerd op query-relevantie en Pro vs. Con Statements (d.w.z. of het antwoord voor, tegen of neutraal is ten opzichte van de impliciete voorkeur van de vraag.

Een Antwoordvertrouwensscore werd ook geëvalueerd in deze geautomatiseerde fase, op basis van de Likert-schaal psychometrische testmethode. Hier werd de LLM-rechter aangevuld met twee menselijke annotators.

Een derde bewerking omvatte het gebruik van web-scraping om de volledige tekstinhoud van aangehaalde webpagina’s te verkrijgen, met behulp van de Jina.ai Reader-tool. Echter, zoals elders in het papier vermeld, zijn de meeste web-scrapingtools niet in staat om toegang te krijgen tot betaalde sites, net zoals de meeste mensen dat niet zijn (hoewel de auteurs opmerken dat Perplexity.ai bekend staat om deze barrière te omzeilen).

Aanvullende overwegingen waren of de antwoorden een bron citeerden (berekenend als een ‘citatiematrix’), evenals een ‘feitelijk ondersteuningsmatrix’ – een metrische waarde geverifieerd met de hulp van vier menselijke annotators.

Zo werden 8 overkoepelende metrics verkregen: eenzijdig antwoord; zelfverzekerd antwoord; relevante verklaring; ongeciteerde bronnen; ongesteunde uitspraken; bron noodzakelijkheid; citatie-accuraatheid; en citatie-grondigheid.

Het materiaal waartegen deze metrics werden getest, bestond uit 303 gecureerde vragen uit de gebruikersstudiefase, resulterend in 909 antwoorden over de drie geteste systemen.

Kwantitatieve evaluatie over de drie geteste RAG-systemen, op basis van acht metrics.

Kwantitatieve evaluatie over de drie geteste RAG-systemen, op basis van acht metrics.

Met betrekking tot de resultaten, stelt het papier:

‘Bij het kijken naar de drie metrics met betrekking tot de antwoordtekst, vinden we dat alle beoordeelde antwoordengines vaak (50-80%) eenzijdige antwoorden genereren, waarbij overeenstemming met een geladen formulering van een debatvraag de voorkeur krijgt boven het presenteren van meerdere perspectieven in het antwoord, waarbij Perplexity slechter presteert dan de andere twee engines.

‘Dit resultaat stemt overeen met [de resultaten] van onze kwalitatieve resultaten. Opvallend is dat, hoewel Perplexity het meest geneigd is om een eenzijdig antwoord te genereren, het ook de langste antwoorden genereert (18,8 verklaringen per antwoord gemiddeld), wat aangeeft dat het gebrek aan antwoorddiversiteit niet te wijten is aan antwoordlengte.

‘Met andere woorden, het verhogen van de antwoordlengte leidt niet noodzakelijk tot een verbetering van de antwoorddiversiteit.’

De auteurs merken ook op dat Perplexity het meest geneigd is om zelfverzekerd taalgebruik te gebruiken (90% van de antwoorden), en dat, in tegenstelling, de andere twee systemen de neiging hebben om meer voorzichtig en minder zelfverzekerd taalgebruik te gebruiken waar subjectief materiaal in het spel is.

You Chat was het enige RAG-raamwerk dat nul ongeciteerde bronnen voor een antwoord behaalde, met Perplexity op 8% en Bing Chat op 36%.

Alle modellen toonden een ‘aanzienlijk deel’ van onondersteunde uitspraken, en het papier verklaart:

‘Het RAG-raamwerk wordt geadverteerd als een oplossing voor het hallucinatoire gedrag van LLM’s door te garanderen dat een LLM een antwoord genereert dat gebaseerd is op brondocumenten, maar de resultaten laten zien dat RAG-gebaseerde antwoordengines nog steeds antwoorden genereren die een grote hoeveelheid uitspraken bevatten die niet worden ondersteund door de bronnen die ze verstrekken.

Bovendien hadden alle geteste systemen moeite om hun uitspraken te ondersteunen met citaten:

‘You.Com en [Bing Chat] presteren iets beter dan Perplexity, met ongeveer twee derde van de citaten die naar een bron verwijzen die de aangehaalde verklaring ondersteunt, en Perplexity presteert slechter met meer dan de helft van de citaten die onnauwkeurig zijn.

‘Dit resultaat is verrassend: citatie is niet alleen onjuist voor uitspraken die niet worden ondersteund door enige bron, maar we vinden dat alle engines zelfs wanneer er een bron is die de verklaring ondersteunt, nog steeds vaak een andere onjuiste bron citeren, waardoor gebruikers de kans wordt ontnomen om correcte informatiebronnen te verstrekken aan de gebruiker.

Met andere woorden, hallucinatoire gedrag wordt niet alleen getoond in uitspraken die niet worden ondersteund door bronnen, maar ook in onjuiste citaten die gebruikers beletten de geldigheid van informatie te verifiëren.

De auteurs concluderen:

‘Geen van de antwoordengines behaalt goede prestaties op de meeste metrics, waardoor een grote ruimte voor verbetering in antwoordengines wordt benadrukt.’

 

 

* Mijn conversie van de inline citaten van de auteurs naar hyperlinks. Waar nodig heb ik de eerste van meerdere citaten voor de hyperlink gekozen vanwege praktische overwegingen bij het formatteren.

Auteursbenadrukking, niet de mijne.

Eerst gepubliceerd op maandag 4 november 2024

Schrijver over machine learning, domeinspecialist in menselijke beeldsynthese. Voormalig hoofd onderzoekscontent bij Metaphysic.ai.