Kunstmatige intelligentie

Het overwinnen van LLM-hallucinaties met behulp van Retrieval Augmented Generation (RAG)

Published March 5, 2024

Updated May 15, 2026

Haziqa Sajid

Grote taalmodellen (LLM’s) revolutioneren de manier waarop we taal verwerken en genereren, maar ze zijn niet perfect. Net zoals mensen vormen in wolken of gezichten op de maan kunnen zien, kunnen LLM’s ook ‘hallucineren’ en informatie creëren die niet accuraat is. Dit fenomeen, bekend als LLM-hallucinaties, vormt een groeiende zorg nu het gebruik van LLM’s uitbreidt.

Fouten kunnen gebruikers in de war brengen en soms zelfs leiden tot juridische problemen voor bedrijven. Zo diende een luchtmachtveteraan Jeffery Battle (bekend als The Aerospace Professor) in 2023 een rechtszaak in tegen Microsoft toen hij ontdekte dat de ChatGPT-geactiveerde Bing-zoekmachine soms feitelijk onnauwkeurige en schadelijke informatie over zijn naam gaf. De zoekmachine verwart hem met een veroordeelde crimineel Jeffery Leon Battle.

Om hallucinaties aan te pakken, is Retrieval Augmented Generation (RAG) opgekomen als een veelbelovende oplossing. Het integreert kennis uit externe databases om de nauwkeurigheid en geloofwaardigheid van de LLM’s te verbeteren. Laten we een nadere blik werpen op hoe RAG LLM’s meer accuraat en betrouwbaar maakt. We zullen ook bespreken of RAG de LLM-hallucinatie-effectief kan tegengaan.

Het begrijpen van LLM-hallucinaties: oorzaken en voorbeelden

LLM’s, waaronder bekende modellen als ChatGPT, ChatGLM en Claude, zijn getraind op uitgebreide tekstuele datasets, maar zijn niet immuun voor het produceren van feitelijk onjuiste uitvoer, een fenomeen dat ‘hallucinaties’ wordt genoemd. Hallucinaties treden op omdat LLM’s zijn getraind om zinvolle antwoorden te creëren op basis van onderliggende taalregels, ongeacht hun feitelijke nauwkeurigheid.

Een Tidio-onderzoek toonde aan dat 72% van de gebruikers denkt dat LLM’s betrouwbaar zijn, maar 75% heeft onjuiste informatie van AI ontvangen. Zelfs de meest veelbelovende LLM-modellen als GPT-3.5 en GPT-4 kunnen soms onnauwkeurige of nonsensische inhoud produceren.

Hier volgt een korte overzicht van veelvoorkomende soorten LLM-hallucinaties:

Veelvoorkomende soorten AI-hallucinaties:

Bronverwarring: Dit treedt op wanneer een model details uit verschillende bronnen combineert, wat leidt tot tegenstrijdigheden of zelfs gefabriceerde bronnen.
Feitelijke fouten: LLM’s kunnen inhoud genereren met een onnauwkeurige feitelijke basis, vooral gezien de inherente onnauwkeurigheden van het internet
Nonsensinformatie: LLM’s voorspellen het volgende woord op basis van waarschijnlijkheid. Dit kan resulteren in grammaticaal correcte maar zinloze tekst, waardoor gebruikers worden misleid over de autoriteit van de inhoud.

Vorig jaar werden twee advocaten mogelijk gesanctioneerd omdat ze zes niet-bestaande zaken in hun juridische documenten vermeldden, misleid door ChatGPT-gegenereerde informatie. Dit voorbeeld benadrukt het belang van een kritische blik op LLM-gegenereerde inhoud, waardoor de noodzaak van verificatie om betrouwbaarheid te garanderen wordt onderstreept. Hoewel de creatieve capaciteit voordelen biedt voor toepassingen zoals verhalen vertellen, vormt het uitdagingen voor taken die strikte naleving van feiten vereisen, zoals het uitvoeren van academisch onderzoek, het schrijven van medische en financiële analyses en het geven van juridisch advies.

Het onderzoeken van de oplossing voor LLM-hallucinaties: hoe Retrieval Augmented Generation (RAG) werkt

In 2020 introduceerden LLM-onderzoekers een techniek genaamd Retrieval Augmented Generation (RAG) om LLM-hallucinaties te mitigeren door een externe gegevensbron te integreren. In tegenstelling tot traditionele LLM’s die uitsluitend op hun vooraf getrainde kennis vertrouwen, genereren RAG-gebaseerde LLM-modellen feitelijk accurate antwoorden door dynamisch relevante informatie uit een externe database op te halen voordat ze vragen beantwoorden of tekst genereren.

RAG-proces: stap voor stap

Stappen van RAG

Stappen van RAG-proces: Bron

Stap 1: Opvragen

Het systeem zoekt in een specifieke kennisbasis naar informatie die verband houdt met de vraag van de gebruiker. Als iemand bijvoorbeeld vraagt naar de laatste winnaar van het WK voetbal, zoekt het naar de meest relevante voetbalinformatie.

Stap 2: Aanvullen

De oorspronkelijke vraag wordt vervolgens aangevuld met de gevonden informatie. Met het voorbeeld van voetbal wordt de vraag “Wie won het WK voetbal?” bijgewerkt met specifieke details zoals “Argentinië won het WK voetbal.”

Stap 3: Genereren

Met de verrijkte vraag genereert de LLM een gedetailleerd en accuraat antwoord. In ons geval zou het een antwoord creëren op basis van de aangevulde informatie over Argentinië dat het WK voetbal won.

Deze methode helpt bij het verminderen van onnauwkeurigheden en zorgt ervoor dat de antwoorden van de LLM meer betrouwbaar en gebaseerd zijn op accurate gegevens.

Voordelen en nadelen van RAG bij het verminderen van hallucinaties

RAG heeft zijn waarde bewezen bij het verminderen van hallucinaties door het generatieproces te verbeteren. Deze mechanisme stelt RAG-modellen in staat om meer accurate, up-to-date en contextueel relevante informatie te bieden.

Het is zeker zo dat het bespreken van Retrieval Augmented Generation (RAG) in een meer algemene zin een bredere kennis van zijn voordelen en beperkingen over verschillende implementaties mogelijk maakt.

Voordelen van RAG:

Beter zoeken naar informatie: RAG vindt snel accurate informatie in grote gegevensbronnen.
Verbeterde inhoud: Het creëert duidelijke, goed afgestemde inhoud voor wat gebruikers nodig hebben.
Flexibel gebruik: Gebruikers kunnen RAG aanpassen aan hun specifieke vereisten, zoals het gebruik van hun eigen gegevensbronnen, waardoor de effectiviteit wordt verhoogd.

Uitdagingen van RAG:

Specifieke gegevens nodig: Het accurate begrijpen van de context van de vraag om relevante en precieze informatie te kunnen bieden, kan moeilijk zijn.
Schaalbaarheid: Het uitbreiden van het model om grote gegevenssets en vragen te verwerken en tegelijkertijd de prestaties te behouden, is moeilijk.
Continue update: Het automatisch updaten van de kennisdataset met de laatste informatie is hulpbronnenintensief.

Alternatieven voor RAG onderzoeken

Naast RAG zijn hier enkele andere veelbelovende methoden die LLM-onderzoekers in staat stellen om hallucinaties te verminderen:

G-EVAL : Het controleert de nauwkeurigheid van gegenereerde inhoud met een vertrouwde dataset, waardoor de betrouwbaarheid wordt verbeterd.
SelfCheckGPT : Het controleert en corrigeert automatisch zijn eigen fouten om outputs accuraat en consistent te houden.
Prompt Engineering: Het helpt gebruikers om precieze invoervragen te ontwerpen om modellen naar accurate en relevante antwoorden te leiden.
Fine-tuning: Het past het model aan aan taak-specifieke datasets voor verbeterde domein-specifieke prestaties.
LoRA (Low-Rank Adaptation) : Deze methode past een klein deel van de parameters van het model aan voor taak-specifieke aanpassing, waardoor de efficiëntie wordt verbeterd.

Het onderzoeken van RAG en zijn alternatieven benadrukt de dynamische en multifacetteerde aanpak om de nauwkeurigheid en betrouwbaarheid van LLM’s te verbeteren. Naarmate we vooruitgaan, is continue innovatie in technologieën zoals RAG essentieel om de inherente uitdagingen van LLM-hallucinaties aan te pakken.

Om op de hoogte te blijven van de laatste ontwikkelingen in AI en machine learning, inclusief diepgaande analyses en nieuws, bezoek unite.ai.