Prompt engineering
Het aanpakken van hallucinaties in grote taalmodellen: Een overzicht van state-of-the-art-technieken

Grote taalmodellen (LLM’s) zoals GPT-4, PaLM en Llama hebben opmerkelijke vooruitgang geboekt in de mogelijkheden voor natuurlijke taalgeneratie. Echter, een hardnekkige uitdaging die hun betrouwbaarheid en veilige inzet beperkt, is hun neiging om te hallucineren – het genereren van inhoud die coherent lijkt, maar feitelijk onjuist of niet gebaseerd is op de invoercontext.
Aangezien LLM’s steeds krachtiger en alomtegenwoordiger worden in echte toepassingen, wordt het aanpakken van hallucinaties noodzakelijk. Dit artikel biedt een uitgebreid overzicht van de nieuwste technieken die onderzoekers hebben geïntroduceerd om hallucinaties in LLM’s te detecteren, kwantificeren en mitigeren.
Hallucinaties in LLM’s begrijpen
Hallucinatie verwijst naar feitelijke onnauwkeurigheden of fabricaties gegenereerd door LLM’s die niet gebaseerd zijn op de realiteit of de verstrekte context. Enkele voorbeelden zijn:
- Het verzinnen van biografische details of gebeurtenissen die niet worden ondersteund door bronmateriaal bij het genereren van tekst over een persoon.
- Het verstrekken van ondeugdelijk medisch advies door het verzinnen van bijwerkingen van medicijnen of behandelingsprocedures.
- Het verzinnen van niet-bestaande gegevens, onderzoeken of bronnen om een bewering te ondersteunen.
Dit fenomeen treedt op omdat LLM’s zijn getraind op grote hoeveelheden online tekstgegevens. Hoewel dit hen sterk taalmodelleercapaciteiten geeft, betekent het ook dat ze leren informatie te extrapoleren, logische sprongen te maken en gaten te vullen op een manier die overtuigend lijkt, maar misleidend of onjuist kan zijn.
Enkele belangrijke factoren die verantwoordelijk zijn voor hallucinaties, zijn:
- Patroongeneralisatie – LLM’s identificeren en verlengen patronen in de trainingsgegevens die mogelijk niet goed generaliseren.
- Verouderde kennis – Statische voortraining voorkomt de integratie van nieuwe informatie.
- Dubbelzinnigheid – Vaag geformuleerde prompts laten ruimte voor onjuiste aannamen.
- Vooringenomenheden – Modellen versterken en versterken scheve perspectieven.
- Onvoldoende gronding – Gebrek aan begrip en redenering betekent dat modellen inhoud genereren die ze niet volledig begrijpen.
Het aanpakken van hallucinaties is kritisch voor het vertrouwenwekkend inzetten in gevoelige domeinen zoals geneeskunde, recht, financiën en onderwijs, waar het genereren van misinformatie tot schade kan leiden.
Taxonomie van technieken voor het mitigeren van hallucinaties
Onderzoekers hebben diverse technieken geïntroduceerd om hallucinaties in LLM’s te bestrijden, die kunnen worden onderverdeeld in:
1. Prompt-engineering
Dit omvat het zorgvuldig ontwerpen van prompts om context te bieden en de LLM te leiden naar feitelijke, gefundeerde antwoorden.
- Opzoeking – Opzoeken van externe bewijs om inhoud te funderen.
- Feedbackloops – Iteratief feedback geven om antwoorden te verfijnen.
- Promptafstemming – Aanpassen van prompts tijdens fijnafstemming voor gewenst gedrag.
2. Modelontwikkeling
Het creëren van modellen die inherent minder geneigd zijn om te hallucineren via architectuurwijzigingen.
- Decodingstrategieën – Tekst genereren op manieren die geloofwaardigheid verhogen.
- Kennisfundering – Externe kennisbases integreren.
- Nieuwe verliesfuncties – Optimaliseren voor geloofwaardigheid tijdens training.
- Begeleide fijnafstemming – Gebruik van door mensen gelabelde gegevens om feitelijkheid te verbeteren.
Vervolgens zullen we prominente technieken onder elke aanpak bespreken.
Opvallende technieken voor het mitigeren van hallucinaties
Opzoeking-versterkte generatie
Opzoeking-versterkte generatie versterkt LLM’s door tekstgeneratie te voorzien van en te conditioneren op externe bewijsdocumenten, in plaats van alleen te vertrouwen op de impliciete kennis van het model. Dit fundeert inhoud in up-to-date, verifieerbare informatie, waardoor hallucinaties worden verminderd.
Prominente technieken zijn:
- RAG – Gebruikt een opzoekermoduul dat voor een seq2seq-model relevante passages levert om van te genereren. Beide componenten worden eind-tot-eind getraind.
- RARR – Laat LLM’s onderzocht ongeattribueerde claims in gegenereerde tekst en herschrijft ze om overeen te komen met opgehaald bewijs.
- Kennisopzoeking – Valideert onzekere generaties met behulp van opgehaalde kennis voordat tekst wordt gegenereerd.
- LLM-aanvuller – Zoekt iteratief kennis om bewijsketens voor LLM-prompts te construeren.
Feedback en redenering
Het gebruik van iteratief natuurlijke taalfeedback of zelfredenering stelt LLM’s in staat om hun initiële uitvoer te verfijnen en te verbeteren, waardoor hallucinaties worden verminderd.
CoVe gebruikt een verificatieketen-techniek. De LLM maakt eerst een ontwerp van een antwoord op de vraag van de gebruiker. Vervolgens genereert het potentiële verificatievragen om zijn eigen antwoord te controleren op basis van zijn vertrouwen in verschillende uitspraken. Bijvoorbeeld, voor een antwoord over een nieuwe medische behandeling, kan CoVe vragen genereren zoals “Wat is het werkzaamheidspercentage van de behandeling?”, “Heeft het een regulatoire goedkeuring ontvangen?”, “Wat zijn de potentiële bijwerkingen?”. Cruciaal is dat het systeem vervolgens probeert deze verificatievragen onafhankelijk te beantwoorden zonder beïnvloed te worden door het initiële antwoord. Als de antwoorden op de verificatievragen in strijd zijn met of niet kunnen ondersteunen van uitspraken in het oorspronkelijke antwoord, identificeert het systeem deze als waarschijnlijke hallucinaties en verfijnt het antwoord voordat het aan de gebruiker wordt gepresenteerd.
DRESS richt zich op het afstemmen van LLM’s om beter overeen te komen met menselijke voorkeuren via natuurlijke taalfeedback. Deze aanpak stelt niet-deskundige gebruikers in staat om vrije kritiek te geven op modelgeneraties, zoals “De genoemde bijwerkingen lijken overdreven” of verfijningsinstructies zoals “Besprak ook de kosten-effectiviteit”. DRESS gebruikt versterkend leren om modellen te trainen om antwoorden te genereren die zijn afgestemd op dergelijke feedback, wat interactie verbetert en onrealistische of onondersteunde uitspraken vermindert.
MixAlign gaat om met situaties waarin gebruikers vragen stellen die niet direct overeenkomen met de door het systeem opgehaalde bewijspassages. Bijvoorbeeld, een gebruiker kan vragen “Zal de vervuiling in China erger worden?” terwijl opgehaalde passages wereldwijde trends in vervuiling bespreken. Om hallucinaties met onvoldoende context te voorkomen, vraagt MixAlign expliciet om verduidelijking van de gebruiker wanneer het onzeker is over hoe de vraag moet worden gerelateerd aan de opgehaalde informatie. Deze mens-in-de-lus-mechanisme stelt gebruikers in staat om feedback te verkrijgen om bewijs correct te funderen en te contextualiseren, waardoor ongefundeerde antwoorden worden voorkomen.
De Zelfreflectie-techniek traint LLM’s om hun eigen antwoorden te evalueren, feedback te geven en iteratief te verfijnen met behulp van een multi-taakbenadering. Gegeven een antwoord gegenereerd voor een medische vraag, leert het model om de feitelijke nauwkeurigheid te scoren, tegenstrijdige of onondersteunde uitspraken te identificeren en deze te bewerken door relevante kennis op te halen. Door LLM’s deze feedbacklus van controleren, critiseren en iteratief verbeteren van hun eigen uitvoer te leren, wordt blinde hallucinatie verminderd.
Promptafstemming
Promptafstemming stelt het aanpassen van de instructieprompts die aan LLM’s worden gegeven tijdens fijnafstemming voor gewenst gedrag mogelijk.
De SynTra-methode gebruikt een synthetische samenvattingsopdracht om hallucinaties te minimaliseren voordat het model wordt overgebracht naar echte samenvattingsgegevens. De synthetische opdracht levert invoerpassages en vraagt modellen om deze samen te vatten door alleen opgehaalde informatie te gebruiken, zonder abstractie. Dit traint modellen om volledig te vertrouwen op geleverde inhoud in plaats van nieuwe informatie te hallucineren tijdens samenvatting. SynTra wordt getoond om hallucinatieproblemen te verminderen wanneer fijn afgestemde modellen worden ingezet op doeltaken.
UPRISE traint een universele promptopzoeker die de optimale zachte prompt levert voor few-shot learning op ongezien downstream-taken. Door effectieve prompts op te halen die zijn afgestemd op een diverse set taken, leert het model om te generaliseren en zich aan te passen aan nieuwe taken waarvoor het geen trainingsvoorbeelden heeft. Dit verbetert de prestaties zonder taakspecifieke afstemming te vereisen.
Nieuwe modelarchitecturen
FLEEK is een systeem dat zich richt op het ondersteunen van menselijke feitcontroleurs en validatoren. Het identificeert automatisch potentieel verifieerbare feitelijke claims gemaakt in een bepaalde tekst. FLEEK transformeert deze controleerbare uitspraken in vragen, haalt gerelateerde bewijs uit kennisbases op en biedt deze contextuele informatie aan menselijke validatoren om documentnauwkeurigheid en revisiebehoeften effectief te verifiëren.
De CAD-decodingbenadering vermindert hallucinaties in taalgeneratie door contextueel bewust decoderen. Specifiek versterkt CAD de verschillen tussen de uitvoerverdeling van een LLM wanneer deze wordt voorwaardelijk gemaakt door een context versus onvoorwaardelijk gegenereerd. Dit ontmoedigt het tegenspreken van contextueel bewijs en stuurt het model naar gefundeerde generaties.
DoLA mitigeert feitelijke hallucinaties door logit-contrastering tussen verschillende lagen van transformatienetwerken. Aangezien feitelijke kennis de neiging heeft om gelokaliseerd te zijn in bepaalde middelste lagen, vermindert het versterken van signalen vanuit die feitelijke lagen via DoLA’s logit-contrastering onjuiste feitelijke generaties.
De THAM-framework introduceert een regularisatieterm tijdens training om de onderlinge informatie tussen invoer en gehallucineerde uitvoer te minimaliseren. Dit helpt de afhankelijkheid van het model van de gegeven invoercontext te vergroten in plaats van ongebonden verbeelding, waardoor blinde hallucinaties worden verminderd.
Kennisfundering
Het funderen van LLM-generaties in gestructureerde kennis voorkomt ongebreidelde speculatie en fabricatie.
De RHO-model identificeert entiteiten in een conversatiecontext en koppelt ze aan een kennisgrafiek (KG). Gerelateerde feiten en relaties over die entiteiten worden opgehaald uit de KG en gefuseerd in de contextweergave die aan de LLM wordt gegeven. Dit kennisverrijkte context sturen vermindert hallucinaties in dialoog door antwoorden te houden die zijn gekoppeld aan gefundeerde feiten over genoemde entiteiten/gebeurtenissen.
HAR creëert contrafactualen trainingsgegevens die modelgegenereerde hallucinaties bevatten om beter te leren funderen. Gegeven een feitelijke passage, worden modellen aangezet om hallucinaties of vertekeningen te introduceren, waardoor een gewijzigde contrafactualen versie wordt gegenereerd. Fijnafstemming op deze gegevens dwingt modellen om inhoud beter te funderen in de oorspronkelijke feitelijke bronnen, waardoor improvisatie wordt verminderd.
Begeleide fijnafstemming
- Coach – Interactief kader dat gebruikersvragen beantwoordt, maar ook om correcties vraagt om te verbeteren.
- R-Tuning – Weigert ondersteunde vragen te beantwoorden die zijn geïdentificeerd via kennisgaten in trainingsgegevens.
- TWEAK – Decodingmethode die generaties rangschikt op basis van hoe goed hypotheses inputfeiten ondersteunen.
Uitdagingen en beperkingen
Ondanks veelbelovende vooruitgang, blijven enkele belangrijke uitdagingen bestaan bij het mitigeren van hallucinaties:
- Techniekenoffers vaak kwaliteit, coherentie en creativiteit voor waarheidsgetrouwheid.
- Moeilijkheid bij rigoureuze evaluatie buiten beperkte domeinen. Metingen vangen niet alle nuances.
- Veel methoden zijn computationeel duur, waarbij uitgebreide opzoeking of zelfredenering nodig is.
- Zwaar afhankelijk van de kwaliteit van trainingsgegevens en externe kennisbronnen.
- Moeilijk om generaliseerbaarheid over domeinen en modaliteiten te garanderen.
- Fundamentele wortels van hallucinatie zoals over-extrapolatie blijven onopgelost.
Het aanpakken van deze uitdagingen vereist waarschijnlijk een multilayered benadering die trainingsgegevensverbeteringen, modelarchitectuurverbeteringen, geloofwaardigheidsverhogende verliesfuncties en technieken op het moment van inferentie combineert.
De weg vooruit
Hallucinatie-mitigatie voor LLM’s blijft een open onderzoeksprobleem met actieve vooruitgang. Enkele veelbelovende toekomstige richtingen zijn:
- Hybride technieken: Combineren van complementaire benaderingen zoals opzoeking, kennisfundering en feedback.
- Causaliteitsmodellering: Verbeteren van begrip en redenering.
- Online kennisintegratie: Wereldkennis up-to-date houden.
- Formele verificatie: Wiskundige garanties voor modelgedrag bieden.
- Interpreteerbaarheid: Transparantie bouwen in mitigatietechnieken.
Aangezien LLM’s blijven prolifereren in hoge-inzet-domeinen, zal het ontwikkelen van robuuste oplossingen om hallucinaties te verminderen cruciaal zijn voor hun veilige, ethische en betrouwbare inzet. De in dit artikel besproken technieken bieden een overzicht van de tot nu toe voorgestelde technieken, waarbij meer open onderzoeksuitdagingen overblijven. Over het algemeen is er een positieve trend naar het verbeteren van model-feitelijkheid, maar voortdurende vooruitgang vereist het aanpakken van beperkingen en het verkennen van nieuwe richtingen zoals causaliteit, verificatie en hybride methoden. Met ijverige inspanningen van onderzoekers uit verschillende disciplines kan de droom van krachtige maar betrouwbare LLM’s werkelijkheid worden.










