Prompt engineering
Het aanpakken van hallucinaties in grote taalmodellen: een overzicht van state-of-the-art-technieken

Grote taalmodellen (LLM’s) zoals GPT-4, PaLM en Llama hebben opmerkelijke vooruitgang geboekt in de mogelijkheden van natuurlijke taalgeneratie. Echter, een hardnekkige uitdaging die de betrouwbaarheid en veilige inzet van deze modellen beperkt, is hun neiging om hallucinaties te produceren – het genereren van inhoud die coherent lijkt, maar feitelijk onjuist of niet gebaseerd is op de invoercontext.
Naarmate LLM’s krachtiger en alomtegenwoordiger worden in echte toepassingen, wordt het aanpakken van hallucinaties noodzakelijk. Dit artikel biedt een uitgebreid overzicht van de nieuwste technieken die onderzoekers hebben geïntroduceerd om hallucinaties in LLM’s te detecteren, kwantificeren en mitigeren.
Hallucinaties in LLM’s begrijpen
Hallucinaties verwijzen naar feitelijke onnauwkeurigheden of fabricaties die door LLM’s worden gegenereerd en die niet gebaseerd zijn op de realiteit of de verstrekte context. Enkele voorbeelden zijn:
- Het verzinnen van biografische details of gebeurtenissen die niet zijn aangetoond in de bronmateriaal wanneer tekst over een persoon wordt gegenereerd.
- Het verstrekken van ondeugdelijk medisch advies door het verzinnen van bijwerkingen van medicijnen of behandelingsprocedures.
- Het verzinnen van niet-bestaande gegevens, onderzoeken of bronnen om een bewering te ondersteunen.
Dit fenomeen treedt op omdat LLM’s zijn getraind op enorme hoeveelheden online tekstgegevens. Hoewel dit hen in staat stelt om sterke taalmodellering-capaciteiten te bereiken, betekent het ook dat ze leren om informatie te extrapoleren, logische sprongen te maken en lacunes te vullen op een manier die overtuigend lijkt, maar mogelijk misleidend of onjuist is.
Enkele belangrijke factoren die hallucinaties veroorzaken, zijn:
- Patroon-generalisatie – LLM’s identificeren en extrapoleren patronen in de trainingsgegevens die mogelijk niet goed generaliseren.
- Verouderde kennis – Statische pre-training voorkomt de integratie van nieuwe informatie.
- Dubbelzinnigheid – Vage prompts geven ruimte voor onjuiste aannamen.
- Vooringenomenheid – Modellen versterken en vermenigvuldigen scheve perspectieven.
- Onvoldoende gronding – Gebrek aan begrip en redenering betekent dat modellen inhoud genereren die ze niet volledig begrijpen.
Het aanpakken van hallucinaties is cruciaal voor een betrouwbare inzet in gevoelige domeinen zoals geneeskunde, recht, financiën en onderwijs, waar het genereren van misinformatie tot schade kan leiden.
Taxonomie van technieken voor het mitigeren van hallucinaties
Onderzoekers hebben diverse technieken geïntroduceerd om hallucinaties in LLM’s te bestrijden, die kunnen worden gecategoriseerd in:
1. Prompt-engineering
Dit omvat het zorgvuldig ontwerpen van prompts om context te bieden en de LLM te leiden naar feitelijke, gefundeerde antwoorden.
- Retrievale augmentatie – Het ophalen van externe bewijs om inhoud te funderen.
- Feedback-lussen – Het iteratief verstrekken van feedback om antwoorden te verfijnen.
- Prompt-tuning – Het aanpassen van prompts tijdens fine-tuning voor gewenste gedrag.
2. Modelontwikkeling
Het creëren van modellen die inherent minder geneigd zijn om hallucinaties te produceren via architecturale veranderingen.
- Decoding-strategieën – Het genereren van tekst op manieren die de trouw aan de context verhogen.
- Kennis-gronding – Het integreren van externe kennisbases.
- Nieuwe verliesfuncties – Het optimaliseren voor trouw aan de context tijdens training.
- Begeleide fine-tuning – Het gebruiken van door mensen gelabelde gegevens om feitelijkheid te verbeteren.
Vervolgens zullen we enkele opvallende technieken onder elk van deze benaderingen bespreken.
Opvallende technieken voor het mitigeren van hallucinaties
Retrievale versterkte generatie
Retrievale versterkte generatie verbetert LLM’s door het ophalen en conditioneren van tekstgeneratie op externe bewijsdocumenten, in plaats van alleen te vertrouwen op de impliciete kennis van het model. Dit grondt de inhoud in up-to-date, verifieerbare informatie, waardoor hallucinaties worden verminderd.
Enkele opvallende technieken zijn:
- RAG – Gebruikt een retriever-module die relevante passages voor een seq2seq-model levert om van te genereren. Beide componenten worden eind-tot-eind getraind.
- RARR – Gebruikt LLM’s om ongeattribueerde claims in gegenereerde tekst te onderzoeken en te herzien om overeen te komen met opgehaalde bewijs.
- Kennis-retrieval – Valideert onzekere generaties met behulp van opgehaalde kennis voordat tekst wordt gegenereerd.
- LLM-Augmenter – Iteratief zoekt naar kennis om bewijsketens voor LLM-prompts te construeren.
Feedback en redenering
Het gebruik van iteratieve natuurlijke taalfeedback of zelfredenering stelt LLM’s in staat om hun initiële uitvoer te verfijnen en te verbeteren, waardoor hallucinaties worden verminderd.
CoVe gebruikt een keten van verificatie-technieken. De LLM maakt eerst een ontwerp van een antwoord op de vraag van de gebruiker. Vervolgens genereert het potentieel verificatie-vragen om de feiten van zijn eigen antwoord te controleren, op basis van zijn vertrouwen in verschillende uitspraken. Bijvoorbeeld, voor een antwoord over een nieuwe medische behandeling, kan CoVe vragen genereren zoals “Wat is het effectiviteitspercentage van de behandeling?”, “Heeft het een regulatoire goedkeuring ontvangen?”, “Wat zijn de potentiële bijwerkingen?”. Cruciaal is dat de LLM vervolgens probeert om deze verificatie-vragen onafhankelijk te beantwoorden zonder beïnvloed te worden door zijn initiële antwoord. Als de antwoorden op de verificatie-vragen de uitspraken in het oorspronkelijke antwoord tegenspreken of niet kunnen ondersteunen, identificeert het systeem deze als waarschijnlijke hallucinaties en verfijnt het antwoord voordat het aan de gebruiker wordt gepresenteerd.
DRESS richt zich op het afstemmen van LLM’s op menselijke voorkeuren via natuurlijke taalfeedback. Deze benadering stelt niet-expert gebruikers in staat om vrije kritiek op modelgeneraties te geven, zoals “De bijwerkingen die worden genoemd, lijken overdreven” of verfijning-instructies zoals “Beschrijf ook de kosten-effectiviteit”. DRESS gebruikt versterking van het leren om modellen te trainen die antwoorden genereren die beter overeenkomen met menselijke voorkeuren, gebaseerd op dergelijke feedback. Dit verbetert de interactie en reduceert onrealistische of onondersteunde uitspraken.
MixAlign behandelt situaties waarin gebruikers vragen stellen die niet direct overeenkomen met de bewijspassages die door het systeem zijn opgehaald. Bijvoorbeeld, een gebruiker kan vragen “Zal de vervuiling in China erger worden?” terwijl de opgehaalde passages wereldwijd trends in vervuiling bespreken. Om hallucinaties te vermijden met onvoldoende context, vraagt MixAlign expliciet om verduidelijking van de gebruiker wanneer het onzeker is over hoe de vraag moet worden gerelateerd aan de opgehaalde informatie. Deze mens-in-de-lus-mechanisme stelt in staat om feedback te verkrijgen om bewijs correct te gronden en te contextualiseren, waardoor ongefundeerde antwoorden worden voorkomen.
De Zelf-reflectie-techniek traint LLM’s om hun eigen antwoorden te evalueren, feedback te geven en iteratief te verfijnen met behulp van een multi-task-benadering. Gegeven een antwoord gegenereerd voor een medische vraag, leert het model om de feitelijke nauwkeurigheid te scoren, tegenstrijdige of onondersteunde uitspraken te identificeren en deze te bewerken door relevante kennis op te halen. Door LLM’s deze feedback-lus van controle, kritiek en iteratieve verbetering te leren, reduceert de benadering blinde hallucinaties.
Prompt-tuning
Prompt-tuning stelt het mogelijk om de instructie-prompts die aan LLM’s worden gegeven tijdens fine-tuning aan te passen voor gewenste gedrag.
De SynTra-methode gebruikt een synthetische samenvattingsopdracht om hallucinaties te minimaliseren voordat het model wordt overgezet naar echte samenvattingsdatasets. De synthetische opdracht levert invoerpassages en vraagt modellen om deze samen te vatten door alleen retrieval, zonder abstractie. Dit traint modellen om volledig te vertrouwen op geleverde inhoud in plaats van nieuwe informatie te hallucineren tijdens samenvatting. SynTra wordt aangetoond om hallucinatie-problemen te reduceren wanneer gefine-tune modellen worden ingezet op doeltaken.
UPRISE traint een universele prompt-retriever die de optimale zachte prompt voor few-shot learning op ongezien downstream-taken levert. Door effectieve prompts op te halen die zijn afgestemd op een diverse set taken, leert het model om te generaliseren en zich aan te passen aan nieuwe taken waarvoor het geen trainingsvoorbeelden heeft. Dit verbetert de prestaties zonder taak-specifieke afstemming te vereisen.
Nieuwe modelarchitecturen
FLEEK is een systeem dat zich richt op het ondersteunen van menselijke feitcontroleurs en validatoren. Het identificeert automatisch potentieel verifieerbare feitelijke claims die in een gegeven tekst worden gemaakt. FLEEK transformeert deze controle-waardige uitspraken in vragen, haalt gerelateerde bewijs uit kennisbases op en levert deze contextuele informatie aan menselijke validatoren om documentnauwkeurigheid en revisiebehoeften effectief te verifiëren.
De CAD-decoding-benadering reduceert hallucinaties in taalgeneratie door context-gevoelige decoding. Specifiek versterkt CAD de verschillen tussen de output-verdeling van een LLM wanneer deze wordt geconditioneerd op een context versus wanneer deze ongeconditioneerd wordt gegenereerd. Dit ontmoedigt het tegenspreken van contextueel bewijs en stuurt het model naar gefundeerde generaties.
DoLA mitigeert feitelijke hallucinaties door logit-contrasten van verschillende lagen van transformatie-netwerken te contrasteren. Aangezien feitelijke kennis de neiging heeft om gelokaliseerd te zijn in bepaalde middelste lagen, vermindert de versterking van signalen van die feitelijke lagen door DoLA’s logit-contrasten onjuiste feitelijke generaties.
De THAM-framework introduceert een regularisatieterm tijdens training om de onderlinge informatie tussen invoer en gehallucineerde uitvoer te minimaliseren. Dit helpt om de afhankelijkheid van het model van de gegeven invoercontext te verhogen in plaats van ongebonden verbeelding, waardoor blinde hallucinaties worden verminderd.
Kennis-gronding
Het gronden van LLM-generaties in gestructureerde kennis voorkomt ongebreidelde speculatie en fabricatie.
De RHO-modell identificeert entiteiten in een conversatiecontext en koppelt deze aan een kennisgrafiek (KG). Gerelateerde feiten en relaties over deze entiteiten worden opgehaald uit de KG en gefuseerd in de contextweergave die aan de LLM wordt geleverd. Deze kennis-verrijkte contextsturing reduceert hallucinaties in dialoog door antwoorden te houden die zijn gebaseerd op gefundeerde feiten over genoemde entiteiten/gebeurtenissen.
HAR creëert contrafactische trainingsdatasets die modelgegenereerde hallucinaties bevatten om beter gronding te leren. Gegeven een feitelijk passage, worden modellen aangespoord om hallucinaties of vertekeningen te introduceren, waardoor een gewijzigde contrafactische versie ontstaat. Fine-tuning op deze gegevens dwingt modellen om beter te gronden in de oorspronkelijke feitelijke bronnen, waardoor improvisatie wordt verminderd.
Begeleide fine-tuning
- Coach – Interactief kader dat gebruikersvragen beantwoordt, maar ook om correcties vraagt om te verbeteren.
- R-Tuning – Weigert ondersteunde vragen te identificeren via kennislacunes in trainingsgegevens.
- TWEAK – Decoding-methode die generaties rangschikt op basis van hoe goed hypotheses feitelijke invoerondersteunen.
Uitdagingen en beperkingen
Ondanks veelbelovende vooruitgang, blijven enkele belangrijke uitdagingen bestaan bij het mitigeren van hallucinaties:
- Technieken ruilen vaak kwaliteit, coherentie en creativiteit in voor waarheidsgetrouwheid.
- Moeilijkheid in strikte evaluatie buiten beperkte domeinen. Metrieken vangen niet alle nuances.
- Veel methoden zijn computationeel duur, waarbij uitgebreide retrieval of zelfredenering nodig is.
- Veelal afhankelijk van trainingsgegevenskwaliteit en externe kennisbronnen.
- Moeilijk om generaliseerbaarheid over domeinen en modaliteiten te garanderen.
- Fundamentele oorzaken van hallucinaties zoals over-extrapolatie blijven onopgelost.
Het aanpakken van deze uitdagingen vereist waarschijnlijk een multi-laagse aanpak die trainingsgegevensverbeteringen, modelarchitectuurverbeteringen, trouw-verhogende verliesfuncties en inferentie-tijdtechnieken combineert.
De weg vooruit
Het mitigeren van hallucinaties in LLM’s blijft een open onderzoeksprobleem met actieve vooruitgang. Enkele veelbelovende toekomstige richtingen zijn:
- Hybride technieken: Combineren van complementaire benaderingen zoals retrieval, kennis-gronding en feedback.
- Causaliteitsmodellering: Verbeteren van begrip en redenering.
- Online kennis-integratie: Wereldkennis up-to-date houden.
- Formele verificatie: Wiskundige garanties voor modelgedrag bieden.
- Interpretatie: Transparantie in mitigatietechnieken opbouwen.
Naarmate LLM’s verder worden ingezet in hoogrisico-domeinen, zal het ontwikkelen van robuuste oplossingen om hallucinaties te mitigeren cruciaal zijn voor een veilige, ethische en betrouwbare inzet. De in dit artikel besproken technieken bieden een overzicht van de tot nu toe voorgestelde technieken, waarbij meer open onderzoeksuitdagingen overblijven. Over het algemeen is er een positieve trend naar het verbeteren van model-feitelijkheid, maar verdere vooruitgang vereist het aanpakken van beperkingen en het verkennen van nieuwe richtingen zoals causaliteit, verificatie en hybride methoden. Met ijverige inspanningen van onderzoekers uit verschillende disciplines kan de droom van krachtige en betrouwbare LLM’s werkelijkheid worden.












