Prompt engineering

Att tackla hallucinationer i stora språkmodeller: En översikt av banbrytande tekniker

Published January 19, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Stora språkmodeller (LLM) som GPT-4, PaLM och Llama har låst upp anmärkningsvärda framsteg inom naturlig språkgenerering. Men en bestående utmaning som begränsar deras tillförlitlighet och säkra distribution är deras tendens att hallucinera – generera innehåll som verkar sammanhängande men är faktamässigt felaktigt eller otillförlitligt från ingångssammanhanget.

Medan LLM fortsätter att växa mer kraftfulla och allmänt förekommande i verkliga tillämpningar, blir det avgörande att tackla hallucinationer. Den här artikeln ger en omfattande översikt av de senaste teknikerna som forskare har introducerat för att upptäcka, kvantifiera och mildra hallucinationer i LLM.

Att förstå hallucinationer i LLM

Hallucinationer refererar till faktamässiga felaktigheter eller fabriceringar som genereras av LLM som inte är grundade i verkligheten eller det tillhandahållna sammanhanget. Några exempel inkluderar:

Att uppfinna biografiska detaljer eller händelser som inte stöds av källmaterial när man genererar text om en person.
Att ge felaktiga medicinska råd genom att fabricera biverkningar av läkemedel eller behandlingsförfaranden.
Att konstruera icke-existerande data, studier eller källor för att stödja ett påstående.

Detta fenomen uppstår eftersom LLM tränas på stora mängder online-textdata. Medan detta tillåter dem att uppnå starka språkmodelleringsegenskaper, betyder det också att de lär sig att extrapolera information, göra logiska språng och fylla i luckor på ett sätt som verkar övertygande men kan vara vilseledande eller felaktigt.

Några nyckelfaktorer som är ansvariga för hallucinationer inkluderar:

Mönstergeneralisering – LLM identifierar och utvidgar mönster i träningsdata som kanske inte generaliserar väl.
Föråldrad kunskap – Statisk förträning förhindrar integration av ny information.
Tvetydighet – Vaga instruktioner tillåter utrymme för felaktiga antaganden.
Fördomar – Modeller förstärker och förstärker skeva perspektiv.
Otillräcklig grund – Brist på förståelse och resonemang betyder att modeller genererar innehåll som de inte fullständigt förstår.

Att tackla hallucinationer är avgörande för tillförlitlig distribution i känsliga områden som medicin, lag, finans och utbildning där generering av felaktig information kan leda till skada.

Taxonomi av hallucinationsbegränsningstekniker

Forskare har introducerat olika tekniker för att bekämpa hallucinationer i LLM, som kan kategoriseras i:

1. Instruktionsutformning

Detta innebär att noggrant utforma instruktioner för att ge sammanhang och vägleda LLM mot faktamässiga och grundade svar.

Återvinningstillägg – Återvinning av externa bevis för att grunda innehåll.
Feedbackloopar – Iterativt tillhandahållande av feedback för att förbättra svar.
Instruktionsjustering – Justering av instruktioner under finjustering för önskade beteenden.

2. Modellutveckling

Skapande av modeller som är mindre benägna att hallucinera via arkitekturförändringar.

Avkodningsstrategier – Generering av text på sätt som ökar trohet.
Kunskapsgrundering – Integrering av externa kunskapsbaser.
Nya förlustfunktioner – Optimera för trohet under träningsprocessen.
Övervakad finjustering – Användning av mänskligt märkta data för att förbättra faktamässighet.

Nästa steg är att undersöka framstående tekniker under varje tillvägagångssätt.

Noterbara hallucinationsbegränsningstekniker

Återvinningssökning

Återvinningssökning förbättrar LLM genom att återvinna och villkora textgenerering på externa bevisdokument, snarare än att enbart förlita sig på modellens implicita kunskap. Detta grunder innehåll i uppdaterad, verifierbar information, vilket minskar hallucinationer.

Framstående tekniker inkluderar:

RAG – Använder en återvinningsmodul som tillhandahåller relevanta passager för en sekvens-till-sekvens-modell för att generera från. Båda komponenterna tränas slutna.
RARR – Använder LLM för att undersöka oattribuerade påståenden i genererad text och revidera dem för att stämma överens med återvunnet bevis.
Kunskapsåtervinning – Validerar osäkra generationer med hjälp av återvunnen kunskap innan text genereras.
LLM-tillägg – Iterativt söker kunskap för att konstruera beviskedjor för LLM-instruktioner.

Feedback och resonemang

Att utnyttja iterativ naturlig språkfeedback eller självresonemang tillåter LLM att förbättra och förfinansiera sina initiala utdata, vilket minskar hallucinationer.

CoVe använder en kedja av verifikationsteknik. LLM genererar först en utkast till svar på användarens fråga. Den genererar sedan potentiella verifikationsfrågor för att faktakontrollera sitt eget svar, baserat på dess förtroende för olika uttalanden som gjorts. Till exempel, för ett svar som beskriver en ny medicinsk behandling, kan CoVe generera frågor som “Vad är effektivitetsgraden för behandlingen?”, “Har den fått regulatoriskt godkännande?”, “Vilka är de potentiella biverkningarna?”. Avgörande är att LLM sedan försöker att oberoende besvara dessa verifikationsfrågor utan att påverkas av sitt initiala svar. Om svaren på verifikationsfrågorna motsäger eller inte kan stödja uttalanden som gjorts i det ursprungliga svaret, identifierar systemet dessa som sannolika hallucinationer och förfinansierar svaret innan det presenteras för användaren.

DRESS fokuserar på att justera LLM för att bättre stämma överens med mänskliga preferenser genom naturlig språkfeedback. Tillvägagångssättet tillåter icke-experter att tillhandahålla fritt formulerade kritiker på modellgenerationer, såsom “Biverkningarna som nämns verkar överdrivna” eller förfiningsinstruktioner som “Var vänlig diskutera också kostnadseffektivitet”. DRESS använder förstärkt inlärning för att träna modeller att generera svar som villkoras av sådan feedback som bättre stämmer överens med mänskliga preferenser. Detta förbättrar interaktivitet samtidigt som det minskar orealistiska eller ostödda uttalanden.

MixAlign hanterar situationer där användare ställer frågor som inte direkt motsvarar de bevispassager som systemet har återvunnit. Till exempel kan en användare fråga “Kommer föroreningarna att bli värre i Kina?” medan återvunna passager diskuterar föroreningsmönster globalt. För att undvika att hallucinera med otillräckligt sammanhang, förtydligar MixAlign explicit för användaren när den är osäker på hur den ska relatera användarens fråga till den återvunna informationen. Detta mänskliga-i-loopen-mekanismen tillåter att få feedback för att korrekt grunda och kontextualisera bevis, vilket förhindrar ogrundade svar.

Tekniken Självreflektion tränar LLM att utvärdera, ge feedback på och iterativt förbättra sina egna svar med hjälp av en multiuppgiftsapproach. Till exempel, givet ett svar genererat för en medicinsk fråga, lär sig modellen att poängsätta dess faktamässiga noggrannhet, identifiera eventuella motsägande eller ostödda uttalanden och redigera dem genom att återvinna relevant kunskap. Genom att lära LLM denna feedbackloop av att kontrollera, kritisera och iterativt förbättra sina egna utdata, minskar tillvägagångssättet blinda hallucinationer.

Instruktionsjustering

Instruktionsjustering tillåter justering av instruktionsprompten som tillhandahålls till LLM under finjustering för önskade beteenden.

Metoden SynTra använder en syntetisk sammanfattningsuppgift för att minimera hallucination innan modellen överförs till verkliga sammanfattningsdataset. Den syntetiska uppgiften tillhandahåller ingångspassager och ber modeller att sammanfatta dem genom återvinning endast, utan abstraktion. Detta tränar modeller att förlita sig helt på källinnehåll snarare än att hallucinera ny information under sammanfattning. SynTra har visat sig minska hallucinationsproblem när finjusterade modeller distribueras på måluppgifter.

UPRISE tränar en universell promptåtervinnare som tillhandahåller den optimala mjuka prompten för fåskottinlärning på osedda nedströmsuppgifter. Genom att återvinna effektiva promptrar som har justerats på en mångfald uppgifter, lär sig modellen att generalisera och anpassa sig till nya uppgifter där den saknar träningsexempel. Detta förbättrar prestanda utan att kräva uppgiftsspecifik justering.

Nya modellarkitekturer

FLEEK är ett system som fokuserar på att assistera mänskliga faktakontrollanter och validerare. Det identifierar automatiskt potentiellt verificerbara faktamässiga påståenden som gjorts i en given text. FLEEK omvandlar dessa kontrollerbara uttalanden till frågor, återvinner relaterad bevisning från kunskapsbaser och tillhandahåller denna sammanhangsinformation till mänskliga validerare för att effektivt verifiera dokumentets noggrannhet och revideringsbehov.

Tillvägagångssättet CAD minskar hallucination i språkgenerering genom kontextmedveten avkodning. Specifikt förstärker CAD skillnaderna mellan en LLM:s utdatadistribution när den villkoras av ett sammanhang jämfört med när den genereras oberoende. Detta uppmuntrar inte att motsäga kontextuella bevis, vilket styr modellen mot grundade generationer.

DoLA mildrar faktamässiga hallucinationer genom att kontrastera logitvärden från olika lager av transformer-nätverk. Eftersom faktamässig kunskap tenderar att vara lokaliserad i vissa mellanlager, förstärker DoLA signalerna från dessa faktalager genom logitkontrast, vilket minskar felaktiga faktamässiga generationer.

Ramverket THAM introducerar en regleringsterm under träningsprocessen för att minimera den ömsesidiga informationen mellan ingångar och hallucinerade utdata. Detta hjälper till att öka modellens tillit till den givna ingångskontexten snarare än obunden fantasi, vilket minskar blinda hallucinationer.

Kunskapsgrundering

Att grunda LLM-generationer i strukturerad kunskap förhindrar otyglad spekulation och fabricering.

Modellen RHO identifierar entiteter i en konversationskontext och länkar dem till en kunskapsgraf (KG). Relaterade fakta och relationer om dessa entiteter återvinns från KG och fusioneras i kontextrepresentationen som tillhandahålls till LLM. Detta kunskapsberikade sammanhang styr svaren mot grundade fakta om nämnda entiteter/händelser.

HAR skapar kontrafaktiska träningsdataset som innehåller modellgenererade hallucinationer för att bättre lära grundering. Givet en faktamässig passage, uppmanas modeller att införa hallucinationer eller förvrängningar som genererar en ändrad kontrafaktisk version. Finjustering på denna data tvingar modeller att bättre grunda innehåll i de ursprungliga faktamässiga källorna, vilket minskar improvisation.

Övervakad finjustering

Coach – Interaktiv ram som svarar på användarfrågor men också ber om korrektioner för att förbättra.
R-Tuning – Vägranstuning vägrar ostödda frågor identifierade genom träningsdatakunskapsgap.
TWEAK – Avkodningsmetod som rangordnar generationer baserat på hur väl hypoteser stöder ingångsfakta.

Utmaningar och begränsningar

Trots lovande framsteg kvarstår några nyckelutmaningar i att mildra hallucinationer:

Tekniker handlar ofta om kvalitet, sammanhang och kreativitet för sanningsenlighet.
Svårighet i rigorös utvärdering utöver begränsade domäner. Mått fångar inte alla nyanser.
Många metoder är beräkningsmässigt dyra, kräver omfattande återvinning eller självresonemang.
De är starkt beroende av träningsdatakvalitet och externa kunskapskällor.
Det är svårt att garantera generaliserbarhet över domäner och modaliteter.
De grundläggande rötterna till hallucination som överextrapolering förblir olösta.

Att hantera dessa utmaningar kräver sannolikt ett multilagerat tillvägagångssätt som kombinerar träningsdataförbättringar, modellarkitekturförbättringar, trohetshöjande förluster och inferenstekniker.

Vägen framåt

Hallucinationsmildring för LLM förblir ett öppet forskningsproblem med aktiv framsteg. Några lovande framtida riktningar inkluderar:

Hybrida tekniker: Kombinera kompletterande tillvägagångssätt som återvinning, kunskapsgrundering och feedback.
Kausal modellering: Förbättra förståelse och resonemang.
Onlinekunskapsintegration: Håll världskunskap uppdaterad.
Formell verifikation: Ge matematiska garantier för modellbeteende.
Tolkningsbarhet: Bygg transparens in i mildringstekniker.

Medan LLM fortsätter att spridas över högriskdomäner, kommer utvecklingen av robusta lösningar för att begränsa hallucinationer att vara avgörande för att säkerställa deras säkra, etiska och tillförlitliga distribution. De tekniker som undersökts i den här artikeln ger en översikt av de tekniker som har föreslagits hittills, där mer öppen forskningsutmaning kvarstår. Sammantaget finns en positiv trend mot att förbättra modellens faktamässighet, men fortsatt framsteg kräver att man hanterar begränsningar och utforskar nya riktningar som kausalitet, verifikation och hybrida metoder. Med flitiga ansträngningar från forskare över discipliner kan drömmen om kraftfulla men tillförlitliga LLM bli verklighet.

Aayush Mittal

Jag har under de senaste fem åren dykt ner i den fascinerande världen av Machine Learning och Deep Learning. Min passion och expertis har lett mig till att bidra till över 50 olika mjukvaruutvecklingsprojekt, med särskild fokus på AI/ML. Min pågående nyfikenhet har också dragit mig mot Natural Language Processing, ett område som jag är angelägen om att utforska vidare.