stub Att tackla hallucinationer i stora språkmodeller: En undersökning av banbrytande tekniker - Unite.AI
Anslut dig till vårt nätverk!

Snabb ingenjörskonst

Att tackla hallucinationer i stora språkmodeller: En undersökning av banbrytande tekniker

mm

publicerade

 on

Hallucinationer i stora språkmodeller

Stora språkmodeller (LLM) som GPT-4, PaLM och Llama har låst upp anmärkningsvärda framsteg när det gäller att skapa naturliga språk. En ihållande utmaning som begränsar deras tillförlitlighet och säkra distribution är emellertid deras tendens att hallucinera – att generera innehåll som verkar sammanhängande men som faktiskt är felaktigt eller ogrundat från indatakontexten.

När LLM:er fortsätter att växa kraftfullare och överallt i verkliga tillämpningar, blir det absolut nödvändigt att ta itu med hallucinationer. Den här artikeln ger en omfattande översikt över de senaste teknikerna som forskare har introducerat för att upptäcka, kvantifiera och mildra hallucinationer i LLM.

Förstå hallucinationer i LLMs

Hallucination hänvisar till faktiska felaktigheter eller påhitt genererade av LLM:er som inte är förankrade i verkligheten eller det angivna sammanhanget. Några exempel inkluderar:

  • Uppfinna biografiska detaljer eller händelser som inte framgår av källmaterial när man skapar text om en person.
  • Ge felaktig medicinsk rådgivning genom att konfabulera läkemedelsbiverkningar eller behandlingsprocedurer.
  • Samla ihop obefintliga data, studier eller källor för att stödja ett påstående.

Detta fenomen uppstår eftersom LLM:er utbildas på stora mängder textdata online. Även om detta tillåter dem att uppnå starka språkmodelleringsförmåga, betyder det också att de lär sig att extrapolera information, göra logiska språng och fylla i luckor på ett sätt som verkar övertygande men kan vara missvisande eller felaktigt.

Några nyckelfaktorer som är ansvariga för hallucinationer inkluderar:

  • Mönstergeneralisering – LLM:er identifierar och utökar mönster i träningsdata som kanske inte generaliserar bra.
  • Föråldrad kunskap – Statisk förträning förhindrar integrering av ny information.
  • Tvetydighet – Vaga uppmaningar ger utrymme för felaktiga antaganden.
  • fördomar – Modeller vidmakthåller och förstärker skeva perspektiv.
  • Otillräcklig jordning – Brist på förståelse och resonemang innebär att modeller genererar innehåll som de inte helt förstår.

Att ta itu med hallucinationer är avgörande för en tillförlitlig distribution inom känsliga områden som medicin, juridik, ekonomi och utbildning där generering av felaktig information kan leda till skada.

Taxonomy of Hallucination Mitigation Techniques

Forskare har introducerat olika tekniker för att bekämpa hallucinationer i LLM, som kan kategoriseras i:

1. Snabb teknik

Detta innebär att noggrant utforma uppmaningar för att ge sammanhang och vägleda LLM mot sakliga, grundade svar.

  • Retrieval augmentation – Hämta externa bevis till grundinnehåll.
  • Feedback slingor – Iterativt ge feedback för att förfina svaren.
  • Snabb inställning – Justera uppmaningar under finjustering för önskat beteende.

2. Modellutveckling

Att skapa modeller som är mindre benägna att hallucinera via arkitektoniska förändringar.

  • Avkodningsstrategier – Skapa text på ett sätt som ökar troheten.
  • Kunskapsjordning – Inkludera externa kunskapsbaser.
  • Nya förlustfunktioner – Optimera för trofasthet under träning.
  • Övervakad finjustering – Användning av människomärkt data för att förbättra fakta.

Därefter kartlägger vi framträdande tekniker under varje tillvägagångssätt.

Anmärkningsvärda hallucinationsdämpande tekniker

Retrieval Augmented Generation

Förstärkt generering av hämtning förbättrar LLM:er genom att hämta och konditionera textgenerering på externa bevisdokument, snarare än att enbart förlita sig på modellens implicita kunskap. Detta motiverar innehåll i uppdaterad, verifierbar information, vilket minskar hallucinationer.

Framstående tekniker inkluderar:

  • RAG – Använder en retrievermodul som tillhandahåller relevanta passager för en seq2seq-modell att generera från. Båda komponenterna tränas från början till slut.
  • RARR – Anställer LLM:er för att undersöka otillskrivna påståenden i genererad text och revidera dem för att överensstämma med hämtade bevis.
  • Kunskapsinhämtning – Validerar osäkra generationer med hjälp av hämtad kunskap innan text produceras.
  • LLM-Augmenter – Söker iterativt kunskap för att konstruera beviskedjor för LLM-uppmaningar.

Feedback och resonemang

Genom att utnyttja iterativ återkoppling på naturligt språk eller självresonemang kan LLM:er förfina och förbättra sina initiala resultat, vilket minskar hallucinationer.

CoVe använder en kedja av verifieringsteknik. LLM skapar först ett svar på användarens fråga. Den genererar sedan potentiella verifieringsfrågor för att faktakontrollera sitt eget svar, baserat på dess förtroende för olika uttalanden. Till exempel, för ett svar som beskriver en ny medicinsk behandling, kan CoVe generera frågor som "Vad är effektiviteten för behandlingen?", "Har den fått myndighetsgodkännande?", "Vilka är de potentiella biverkningarna?". Avgörande är att LLM sedan försöker självständigt svara på dessa verifieringsfrågor utan att vara partisk av dess initiala svar. Om svaren på verifieringsfrågorna motsäger eller inte kan stödja påståenden i det ursprungliga svaret, identifierar systemet dessa som troliga hallucinationer och förfinar svaret innan det presenteras för användaren.

KLÄNNING fokuserar på att ställa in LLM för att bättre anpassas till mänskliga preferenser genom naturligt språkåterkoppling. Tillvägagångssättet gör det möjligt för icke-experta användare att ge friformskritik om modellgenerationer, som "De nämnda biverkningarna verkar överdrivna" eller förfiningsinstruktioner som "Var vänlig diskutera kostnadseffektivitet". DRESS använder förstärkningsinlärning för att träna modeller för att generera svar beroende på sådan feedback som bättre överensstämmer med mänskliga preferenser. Detta förbättrar interagerbarheten samtidigt som det minskar orealistiska eller icke-stödda uttalanden.

MixAlign behandlar situationer där användare ställer frågor som inte direkt överensstämmer med de bevispassager som hämtats av systemet. En användare kan till exempel fråga "Kommer föroreningarna att bli värre i Kina?" medan hämtade passager diskuterar föroreningstrender globalt. För att undvika att hallucinera med otillräckligt sammanhang, förtydligar MixAlign uttryckligen med användaren när han är osäker på hur de ska relatera sin fråga till den hämtade informationen. Denna mänskliga-i-slinga-mekanism gör det möjligt att få feedback för att korrekt jorda och kontextualisera bevis, vilket förhindrar ojordade svar.

Smakämnen Självreflektion teknik tränar LLM:er att utvärdera, ge feedback på och iterativt förfina sina egna svar med hjälp av en multi-task-metod. Till exempel, givet ett svar som genererats för en medicinsk fråga, lär sig modellen att bedöma sin faktiska noggrannhet, identifiera eventuella motsägelsefulla eller ostödda påståenden och redigera dem genom att hämta relevant kunskap. Genom att lära LLM:er denna återkopplingsslinga att kontrollera, kritisera och iterativt förbättra sina egna resultat, minskar metoden blinda hallucinationer.

Snabb inställning

Snabbjustering gör det möjligt att justera de instruktionsuppmaningar som ges till LLM:er under finjustering för önskat beteende.

Smakämnen SynTra Metoden använder en syntetisk summeringsuppgift för att minimera hallucinationer innan modellen överförs till riktiga summeringsdatauppsättningar. Den syntetiska uppgiften tillhandahåller ingångspassager och ber modeller att sammanfatta dem endast genom hämtning, utan abstraktion. Detta tränar modeller att helt och hållet lita på innehåll från källor snarare än att hallucinera ny information under sammanfattningen. SynTra har visat sig minska hallucinationsproblem när finjusterade modeller används på måluppgifter.

UPRISE tränar en universell prompt retriever som ger den optimala mjuka prompten för få-shot inlärning på osynliga nedströmsuppgifter. Genom att hämta effektiva uppmaningar inställda på en mångsidig uppsättning uppgifter, lär sig modellen att generalisera och anpassa sig till nya uppgifter där den saknar träningsexempel. Detta förbättrar prestandan utan att kräva uppgiftsspecifik justering.

Nya modellarkitekturer

FLEEK är ett system fokuserat på att hjälpa mänskliga faktagranskare och validerare. Den identifierar automatiskt potentiellt verifierbara faktapåståenden i en given text. FLEEK omvandlar dessa kontrollvärda uttalanden till frågor, hämtar relaterade bevis från kunskapsbaser och tillhandahåller denna kontextuella information till mänskliga validerare för att effektivt verifiera dokumentens riktighet och revisionsbehov.

Smakämnen CAD avkodningsmetod minskar hallucinationer i språkgenerering genom kontextmedveten avkodning. Specifikt förstärker CAD skillnaderna mellan en LLM:s utmatningsdistribution när den betingas av ett sammanhang kontra genererad ovillkorligt. Detta avskräcker motstridiga kontextuella bevis, och styr modellen mot grundade generationer.

DoLA dämpar faktiska hallucinationer genom att kontrastera logiter från olika lager av transformatornätverk. Eftersom faktakunskap tenderar att vara lokaliserad till vissa mellanlager, minskar förstärkning av signaler från dessa faktalager genom DoLAs logit-kontrastering felaktiga faktagenerationer.

Smakämnen THAM Framework introducerar en regulariseringsterm under träning för att minimera den ömsesidiga informationen mellan input och hallucinerade utdata. Detta hjälper till att öka modellens beroende av given inputkontext snarare än obunden fantasi, vilket minskar blinda hallucinationer.

Kunskapsjordning

Att jorda LLM-generationer i strukturerad kunskap förhindrar ohämmad spekulation och tillverkning.

Smakämnen RHO modellen identifierar enheter i en konversationskontext och länkar dem till en kunskapsgraf (KG). Relaterade fakta och relationer om dessa enheter hämtas från KG och smälts in i den kontextrepresentation som tillhandahålls till LLM. Denna kunskapsberikade kontextstyrning minskar hallucinationer i dialog genom att hålla svar knutna till grundade fakta om nämnda enheter/händelser.

HAR skapar kontrafaktiska träningsdatauppsättningar som innehåller modellgenererade hallucinationer för att bättre lära ut jordning. Med tanke på en faktapassage uppmanas modellerna att introducera hallucinationer eller förvrängningar som genererar en förändrad kontrafaktisk version. Finjustering av dessa data tvingar modeller att bättre grunda innehållet i de ursprungliga faktakällorna, vilket minskar improvisation.

Övervakad finjustering

  • COACH – Interaktivt ramverk som svarar på användarfrågor men som också ber om korrigeringar för att förbättras.
  • R-Tuning – Avslagsmedveten inställning avvisar frågor som inte stöds som identifierats genom kunskapsluckor i utbildningsdata.
  • MODIFIERA – Avkodningsmetod som rangordnar generationer baserat på hur väl hypoteser stödjer ingångsfakta.

Utmaningar och begränsningar

Trots lovande framsteg kvarstår några viktiga utmaningar för att lindra hallucinationer:

  • Tekniker byter ofta ut kvalitet, koherens och kreativitet mot sanningsenlighet.
  • Svårigheter med rigorös utvärdering bortom begränsade domäner. Mätvärden fångar inte alla nyanser.
  • Många metoder är beräkningsmässigt dyra och kräver omfattande hämtning eller självresonemang.
  • Är starkt beroende av utbildningsdatakvalitet och externa kunskapskällor.
  • Svårt att garantera generaliserbarhet över domäner och modaliteter.
  • Grundläggande rötter till hallucinationer som överextrapolation förblir olösta.

Att ta itu med dessa utmaningar kräver sannolikt en flerskiktsstrategi som kombinerar förbättringar av träningsdata, förbättringar av modellarkitektur, trohetshöjande förluster och inferens-tid-tekniker.

Vägen framför

Hallucinationsreducering för LLM är fortfarande ett öppet forskningsproblem med aktiva framsteg. Några lovande framtida riktningar inkluderar:

  • Hybridtekniker: Kombinera kompletterande tillvägagångssätt som hämtning, kunskapsbasering och feedback.
  • Kausalitetsmodellering: Förbättra förståelse och resonemang.
  • Online kunskapsintegration: Håll världskunskapen uppdaterad.
  • Formell verifiering: Ge matematiska garantier för modellbeteenden.
  • tolkningsbarhet: Bygg in transparens i begränsningstekniker.

När LLM:er fortsätter att spridas över domäner med hög insats, kommer utveckling av robusta lösningar för att begränsa hallucinationer att vara nyckeln till att säkerställa deras säker, etisk och pålitlig implementering. Teknikerna som undersöks i den här artikeln ger en översikt över de tekniker som hittills föreslagits, där mer öppna forskningsutmaningar kvarstår. Överlag finns det en positiv trend mot att förbättra modellens fakta, men fortsatta framsteg kräver att man tar itu med begränsningar och utforskar nya riktningar som kausalitet, verifiering och hybridmetoder. Med idoga ansträngningar från forskare över discipliner kan drömmen om kraftfulla men pålitliga LLM:er omsättas till verklighet.

Jag har ägnat de senaste fem åren åt att fördjupa mig i den fascinerande världen av Machine Learning och Deep Learning. Min passion och expertis har lett mig till att bidra till över 50 olika programvaruutvecklingsprojekt, med särskilt fokus på AI/ML. Min pågående nyfikenhet har också dragit mig mot Natural Language Processing, ett område som jag är ivrig att utforska vidare.