Prompt engineering
Bekjempelse av hallusinasjoner i store sprÄkmodeller: En oversikt over banebrytende tekniker

Store språkmodeller (LLM) som GPT-4, PaLM og Llama har åpnet for bemerkelsesverdige fremgang i generering av naturlig språk. Likevel er en vedvarende utfordring som begrenser deres pålitelighet og trygge utrullinger deres tendens til å hallusinere – å generere innhold som ser sammenhengende ut, men som er faktisk uriktige eller ikke grunnlagt i innputtkonteksten.
Ettersom LLM-er fortsetter å vokse mer kraftfulle og ubikkkeligere over hele verden, blir det nødvendig å bekjempe hallusinasjoner. Denne artikkelen gir en omfattende oversikt over de siste teknikkene forskerne har introdusert for å oppdage, kvantifisere og mildne hallusinasjoner i LLM-er.
Forståelse av hallusinasjon i LLM-er
Hallusinasjon refererer til faktiske unøyaktigheter eller fabrikasjoner generert av LLM-er som ikke er grunnlagt i virkeligheten eller den gitt konteksten. Noen eksempler inkluderer:
- Å finne på biografiske detaljer eller hendelser som ikke er dokumentert i kildematerialet når man genererer tekst om en person.
- Å gi feilaktig medisinsk råd ved å fabrikere bivirkninger eller behandlingsprosedyrer.
- Å konstruere ikke-eksisterende data, studier eller kilder for å støtte et krav.
Dette fenomenet oppstår fordi LLM-er er trent på enorme mengder tekstdata på nettet. Mens dette tillater dem å oppnå sterke språkmodelleringsevner, betyr det også at de lærer å extrapolere informasjon, gjøre logiske sprang og fylle hull i en måte som ser overbevisende ut, men som kan være misvisende eller feilaktig.
Noen nøkelfaktorer som er ansvarlige for hallusinasjoner inkluderer:
- Mønstergeneralisering – LLM-er identifiserer og utvider mønster i treningsdata som kan ikke generaliseres godt.
- Foreldet kunnskap – Statiske for-trening hindrer integrering av ny informasjon.
- TVetydighet – Vage promter tillater rom for feilaktige antakelser.
- Forutinntatte mening – Modeller forsterker og amplifierer skjeve perspektiver.
- Utilstrekkelig grunnlag – Mangel på forståelse og resonnering betyr at modeller genererer innhold de ikke fullt ut forstår.
Å bekjempe hallusinasjoner er kritisk for pålitelig utrullering i sensitive domener som medisin, lov, finans og utdanning, hvor generering av feilaktig informasjon kan føre til skade.
Taksonomi av hallusinasjonsmildningsteknikker
Forskere har introdusert diverse tekniker for å bekjempe hallusinasjoner i LLM-er, som kan kategoriseres i:
1. Promptingeniørkunst
Dette innebærer å lage promter som gir kontekst og leder LLM-er mot faktiske og grunnlagt svar.
- Henting av eksternt bevis – Henting av eksternt bevis for å grunnlegge innhold.
- Tilbakekoblingsløkker – Iterativt å gi tilbakemelding for å finjustere svar.
- Promptjustering – Justering av promter under finjustering for ønsket atferd.
2. Modellutvikling
Å lage modeller som er mindre utsatt for hallusinasjoner gjennom arkitektoniske endringer.
- Decodingsstrategier – Generering av tekst på måter som øker trofasthet.
- Kunnskapsgrunnlag – Inkorporering av eksterne kunnskapsbaser.
- Nye tapfunksjoner – Optimering for trofasthet under trening.
- Overvåket finjustering – Bruk av menneske-merket data for å forbedre faktualitet.
Neste, vi gjennomgår fremtredende tekniker under hver tilnærming.
Fremtredende hallusinasjonsmildningsteknikker
Henting av eksternt bevis
Henting av eksternt bevis forbedrer LLM-er ved å hente og kondisjonere tekstgenerering på eksterne bevisdokumenter, i stedet for å bare stole på modellens implisitte kunnskap. Dette grunnlegger innhold i oppdatert, verifiserbar informasjon, og reduserer hallusinasjoner.
Fremtredende tekniker inkluderer:
- RAG – Bruker en hentermodul som gir relevante passasjer for en sekvens-til-sekvens-modell å generere fra. Begge komponenter er trent end-to-end.
- RARR – Anvender LLM-er til å forsk på ubestemte krav i generert tekst og revidere dem for å sammenfalle med hentet bevis.
- Kunnskapsretrieval – Validerer usikre generasjoner ved å hente kunnskap før produksjon av tekst.
- LLM-Augmenter – Iterativt søker kunnskap for å konstruere beviskjeder for LLM-promter.
Tilbakekobling og resonnering
Å utnytte iterativ naturlig språktilbakekobling eller selvresonnering tillater LLM-er å finjustere og forbedre sine innledende utdata, og reduserer hallusinasjoner.
CoVe anvender en kjede av verifiseringsteknikk. LLM-en genererer først et svar på brukerens spørring. Den genererer deretter potensielle verifiserings-spørringer for å faktasjekke sitt eget svar, basert på dens tillit til ulike utsagn gjort. For eksempel, for et svar som beskriver en ny medisinsk behandling, kan CoVe generere spørringer som “Hva er effektivitetsraten for behandlingen?”, “Har den fått regulatorisk godkjenning?”, “Hva er de potensielle bivirkningene?”. Kritisk, prøver LLM-en deretter å uavhengig besvare disse verifiserings-spørringene uten å være forutinntatt av sitt innledende svar. Hvis svarene på verifiserings-spørringene motsier eller ikke kan støtte utsagn gjort i det opprinnelige svaret, identifiserer systemet disse som sannsynlige hallusinasjoner og finjusterer svaret før det presenteres til brukeren.
DRESS fokuserer på å justere LLM-er for å sammenfalle bedre med menneskelige preferanser gjennom naturlig språktilbakekobling. Tilnærmingen tillater ikke-ekspertbrukere å gi frittflytende kritikk på modellgenerasjoner, som “Bivirkningene nevnt ser overdrivende ut” eller finjusteringsinstruksjoner som “Vær så god å diskutere kost- effektivitet også”. DRESS bruker forsterkingslæring til å trene modeller til å generere svar som er betinget av slik tilbakekobling som bedre sammenfaller med menneskelige preferanser. Dette forbedrer interaktivitet mens det reduserer urimelige eller uunderstøttede utsagn.
MixAlign behandler situasjoner hvor brukere stiller spørringer som ikke direkte korresponderer med bevispassasjer hentet av systemet. For eksempel, en bruker kan spørre “Vil forurensning bli verre i Kina?” mens hentede passasjer diskuterer globale forurensningstrender. For å unngå å hallusinere med utilstrekkelig kontekst, spør MixAlign eksplisitt brukeren når den er usikker på hvordan den skal relatere spørringen til hentet informasjon. Denne menneske-i-løkken-mekanismen tillater å hente tilbakekobling for å korrekt grunnlegge og kontekstualisere bevis, og forebygger ugrunnlagt svar.
Teknikken Selvrefleksjon trener LLM-er til å evaluere, gi tilbakekobling på og iterativt finjustere sine egne svar ved å bruke en fleroppgave-tilnærming. For eksempel, gitt et svar generert for en medisinsk spørring, lærer modellen å score sin faktiske nøyaktighet, identifisere eventuelle motsigende eller uunderstøttede utsagn og redigere disse ved å hente relevant kunnskap. Ved å lære LLM-er denne tilbakekoblingsløkken av å sjekke, kritisere og iterativt forbedre sine egne utdata, reduserer tilnærmingen blind hallusinasjon.
Promptjustering
Promptjustering tillater justering av instruksjonspromptene gitt til LLM-er under finjustering for ønsket atferd.
Metoden SynTra anvender en syntetisk sammenfattningsoppgave for å minimere hallusinasjon før overføring av modellen til virkelige sammenfattningsdatasett. Den syntetiske oppgaven gir inndata-pasasjer og ber modeller om å sammenfatte dem gjennom henting kun, uten abstraksjon. Dette trener modeller til å stole fullstendig på kildematerialet i stedet for å hallusinere ny informasjon under sammenfatning. SynTra viser seg å redusere hallusinasjonsproblemer når finjusterte modeller utrulleres på mål-oppgaver.
UPRISE trener en universell prompt-henter som gir den optimale myke prompt for få-skudd-læring på usette nedstrøms-oppgaver. Ved å hente effektive promter justert på en divers sett av oppgaver, lærer modellen å generalisere og tilpasse seg nye oppgaver hvor den mangler treningseksempler. Dette forbedrer ytelse uten å kreve oppgave-spesifikke justeringer.
Nye modellarkitekturer
FLEEK er et system fokusert på å assistere menneskelige faktasjekker og verifiserer. Det automatisk identifiserer potensielt verifiserbare faktiske krav gjort i en gitt tekst. FLEEK transformerer disse sjekkbare utsagn til spørringer, henter relatert bevis fra kunnskapsbaser og gir denne kontekstuelle informasjonen til menneskelige verifiserer for å effektivt verifisere dokument-nøyaktighet og revisjonsbehov.
Tilnærmingen CAD reduserer hallusinasjon i språkgenerering gjennom kontekst-bevisst dekoding. Spesifikt, CAD forsterker forskjellene mellom en LLMs utdatafordeling når betinget av en kontekst versus generert uavhengig. Dette avskrekker motsigelse av kontekstuelle bevis, og styrer modellen mot grunnlagt generering.
DoLA mildner faktiske hallusinasjoner ved å kontrastere logittverdier fra ulike lag i transformatornettverk. Ettersom faktisk kunnskap tenderer til å være lokaliseret i visse midtre lag, forsterker DoLA-signaler fra disse faktiske lagene gjennom DoLAs logitt-kontrast, og reduserer feilaktige faktiske genereringer.
Rammeverket THAM introduserer en regulariseringsterm under trening for å minimere den gjensidige informasjonen mellom inndata og hallusinerte utdata. Dette hjelper med å øke modellens avhengighet av gitt inndata-kontekst i stedet for ubundet forestilling, og reduserer blinde hallusinasjoner.
Kunnskapsgrunnlag
Å grunnlegge LLM-genereringer i strukturert kunnskap forhindrer ubegrenset spekulasjon og fabrikasjon.
Modellen RHO identifiserer enheter i en samtalekontekst og kobler dem til en kunnskapsgraf (KG). Relaterte fakta og relasjoner om disse enhetene hentes fra KG-en og fusjoneres inn i kontekst-representasjonen gitt til LLM-en. Denne kunnskapsberikede konteksten styrer svarene og reduserer hallusinasjoner i dialog ved å holde svarene knyttet til grunnlagt fakta om nevnte enheter/hendelser.
HAR skaper kontrafaktiske treningsdatasett som inneholder modell-genererte hallusinasjoner for å bedre lære grunnlag. Gitt en faktisk passasje, blir modeller promptet til å introdusere hallusinasjoner eller forvrengninger som genererer en endret kontrafaktisk versjon. Finjustering på denne dataen tvinger modeller til å bedre grunnlegge innhold i de opprinnelige faktiske kildene, og reduserer improvisasjon.
Overvåket finjustering
- Coach – Interaktiv ramme som besvarer bruker-spørringer, men også ber om korreksjoner for å forbedre.
- R-Tuning – Avvisnings-bevisst finjustering avviser uunderstøttede spørringer identifisert gjennom treningsdata-kunnskapsgap.
- TWEAK – Dekodingsmetode som rangerer genereringer basert på hvor godt hypoteser støtter inndata-fakta.
Utfordringer og begrensninger
Til tross for lovende fremgang, finnes det noen nøkkelutfordringer som gjenstår i å mildne hallusinasjoner:
- Teknikker ofte handler av kvalitet, sammenheng og kreativitet for sannhet.
- Vanskeligheter i rigorøs evaluering utover begrensede domener. Metrikker fanger ikke alle nyanser.
- Mange metoder er komputasjonelt dyre, og krever omfattende henting eller selvresonnering.
- De avhenger sterkt av treningsdatakvalitet og eksterne kunnskapskilder.
- Det er vanskelig å garantere generaliserbarhet over domener og modaliteter.
- Grundleggende røtter av hallusinasjon som over-ekstrapolasjon forblir uløst.
Å håndtere disse utfordringene krever sannsynligvis en flerlaget tilnærming som kombinerer treningsdata-forbedringer, modellarkitektur-forbedringer, trofasthets-forbedrings tap og inferens-tidsteknikker.
Veiene fremover
Hallusinasjonsmildning for LLM-er forblir et åpent forskningsproblem med aktiv fremgang. Noen lovende fremtidige retninger inkluderer:
- Hybridteknikker: Kombiner komplementære tilnærminger som henting, kunnskapsgrunnlag og tilbakekobling.
- Kausalitetsmodellering: Forbedre forståelse og resonnering.
- Online kunnskapsintegrasjon: Holde verdens kunnskap oppdatert.
- Formell verifisering: Gi matematiske garantier for modell-atferd.
- Fortolkbarhet: Bygge gjennomsiktighet inn i mildningsteknikker.
Ettersom LLM-er fortsetter å spre seg over høy-utfordringsdomener, vil utvikling av robuste løsninger for å begrense hallusinasjoner være nøkkel til å sikre deres trygge, etiske og pålitelige utrullering. Teknikkene presentert i denne artikkelen gir en oversikt over teknikker foreslått hittil, hvor mer åpne forskningsutfordringer gjenstår. Totalt sett er det en positiv trend mot å forbedre modell-faktualitet, men fortsatt fremgang krever å håndtere begrensninger og utforske nye retninger som kausalitet, verifisering og hybridmetoder. Med flittig innsats fra forskere over disipliner, kan drømmen om kraftfulle, men pålitelige LLM-er bli virkelighet.












