Rask Engineering

Takling av hallusinasjoner i store språkmodeller: En undersøkelse av banebrytende teknikker

Publisert

4 måneder siden

Januar 19, 2024

Store språkmodeller (LLM-er) som GPT-4, PaLM og Llama har låst opp bemerkelsesverdige fremskritt når det gjelder generering av naturlige språk. En vedvarende utfordring som begrenser deres pålitelighet og trygge distribusjon, er imidlertid deres tendens til å hallusinere – å generere innhold som virker sammenhengende, men som er faktisk feil eller ugrunnet fra inndatakonteksten.

Ettersom LLM-er fortsetter å vokse seg kraftigere og allestedsnærværende på tvers av applikasjoner i den virkelige verden, blir det avgjørende å ta tak i hallusinasjoner. Denne artikkelen gir en omfattende oversikt over de nyeste teknikkene forskere har introdusert for å oppdage, kvantifisere og dempe hallusinasjoner i LLM.

Forstå hallusinasjoner i LLM-er

Hallusinasjon refererer til faktiske unøyaktigheter eller fabrikasjoner generert av LLM-er som ikke er forankret i virkeligheten eller den angitte konteksten. Noen eksempler inkluderer:

Å finne på biografiske detaljer eller hendelser som ikke er dokumentert i kildematerialet når du genererer tekst om en person.
Gi defekt medisinsk rådgivning ved å konfabelere legemiddelbivirkninger eller behandlingsprosedyrer.
Å lage ikke-eksisterende data, studier eller kilder for å støtte en påstand.

Dette fenomenet oppstår fordi LLM-er er trent på enorme mengder tekstdata på nettet. Selv om dette lar dem oppnå sterke språkmodelleringsevner, betyr det også at de lærer å ekstrapolere informasjon, gjøre logiske sprang og fylle ut hull på en måte som virker overbevisende, men som kan være misvisende eller feilaktig.

Noen nøkkelfaktorer som er ansvarlige for hallusinasjoner inkluderer:

Mønstergeneralisering – LLM-er identifiserer og utvider mønstre i treningsdataene som kanskje ikke generaliserer godt.
Utdatert kunnskap – Statisk fortrening hindrer integrering av ny informasjon.
tvetydighet – Vage oppfordringer gir rom for feilaktige antakelser.
skjevheter – Modeller foreviger og forsterker skjeve perspektiver.
Utilstrekkelig jording – Mangel på forståelse og resonnement betyr at modeller genererer innhold de ikke helt forstår.

Å adressere hallusinasjoner er avgjørende for pålitelig distribusjon i sensitive domener som medisin, juss, finans og utdanning der generering av feilinformasjon kan føre til skade.

Taksonomi for hallusinasjonsbegrensningsteknikker

Forskere har introdusert forskjellige teknikker for å bekjempe hallusinasjoner i LLM-er, som kan kategoriseres i:

1. Prompt Engineering

Dette involverer nøye utforming av forespørsler for å gi kontekst og veilede LLM mot saklige, funderte svar.

Gjenvinningsforsterkning – Hente eksternt bevis til grunninnhold.
Tilbakemeldingsløkker – Iterativt gi tilbakemelding for å avgrense svarene.
Rask tuning – Justering av meldinger under finjustering for ønsket oppførsel.

2. Modellutvikling

Å lage modeller som er mindre utsatt for hallusinering via arkitektoniske endringer.

Avkodingsstrategier – Generere tekst på måter som øker trofastheten.
Kunnskapsjording – Innlemme eksterne kunnskapsbaser.
Nye tapsfunksjoner – Optimalisering for trofasthet under trening.
Overvåket finjustering – Bruk av menneskemerkede data for å forbedre fakta.

Deretter kartlegger vi fremtredende teknikker under hver tilnærming.

Bemerkelsesverdige hallusinasjonsdempende teknikker

Retrieval Augmented Generation

Utvidet generering for gjenfinning forbedrer LLM-er ved å hente og kondisjonere tekstgenerering på eksterne bevisdokumenter, i stedet for å stole utelukkende på modellens implisitte kunnskap. Dette begrunner innhold i oppdatert, kontrollerbar informasjon, og reduserer hallusinasjoner.

Fremtredende teknikker inkluderer:

FILLE – Bruker en retrievermodul som gir relevante passasjer for en seq2seq-modell å generere fra. Begge komponentene trenes ende-til-ende.
RARR – Ansetter LLM-er for å undersøke påstander som ikke er tilskrevet i generert tekst og revidere dem for å tilpasses innhentede bevis.
Kunnskapsinnhenting – Validerer usikre generasjoner ved hjelp av hentet kunnskap før tekst produseres.
LLM-Augmenter – Søker iterativt etter kunnskap for å konstruere beviskjeder for LLM-forespørsler.

Tilbakemelding og begrunnelse

Ved å utnytte iterative naturlig språktilbakemeldinger eller selvresonnering kan LLM-er avgrense og forbedre de første resultatene sine, og redusere hallusinasjoner.

CoVe bruker en kjede av verifikasjonsteknikk. LLM utarbeider først et svar på brukerens forespørsel. Den genererer deretter potensielle verifikasjonsspørsmål for å faktasjekke sitt eget svar, basert på tilliten til ulike uttalelser. For eksempel, for et svar som beskriver en ny medisinsk behandling, kan CoVe generere spørsmål som "Hva er effekten av behandlingen?", "Har den mottatt myndighetsgodkjenning?", "Hva er de potensielle bivirkningene?". Avgjørende er at LLM deretter prøver å uavhengig svare på disse bekreftelsesspørsmålene uten å være partisk av dets første svar. Hvis svarene på verifikasjonsspørsmålene motsier eller ikke kan støtte utsagn i det opprinnelige svaret, identifiserer systemet disse som sannsynlige hallusinasjoner og avgrenser svaret før det presenteres for brukeren.

KJOLE fokuserer på å tune LLM-er for å tilpasses bedre med menneskelige preferanser gjennom naturlig språktilbakemelding. Tilnærmingen lar ikke-ekspertbrukere gi fri formkritikk på modellgenerasjoner, for eksempel "De nevnte bivirkningene virker overdrevne" eller foredlingsinstruksjoner som "Vennligst diskuter kostnadseffektivitet". DRESS bruker forsterkende læring for å trene modeller til å generere svar betinget av slike tilbakemeldinger som bedre samsvarer med menneskelige preferanser. Dette forbedrer interaksjonsevnen samtidig som det reduserer urealistiske eller ikke-støttede utsagn.

MixAlign omhandler situasjoner der brukere stiller spørsmål som ikke direkte samsvarer med bevispassasjene hentet av systemet. En bruker kan for eksempel spørre «Vil forurensning bli verre i Kina?» mens hentede passasjer diskuterer forurensningstrender globalt. For å unngå hallusinering med utilstrekkelig kontekst, avklarer MixAlign eksplisitt med brukeren når han er usikker på hvordan spørsmålet skal relateres til den hentede informasjonen. Denne menneske-i-løkken-mekanismen gjør det mulig å få tilbakemelding for å jorde og kontekstualisere bevis, og forhindre ujordede svar.

De Selvrefleksjon teknikk trener LLM-er til å evaluere, gi tilbakemelding på og iterativt avgrense sine egne svar ved å bruke en fleroppgavetilnærming. For eksempel, gitt et svar generert for en medisinsk forespørsel, lærer modellen å score sin faktiske nøyaktighet, identifisere eventuelle motstridende eller ikke-støttede utsagn, og redigere disse ved å hente relevant kunnskap. Ved å lære LLM-ere denne tilbakemeldingssløyfen med å sjekke, kritisere og iterativt forbedre sine egne resultater, reduserer tilnærmingen blinde hallusinasjoner.

Spørre Tuning

Rask tuning gjør det mulig å justere instruksjonsmeldingene som gis til LLM-er under finjustering for ønsket atferd.

De SynTra metoden bruker en syntetisk oppsummeringsoppgave for å minimere hallusinasjoner før modellen overføres til ekte oppsummeringsdatasett. Den syntetiske oppgaven gir inngangspassasjer og ber modeller om å oppsummere dem kun gjennom gjenfinning, uten abstraksjon. Dette trener modeller til å stole fullstendig på hentet innhold i stedet for å hallusinere ny informasjon under oppsummering. SynTra er vist å redusere hallusinasjonsproblemer når finjusterte modeller brukes på måloppgaver.

UPRESS trener en universal prompt retriever som gir den optimale myke prompten for få-skudd læring på usett nedstrømsoppgaver. Ved å hente effektive meldinger innstilt på et mangfoldig sett med oppgaver, lærer modellen å generalisere og tilpasse seg nye oppgaver der den mangler treningseksempler. Dette forbedrer ytelsen uten å kreve oppgavespesifikk justering.

Nye modellarkitekturer

FLEEK er et system fokusert på å hjelpe menneskelige faktasjekkere og validatorer. Den identifiserer automatisk potensielt verifiserbare faktiske påstander i en gitt tekst. FLEEK transformerer disse sjekkverdige utsagnene til spørringer, henter relatert bevis fra kunnskapsbaser og gir denne kontekstuelle informasjonen til menneskelige validatorer for effektivt å verifisere dokumentnøyaktighet og revisjonsbehov.

De CAD dekodingstilnærming reduserer hallusinasjoner i språkgenerering gjennom kontekstbevisst dekoding. Nærmere bestemt forsterker CAD forskjellene mellom en LLMs utgangsdistribusjon når den er betinget av en kontekst versus generert ubetinget. Dette fraråder motstridende kontekstuelle bevis, og styrer modellen mot grunnfestede generasjoner.

DoLA reduserer faktiske hallusinasjoner ved å kontrastere logitter fra forskjellige lag av transformatornettverk. Siden faktakunnskap har en tendens til å være lokalisert i visse mellomlag, reduserer forsterkning av signaler fra disse faktalagene gjennom DoLAs logit-kontrast ukorrekte faktagenerasjoner.

De THAM rammeverket introduserer et regulariseringsbegrep under trening for å minimere gjensidig informasjon mellom input og hallusinerte utganger. Dette bidrar til å øke modellens avhengighet av gitt inputkontekst i stedet for ubundet fantasi, og reduserer blinde hallusinasjoner.

Kunnskapsjording

Å jorde LLM-generasjoner i strukturert kunnskap forhindrer uhemmet spekulasjon og fabrikasjon.

De RHO Modellen identifiserer enheter i en samtalekontekst og kobler dem til en kunnskapsgraf (KG). Relaterte fakta og relasjoner om disse enhetene hentes fra KG og smeltes inn i kontekstrepresentasjonen gitt til LLM. Denne kunnskapsberikede kontekststyringen reduserer hallusinasjoner i dialog ved å holde svar knyttet til begrunnede fakta om nevnte enheter/hendelser.

HAR lager kontrafaktiske treningsdatasett som inneholder modellgenererte hallusinasjoner for bedre å lære jording. Gitt en saklig passasje, blir modeller bedt om å introdusere hallusinasjoner eller forvrengninger som genererer en endret kontrafaktisk versjon. Finjustering av disse dataene tvinger modellene til å bedre grunninnhold i de originale faktakildene, noe som reduserer improvisasjon.

Overvåket finjustering

Coach og PT – Interaktivt rammeverk som svarer på brukerspørsmål, men også ber om korrigeringer for å bli bedre.
R-Tuning – Avslagsbevisst tuning avviser ikke-støttede spørsmål identifisert gjennom kunnskapshull i opplæringsdata.
TWEAK – Avkodingsmetode som rangerer generasjoner basert på hvor godt hypoteser støtter inputfakta.

Utfordringer og begrensninger

Til tross for lovende fremgang, gjenstår noen viktige utfordringer med å dempe hallusinasjoner:

Teknikker bytter ofte ut kvalitet, sammenheng og kreativitet for sannhet.
Vanskeligheter med streng evaluering utover begrensede domener. Beregninger fanger ikke opp alle nyanser.
Mange metoder er beregningsmessig dyre, og krever omfattende gjenfinning eller selvresonnering.
Sterkt avhengig av opplæringsdatakvalitet og eksterne kunnskapskilder.
Vanskelig å garantere generaliserbarhet på tvers av domener og modaliteter.
Grunnleggende røtter til hallusinasjoner som overekstrapolering forblir uløste.

Å takle disse utfordringene krever sannsynligvis en flerlags tilnærming som kombinerer forbedringer av treningsdata, forbedringer av modellarkitektur, troskapsforbedrende tap og inferens-tidsteknikker.

Veien fremover

Hallusinasjonsdemping for LLM er fortsatt et åpent forskningsproblem med aktiv fremgang. Noen lovende fremtidige retninger inkluderer:

Hybride teknikker: Kombiner komplementære tilnærminger som gjenfinning, kunnskapsforankring og tilbakemelding.
Kausalitetsmodellering: Forbedre forståelse og resonnement.
Nettbasert kunnskapsintegrasjon: Hold verdenskunnskapen oppdatert.
Formell bekreftelse: Gi matematiske garantier for modellatferd.
interpretability: Bygg inn åpenhet i avbøtende teknikker.

Ettersom LLM-er fortsetter å spre seg på tvers av domener med høy innsats, vil utvikling av robuste løsninger for å begrense hallusinasjoner være nøkkelen til å sikre sikker, etisk og pålitelig distribusjon. Teknikkene som er kartlagt i denne artikkelen gir en oversikt over teknikkene som er foreslått så langt, hvor det gjenstår mer åpne forskningsutfordringer. Totalt sett er det en positiv trend mot å forbedre modellens fakta, men fortsatt fremgang nødvendiggjør å adressere begrensninger og utforske nye retninger som årsakssammenheng, verifisering og hybridmetoder. Med iherdig innsats fra forskere på tvers av disipliner kan drømmen om kraftige, men pålitelige LLM-er omsettes til virkelighet.

Neste

Veiledning: Hvordan lage og dele tilpassede GPT-er

Ikke gå glipp av

Opplæring av forbedrede tekstinnbygginger med store språkmodeller

Aayush Mittal

Jeg har brukt de siste fem årene på å fordype meg i den fascinerende verdenen av maskinlæring og dyplæring. Min lidenskap og ekspertise har ført til at jeg har bidratt til over 50 ulike programvareprosjekter, med spesielt fokus på AI/ML. Min pågående nysgjerrighet har også trukket meg mot naturlig språkbehandling, et felt jeg er ivrig etter å utforske videre.