Connect with us

Prompt engineering

Bekjempelse av hallusinasjoner i store språkmodeller: En oversikt over cuttingskjempe-teknikker

mm

Store språkmodeller (LLM) som GPT-4, PaLM og Llama har låst opp bemerkelsesverdige fremgang i generering av naturlig språk. Likevel er en vedvarende utfordring som begrenser deres pålitelighet og sikre utrulling deres tendens til å hallusinere – å generere innhold som ser koherent ut, men som er faktisk feil eller ikke grunnlagt i innputtkonteksten.

Ettersom LLM fortsatt vokser mer powerful og ubikk i virkelige applikasjoner, blir det nødvendig å adresse hallusinasjoner. Denne artikkelen gir en omfattende oversikt over de siste teknikker forskere har introdusert for å detektere, kvantifisere og mildne hallusinasjoner i LLM.

Forståelse av hallusinasjon i LLM

Hallusinasjon refererer til faktiske unøyaktigheter eller fabrikasjoner generert av LLM som ikke er grunnlagt i virkeligheten eller den gitt konteksten. Noen eksempler inkluderer:

  • Oppfinn av biografiske detaljer eller hendelser som ikke er bevis i kilde materialet når man genererer tekst om en person.
  • Å gi feilaktig medisinsk råd ved å fabrikere bivirkninger eller behandlingsprosedyrer.
  • Å konstruere ikke-eksisterende data, studier eller kilder for å støtte et krav.

Dette fenomenet oppstår fordi LLM er trent på store mengder tekstdata. Mens dette tillater dem å oppnå sterke språkmodelleringsevner, betyr det også at de lærer å extrapolere informasjon, gjøre logiske sprang og fylle hull i en måte som ser overbevisende ut, men kan være misvisende eller feil.

Noen nøkelfaktorer som er ansvarlige for hallusinasjoner inkluderer:

  • Mønstergeneralisering – LLM identifiserer og utvider mønster i treningsdata som kan ikke generalisere godt.
  • Forældet kunnskap – Statiske for-trening hindrer integrering av ny informasjon.
  • Ambiguitet – Vage instruksjoner tillater rom for feil antagelser.
  • Forutinntak – Modeller forsterker og amplifierer skjeve perspektiver.
  • Utilstrekkelig grunnlag – Mangel på forståelse og resonnering betyr at modeller genererer innhold de ikke fullt ut forstår.

Å adresse hallusinasjoner er kritisk for pålitelig utrulling i sensitive domener som medisin, lov, finanse og utdanning hvor generering av feilaktig informasjon kan føre til skade.

Taksonomi av hallusinasjonsmildningsteknikker

Forskere har introdusert diverse teknikker for å bekjempe hallusinasjoner i LLM, som kan kategoriseres i:

1. Instruksjonsingeniøri

Dette involverer å lage instruksjoner for å gi kontekst og guide LLM mot faktiske, grunnlagte svar.

  • Henting av eksternt bevis – Henting av eksternt bevis for å grunnlegge innhold.
  • Tilbakemeldingsløkker – Iterativt å gi tilbakemelding for å finjustere svar.
  • Instruksjonstuning – Justering av instruksjoner under finjustering for ønskede atferd.

2. Modellutvikling

Å lage modeller som er mindre utsatt for hallusinasjoner via arkitektoniske endringer.

  • Decodingstrategier – Generering av tekst på måter som øker trofasthet.
  • Kunnskapsgrunnlag – Inkorporering av eksterne kunnskapsbaser.
  • Nye tap-funksjoner – Optimalisering for trofasthet under trening.
  • Overvåket finjustering – Bruk av menneske-labelede data for å forbedre faktualitet.

Neste, vi gjennomgår fremtredende teknikker under hver tilnærming.

Fremtredende hallusinasjonsmildningsteknikker

Henting av eksternt bevis

Henting av eksternt bevis forbedrer LLM ved å hente og kondisjonere tekstgenerering på eksterne bevisdokumenter, i stedet for å bare stole på modellens implisitte kunnskap. Dette grunnlegger innhold i oppdatert, verifiserbar informasjon, reduserer hallusinasjoner.

Fremtredende teknikker inkluderer:

  • RAG – Bruker en hentermodul som gir relevante passasjer for en seq2seq-modell til å generere fra. Begge komponenter er trent end-to-end.
  • RARR – Anvender LLM til å forske uattributerte krav i generert tekst og revidere dem for å sammenfalle med hentet bevis.
  • Kunnskapsretrieval – Validerer usikre genereringer ved å bruke hentet kunnskap før produksjon av tekst.
  • LLM-Augmenter – Iterativt søker kunnskap for å konstruere beviskjeder for LLM-instruksjoner.

Tilbakemelding og resonnering

Å bruke iterativ naturlig språktilbakemelding eller selv-resonnering tillater LLM å finjustere og forbedre sine initielle utdata, reduserer hallusinasjoner.

CoVe anvender en verifikasjonskjede-teknikk. LLM genererer først en respons til brukerens spørring. Den genererer deretter potensielle verifikasjons-spørringer for å faktasjekke sin egen respons, basert på sin tillit til ulike uttalelser gjort. For eksempel, for en respons som beskriver en ny medisinsk behandling, kan CoVe generere spørringer som “Hva er effikasitetsraten for behandlingen?”, “Har den fått regulatorisk godkjenning?”, “Hva er de potensielle bivirkningene?”. Kritisk, prøver LLM deretter å uavhengig besvare disse verifikasjons-spørringene uten å være fordomsfull av sin initielle respons. Hvis svarene på verifikasjons-spørringene motsier eller ikke kan støtte uttalelser gjort i den opprinnelige responsen, identifiserer systemet disse som sannsynlige hallusinasjoner og finjusterer responsen før den presenteres til brukeren.

DRESS fokuserer på å justere LLM for å sammenfalle bedre med menneskelige preferanser gjennom naturlig språktilbakemelding. Tilnærmingen tillater ikke-ekspertbrukere å gi fritext-kritikk på modellgenereringer, som “Bivirkningene nevnt ser overdrevne ut” eller finjusteringsinstruksjoner som “Vennligst diskuter også kost-efektivitet”. DRESS bruker forsterkingslæring til å trene modeller til å generere responser kondisjonert på slik tilbakemelding som bedre sammenfaller med menneskelige preferanser. Dette forbedrer interaktivitet mens det reduserer urimelige eller ustøttede uttalelser.

MixAlign behandler situasjoner hvor brukere stiller spørringer som ikke direkte korresponderer med bevispassasjer hentet av systemet. For eksempel, en bruker kan spørre “Vil forurensning bli verre i Kina?” mens hentede passasjer diskuterer forurensningstrender globalt. For å unngå å hallusinere med utilstrekkelig kontekst, klarer MixAlign eksplisitt med brukeren når den er usikker på hvordan å relatere spørringen til hentet informasjon. Denne menneske-i-løkken-mekanismen tillater å hente tilbakemelding for å korrekt grunnlegge og kontekstualisere bevis, forebygge grunnløse responser.

Teknikken Selv-refleksjon trener LLM til å evaluere, gi tilbakemelding på og iterativt finjustere sine egne responser ved å bruke en fleroppdragstilnærming. For eksempel, gitt en respons generert for en medisinsk spørring, lærer modellen å score sin faktiske nøyaktighet, identifisere eventuelle motsigende eller ustøttede uttalelser og redigere disse ved å hente relevant kunnskap. Ved å lære LLM denne tilbakemeldingsløkken av å sjekke, kritisere og iterativt forbedre sine egne utdata, reduserer tilnærmingen blind hallusinasjon.

Instruksjonstuning

Instruksjonstuning tillater justering av instruksjoner gitt til LLM under finjustering for ønskede atferd.

Metoden SynTra anvender en syntetisk sammenfattningsoppgave for å minimere hallusinasjon før overføring av modellen til virkelige sammenfattningsdatasett. Den syntetiske oppgaven gir innputtpassasjer og ber modeller om å sammenfatte dem gjennom henting kun, uten abstraksjon. Dette trener modeller til å stole fullstendig på kildeinnhold i stedet for å hallusinere ny informasjon under sammenfatning. SynTra viser seg å redusere hallusinasjonsproblemer når finjusterte modeller utrulleres på mål-oppgaver.

UPRISE trener en universell instruksjons-henter som gir den optimale myke instruksjon for få-skudd-læring på usette nedstrøms-oppgaver. Ved å hente effektive instruksjoner justert på en diversifisert mengde oppgaver, lærer modellen å generalisere og tilpasse seg nye oppgaver hvor den mangler treningseksempler. Dette forbedrer ytelse uten å kreve oppgave-spesifikke justeringer.

Nye modellarkitekturer

FLEEK er et system fokusert på å assistere menneskelige faktasjekker og verifiserere. Det automatisk identifiserer potensielt verifiserbare faktiske krav gjort i en gitt tekst. FLEEK transformerer disse sjekkbare uttalelsene til spørringer, henter relatert bevis fra kunnskapsbaser og gir denne kontekstuelle informasjonen til menneskelige verifiserere for å effektivt verifisere dokument-nøyaktighet og revideringsbehov.

Tilnærmingen CAD reduserer hallusinasjon i språkgenerering gjennom kontekst-bevisst dekoding. Spesifikt, CAD forsterker forskjellene mellom en LLMs utdatafordeling når betinget av en kontekst versus generert uavhengig. Dette avskrekker motsigelse av kontekstuell bevis, styrende modellen mot grunnlagte genereringer.

DoLA mildner faktiske hallusinasjoner ved å kontrastere logitt fra ulike lag av transformator-nettverk. Ettersom faktisk kunnskap tenderer til å være lokaliseret i visse midtre lag, forsterker DoLA-signaler fra disse faktiske lagene gjennom DoLAs logitt-kontrast, reduserer feil faktiske genereringer.

Rammeverket THAM introduserer en regulariseringsterm under trening for å minimere den gjensidige informasjonen mellom innputt og hallusinerte utdata. Dette hjelper med å øke modellens avhengighet av gitt innputtkontekst i stedet for ubundet forestilling, reduserer blinde hallusinasjoner.

Kunnskapsgrunnlag

Grunnlegging av LLM-genereringer i strukturert kunnskap forhindrer ubegrensede spekulasjoner og fabrikasjoner.

Modellen RHO identifiserer enheter i en konversasjonskontekst og kobler dem til en kunnskapsgraf (KG). Relaterte fakta og relasjoner om disse enhetene hentes fra KG og fusjoneres i kontekst-representasjonen gitt til LLM. Dette kunnskaps-berikede kontekst-styring reduserer hallusinasjoner i dialog ved å holde responser bundet til grunnlagte fakta om nevnte enheter/hendelser.

HAR skaper kontrafaktiske treningsdatasett som inneholder modell-genererte hallusinasjoner for å bedre lære grunnlegging. Gitt en faktisk passasje, blir modeller bedt om å introdusere hallusinasjoner eller forvrengninger som genererer en endret kontrafaktisk versjon. Finjustering på denne dataen tvinger modeller til å bedre grunnlegge innhold i de opprinnelige faktiske kildene, reduserer improvisasjon.

Overvåket finjustering

  • Coach – Interaktiv ramme som besvarer bruker-spørringer, men også ber om korreksjoner for å forbedre.
  • R-Tuning – Nei-tilgjengelig justering neier ubesvarte spørringer identifisert gjennom treningsdata-kunnskaps-gapper.
  • TWEAK – Dekoding-metode som rangerer genereringer basert på hvor godt hypoteser støtter innputt-fakta.

Utfordringer og begrensninger

Til tross for løftende fremgang, finnes det noen nøkkel-utfordringer som fortsatt eksisterer i å mildne hallusinasjoner:

  • Teknikker ofte bytter av kvalitet, kohesjon og kreativitet for sannhet.
  • Vanskeligheter i rigorøs evaluering utover begrensede domener. Metrikker fanger ikke alle nyanser.
  • Mange metoder er komputasjonelt dyre, krever omfattende henting eller selv-resonnering.
  • Sterkt avhengig av treningsdata-kvalitet og eksterne kunnskapskilder.
  • Vanskelig å garantere generaliserbarhet over domener og modaliteter.
  • Grundleggende røtter av hallusinasjon som over-ekstrapolasjon forbli uløst.

Å adresse disse utfordringene krever sannsynligvis en flerlaget tilnærming som kombinerer treningsdata-forbedringer, modell-arkitektur-forbedringer, trofasthets-forbedrings-tap og inferens-tid-teknikker.

Vei fremover

Hallusinasjonsmildning for LLM forbli et åpent forskningsproblem med aktiv fremgang. Noen løftende fremtidige retninger inkluderer:

  • Hybrid-teknikker: Kombiner komplementære tilnærminger som henting, kunnskapsgrunnlag og tilbakemelding.
  • Kausalitetsmodellering: Forbedre forståelse og resonnering.
  • Online kunnskaps-integrering: Hold verden-kunnskap oppdatert.
  • Formell verifisering: Gi matematiske garantier for modell-atferd.
  • Tolkningsbarhet: Bygge gjennomsiktighet inn i mildningsteknikker.

Ettersom LLM fortsatt sprenger seg over høy-utfordrings-domener, vil utvikling av robuste løsninger for å begrense hallusinasjoner være nøkkel til å sikre deres trygge, etiske og pålitelige utrulling. Teknikkene gjennomgått i denne artikkelen gir en oversikt over teknikker foreslått så langt, hvor mer åpne forsknings-utfordringer forbli. Totalt sett er det en positiv trend mot å forbedre modell-faktualitet, men fortsatt fremgang krever å adresse begrensninger og utforske nye retninger som kausalitet, verifisering og hybrid-metoder. Med flittig innsats fra forskere over disipliner, kan drømmen om kraftfulle men pålitelige LLM bli oversatt til virkelighet.

Jeg har brukt de siste fem årene til å dykke ned i den fasiniserende verden av Machine Learning og Deep Learning. Min lidenskap og ekspertise har ført meg til å bidra til over 50 forskjellige prosjekter innen programvareutvikling, med særlig fokus på AI/ML. Min pågående nysgjerrighet har også trukket meg mot Natural Language Processing, et felt jeg er ivrig etter å utforske videre.