Connect with us

Bekæmpelse af hallucination i store sprogmodeller: En oversigt over avancerede teknikker

Prompt engineering

Bekæmpelse af hallucination i store sprogmodeller: En oversigt over avancerede teknikker

mm

Store sprogmodeller (LLM’er) som GPT-4, PaLM og Llama har låst op for bemærkelsesværdige fremskridt i generering af naturligt sprog. En vedvarende udfordring, der begrænser deres pålidelighed og sikre udvikling, er deres tendens til at hallucinere – generere indhold, der synes sammenhængende, men faktisk er forkert eller ikke er baseret på den indledende kontekst.

Da LLM’er fortsætter med at blive mere kraftfulde og almindelige i virkelige anvendelser, bliver det afgørende at tackle hallucinationer. Denne artikel giver en omfattende oversigt over de seneste teknikker, som forskere har introduceret for at detektere, kvantificere og mindske hallucinationer i LLM’er.

Forståelse af hallucination i LLM’er

Hallucination refererer til faktuelle uændringer eller opdigtelser, der genereres af LLM’er, som ikke er baseret på virkeligheden eller den givne kontekst. Nogle eksempler omfatter:

  • At opfinde biografiske detaljer eller begivenheder, der ikke er bevidnet i kildematerialet, når der genereres tekst om en person.
  • At give fejlbehæftet medicinsk rådgivning ved at opdigte bivirkninger eller behandlingsprocedurer.
  • At opfinde ikke-eksisterende data, studier eller kilder for at understøtte en påstand.

Dette fænomen opstår, fordi LLM’er er trænet på enorme mængder af online-tekstdata. Selvom dette giver dem stærke sprogmodelleringsevner, betyder det også, at de lærer at extrapolere information, gøre logiske spring og udfylde huller på en måde, der synes overbevisende, men kan være misvisende eller forkert.

Nogle nøglefaktorer, der er ansvarlige for hallucinationer, omfatter:

  • Mønstergeneralisering – LLM’er identificerer og udvider mønstre i træningsdata, som ikke generaliserer godt.
  • Forældet viden – Statiske fortræningsforhold forhindrer integration af ny information.
  • Ambiguitet – Vage prompts giver plads til forkerte antagelser.
  • Forudindtagelser – Modeller fastholder og forstærker skæve perspektiver.
  • Utilstrækkelig grundlæggelse – Mangel på forståelse og resonnering betyder, at modeller genererer indhold, de ikke fuldt ud forstår.

At tackle hallucinationer er afgørende for en pålidelig udvikling i følsomme domæner som medicin, jura, finans og uddannelse, hvor generering af misinformations kan føre til skade.

Taksonomi af hallucinationsbegrænsningsteknikker

Forskere har introduceret diverse teknikker for at bekæmpe hallucinationer i LLM’er, som kan kategoriseres i:

1. Prompt-teknik

Dette indebærer omhyggelig udformning af prompts for at give kontekst og guide LLM’en mod faktuelle, grundede svar.

  • Hentningsforbedring – Hentning af eksterne beviser for at grundlægge indhold.
  • Feedback-løkker – Iterativt at give feedback for at raffinere svar.
  • Prompt-justering – Justering af prompts under finjustering for ønskede adfærd.

2. Modeludvikling

Oprettelse af modeller, der er mindre tilbøjelige til at hallucinere via arkitekturændringer.

  • Decoding-strategier – Generering af tekst på måder, der øger trofasthed.
  • Vidensgrundlæggelse – Integration af eksterne videnbasers.
  • Nye tab-funktioner – Optimering for trofasthed under træning.
  • Overvåget finjustering – Brug af menneske-labelede data for at forbedre faktualitet.

Herefter gennemgår vi fremtrædende teknikker under hver tilgang.

Bemærkelsesværdige hallucinationsbegrænsningsteknikker

Hentningsforbedret generering

Hentningsforbedret generering forbedrer LLM’er ved at hente og konditionere tekstgenerering på eksterne bevisdokumenter, snarere end at afhænge kun af modellens implicitte viden. Dette grundlægger indhold i opdateret, verificerbar information, hvilket reducerer hallucinationer.

Fremtrædende teknikker omfatter:

  • RAG – Bruger en hentermodul, der giver relevante passager for en seq2seq-model til at generere fra. Begge komponenter trænes slut-for-slut.
  • RARR – Anvender LLM’er til at undersøge uattribuerede påstande i genereret tekst og revidere dem for at være i overensstemmelse med hentede beviser.
  • Videnshenting – Validerer usikre generationer ved hjælp af hentet viden, før der produceres tekst.
  • LLM-Augmenter – Iterativt søger viden for at konstruere beviskæder for LLM-prompts.

Feedback og resonnering

At anvende iterativ naturlig sprogfeedback eller selvresonnering giver LLM’er mulighed for at raffinere og forbedre deres initiale udgangspunkter, hvilket reducerer hallucinationer.

CoVe anvender en verifikationskæde-teknik. LLM’en udarbejder først et svar på brugerens spørgsmål. Den genererer derefter potentielle verifikations-spørgsmål for at faktatjekke sit eget svar, baseret på dens tillid til forskellige udsagn. For eksempel, for et svar, der beskriver en ny medicinsk behandling, kan CoVe generere spørgsmål som “Hvad er effektivitetsraten for behandlingen?”, “Har den fået regulativ godkendelse?”, “Hvad er de potentielle bivirkninger?”. Afgørende er, at LLM’en derefter forsøger at uafhængigt besvare disse verifikations-spørgsmål uden at være fordomsfuld af sit initiale svar. Hvis svarene på verifikations-spørgsmålene modsiger eller ikke kan støtte udsagn i det oprindelige svar, identificerer systemet disse som sandsynlige hallucinationer og raffinerer svaret, før det præsenteres for brugeren.

DRESS fokuserer på at justere LLM’er for at være mere i overensstemmelse med menneskelige præferencer gennem naturlig sprogfeedback. Tilgangen giver ikke-ekspertbrugere mulighed for at give fri-forms-kritik på modelgenerationer, såsom “De nævnte bivirkninger synes at være overdrivelse” eller raffineringssignaler som “Venligst diskuter også omkostningseffektivitet”. DRESS bruger forstærkning-læring til at træne modeller til at generere svar, der er betinget af sådant feedback, hvilket bedrer interaktionsmuligheder, mens det reducerer urealistiske eller ubeskyttede udsagn.

MixAlign beskæftiger sig med situationer, hvor brugere stiller spørgsmål, der ikke direkte svarer til de bevispassager, der er hentet af systemet. For eksempel kan en bruger spørge “Bliver forurening værre i Kina?”, mens hentede passager diskuterer forureningstendenser globalt. For at undgå at hallucinere med utilstrækkelig kontekst, beder MixAlign udtrykkeligt om klarificering fra brugeren, når den er usikker på, hvordan den skal relaterer spørgsmålet til den hentede information. Denne menneske-i-løkken-mekanisme giver mulighed for at få feedback til at korrekt grundlægge og kontekstualisere beviser, hvilket forhindrer grundløse svar.

Den Selv-refleksion-teknik træner LLM’er til at evaluere, give feedback på og iterativt raffinere deres egne svar ved hjælp af en multi-opgave-tilgang. For eksempel, givet et svar genereret for et medicinsk spørgsmål, lærer modellen at score sin faktuelle nøjagtighed, identificere eventuelle modsætningsfulde eller ubeskyttede udsagn og redigere dem ved at hente relevant viden. Ved at lære LLM’er denne feedback-løkke af at kontrollere, kritiserer og iterativt forbedre deres egne udgangspunkter, reducerer tilgangen blind hallucination.

Prompt-justering

Prompt-justering giver mulighed for at justere de instruktionsprompts, der gives til LLM’er under finjustering for ønskede adfærd.

Den SynTra-metode anvender en syntetisk sammenfatning-opgave til at minimere hallucination, før modellen overføres til rigtige sammenfatnings-datasæt. Den syntetiske opgave giver inputpassager og beder modellerne om at sammenfatte dem gennem henting alene, uden abstraktion. Dette træner modellerne til at afhænge fuldstændigt af kildematerialet, snarere end at hallucinere ny information under sammenfatning. SynTra viser sig at reducere hallucinations-problemer, når finjusterede modeller udvikles på mål-opgaver.

UPRISE træner en universel prompt-henter, der giver den optimale bløde prompt for få-skud-læring på usete nedstrøms-opgaver. Ved at hente effektive prompts, der er justeret på et diversitet af opgaver, lærer modellen at generalisere og tilpasse sig til nye opgaver, hvor den mangler trænings-eksempler. Dette forbedrer ydeevne uden at kræve opgave-specifikke justeringer.

Nye modelarkitekturer

FLEEK er et system, der fokuserer på at hjælpe menneskelige faktatjekker og validatorer. Det identificerer automatisk potentielt verificerbare faktuelle påstande, der er gjort i en given tekst. FLEEK transformerer disse check-værdige udsagn til spørgsmål, henter relateret bevis fra videnbasers og giver denne kontekstuelle information til menneskelige validatorer for at effektivt verificere dokumentets nøjagtighed og revisionsbehov.

Den CAD-afkodningstilgang reducerer hallucination i sproggenerering gennem kontekst-bevidst afkodning. Specifikt forstærker CAD forskellene mellem en LLM’s udgangsdistribution, når den er betinget af en kontekst, versus genereret uden betingelse. Dette afholder modellen fra at modsige kontekstuelle beviser, hvilket styre modellen mod grundede generationer.

DoLA mindske faktuelle hallucinationer ved at kontrastere logit-værdier fra forskellige lag af transformer-netværk. Da faktuel viden tenderer til at være lokaliseret i visse midterste lag, forstærker DoLA’s logit-kontrast signalerne fra disse faktuelle lag, hvilket reducerer forkert faktuel generation.

Den THAM-ramme introducerer en regulariserings-term under træning for at minimere den gensidige information mellem input og hallucinerede output. Dette hjælper med at øge modellens afhængighed af den givne input-kontekst, snarere end uforskammet imagination, hvilket reducerer blinde hallucinationer.

Vidensgrundlæggelse

At grundlægge LLM-genereringer i struktureret viden forhindrer uhæmmet spekulation og opdigtelser.

Den RHO-model identificerer enheder i en konversationskontekst og linker dem til en viden-graph (KG). Relaterede fakta og relationer om disse enheder hentes fra KG’en og fusioneres i kontekst-repræsentationen, der gives til LLM’en. Dette viden-berigede kontekst-styring reducerer hallucinationer i dialog, ved at holde svar til grundede fakta om nævnte enheder/hændelser.

HAR opretter kontrafaktiske trænings-datasæt, der indeholder model-genererede hallucinationer for bedre at lære grundlæggelse. Givet en faktuel passage, bedes modellerne om at introducere hallucinationer eller forvrængninger, der genererer en ændret kontrafaktisk version. Finjustering på denne data tvinger modellerne til bedre at grundlægge indhold i de oprindelige faktuelle kilder, hvilket reducerer improvisation.

Overvåget finjustering

  • Coach – Interaktiv ramme, der besvarer bruger-spørgsmål, men også beder om korrektioner for at forbedre.
  • R-Tuning – Afvisnings-bevidst finjustering afviser ubeskyttede spørgsmål, der er identificeret gennem træningsdata-viden-lukker.
  • TWEAK – Afkodningsmetode, der rangerer generationer baseret på, hvor godt hypoteser understøtter input-fakta.

Udfordringer og begrænsninger

Trods lovende fremskridt, er der stadig nogle nøgle-udfordringer i at mindske hallucinationer:

  • Teknikker ofte handler om kvalitet, sammenhæng og kreativitet for sandhed.
  • Vanskelighed i rigorøs evaluering ud over begrænsede domæner. Metrikker fanger ikke alle nuancer.
  • Mange metoder er computermæssigt dyre, og kræver omfattende henting eller selvresonnering.
  • De afhænger stærkt af træningsdata-kvalitet og eksterne videnkilder.
  • Det er svært at garantere generaliserbarhed på tværs af domæner og modaliteter.
  • De grundlæggende rødder af hallucination som over-extrapolering forbliver uløste.

At løse disse udfordringer kræver sandsynligvis en flerlaget tilgang, der kombinerer træningsdata-forbedringer, modelarkitektur-forbedringer, trofastheds-forbedrende tab og inferens-tidsteknikker.

Vejene fremad

Hallucinations-mindskning for LLM’er forbliver et åbent forskningsspørgsmål med aktivt fremskridt. Nogle lovende fremtidige retninger omfatter:

  • Hybrid-teknikker: Kombiner komplementære tilgange som henting, vidensgrundlæggelse og feedback.
  • Kausalitetsmodellering: Forbedre forståelse og resonnering.
  • Online-vidensintegration: Hold verden-viden opdateret.
  • Formel verificering: Give matematiske garantier for modellens adfærd.
  • Fortolkning: Byg transparency ind i begrænsningsteknikker.

Da LLM’er fortsætter med at sprede sig over høj-risiko-domæner, vil udvikling af robuste løsninger til at mindske hallucinationer være afgørende for at sikre deres sikre, etiske og pålidelige udvikling. De teknikker, der er gennemgået i denne artikel, giver en oversigt over de teknikker, der er foreslået indtil nu, hvor mere åben forskning udfordringer forbliver. I det store og hele er der en positiv trend mod at forbedre modellens sandhed, men fortsat fremskridt nødvendiggør at løse begrænsninger og udforske nye retninger som kausalitet, verificering og hybrid-metoder. Med omhyggelige anstrengelser fra forskere på tværs af discipliner kan drømmen om kraftfulde, men pålidelige LLM’er omsættes til virkelighed.

Jeg har brugt de sidste fem år på at dykke ned i den fascinerende verden af Machine Learning og Deep Learning. Min passion og ekspertise har ført til, at jeg har bidraget til over 50 forskellige software-udviklingsprojekter, med særlig fokus på AI/ML. Min vedvarende nysgerrighed har også ført mig i retning af Natural Language Processing, et felt jeg er ivrig efter at udforske yderligere.