Prompt engineering
Bekæmpelse af hallucinationer i store sprogmodeller: En oversigt over nyeste teknikker

Store sprogmodeller (LLM’er) som GPT-4, PaLM og Llama har låst op for bemærkelsesværdige fremskridt i naturlig sproggenerering. En vedvarende udfordring, der begrænser deres pålidelighed og sikker udvikling, er deres tendens til at hallucinere – generere indhold, der synes sammenhængende, men faktisk er forkert eller ikke er baseret på den indledende kontekst.
Da LLM’er fortsætter med at blive mere kraftfulde og almindelige i virkelige anvendelser, bliver det vigtigt at tackle hallucinationer. Denne artikel giver en omfattende oversigt over de nyeste teknikker, som forskere har introduceret for at registrere, kvantificere og mindske hallucinationer i LLM’er.
Forståelse af hallucination i LLM’er
Hallucination refererer til faktuelle uretningsmaader eller opdigtede historier genereret af LLM’er, der ikke er baseret på virkeligheden eller den givne kontekst. Nogle eksempler omfatter:
- At opdigte biografiske detaljer eller begivenheder, der ikke er beviseret i kildematerialet, når man genererer tekst om en person.
- At give fejlbehæftet medicinsk rådgivning ved at opdigte bivirkninger eller behandlingsprocedurer.
- At opdigte ikke-eksisterende data, studier eller kilder for at støtte en påstand.
Dette fænomen opstår, fordi LLM’er er trænet på store mængder af online tekstdata. Selvom dette giver dem stærke sprogmodeleringsevner, betyder det også, at de lærer at extrapolere information, gøre logiske spring og udfylde huller på en måde, der synes overbevisende, men kan være misvisende eller forkert.
Nogle nøglefaktorer, der er ansvarlige for hallucinationer, omfatter:
- Mønstergeneralisering – LLM’er identificerer og udvider mønstre i træningsdata, som måske ikke generaliserer godt.
- Forældet viden – Statisk præ-træning forhindrer integration af ny information.
- Uklarhed – Vage prompts giver plads til forkerte antagelser.
- Forudindtagelser – Modeller fastholder og forstærker skæve perspektiver.
- Utilstrækkelig grundlæggelse – Mangel på forståelse og begrundelse betyder, at modeller genererer indhold, de ikke fuldt ud forstår.
At tackle hallucinationer er kritisk for en pålidelig udvikling i følsomme områder som medicin, jura, finans og uddannelse, hvor generering af forkert information kan føre til skade.
Taksonomi af hallucinationsminderings-teknikker
Forskere har introduceret forskellige teknikker for at bekæmpe hallucinationer i LLM’er, som kan kategoriseres i:
1. Prompt-ingeniørarbejde
Dette involverer omhyggeligt udformning af prompts for at give kontekst og guide LLM’en mod faktuelle og grundede svar.
- Indhentning af ydre beviser – Indhentning af ydre beviser for at grundlægge indhold.
- Feedback-løkker – Iterativt give feedback for at raffinere svar.
- Prompt-justering – Justering af prompts under fin-justering for ønskede adfærd.
2. Modeludvikling
Oprettelse af modeller, der er mindre tilbøjelige til at hallucinere via arkitektoniske ændringer.
- Decoding-strategier – Generere tekst på måder, der øger trofasthed.
- Viden-grundlæggelse – Inkorporere ydre videnbasers.
- Nye tab-funktioner – Optimering for trofasthed under træning.
- Overvåget fin-justering – Brug af menneske-labelede data for at forbedre faktualitet.
Herefter gennemgår vi fremtrædende teknikker under hver tilgang.
Fremtrædende hallucinationsminderings-teknikker
Indhentning af ydre beviser
Indhentning af ydre beviser forbedrer LLM’er ved at indhente og betinge tekstgenerering på ydre bevisdokumenter, snarere end at stole kun på modellens implicitte viden. Dette grundlægger indhold i opdateret, verificerbar information og reducerer hallucinationer.
Fremtrædende teknikker omfatter:
- RAG – Bruger en indhenter-modul, der giver relevante passager til en seq2seq-model for at generere fra. Begge komponenter er trænet slut-for-slut.
- RARR – Anvender LLM’er til at undersøge uattribuerede påstande i genereret tekst og revidere dem for at være i overensstemmelse med indhentede beviser.
- Viden-indhentning – Validerer usikre generationer ved hjælp af indhentet viden, før tekst genereres.
- LLM-Augmenter – Iterativt søger viden for at konstruere bevis-kæder for LLM-prompts.
Feedback og begrundelse
At anvende iterative naturlige sprogfeedback eller selv-begrundelse giver LLM’er mulighed for at raffinere og forbedre deres initiale udgangspunkter, reducerer hallucinationer.
CoVe anvender en kæde af verificeringsteknik. LLM’en udarbejder først et svar på brugerens forespørgsel. Den genererer derefter potentielle verificerings-spørgsmål for at faktatjekke sit eget svar, baseret på dens tillid til forskellige udsagn. For eksempel, for et svar, der beskriver en ny medicinsk behandling, kan CoVe generere spørgsmål som “Hvad er effektivitetsraten for behandlingen?”, “Har den fået regulatorisk godkendelse?”, “Hvad er de potentielle bivirkninger?”. Afgørende, LLM’en prøver derefter at uafhængigt besvare disse verificerings-spørgsmål uden at være fordomsfuld af sin initiale svar. Hvis svarene på verificerings-spørgsmålene modsiger eller ikke kan støtte udsagn i det oprindelige svar, identificerer systemet disse som sandsynlige hallucinationer og raffinerer svaret, før det præsenteres for brugeren.
DRESS fokuserer på at justere LLM’er for at være mere i overensstemmelse med menneskelige præferencer gennem naturligt sprogfeedback. Tilgangen giver ikke-ekspert-brugere mulighed for at give fri-form-kritik på model-generationer, såsom “Bivirkningerne, der nævnes, synes overdrivne” eller raffinerings-instruktioner som “Venligst diskuter også omkostningseffektivitet”. DRESS bruger forstærkning-læring til at træne modeller til at generere svar, der er betinget af sådant feedback, der bedre er i overensstemmelse med menneskelige præferencer. Dette forbedrer interaktionsmulighederne, mens det reducerer urealistiske eller ubeskyttede udsagn.
MixAlign beskæftiger sig med situationer, hvor brugere stiller spørgsmål, der ikke direkte svarer til de indhentede bevisdokumenter. For eksempel kan en bruger spørge “Bliver forurening værre i Kina?”, hvorimod indhentede passager diskuterer globale forureningstendenser. For at undgå at hallucinere med utilstrækkelig kontekst, beder MixAlign udtrykkeligt om klarificering fra brugeren, når den er usikker på, hvordan den skal relatere brugerens spørgsmål til den indhentede information. Denne menneske-i-løkken-mekanisme giver mulighed for at få feedback til at korrekt grundlægge og kontekstualisere bevis, og forhindrer uggrundede svar.
Den Selv-refleksion-teknik træner LLM’er til at evaluere, give feedback på og iterativt raffinere deres egne svar ved hjælp af en multi-opgave-tilgang. For eksempel, givet et svar genereret for et medicinsk spørgsmål, lærer modellen at score sin faktuelle nøjagtighed, identificere eventuelle modstridende eller ubeskyttede udsagn og redigere dem ved at indhente relevant viden. Ved at undervise LLM’er denne feedback-løkke af at kontrollere, kritiserer og iterativt forbedre deres egne udgangspunkter, reducerer tilgangen blind hallucination.
Prompt-justering
Prompt-justering giver mulighed for at justere de instruktions-prompts, der gives til LLM’er under fin-justering for ønskede adfærd.
Den SynTra-metode anvender en syntetisk sammenfatnings-opgave til at minimere hallucination, før modellen overføres til rigtige sammenfatnings-datasæt. Den syntetiske opgave giver input-passager og beder modellen om at sammenfatte dem gennem indhentning alene, uden abstraktion. Dette træner modellen til at stole fuldt ud på kilde-indhold snarere end at hallucinere ny information under sammenfatning. SynTra viser sig at reducere hallucinations-problemer, når fin-justerede modeller deployes på mål-opgaver.
UPRISE træner en universel prompt-indhenter, der giver den optimale bløde prompt for few-shot-læring på usete nedstrøms-opgaver. Ved at indhente effektive prompts, der er justeret på en diversitet af opgaver, lærer modellen at generalisere og tilpasse sig nye opgaver, hvor den mangler trænings-eksempler. Dette forbedrer ydeevnen uden at kræve opgave-specifikke justeringer.
Nye model-arkitekturer
FLEEK er et system, der fokuserer på at hjælpe menneskelige faktatjekker og validatore. Det automatisk identificerer potentielt verificerbare faktuelle påstande i en given tekst. FLEEK transformerer disse check-værdige udsagn til forespørgsler, indhenter relateret bevis fra videnbasers og giver denne kontekstuelle information til menneskelige validatore for at effektivt verificere dokument-nøjagtighed og revision-behov.
Den CAD-decoding-tilgang reducerer hallucination i sproggenerering gennem kontekst-bevidst decoding. Specifikt forstærker CAD forskellene mellem en LLM’s output-fordeling, når den er betinget af en kontekst, versus genereret uden betingelse. Dette afværger modsætning af kontekstuel bevis og styrer modellen mod grundede generationer.
DoLA mindske faktuelle hallucinationer ved at kontrastere logits fra forskellige lag af transformer-netværk. Da faktuel viden har tilbøjelighed til at være lokaliseret i visse midterste lag, forstærker DoLA’s logit-kontrast signaler fra disse faktuelle lag og reducerer forkerte faktuelle generationer.
Den THAM-ramme introducerer en regulariserings-term under træning for at minimere den gensidige information mellem input og hallucinerede output. Dette hjælper med at øge modellens afhængighed af den givne input-kontekst snarere end uforankret fantasi, reducerer blind hallucination.
Viden-grundlæggelse
At grundlægge LLM-generationer i struktureret viden forhindrer ubændig spekulation og opdigtede historier.
Den RHO-model identificerer enheder i en samtale-kontekst og linker dem til en viden-graph (KG). Relaterede fakta og relationer om disse enheder indhentes fra KG’en og fusioneres i kontekst-repræsentationen, der gives til LLM’en. Denne viden-berigede kontekst-styring reducerer hallucinationer i dialog ved at holde svar til grundede fakta om nævnte enheder/hændelser.
HAR skaber kontrafaktiske trænings-datasæt, der indeholder model-genererede hallucinationer for bedre at undervise grundlæggelse. Givet en faktuel passage, bliver modellen bedt om at introducere hallucinationer eller forvrængninger, der genererer en ændret kontrafaktisk version. Fin-justering på denne data tvinger modellen til at grundlægge indhold i den oprindelige faktuelle kilder, reducerer improvisation.
Overvåget fin-justering
- Coach – Interaktiv ramme, der besvarer bruger-spørgsmål, men også beder om korrektioner for at forbedre.
- R-Tuning – Afvisnings-bevidst justering afviser ubeskyttede spørgsmål, der er identificeret gennem trænings-data-viden-lukker.
- TWEAK – Decoding-metode, der rangerer generationer baseret på, hvor godt hypoteser støtter input-fakta.
Udfordringer og begrænsninger
Trods lovende fremskridt, er der stadig nogle nøgle-udfordringer i at mindske hallucinationer:
- Teknikker handler ofte kvalitet, sammenhæng og kreativitet for sandhed.
- Sværheden ved at evaluere rigorøst ud over begrænsede domæner. Metrikker fanger ikke alle nuancer.
- Mange metoder er computermæssigt dyre, kræver omfattende indhentning eller selv-begrundelse.
- De afhænger tungt af trænings-data-kvalitet og ydre viden-kilder.
- Det er svært at garantere generaliserbarhed på tværs af domæner og modaliteter.
- De grundlæggende rødder af hallucination som over-extrapolering forbliver uløste.
At tackle disse udfordringer kræver sandsynligvis en multi-lagd tilgang, der kombinerer trænings-data-forbedringer, model-arkitektur-forbedringer, trofastheds-forbedringer og inferens-tid-teknikker.
Vejen Frem
Hallucinations-minderings-teknikker for LLM’er forbliver et åbent forsknings-problem med aktivt fremskridt. Nogle lovende fremtidige retninger omfatter:
- Hybrid-teknikker: Kombiner komplementære tilgange som indhentning, viden-grundlæggelse og feedback.
- Kausalitets-modelering: Forbedre forståelse og begrundelse.
- Online-viden-integration: Hold verden-viden opdateret.
- Formel-verificering: Give matematiske garantier for model-adfærd.
- Fortolkelighed: Byg transparency ind i mindsknings-teknikker.
Da LLM’er fortsætter med at sprede sig over høj-risiko-domæner, vil udvikling af robuste løsninger til at mindske hallucinationer være nøgle til at sikre deres sikre, etiske og pålidelige udvikling. Teknikkerne, der er gennemgået i denne artikel, giver en oversigt over de teknikker, der er foreslået hidtil, hvor mere åbne forsknings-udfordringer forbliver. I det store og hele er der en positiv tendens til at forbedre model-faktualitet, men fortsat fremskridt nødvendiggør at tackle begrænsninger og udforske nye retninger som kausalitet, verificering og hybrid-metoder. Med omhyggelige anstrengelser fra forskere på tværs af discipliner kan drømmen om kraftfulde, men pålidelige LLM’er blive til virkelighed.












