stub Håndtering af hallucinationer i store sprogmodeller: En undersøgelse af banebrydende teknikker - Unite.AI
Følg os

Hurtig teknik

Håndtering af hallucinationer i store sprogmodeller: En undersøgelse af banebrydende teknikker

mm

Udgivet

 on

Hallucination i store sprogmodeller

Store sprogmodeller (LLM'er) som GPT-4, PaLM og Llama har låst op for bemærkelsesværdige fremskridt inden for naturlige sproggenereringsmuligheder. Men en vedvarende udfordring, der begrænser deres pålidelighed og sikre implementering, er deres tendens til at hallucinere - at generere indhold, der virker sammenhængende, men som er faktuelt forkert eller uden grundlag for inputkonteksten.

Efterhånden som LLM'er fortsætter med at vokse sig mere kraftfulde og allestedsnærværende på tværs af applikationer i den virkelige verden, bliver det bydende nødvendigt at håndtere hallucinationer. Denne artikel giver et omfattende overblik over de nyeste teknikker, forskere har introduceret til at opdage, kvantificere og afbøde hallucinationer i LLM'er.

Forståelse af hallucination i LLM'er

Hallucination refererer til faktuelle unøjagtigheder eller fremstillinger genereret af LLM'er, som ikke er funderet i virkeligheden eller den angivne kontekst. Nogle eksempler omfatter:

  • At opfinde biografiske detaljer eller begivenheder, der ikke fremgår af kildematerialet, når der genereres tekst om en person.
  • Tilvejebringelse af fejlagtig medicinsk rådgivning ved at konfabulere lægemiddelbivirkninger eller behandlingsprocedurer.
  • Sammenfatning af ikke-eksisterende data, undersøgelser eller kilder til støtte for en påstand.

Dette fænomen opstår, fordi LLM'er er trænet i enorme mængder online tekstdata. Selvom dette giver dem mulighed for at opnå stærke sprogmodelleringsevner, betyder det også, at de lærer at ekstrapolere information, tage logiske spring og udfylde huller på en måde, der virker overbevisende, men som kan være vildledende eller fejlagtig.

Nogle nøglefaktorer, der er ansvarlige for hallucinationer, omfatter:

  • Mønstergeneralisering – LLM'er identificerer og udvider mønstre i træningsdataene, som muligvis ikke generaliserer godt.
  • Forældet viden – Statisk fortræning forhindrer integration af ny information.
  • tvetydigheden – Vage meddelelser giver plads til forkerte antagelser.
  • bias – Modeller fastholder og forstærker skæve perspektiver.
  • Utilstrækkelig jording – Manglende forståelse og ræsonnement betyder, at modeller genererer indhold, som de ikke fuldt ud forstår.

Håndtering af hallucinationer er afgørende for troværdig implementering i følsomme domæner som medicin, jura, finans og uddannelse, hvor generering af misinformation kan føre til skade.

Taksonomi af hallucinationsbegrænsende teknikker

Forskere har introduceret forskellige teknikker til at bekæmpe hallucinationer i LLM'er, som kan kategoriseres i:

1. Prompt Engineering

Dette involverer omhyggeligt udformning af prompter for at give kontekst og vejlede LLM mod faktuelle, funderede svar.

  • Hentningsforøgelse – Hentning af ekstern evidens til grundindhold.
  • Feedback sløjfer – Iterativt at give feedback for at forfine svarene.
  • Hurtig tuning – Justering af prompter under finjustering for ønsket adfærd.

2. Modeludvikling

At skabe modeller, der i sagens natur er mindre tilbøjelige til at hallucinere via arkitektoniske ændringer.

  • Afkodningsstrategier – Generering af tekst på måder, der øger trofastheden.
  • Viden jording – Indarbejde eksterne vidensbaser.
  • Nye tabsfunktioner – Optimering for trofasthed under træning.
  • Overvåget finjustering – Brug af menneskemærkede data til at forbedre fakta.

Dernæst undersøger vi fremtrædende teknikker under hver tilgang.

Bemærkelsesværdige hallucinationsdæmpende teknikker

Retrieval Augmented Generation

Retrieval augmented generation forbedrer LLM'er ved at hente og konditionere tekstgenerering på eksterne bevisdokumenter i stedet for udelukkende at stole på modellens implicitte viden. Dette begrunder indhold i opdaterede, verificerbare oplysninger, hvilket reducerer hallucinationer.

Fremtrædende teknikker omfatter:

  • KLUD – Bruger et retriever-modul, der giver relevante passager for en seq2seq-model at generere fra. Begge komponenter trænes ende-til-ende.
  • RARR – Ansætter LLM'er til at undersøge ikke-tilskrevne påstande i genereret tekst og revidere dem, så de stemmer overens med hentede beviser.
  • Indhentning af viden – Validerer usikre generationer ved hjælp af hentet viden, før de producerer tekst.
  • LLM-Augmenter – Søger iterativt viden for at konstruere beviskæder for LLM-prompter.

Feedback og begrundelse

Udnyttelse af iterativ feedback fra naturligt sprog eller selvfornuft giver LLM'er mulighed for at forfine og forbedre deres indledende output, hvilket reducerer hallucinationer.

CoVe anvender en kæde af verifikationsteknik. LLM'en udarbejder først et svar på brugerens forespørgsel. Den genererer derefter potentielle verifikationsspørgsmål for at kontrollere sit eget svar baseret på sin tillid til forskellige udsagn. For eksempel, for et svar, der beskriver en ny medicinsk behandling, kan CoVe generere spørgsmål som "Hvad er behandlingens effektivitet?", "Har den modtaget myndighedsgodkendelse?", "Hvad er de potentielle bivirkninger?". Det er afgørende, at LLM derefter forsøger uafhængigt at besvare disse verifikationsspørgsmål uden at være forudindtaget af dets oprindelige svar. Hvis svarene på verifikationsspørgsmålene modsiger eller ikke kan understøtte udsagn i det oprindelige svar, identificerer systemet dem som sandsynlige hallucinationer og forfiner svaret, før det præsenteres for brugeren.

DRESS fokuserer på at tune LLM'er til bedre at tilpasse sig menneskelige præferencer gennem naturlig sprogfeedback. Fremgangsmåden giver ikke-ekspertbrugere mulighed for at give fri-form kritik af modelgenerationer, såsom "De nævnte bivirkninger virker overdrevne" eller forfiningsinstruktioner som "Vær venlig også at diskutere omkostningseffektivitet". DRESS bruger forstærkningslæring til at træne modeller til at generere svar betinget af sådan feedback, der bedre stemmer overens med menneskelige præferencer. Dette forbedrer interaktionsevnen og reducerer samtidig urealistiske eller ikke-understøttede udsagn.

MixAlign omhandler situationer, hvor brugerne stiller spørgsmål, der ikke direkte svarer til de bevispassager, som systemet henter. For eksempel kan en bruger spørge "Vil forurening blive værre i Kina?" hvorimod hentede passager diskuterer forureningstendenser globalt. For at undgå at hallucinere med utilstrækkelig kontekst, afklarer MixAlign eksplicit med brugeren, når de er i tvivl om, hvordan de skal relatere deres spørgsmål til den hentede information. Denne human-in-the-loop-mekanisme gør det muligt at opnå feedback til korrekt jordforbindelse og kontekstualisering af beviser, hvilket forhindrer ugrundede svar.

Selv reflektion teknik træner LLM'er til at evaluere, give feedback på og iterativt forfine deres egne svar ved hjælp af en multi-task tilgang. For eksempel, givet et svar genereret til en medicinsk forespørgsel, lærer modellen at score sin faktuelle nøjagtighed, identificere eventuelle modstridende eller ikke-understøttede udsagn og redigere dem ved at hente relevant viden. Ved at lære LLM'er denne feedback-løkke med at kontrollere, kritisere og iterativt forbedre deres egne output, reducerer tilgangen blinde hallucinationer.

Hurtig indstilling

Hurtig tuning gør det muligt at justere de instruktionsprompter, der gives til LLM'er under finjustering for ønsket adfærd.

SynTra metoden anvender en syntetisk opsummeringsopgave for at minimere hallucinationer, før modellen overføres til rigtige opsummeringsdatasæt. Den syntetiske opgave giver inputpassager og beder modeller om at opsummere dem kun gennem genfinding uden abstraktion. Dette træner modeller til at stole fuldstændigt på kildeindhold i stedet for at hallucinere ny information under opsummering. SynTra har vist sig at reducere hallucinationsproblemer, når finjusterede modeller implementeres på målopgaver.

UPRØJ træner en universel prompt retriever, der giver den optimale bløde prompt til få-skuds læring på usete downstream-opgaver. Ved at hente effektive prompter afstemt på et mangfoldigt sæt af opgaver, lærer modellen at generalisere og tilpasse sig nye opgaver, hvor den mangler træningseksempler. Dette forbedrer ydeevnen uden at kræve opgavespecifik tuning.

Nye modelarkitekturer

FLEEK er et system fokuseret på at hjælpe menneskelige faktatjekkere og validatorer. Den identificerer automatisk potentielt verificerbare faktuelle påstande i en given tekst. FLEEK omdanner disse kontrolværdige udsagn til forespørgsler, henter relaterede beviser fra vidensbaser og giver denne kontekstuelle information til menneskelige validatorer for effektivt at verificere dokumentets nøjagtighed og revisionsbehov.

CAD afkodningstilgang reducerer hallucinationer i sproggenerering gennem kontekstbevidst afkodning. Specifikt forstærker CAD forskellene mellem en LLM's outputfordeling, når den er betinget af en kontekst versus genereret ubetinget. Dette fraråder modstridende kontekstuelle beviser, og styrer modellen mod jordbundne generationer.

DoLA dæmper faktuelle hallucinationer ved at kontrastere logits fra forskellige lag af transformatornetværk. Da faktuel viden har en tendens til at være lokaliseret i visse mellemlag, reducerer forstærkning af signaler fra disse faktuelle lag gennem DoLAs logit-kontrast ukorrekte faktuelle generationer.

THAM framework introducerer et regulariseringsbegreb under træning for at minimere den gensidige information mellem input og hallucinerede output. Dette hjælper med at øge modellens afhængighed af given inputkontekst frem for ubundet fantasi, hvilket reducerer blinde hallucinationer.

Videnjording

At jorde LLM-generationer i struktureret viden forhindrer uhæmmet spekulation og fabrikation.

RHO modellen identificerer enheder i en samtalekontekst og forbinder dem med en vidensgraf (KG). Relaterede fakta og relationer om disse entiteter hentes fra KG og smeltes sammen i kontekstrepræsentationen, der leveres til LLM. Denne videnberigede kontekststyring reducerer hallucinationer i dialog ved at holde svar knyttet til funderede fakta om nævnte entiteter/begivenheder.

HAR skaber kontrafaktiske træningsdatasæt indeholdende modelgenererede hallucinationer for bedre at lære jordforbindelse. Givet en faktuel passage, bliver modeller bedt om at introducere hallucinationer eller forvrængninger, der genererer en ændret kontrafaktisk version. Finjustering af disse data tvinger modeller til at skabe et bedre indhold i de originale faktuelle kilder, hvilket reducerer improvisation.

Overvåget finjustering

  • Coach – Interaktiv ramme, der besvarer brugerforespørgsler, men også beder om rettelser for at blive bedre.
  • R-Tuning – Afvisningsbevidst tuning afviser ikke-understøttede spørgsmål, der er identificeret gennem huller i træningsdataviden.
  • TWEAK – Afkodningsmetode, der rangerer generationer baseret på, hvor godt hypoteser understøtter inputfakta.

Udfordringer og begrænsninger

På trods af lovende fremskridt er der stadig nogle nøgleudfordringer med at afbøde hallucinationer:

  • Teknikker afvejer ofte kvalitet, sammenhæng og kreativitet for sandhed.
  • Vanskeligheder ved streng evaluering ud over begrænsede domæner. Metrikker fanger ikke alle nuancer.
  • Mange metoder er beregningsmæssigt dyre og kræver omfattende genfinding eller selvfornuft.
  • Stærkt afhængig af uddannelsesdatakvalitet og eksterne videnkilder.
  • Svært at garantere generaliserbarhed på tværs af domæner og modaliteter.
  • Grundlæggende rødder til hallucinationer som overekstrapolation forbliver uløste.

At løse disse udfordringer kræver sandsynligvis en flerlagstilgang, der kombinerer træningsdataforbedringer, modelarkitekturforbedringer, troskabsforbedrende tab og inferens-tidsteknikker.

Vejen foran

Hallucinationsreduktion for LLM'er er fortsat et åbent forskningsproblem med aktive fremskridt. Nogle lovende fremtidige retninger inkluderer:

  • Hybride teknikker: Kombiner komplementære tilgange som genfinding, videnbasering og feedback.
  • Kausalitetsmodellering: Forbedre forståelse og ræsonnement.
  • Online videnintegration: Hold verdensviden opdateret.
  • Formel verifikation: Giv matematiske garantier for modeladfærd.
  • Fortolkningsmulighed: Byg gennemsigtighed i afbødningsteknikker.

Efterhånden som LLM'er fortsætter med at sprede sig på tværs af high-stakes domæner, vil udvikling af robuste løsninger til at begrænse hallucinationer være nøglen til at sikre deres sikre, etiske og pålidelige implementering. De undersøgte teknikker i denne artikel giver et overblik over de hidtil foreslåede teknikker, hvor der stadig er mere åbne forskningsudfordringer. Generelt er der en positiv tendens i retning af at forbedre modellens faktualitet, men fortsatte fremskridt nødvendiggør at adressere begrænsninger og udforske nye retninger som kausalitet, verifikation og hybridmetoder. Med en ihærdig indsats fra forskere på tværs af discipliner kan drømmen om kraftfulde, men troværdige LLM'er omsættes til virkelighed.

Jeg har brugt de sidste fem år på at fordybe mig i den fascinerende verden af ​​Machine Learning og Deep Learning. Min passion og ekspertise har ført mig til at bidrage til over 50 forskellige software engineering projekter, med særligt fokus på AI/ML. Min vedvarende nysgerrighed har også trukket mig hen imod Natural Language Processing, et felt jeg er ivrig efter at udforske yderligere.