Kunstig intelligens

Overvinning av LLM-hallusinasjoner med hjelp av Retrieval Augmented Generation (RAG)

Published March 5, 2024

Updated April 4, 2026

Haziqa Sajid

Store språkmodeller (LLM) revolusjonerer måten vi prosesserer og genererer språk, men de er ikke perfekte. Akkurat som mennesker kan se former i skyer eller ansikter på månen, kan LLM også “hallusinere” og skape informasjon som ikke er nøyaktig. Dette fenomenet, kjent som LLM-hallusinasjoner, utgjør en økende bekymring ettersom bruken av LLM utvides.

Feil kan forvirre brukerne og kan i noen tilfeller sogar føre til juridiske problemer for selskaper. For eksempel, i 2023, saksøkte en veteran fra luftforsvaret, Jeffery Battle (kjent som The Aerospace Professor), Microsoft da han fant ut at Microsofts ChatGPT-drevne Bing-søk noen ganger gir feilaktig og skadelig informasjon om navnesøk. Søkemotoren forveksler ham med en dømt forbryter, Jeffery Leon Battle.

For å takle hallusinasjoner, har Retrieval-Augmented Generation (RAG) oppstått som en løftende løsning. Den inkorporerer kunnskap fra eksterne databaser for å forbedre nøyaktigheten og troverdigheten til LLM. La oss se nærmere på hvordan RAG gjør LLM mer nøyaktig og pålitelig. Vi skal også diskutere om RAG kan motvirke LLM-hallusinasjonsproblemet effektivt.

Forståelse av LLM-hallusinasjoner: Årsaker og eksempler

LLM, inkludert kjente modeller som ChatGPT, ChatGLM og Claude, er trent på omfattende tekstbaserte datasett, men er ikke immune mot å produsere faktisk feilaktige utdata, et fenomen kjent som “hallusinasjoner”. Hallusinasjoner skjer fordi LLM er trent til å skape meningsfulle responser basert på underliggende språkregler, uavhengig av deres faktiske nøyaktighet.

En Tidio-studie fant ut at mens 72% av brukerne mener at LLM er pålitelige, har 75% mottatt feilaktig informasjon fra AI minst en gang. Selv de mest lovende LLM-modellene som GPT-3.5 og GPT-4 kan noen ganger produsere feilaktig eller meningsløs innhold.

Her er en kort oversikt over vanlige typer LLM-hallusinasjoner:

Vanlige AI-hallusinasjonstyper:

Kildekonfusjon: Dette skjer når en modell kombinerer detaljer fra forskjellige kilder, noe som fører til motstridende eller til og med fabrikkerte kilder.
Faktiske feil: LLM kan generere innhold med feilaktig faktisk basis, særlig gitt internettets innebygde feil
Meningsløs informasjon: LLM forutsier neste ord basert på sannsynlighet. Dette kan resultere i grammatisk korrekt, men meningsløst tekst, som misleder brukerne om innholdets autoritet.

I fjor, møtte to advokater mulige sanktioner for å referere til seks ikke-eksisterende saker i deres juridiske dokumenter, misledet av ChatGPT-generert informasjon. Dette eksemplet understreker viktigheten av å nærme seg LLM-generert innhold med en kritisk øye, og understreker behovet for verifisering for å sikre pålitelighet. Mens dens kreative kapasitet er til nytte i applikasjoner som fortelling, stiller det utfordringer for oppgaver som krever streng overholdelse av fakta, som gjennomføring av akademisk forskning, skriving av medisinske og finansielle analyserapporter og gir juridisk råd.

Utforskning av løsningen for LLM-hallusinasjoner: Hvordan fungerer Retrieval Augmented Generation (RAG)

I 2020, introduserte LLM-forskere en teknikk kalt Retrieval-Augmented Generation (RAG) for å motvirke LLM-hallusinasjoner ved å inkorporere en ekstern datakilde. I motsetning til tradisjonelle LLM som bare baserer seg på deres forhåndstrening, genererer RAG-baserte LLM-modeller faktisk nøyaktige responser ved å dynamisk hente relevante informasjon fra en ekstern database før de besvarer spørsmål eller genererer tekst.

RAG-prosess nedbryting:

Steps of RAG

RAG-prosess trinn: Kilde

Trinn 1: Henting

Systemet søker i en spesifikk kunnskapsbase for informasjon relatert til brukerens spørring. For eksempel, hvis noen spør om den siste vinneren av fotball-VM, søker det etter den mest relevante fotballinformasjonen.

Trinn 2: Utvidelse

Den opprinnelige spørringen utvides deretter med informasjonen som er funnet. Ved å bruke fotball-eksemplet, oppdateres spørringen “Hvem vant fotball-VM?” med spesifikke detaljer som “Argentina vant fotball-VM.”

Trinn 3: Generering

Med den berikede spørringen, genererer LLM en detaljert og nøyaktig respons. I vårt tilfelle, vil det skape en respons basert på den utvidede informasjonen om at Argentina vant VM.

Denne metoden hjelper med å redusere feil og sikrer at LLM-responsene er mer pålitelige og grunnlagt i nøyaktig data.

Fordeler og ulemper ved RAG i reduksjon av hallusinasjoner

RAG har vist løfte i å reducere hallusinasjoner ved å fikse genereringsprosessen. Denne mekanismen tillater RAG-modeller å gi mer nøyaktig, oppdatert og kontekstuell relevant informasjon.

Det er sikkert å diskutere Retrieval Augmented Generation (RAG) i en mer generell forstand, noe som tillater en bredere forståelse av dens fordeler og begrensninger over forskjellige implementeringer.

Fordeler med RAG:

Bedre informasjonssøk: RAG finner raskt nøyaktig informasjon fra store datasamlinger.
Forbedret innhold: Det skaper tydelig, godt tilpasset innhold for hva brukerne trenger.
Fleksibel bruk: Brukere kan tilpasse RAG til å møte deres spesifikke krav, som å bruke deres egne proprietære datasamlinger, og øke effektiviteten.

Ulemper med RAG:

Trenger spesifikke data: Å forstå spørringens kontekst nøyaktig for å gi relevant og presis informasjon, kan være vanskelig.
Skalbarhet: Å utvide modellen for å håndtere store datasamlinger og spørringer, samtidig som man opprettholder ytelsen, er vanskelig.
Kontinuerlig oppdatering: Automatisk oppdatering av kunnskapsdatasettet med den siste informasjonen, er ressurskrevende.

Utforskning av alternativer til RAG

Foruten RAG, finnes det noen andre løftende metoder som gjør det mulig for LLM-forskere å reducere hallusinasjoner:

G-EVAL: Verifiserer generert innholds nøyaktighet med en pålitelig datasett, og forbedrer påliteligheten.
SelfCheckGPT: Sjekker og korrigerer automatisk sine egne feil for å holde utdataene nøyaktige og konsistente.
Prompt Engineering: Hjelper brukerne med å designe presise innspill til å guide modellene mot nøyaktige og relevante responser.
Fine-tuning: Justerer modellen til å møte spesifikke datasett for å forbedre domenespesifikt ytelse.
LoRA (Low-Rank Adaptation): Denne metoden modifiserer en liten del av modellens parametre for å tilpasse seg spesifikke oppgaver, og øker effektiviteten.

Utforskningen av RAG og dens alternativer understreker den dynamiske og multifacetterte tilnærmingen til å forbedre LLM-nøyaktighet og pålitelighet. Ettersom vi går videre, er kontinuerlig innovasjon i teknologier som RAG essensiell for å møte de innebygde utfordringene med LLM-hallusinasjoner.

For å holde deg oppdatert med de siste utviklingene i AI og maskinlæring, inkludert dybdeanalyser og nyheter, besøk unite.ai.