Kunstig intelligens

Overvindelse af LLM Hallucinationer ved hjælp af Retrieval Augmented Generation (RAG)

Udgivet den 5. marts 2024

Opdateret den 15. maj 2026

Haziqa Sajid

Store sprogmodeller (LLM) revolutionerer, hvordan vi behandler og genererer sprog, men de er ikke perfekte. Ligesom mennesker kan se former i skyer eller ansigter på månen, kan LLM også “hallucinere” og skabe information, der ikke er nøjagtig. Detta fænomen, kendt som LLM hallucinationer, udgør en voksende bekymring, da brugen af LLM udvides.

Fejl kan forvirre brugere og kan i visse tilfælde endda føre til juridiske problemer for virksomheder. For eksempel anlagde en tidligere luftvåben-veteran Jeffery Battle (kendt som The Aerospace Professor) i 2023 en sag mod Microsoft, da han opdagede, at Microsofts ChatGPT-drevne Bing-søgning nogen gange giver faktisk urigtig og skadelig information om hans navnesøgning. Søgemaskinen forveksler ham med en dømt forbryder Jeffery Leon Battle.

For at tackle hallucinationer er Retrieval-Augmented Generation (RAG) dukket op som en lovende løsning. Det integrerer viden fra eksterne databaser for at forbedre nøjagtigheden og troværdigheden af LLM’erne. Lad os tage en nærmere kig på, hvordan RAG gør LLM’erne mere nøjagtige og pålidelige. Vi vil også diskutere, om RAG kan modvirke LLM-hallucinationsproblemet effektivt.

Forståelse af LLM Hallucinationer: Årsager og Eksempler

LLM’er, herunder berømte modeller som ChatGPT, ChatGLM og Claude, er trænet på omfattende tekstdata, men er ikke immune over for at producere faktisk urigtige udgangsdata, et fænomen kaldet “hallucinationer”. Hallucinationer opstår, fordi LLM’er er trænet til at skabe meningsfulde svar baseret på underliggende sprogregler, uanset deres faktiske nøjagtighed.

En Tidio-undersøgelse fandt, at mens 72% af brugerne mener, at LLM’er er pålidelige, har 75% modtaget forkert information fra AI mindst én gang. Selv de mest lovende LLM-modeller som GPT-3.5 og GPT-4 kan nogen gange producere urigtig eller meningsløs indhold.

Her er en kort oversigt over almindelige typer af LLM-hallucinationer:

Almindelige AI HallucinationsTyper:

Kildekonflikt: Dette opstår, når en model kombinerer detaljer fra forskellige kilder, hvilket kan føre til modstridende eller endda fabrikerede kilder.
Faktiske fejl: LLM’er kan generere indhold med urigtig faktisk basis, især på grund af internettets indbyggede urigtigheder
Meningsløs information: LLM’er forudsiger det næste ord baseret på sandsynlighed. Det kan resultere i grammatisk korrekt, men meningsløst tekst, der misleder brugere om indholdets autoritet.

Sidste år stod to advokater over for mulige sanktioner for at have nævnt seks ikke-eksisterende sager i deres retsdokumenter, misledt af ChatGPT-genereret information. Dette eksempel højligter vigtigheden af at tilgang til LLM-genereret indhold med en kritisk øje, hvilket understreger behovet for verificering for at sikre pålidelighed. Mens dens kreative kapacitet er til fordel for anvendelser som fortælling, stiller det udfordringer for opgaver, der kræver streng overholdelse af fakta, såsom gennemførelse af akademisk forskning, skrivning af medicinske og finansielle analyserapporter og giver juridisk rådgivning.

Udforskning af Løsningen for LLM Hallucinationer: Hvordan fungerer Retrieval Augmented Generation (RAG)

I 2020 introducerede LLM-forskere en teknik kaldet Retrieval Augmented Generation (RAG) for at mildne LLM-hallucinationer ved at integrere en ekstern datakilde. I modsætning til traditionelle LLM’er, der kun afhænger af deres forudtræning, genererer RAG-baserede LLM-modeller faktisk nøjagtige svar ved dynamisk at hente relevante oplysninger fra en ekstern database, før de besvarer spørgsmål eller genererer tekst.

RAG Process Breakdown:

Trin i RAG

Trin i RAG Processen: Kilde

Trin 1: Henting

Systemet søger en specifik videnbas for information relateret til brugerens forespørgsel. For eksempel, hvis nogen spørger om den sidste fodbold-VM-vinder, søger det efter den mest relevante fodboldinformation.

Trin 2: Forbedring

Den oprindelige forespørgsel forbedres herefter med de fundne oplysninger. Ved at bruge fodbold-eksemplet opdateres forespørgslen “Hvem vandt fodbold-VM?” med specifikke detaljer som “Argentina vandt fodbold-VM.”

Trin 3: Generering

Med den forbedrede forespørgsel genererer LLM’en en detaljeret og nøjagtig besvarelse. I vores tilfælde vil den skabe en besvarelse baseret på den forbedrede information om Argentina, der vandt VM.

Denne metode hjælper med at reducere urigtigheder og sikrer, at LLM’ernes svar er mere pålidelige og baseret på nøjagtige data.

Fordele og Ulemper ved RAG i Reducerende Hallucinationer

RAG har vist lovende resultater i reduktion af hallucinationer ved at korrigere generationsprocessen. Denne mekanisme giver RAG-modellerne mulighed for at levere mere nøjagtig, opdateret og kontekstrelateret information.

Det er bestemt muligt at diskutere Retrieval Augmented Generation (RAG) i en mere generel forstand for at opnå en bredere forståelse af dets fordele og begrænsninger på tværs af forskellige implementeringer.

Fordele ved RAG:

Bedre informations søgning: RAG finder hurtigt nøjagtig information fra store datakilder.
Forbedret indhold: Det skaber klart, velmatchet indhold til, hvad brugerne behøver.
Fleksibel brug: Brugere kan tilpasse RAG til at tilpasse deres specifikke krav, som at bruge deres egne datakilder, hvilket øger effektiviteten.

Udfordringer ved RAG:

Kræver specifik data: At forstå forespørgselskonteksten nøjagtigt for at give relevante og præcise oplysninger kan være svært.
Skalering: At udvide modellen til at håndtere store datasæt og forespørgsler, samtidig med at man opretholder ydeevnen, er svært.
Kontinuerlig opdatering: Automatisk at opdatere viden-databasen med de seneste oplysninger er ressourcekrævende.

Udforskning af Alternativer til RAG

Ud over RAG findes der andre lovende metoder, der giver LLM-forskere mulighed for at reducere hallucinationer:

G-EVAL: Verificerer den genererede indholds nøjagtighed med en pålidelig dataset, hvilket forbedrer pålideligheden.
SelfCheckGPT: Automatisk tjekker og retter sine egne fejl for at holde udgangsdata nøjagtige og konsekvente.
Prompt Engineering: Hjælper brugere med at designe præcise input-prompts for at guide modellerne mod nøjagtige og relevante svar.
Fine-tuning: Tilpasser modellen til opgave-specifikke datasæt for at forbedre domæne-specifik ydeevne.
LoRA (Low-Rank Adaptation): Denne metode ændrer en lille del af modellens parametre for opgave-specifik tilpasning, hvilket forbedrer effektiviteten.

Udforskningen af RAG og dets alternativer højligter den dynamiske og multifacetterede tilgang til at forbedre LLM’ernes nøjagtighed og pålidelighed. Mens vi fremskridter, er kontinuerlig innovation i teknologier som RAG afgørende for at tackle de indbyggede udfordringer med LLM-hallucinationer.

For at holde dig opdateret med de seneste udviklinger i AI og maskinlæring, herunder dybdegående analyser og nyheder, besøg unite.ai.