Kontakt med oss

Kunstig intelligens

Less Is More: Hvorfor henting av færre dokumenter kan forbedre AI-svarene

mm

Retrieval-Augmented Generation (RAG) er en tilnærming til å bygge AI-systemer som kombinerer en språkmodell med en ekstern kunnskapskilde. Enkelt sagt, AI søker først etter relevante dokumenter (som artikler eller nettsider) relatert til en brukers forespørsel, og bruker deretter disse dokumentene til å generere et mer nøyaktig svar. Denne metoden har blitt feiret for å hjelpe store språkmodeller (LLMs) hold deg saklig og reduser hallusinasjoner ved å jorde svarene deres i ekte data.

Intuitivt kan man tro at jo flere dokumenter en AI henter, jo bedre informert vil svaret være. Nyere forskning tyder imidlertid på en overraskende vri: når det gjelder å mate informasjon til en AI, er mindre mer.

Færre dokumenter, bedre svar

A ny studie av forskere ved det hebraiske universitetet i Jerusalem utforsket hvordan Antall av dokumenter gitt til et RAG-system påvirker ytelsen. Det er avgjørende at de holdt den totale tekstmengden konstant – noe som betyr at hvis færre dokumenter ble levert, ble disse dokumentene litt utvidet til å fylle samme lengde som mange dokumenter ville gjort. På denne måten kan eventuelle ytelsesforskjeller tilskrives antallet dokumenter i stedet for bare å ha en kortere inndata.

Forskerne brukte et datasett for å besvare spørsmål (MuSiQue) med trivia-spørsmål, hver opprinnelig sammenkoblet med 20 Wikipedia-avsnitt (bare noen få av dem inneholder faktisk svaret, mens resten er distraherende). Ved å kutte antallet dokumenter fra 20 ned til bare de 2–4 virkelig relevante – og fylle de med litt ekstra kontekst for å opprettholde en konsistent lengde – skapte de scenarier der AI hadde færre stykker materiale å vurdere, men fortsatt omtrent samme totale ord å lese.

Resultatene var slående. I de fleste tilfeller svarte AI-modellene mer nøyaktig når de fikk færre dokumenter i stedet for hele settet. Ytelsen ble betydelig forbedret – i noen tilfeller med opptil 10 % i nøyaktighet (F1-poengsum) når systemet bare brukte en håndfull støttedokumenter i stedet for en stor samling. Denne motintuitive boosten ble observert på tvers av flere forskjellige språkmodeller med åpen kildekode, inkludert varianter av Metas Llama og andre, noe som indikerer at fenomenet ikke er knyttet til en enkelt AI-modell.

En modell (Qwen-2) var et bemerkelsesverdig unntak som håndterte flere dokumenter uten et fall i poengsum, men nesten alle de testede modellene presterte bedre med færre dokumenter totalt sett. Med andre ord, å legge til mer referansemateriale utover de viktigste relevante stykkene skadet faktisk ytelsen deres oftere enn det hjalp.

Kilde: Levy et al.

Hvorfor er dette en slik overraskelse? Vanligvis er RAG-systemer utformet under antagelsen om at å hente en bredere informasjonsmengde bare kan hjelpe AI-en – tross alt, hvis svaret ikke er i de første dokumentene, kan det være i det tiende eller tjuende.

Denne studien snur det manuset, og viser at det kan gi tilbakeslag på å samle på ekstra dokumenter. Selv når den totale tekstlengden ble holdt konstant, gjorde bare tilstedeværelsen av mange forskjellige dokumenter (hver med sin egen kontekst og særheter) oppgaven med å besvare spørsmål mer utfordrende for AI. Det ser ut til at utover et visst punkt introduserte hvert ekstra dokument mer støy enn signal, forvirret modellen og svekket dens evne til å trekke ut det riktige svaret.

Hvorfor mindre kan være mer i RAG

Dette "less is more"-resultatet gir mening når vi vurderer hvordan AI-språkmodeller behandler informasjon. Når en kunstig intelligens kun får de mest relevante dokumentene, er konteksten den ser fokusert og fri for distraksjoner, omtrent som en student som har fått akkurat de riktige sidene for å studere.

I studien presterte modellene betydelig bedre når de bare ble gitt støttedokumentene, med irrelevant materiale fjernet. Den gjenværende konteksten var ikke bare kortere, men også renere – den inneholdt fakta som direkte pekte på svaret og ingenting annet. Med færre dokumenter å sjonglere, kan modellen vie sin fulle oppmerksomhet til den relevante informasjonen, noe som gjør det mindre sannsynlig at den blir avviklet eller forvirret.

På den annen side, når mange dokumenter ble hentet, måtte AI sile gjennom en blanding av relevant og irrelevant innhold. Ofte var disse ekstra dokumentene "liknende, men ikke relatert" - de kan dele et emne eller nøkkelord med spørringen, men faktisk ikke inneholde svaret. Slikt innhold kan villede modellen. AI kan kaste bort krefter på å prøve å koble sammen punkter på tvers av dokumenter som faktisk ikke fører til et riktig svar, eller enda verre, det kan slå sammen informasjon fra flere kilder feil. Dette øker risikoen for hallusinasjoner – tilfeller der AI genererer et svar som høres plausibelt ut, men som ikke er forankret i noen enkelt kilde.

I hovedsak kan det å mate for mange dokumenter til modellen utvanne den nyttige informasjonen og introdusere motstridende detaljer, noe som gjør det vanskeligere for AI å avgjøre hva som er sant.

Interessant nok fant forskerne at hvis de ekstra dokumentene åpenbart var irrelevante (for eksempel tilfeldig urelatert tekst), var modellene flinkere til å ignorere dem. Det virkelige problemet kommer fra distraherende data som ser relevante ut: når alle de hentede tekstene handler om lignende emner, antar AI at den skal bruke dem alle, og den kan slite med å finne ut hvilke detaljer som faktisk er viktige. Dette stemmer overens med studiens observasjon at tilfeldige distraktorer forårsaket mindre forvirring enn realistiske distraktorer i innspillet. AI kan filtrere ut åpenlyst tull, men subtilt off-topic informasjon er en glatt felle – den sniker seg inn under dekke av relevans og avsporer svaret. Ved å redusere antall dokumenter til kun de virkelig nødvendige, unngår vi å sette disse fellene i utgangspunktet.

Det er også en praktisk fordel: Henting og behandling av færre dokumenter reduserer beregningsoverheaden for et RAG-system. Hvert dokument som blir trukket inn må analyseres (innebygd, lest og behandlet av modellen), som bruker tid og dataressurser. Eliminering av overflødige dokumenter gjør systemet mer effektivt – det kan finne svar raskere og til lavere kostnad. I scenarier der nøyaktigheten forbedres ved å fokusere på færre kilder, får vi en vinn-vinn: bedre svar og en slankere, mer effektiv prosess.

Kilde: Levy et al.

Rethinking RAG: Future Directions

Dette nye beviset på at kvalitet ofte slår kvantitet ved gjenfinning har viktige implikasjoner for fremtiden til AI-systemer som er avhengige av ekstern kunnskap. Det foreslår at designere av RAG-systemer bør prioritere smart filtrering og rangering av dokumenter fremfor rent volum. I stedet for å hente 100 mulige passasjer og håpe at svaret ligger begravet der et sted, kan det være lurere å hente kun de få mest relevante.

Studiens forfattere understreker behovet for gjenfinningsmetoder for å «finne en balanse mellom relevans og mangfold» i informasjonen de leverer til en modell. Vi ønsker med andre ord å gi nok dekning av temaet til å svare på spørsmålet, men ikke så mye at kjernefakta druknes i et hav av fremmedtekst.

Fremover vil forskere sannsynligvis utforske teknikker som hjelper AI-modeller med å håndtere flere dokumenter mer elegant. En tilnærming er å utvikle bedre retrieversystemer eller re-rankere som kan identifisere hvilke dokumenter som virkelig tilfører verdi og hvilke som bare introduserer konflikt. En annen innfallsvinkel er å forbedre selve språkmodellene: Hvis en modell (som Qwen-2) klarte å takle mange dokumenter uten å miste nøyaktighet, kan en undersøkelse av hvordan den ble trent eller strukturert gi ledetråder for å gjøre andre modeller mer robuste. Kanskje fremtidige store språkmodeller vil inkludere mekanismer for å gjenkjenne når to kilder sier det samme (eller motsier hverandre) og fokusere deretter. Målet ville være å gjøre det mulig for modeller å bruke et rikt utvalg av kilder uten å bli offer for forvirring – effektivt å få det beste fra begge verdener (bredde av informasjon og klarhet i fokus).

Det er også verdt å merke seg at som AI-systemer får større kontekstvinduer (muligheten til å lese mer tekst på en gang), bare å dumpe mer data inn i ledeteksten er ikke en sølvkule. Større kontekst betyr ikke automatisk bedre forståelse. Denne studien viser at selv om en AI teknisk sett kan lese 50 sider om gangen, kan det ikke gi et godt resultat å gi den 50 sider med informasjon av blandet kvalitet. Modellen drar fortsatt nytte av å ha kuratert, relevant innhold å jobbe med, i stedet for en vilkårlig dump. Faktisk kan intelligent henting bli enda mer avgjørende i en tid med gigantiske kontekstvinduer – for å sikre at den ekstra kapasiteten brukes til verdifull kunnskap i stedet for støy.

Funnene fra "Flere dokumenter, samme lengde" (den passende tittelen) oppfordrer til en ny undersøkelse av våre antakelser innen AI-forskning. Noen ganger er det ikke så effektivt å mate en AI med alle dataene vi har. Ved å fokusere på den mest relevante informasjonen forbedrer vi ikke bare nøyaktigheten til AI-genererte svar, men gjør også systemene mer effektive og lettere å stole på. Det er en kontraintuitiv leksjon, men en med spennende konsekvenser: fremtidige RAG-systemer kan bli både smartere og slankere ved å nøye velge færre, bedre dokumenter å hente.

Alex McFarland er en AI-journalist og skribent som utforsker den siste utviklingen innen kunstig intelligens. Han har samarbeidet med en rekke AI-startups og publikasjoner over hele verden.