Kunstig intelligens

De beste AI-modellene går seg vill i lange dokumenter

Published February 13, 2025

Updated April 26, 2026

Alex McFarland

En ny studie fra forskere ved LMU Munich, Munich Center for Machine Learning og Adobe Research har avdekket en svakhet i AI-språkmodeller: de sliter med å forstå lange dokumenter på måter som kan overraske deg. Forskergruppens funn viser at selv de mest avanserte AI-modellene har problemer med å koble informasjon når de ikke kan stole på enkle ordmatcher.

Det skjulte problemet med AI-språkferdigheter

Forestall deg å prøve å finne en bestemt detalj i en lang forskningsrapport. Du kan bladre gjennom den, lage mentale forbindelser mellom forskjellige seksjoner for å sette sammen informasjonen du trenger. Mange AI-modeller, det viser seg, fungerer ikke på denne måten i det hele tatt. I stedet baserer de seg ofte tungt på å finne eksakte ordmatcher, likt å bruke Ctrl+F på datamaskinen din.

Forskergruppen utviklet en ny benchmark kalt NOLIMA (No Literal Matching) for å teste ulike AI-modeller. Resultatene viste at når AI-modellene håndterer tekstlengder over 2 000 ord, synker deres ytelse dramatisk. Når de når 32 000 ord – omtrent lengden på en kort bok – utfører de fleste modellene på halvparten av deres vanlige evne. Dette inkluderte testing av større modeller som GPT-4o, Gemini 1.5 Pro og Llama 3.3 70B.

Overveur en medisinsk forsker som bruker AI til å analysere pasientjournaler, eller et juridisk team som bruker AI til å gjennomgå sakdokumenter. Hvis AI-en mangler avgjørende forbindelser fordi den relevante informasjonen bruker forskjellige ord enn søkeforespørselen, kan konsekvensene være betydelige.

Hvorfor ordmatching ikke er nok

Gjeldende AI-modeller prosesserer tekst ved hjelp av noe som kalles en oppmerksomhetsmekanisme. Denne systemet hjelper AI-en å fokusere på forskjellige deler av teksten for å forstå forhold mellom ord og ideer. Når de arbeider med kortere tekstlengder, fungerer dette godt nok. Imidlertid viser forskningen at denne mekanismen blir overveldet når tekstlengdene øker, spesielt når den ikke kan stole på eksakte ordmatcher.

NOLIMA-testen avdekket denne begrensningen ved å stille AI-modellene spørsmål der svarene krevde forståelse av kontekst i stedet for å finne ordmatcher. Resultatene var talende. Mens modellene fungerte godt med korte tekstlengder, sank deres evne til å lage disse forbindelsene betydelig når tekstlengden økte. Selv spesialiserte modeller designet for resonnering oppgaver scoret under 50 % nøyaktighet når de håndterte lengre dokumenter.

Uten støtten av ordmatching, sliter AI-modellene med å:

Koble relaterte konsepter som bruker forskjellig terminologi
Følge flertrinns resonneringsveier
Finne relevant informasjon når den dukker opp etter den avgjørende konteksten
Ignorere misvisende ordmatcher i irrelevante seksjoner

Tallene forteller historien

Forskningsfunnene tegner et skarpt bilde av hvordan AI-modellene håndterer lengre tekstlengder. GPT-4o viste den sterkeste ytelsen, og beholdt effektiviteten opp til omtrent 8 000 token (omtrent 6 000 ord). Imidlertid viste selv denne topputføreren en betydelig nedgang med lengre tekstlengder. De fleste andre modellene, inkludert Gemini 1.5 Pro og Llama 3.3 70B, opplevde skarpe ytelsesnedganger mellom 2 000 og 8 000 token.

Ytelsesnedgangen ble enda mer uttalt når oppgavene krevde flere resonneringstrinn. For eksempel, hvis en modell trengte å lage to logiske forbindelser – som å forstå at en karakter bodde nær et landemerke, og at landemerket var i en bestemt by – sank suksessraten betydelig. Forskningen viste at denne type flertrinns resonnering ble særlig utfordrende i tekstlengder utover 16 000 token, selv når teknikker designet for å forbedre resonnering, som Chain-of-Thought prompting, ble brukt.

Hva gjør disse funnene særlig merkbare, er at de utfordrer påstander om AI-modellenes evne til å håndtere lange kontekster. Mens mange modeller annonserer støtte for omfattende kontekstvinduer, viser NOLIMA-benchmarken at effektiv forståelse synker langt før de når disse teoretiske grensene.

Kilde: Modarressi et al.

Når AI mangler skogen for trærne

Disse begrensningene har alvorlige implikasjoner for hvordan vi bruker AI i virkelige anvendelser. Overveur en juridisk AI-system som søker gjennom rettsdokumenter. Den kan miste relevante presedenser bare fordi de bruker forskjellig terminologi enn søkeforespørselen. Systemet kan i stedet fokusere på mindre relevante saker som tilfeldigvis deler flere ord med søkeuttrykkene.

Impakt på søk og dokumentanalyse er særlig bekymringsverdig. Gjeldende AI-drevne søkesystemer ofte baserer seg på en teknikk kalt Retrieval-Augmented Generation (RAG). Selv når disse systemene suksessfullt henter et dokument som inneholder riktig informasjon, kan AI-en feile i å gjenkjenne dens relevans hvis formuleringen avviker fra søkeforespørselen. I stedet kan AI-en trekke mot mindre relevante dokumenter som deler overfladiske likheter med søkeuttrykkene.

For AI-brukere, antyder disse funnene flere viktige overveielser:

Først, kortere forespørsler og dokumenter vil sannsynligvis gi mer pålitelige resultater. Når du arbeider med lengre tekstlengder, kan det å bryte dem inn i mindre, fokuserte segmenter hjelpe med å opprettholde AI-ytelse.

Andre, brukerne bør være spesielt forsiktige når de ber AI om å lage forbindelser over forskjellige deler av et langt dokument. Forskningen viser at AI-modellene sliter mest når de må sette sammen informasjon fra forskjellige seksjoner, spesielt når forbindelsen ikke er åpenbar gjennom felles vokabular.

Tredje, disse begrensningene understreker den fortsatt viktige menneskelige tilsyn. Mens AI-verktøy kan være usedvanlig nyttige for mange oppgaver, bør de ikke behandles som fullstendige erstatninger for menneskelig analyse av komplekse dokumenter. Menneskeevnen til å opprettholde kontekst og lage konseptuelle forbindelser over lange tekstlengder forblir overlegen i forhold til gjeldende AI-evner.

Funnene tjener som en påminnelse om at til tross for raske fremskritt i AI-teknologi, behandler disse systemene informasjon svært annerledes enn mennesker. Å forstå disse begrensningene er avgjørende for å bruke AI-verktøy effektivt og å vite når menneskelig dømmekraft fortsatt er essensiell.

Hva kommer neste

Å forstå begrensningene i gjeldende AI-modellers evne til å prosessere lange tekstlengder åpner opp viktige spørsmål om fremtiden for AI-utvikling. Forskningen bak NOLIMA-benchmarken har avdekket at våre nåværende tilnærminger til AI-tekstprosessering kanskje må forbedres betydelig, spesielt i hvordan modellene håndterer informasjon over lengre passasjer.

Gjeldende løsninger har vist bare delvis suksess. Chain-of-Thought prompting, som oppmunner AI-modellene til å bryte ned deres resonnering i trinn, hjelper med å forbedre ytelsen noe. For eksempel, når denne teknikken ble brukt, viste Llama 3.3 70B bedre evne til å håndtere lengre kontekster. Imidlertid mangler denne tilnærmingen fortsatt når den håndterer tekstlengder utover 16 000 token, noe som antyder at vi trenger mer grunnleggende løsninger.

Oppmerksomhetsmekanismen, som danner ryggraden i hvordan gjeldende AI-modeller prosesserer tekst, må omtenkes. Tenk på det som å prøve å holde en samtale i et fullt rom – jo lenger samtalen blir, jo harder blir det å holde rede på alle viktige punkter som ble nevnt tidligere. Våre nåværende AI-modeller møter en lignende utfordring, men i mye større skala.

Ser vi mot fremtiden, utforsker forskerne flere lovende retninger. En tilnærming innebærer å utvikle nye måter for AI å organisere og prioritere informasjon i lange tekstlengder, og gå ut over enkel ordmatching for å forstå dypere konseptuelle forbindelser. Dette kan fungere mer som hvordan mennesker lager mentale kart over informasjon, kobler ideer basert på mening i stedet for bare felles vokabular.

En annen utviklingsretning fokuserer på å forbedre hvordan AI-modellene håndterer det forskerne kaller “latent hops” – de logiske trinnene som er nødvendige for å koble forskjellige deler av informasjon. Gjeldende modeller sliter med disse forbindelsene, spesielt i lengre tekstlengder, men nye arkitekturer kan hjelpe med å brobygge denne gapen.

For de som arbeider med AI-verktøy i dag, antyder disse funnene flere praktiske tilnærminger:

Overveur å bryte lengre dokumenter inn i meningsfulle segmenter når du arbeider med AI. Dette hjelper med å skape logiske seksjoner som beholder viktig kontekst. For eksempel, hvis du analyserer en forskningsrapport, kan du holde metode- og resultatseksjonene sammen siden de ofte inneholder relatert informasjon.

Når du ber AI om å analysere lengre tekstlengder, være spesifik om forbindelsene du ønsker den skal lage. I stedet for å stille brede spørsmål, guid AI-en mot de spesifikke forholdene du er interessert i å utforske. Dette hjelper med å kompensere for modellens nåværende begrensninger i å lage disse forbindelsene uavhengig.

Kanskje mest viktig, behold realistiske forventninger om AI-s evner med lange tekstlengder. Mens disse verktøyene kan være usedvanlig nyttige for mange oppgaver, bør de ikke behandles som fullstendige erstatninger for menneskelig analyse av komplekse dokumenter. Menneskeevnen til å opprettholde kontekst og lage konseptuelle forbindelser over lange tekstlengder forblir overlegen i forhold til gjeldende AI-evner.

Veien fremover for AI-utvikling på dette området er både utfordrende og spennende. Etter hvert som vi bedre forstår disse begrensningene, kan vi arbeide mot AI-systemer som virkelig forstår lange tekstlengder i stedet for bare å prosessere dem. Inntil da, å bruke AI effektivt betyr å arbeide med dens nåværende begrensninger samtidig som vi apprecierer dens styrker.

Alex McFarland

Alex McFarland er en AI-journalist og forfatter som utforsker de nyeste utviklingene innen kunstig intelligens. Han har samarbeidet med tallrike AI-startups og publikasjoner verden over.