Kunstig intelligens
Top AI-modeller bliver tabt i lange dokumenter

En ny studie fra forskere ved LMU Munich, Munich Center for Machine Learning og Adobe Research har afsløret en svaghed i AI-sprogmodeller: de kæmper med at forstå lange dokumenter på måder, der måske overrasker dig. Forskerholdets resultater viser, at selv de mest avancerede AI-modeller har problemer med at tilknytte information, når de ikke kan stole på simple ordmatchninger.
Det skjulte problem med AI’s læsefærdigheder
Forestil dig, at du skal finde en bestemt detalje i en lang forskningsrapport. Du måske bladrer gennem den, mens du laver mentale forbindelser mellem forskellige afsnit for at samle den information, du behøver. Mange AI-modeller fungerer ikke på den måde overhovedet. I stedet er de ofte afhængige af at finde eksakte ordmatchninger, ligesom når du bruger Ctrl+F på din computer.
Forskerholdet udviklede en ny benchmark kaldet NOLIMA (No Literal Matching) til at teste forskellige AI-modeller. Resultaterne viste, at når AI-modellerne beskæftiger sig med tekster længere end 2.000 ord, falder deres præstation dramatisk. Når de når 32.000 ord – omtrent længden af en kort bog – udfører de fleste modeller kun halvdelen af deres normale kapacitet. Dette inkluderede test af store modeller som GPT-4o, Gemini 1.5 Pro og Llama 3.3 70B.
Overvej en medicinsk forsker, der bruger AI til at analysere patientjournaler, eller en juridisk hold, der bruger AI til at gennemgå sagdokumenter. Hvis AI’en mangler afgørende forbindelser, fordi den relevante information bruger andre ord end søgeforespørgslen, kan konsekvenserne være betydelige.
Hvorfor ordmatchning ikke er nok
Nuværende AI-modeller behandler tekst ved hjælp af noget, der kaldes en opmærksomhedsmechanisme. Denne mekanisme hjælper AI’en med at fokusere på forskellige dele af teksten for at forstå relationer mellem ord og ideer. Når det fungerer med kortere tekster, fungerer det godt nok. Men studiet viser, at denne mekanisme bliver overvældet, når teksterne bliver længere, især når den ikke kan stole på eksakte ordmatchninger.
NOLIMA-testen afslørede denne begrænsning ved at stille AI-modellerne spørgsmål, hvor svarene krævede forståelse af kontekst snarere end at finde matchende ord. Resultaterne var talende. Mens modellerne fungerede godt med korte tekster, faldt deres evne til at lave disse forbindelser betydeligt, da tekstlængden øgedes. Selv specialiserede modeller, der er designet til resonanstgaver, scorede under 50% nøjagtighed, når de havde med længere dokumenter at gøre.
Uden støtten fra ordmatchning kæmpede AI-modellerne med at:
- Forbinde relaterede begreber, der bruger forskellig terminologi
- Følge multi-trins resonansveje
- Finde relevant information, når den optræder efter den nøglekontekst
- Ignorere misvisende ordmatchninger i irrelevante afsnit
Tallene fortæller historien
Forskningsresultaterne tegner et skarpt billede af, hvordan AI-modellerne håndterer længere tekster. GPT-4o viste den stærkeste præstation, idet den opretholdt effektiviteten op til omkring 8.000 tokens (omtrent 6.000 ord). Men selv denne top-præstation viste en betydelig nedgang med længere tekster. De fleste andre modeller, herunder Gemini 1.5 Pro og Llama 3.3 70B, oplevede skarpe præstationsfald mellem 2.000 og 8.000 tokens.
Præstationsfald blev endnu mere udtalt, når opgaverne krævede flere trin af resonans. For eksempel, hvis en model skulle lave to logiske forbindelser – som at forstå, at en karakter boede nær et vartegn, og at vartegnet var i en bestemt by – faldt succesraten betydeligt. Studiet viste, at denne type multi-trins resonans blev særligt udfordrende i tekster ud over 16.000 tokens, selv når der blev brugt teknikker designet til at forbedre resonans, såsom Chain-of-Thought prompting.
Hvad der gør disse resultater særligt bemærkelsesværdige, er, at de udfordrer påstande om AI-modellernes evne til at håndtere lange kontekster. Mens mange modeller annoncerer support for omfattende kontekstvinduer, viser NOLIMA-benchmark, at effektiv forståelse falder langt inden, man når disse teoretiske grænser.

Kilde: Modarressi et al.
Når AI mangler skoven for træerne
Disse begrænsninger har alvorlige konsekvenser for, hvordan vi bruger AI i virkelige anvendelser. Overvej en juridisk AI-system, der søger gennem retssager. Den måske mangler relevante præcedenser blot, fordi de bruger forskellig terminologi end søgeforespørgslen. Systemet kunne i stedet fokusere på mindre relevante sager, der tilfældigvis deler flere ord med søgeordene.
Impakten på søgning og dokumentanalyse er særligt bekymrende. Nuværende AI-drevne søgesystemer afhænger ofte af en teknik kaldet Retrieval-Augmented Generation (RAG). Selv når disse systemer med held henter et dokument, der indeholder den rigtige information, kan AI’en svigte i at genkende dets relevans, hvis formuleringen afviger fra søgeforespørgslen. I stedet kan AI’en tiltrækkes af mindre relevante dokumenter, der deler overfladiske ligheder med søgeordene.
For AI-brugere antyder disse resultater flere vigtige overvejelser:
Først, kortere forespørgsler og dokumenter vil sandsynligvis give mere pålidelige resultater. Når du arbejder med længere tekster, kan det at opdele dem i mindre, fokuserede segmenter hjælpe med at opretholde AI-præstationen.
Anden, brugere bør være særligt omhyggelige, når de beder AI om at lave forbindelser på tværs af forskellige dele af et langt dokument. Studiet viser, at AI-modellerne kæmper mest, når de skal samle information fra forskellige afsnit, især når forbindelsen ikke er åbenbar gennem fælles vokabular.
Tredje, disse begrænsninger understreger den fortsatte vigtighed af menneskelig oversigt. Mens AI-værktøjer kan være utroligt nyttige til mange opgaver, bør de ikke betragtes som komplette erstatninger for menneskelig analyse af komplekse dokumenter. Menneskets evne til at opretholde kontekst og lave konceptuelle forbindelser på tværs af lange tekster forbliver overlegen i forhold til nuværende AI-kapaciteter.
Resultaterne fungerer som en påmindelse om, at på trods af hurtige fremskridt i AI-teknologi, behandler disse systemer stadig information meget forskelligt fra mennesker. At forstå disse begrænsninger er afgørende for at bruge AI-værktøjer effektivt og vide, når menneskelig dømmekraft stadig er afgørende.
Hvad kommer herefter
At forstå begrænsningerne i nuværende AI-modellers evne til at behandle lange tekster åbner op for vigtige spørgsmål om fremtiden for AI-udvikling. Studiet bag NOLIMA-benchmark har afsløret, at vores nuværende tilgange til AI-tekstbehandling måske kræver betydelig forfinelse, især i, hvordan modellerne håndterer information på tværs af længere passager.
Nuværende løsninger har vist kun delvis succes. Chain-of-Thought prompting, der opmuntrer AI-modeller til at bryde deres resonans ned i trin, hjælper med at forbedre præstationen noget. For eksempel, når denne teknik bruges, viste Llama 3.3 70B en bedre evne til at håndtere længere kontekster. Men denne tilgang er stadig utilstrækkelig, når det handler om tekster ud over 16.000 tokens, hvilket antyder, at vi har brug for mere fundamentale løsninger.
Opmærksomhedsmechanismen, der danner ryggraden i, hvordan nuværende AI-modeller behandler tekst, kræver en genovervejelse. Tænk på det som at forsøge at føre en samtale i et fyldt rum – jo længere samtalen bliver, jo sværere bliver det at holde styr på alle vigtige punkter, der blev nævnt tidligere. Vore nuværende AI-modeller står over for en lignende udfordring, men i en langt større skala.
I fremtiden udforsker forskere flere lovende retninger. En tilgang indebærer udvikling af nye måder for AI til at organisere og prioritere information i lange tekster, og gå ud over simple ordmatchninger for at forstå dybere konceptuelle forbindelser. Dette kunne fungere mere som, hvordan mennesker skaber mentale kort over information, og forbinde ideer baseret på mening snarere end kun fælles vokabular.
En anden udviklingsretning fokuserer på at forbedre, hvordan AI-modeller håndterer, hvad forskere kalder “latent hops” – de logiske trin, der er nødvendige for at forbinde forskellige stykker information. Nuværende modeller kæmper med disse forbindelser, især i længere tekster, men nye arkitekturer kan hjælpe med at brokke denne gap.
For dem, der arbejder med AI-værktøjer i dag, antyder disse resultater flere praktiske tilgange:
Overvej at opdele længere dokumenter i meningsfulde segmenter, når du arbejder med AI. Dette hjælper med at skabe logiske afsnit, der opretholder vigtig kontekst. For eksempel, hvis du analyserer en forskningsrapport, kan du holde metode- og resultatafsnit sammen, da de ofte indeholder relateret information.
Når du beder AI om at analysere længere tekster, vær specifik om de forbindelser, du ønsker, den skal lave. I stedet for at stille brede spørgsmål kan du guide AI’en mod de specifikke relationer, du er interesseret i at udforske. Dette hjælper med at kompensere for modellens nuværende begrænsninger i at lave disse forbindelser uafhængigt.
Måske aller mest vigtigt er det at opretholde realistiske forventninger til AI’s kapaciteter med lange tekster. Mens disse værktøjer kan være utroligt nyttige til mange opgaver, bør de ikke betragtes som komplette erstatninger for menneskelig analyse af komplekse dokumenter. Menneskets evne til at opretholde kontekst og lave konceptuelle forbindelser på tværs af lange tekster forbliver overlegen i forhold til nuværende AI-kapaciteter.
Vejen frem for AI-udvikling på dette område er både udfordrende og spændende. Mens vi bedre forstår disse begrænsninger, kan vi arbejde mod AI-systemer, der virkelig forstår lange tekster snarere end blot at behandle dem. Indtil da er det at bruge AI effektivt at arbejde med dens nuværende begrænsninger, mens vi værdsætter dens styrker.












