Kunstmatige intelligentie

Top AI-modellen raken de weg kwijt in lange documenten

Published February 13, 2025

Updated April 26, 2026

Alex McFarland

Een nieuwe studie van onderzoekers aan de LMU Munich, het Munich Center for Machine Learning en Adobe Research heeft een zwakte blootgelegd in AI-taalmodellen: ze hebben moeite om lange documenten te begrijpen op manieren die je misschien zullen verrassen. De bevindingen van het onderzoeksteam laten zien dat zelfs de meest geavanceerde AI-modellen moeite hebben om informatie te verbinden wanneer ze niet kunnen vertrouwen op eenvoudige woordovereenkomsten.

Het verborgen probleem met de leesvaardigheid van AI

Stel je voor dat je een specifiek detail probeert te vinden in een lang onderzoeksrapport. Je zou erdoorheen kunnen bladeren, mentale verbindingen maken tussen verschillende secties om de informatie te verzamelen die je nodig hebt. Veel AI-modellen werken echter helemaal niet zo. In plaats daarvan vertrouwen ze vaak zwaar op het vinden van exacte woordovereenkomsten, vergelijkbaar met het gebruik van Ctrl+F op je computer.

Het onderzoeksteam heeft een nieuwe benchmark genaamd NOLIMA (No Literal Matching) ontwikkeld om verschillende AI-modellen te testen. De resultaten toonden aan dat wanneer AI-modellen te maken krijgen met teksten langer dan 2.000 woorden, hun prestaties dramatisch afnemen. Zodra ze 32.000 woorden bereiken – ongeveer de lengte van een kort boek – presteren de meeste modellen op de helft van hun normale capaciteit. Dit omvatte het testen van belangrijke modellen zoals GPT-4o, Gemini 1.5 Pro en Llama 3.3 70B.

Denk aan een medisch onderzoeker die AI gebruikt om patiëntendossiers te analyseren, of een juridisch team dat AI gebruikt om juridische documenten te bekijken. Als de AI cruciale verbindingen mist omdat de relevante informatie andere woorden gebruikt dan de zoekopdracht, kunnen de gevolgen aanzienlijk zijn.

Waarom woordovereenkomst niet voldoende is

Huidige AI-modellen verwerken tekst met behulp van iets dat een aandachtmethode wordt genoemd. Dit systeem helpt de AI om zich te concentreren op verschillende delen van de tekst om de relaties tussen woorden en ideeën te begrijpen. Wanneer ze met kortere teksten werken, werkt dit goed genoeg. Het onderzoek toont echter aan dat deze methode overweldigd raakt naarmate de teksten langer worden, vooral wanneer ze niet kunnen vertrouwen op exacte woordovereenkomsten.

De NOLIMA-test onthulde deze beperking door AI-modellen vragen te stellen waarvan de antwoorden het begrijpen van context vereisten in plaats van het vinden van overeenkomende woorden. De resultaten waren veelzeggend. Terwijl modellen goed presteerden met korte teksten, daalde hun vermogen om deze verbindingen te maken aanzienlijk naarmate de tekstlengte toenam. Zelfs gespecialiseerde modellen die waren ontworpen voor redeneertaken scoorden minder dan 50% nauwkeurigheid bij het omgaan met langere documenten.

Zonder de steun van woordovereenkomst, worstelden AI-modellen om:

Verwante concepten te verbinden die verschillende terminologie gebruiken
Meerdere redeneerstappen te volgen
Relevante informatie te vinden wanneer deze na de sleutelcontext verschijnt
Misleidende woordovereenkomsten in irrelevante secties te negeren

De cijfers vertellen het verhaal

De onderzoeksbevindingen schetsen een somber beeld van hoe AI-modellen omgaan met langere teksten. GPT-4o toonde de sterkste prestaties, met een effectiviteit tot ongeveer 8.000 tokens (ongeveer 6.000 woorden). Echter, zelfs deze topuitvoerder toonde een aanzienlijke daling met langere teksten. De meeste andere modellen, waaronder Gemini 1.5 Pro en Llama 3.3 70B, ervoeren een scherpe daling in prestaties tussen 2.000 en 8.000 tokens.

De prestatieafname werd nog meer uitgesproken wanneer de taken meerdere redeneerstappen vereisten. Als een model bijvoorbeeld twee logische verbindingen moest maken – zoals begrijpen dat een personage in de buurt van een landmark woonde en dat die landmark in een specifieke stad lag – daalde het succespercentage aanzienlijk. Het onderzoek toonde aan dat dit type meerdere redeneerstappen bijzonder uitdagend werd in teksten verder dan 16.000 tokens, zelfs met het gebruik van technieken die zijn ontworpen om redeneren te verbeteren, zoals Chain-of-Thought prompting.

Wat deze bevindingen bijzonder opmerkelijk maakt, is dat ze beweringen over de mogelijkheden van AI-modellen om om te gaan met lange contexten in twijfel trekken. Terwijl veel modellen reclame maken voor ondersteuning van uitgebreide contextvensters, toont de NOLIMA-benchmark aan dat effectief begrijpen afneemt ver voordat deze theoretische limieten worden bereikt.

Source: Modarressi et al.

Wanneer AI het bos niet ziet door de bomen

Deze beperkingen hebben ernstige gevolgen voor hoe we AI gebruiken in real-world toepassingen. Denk aan een juridisch AI-systeem dat zoekt in rechtszaken. Het kan relevante precedenten missen omdat ze andere terminologie gebruiken dan de zoekopdracht. Het systeem kan in plaats daarvan focussen op minder relevante zaken die toevallig meer woorden delen met de zoektermen.

De impact op zoekopdrachten en documentanalyse is bijzonder verontrustend. Huidige AI-aangedreven zoeksystemen vertrouwen vaak op een techniek genaamd Retrieval-Augmented Generation (RAG). Zelfs wanneer deze systemen erin slagen om een document te vinden dat de juiste informatie bevat, kan de AI falen om de relevantie te herkennen als de woordkeuze afwijkt van de zoekopdracht. In plaats daarvan kan de AI naar minder relevante documenten neigen die oppervlakkige overeenkomsten vertonen met de zoektermen.

Voor AI-gebruikers suggereren deze bevindingen verschillende belangrijke overwegingen:

Eerst, kortere queries en documenten zullen waarschijnlijk betrouwbaardere resultaten opleveren. Wanneer u met langere teksten werkt, kan het helpen om ze te breken in kleinere, gefocuste segmenten om de AI-prestaties te behouden.

Tweede, gebruikers moeten bijzonder voorzichtig zijn wanneer ze AI vragen om verbindingen te maken over verschillende delen van een lang document. Het onderzoek toont aan dat AI-modellen het meest worstelen wanneer ze informatie uit verschillende secties moeten combineren, vooral wanneer de verbinding niet duidelijk is door gedeelde woordenschat.

Tenslotte, benadrukken deze beperkingen het voortdurende belang van menselijke toezicht. Terwijl AI-instrumenten zeer krachtig kunnen zijn voor veel taken, mogen ze niet worden behandeld als complete vervangingen voor menselijke analyse van complexe documenten. De menselijke capaciteit om context te behouden en conceptuele verbindingen te maken over lange teksten blijft superieur aan de huidige AI-mogelijkheden.

De bevindingen dienen als een herinnering dat, ondanks snelle vooruitgang in AI-technologie, deze systemen informatie nog steeds heel anders verwerken dan mensen. Het begrijpen van deze beperkingen is cruciaal voor het effectief gebruiken van AI-instrumenten en weten wanneer menselijke oordeel nog steeds essentieel is.

Wat komt er hierna

Het begrijpen van de beperkingen van de huidige AI-modellen om lange teksten te verwerken, roept belangrijke vragen op over de toekomst van AI-ontwikkeling. Het onderzoek achter de NOLIMA-benchmark heeft aangetoond dat onze huidige benaderingen van AI-tekstverwerking mogelijk aanzienlijke verfijning nodig hebben, met name in hoe modellen omgaan met informatie over langere passages.

Huidige oplossingen hebben slechts gedeeltelijk succes getoond. Chain-of-Thought prompting, dat AI-modellen aanmoedigt om hun redenering in stappen te breken, helpt de prestaties enigszins te verbeteren. Bijvoorbeeld, met het gebruik van deze techniek, toonde Llama 3.3 70B een betere capaciteit om om te gaan met langere contexten. Echter, deze aanpak blijft nog steeds tekortschieten wanneer het gaat om teksten verder dan 16.000 tokens, wat suggereert dat we meer fundamentele oplossingen nodig hebben.

De aandachtmethode, die de ruggengraat vormt van hoe huidige AI-modellen tekst verwerken, moet opnieuw worden bekeken. Denk eraan als proberen om een gesprek te voeren in een drukke kamer – hoe langer het gesprek duurt, hoe moeilijker het wordt om alle belangrijke punten te onthouden die eerder zijn genoemd. Onze huidige AI-modellen hebben een soortgelijke uitdaging, maar op een veel grotere schaal.

Terwijl we naar de toekomst kijken, onderzoeken onderzoekers verschillende veelbelovende richtingen. Een benadering houdt in dat er nieuwe manieren worden ontwikkeld voor AI om informatie in lange teksten te organiseren en prioriteren, verdergaand dan eenvoudige woordovereenkomst om diepere conceptuele verbindingen te begrijpen. Dit kan werken zoals mensen mentale kaarten van informatie creëren, ideeën verbindend op basis van betekenis in plaats van alleen gedeelde woordenschat.

Een ander ontwikkelingsgebied richt zich op het verbeteren van hoe AI-modellen omgaan met wat onderzoekers “latent hops” noemen – de logische stappen die nodig zijn om verschillende stukken informatie te verbinden. Huidige modellen hebben moeite met deze verbindingen, vooral in langere teksten, maar nieuwe architectuur kan helpen om deze kloof te overbruggen.

Voor degenen die vandaag met AI-instrumenten werken, suggereren deze bevindingen verschillende praktische benaderingen:

Overweeg om langere documenten te breken in zinvolle segmenten wanneer u met AI werkt. Dit helpt om logische secties te creëren die belangrijke context behouden. Als u bijvoorbeeld een onderzoeksrapport analyseert, kunt u de methodologie- en resultaatsecties bij elkaar houden omdat ze vaak verwante informatie bevatten.

Wanneer u AI vraagt om langere teksten te analyseren, wees specifiek over de verbindingen die u wilt dat het maakt. In plaats van brede vragen te stellen, leidt u de AI naar de specifieke relaties die u geïnteresseerd bent in het verkennen. Dit helpt om te compenseren voor de huidige beperkingen van het model in het onafhankelijk maken van deze verbindingen.

Misschien het belangrijkste is om realistische verwachtingen te hebben over de mogelijkheden van AI met langere teksten. Terwijl deze instrumenten zeer nuttig kunnen zijn voor veel taken, mogen ze niet worden behandeld als complete vervangingen voor menselijke analyse van complexe documenten. De menselijke capaciteit om context te behouden en conceptuele verbindingen te maken over lange teksten blijft superieur aan de huidige AI-mogelijkheden.

De weg vooruit voor AI-ontwikkeling op dit gebied is zowel uitdagend als spannend. Naarmate we deze beperkingen beter begrijpen, kunnen we werken aan AI-systemen die lange teksten echt begrijpen in plaats van ze alleen maar te verwerken. Tot die tijd betekent het effectief gebruiken van AI werken met zijn huidige beperkingen, terwijl we zijn sterke punten waarderen.

Alex McFarland

Alex McFarland is een AI-journalist en schrijver die de laatste ontwikkelingen op het gebied van kunstmatige intelligentie onderzoekt. Hij heeft samengewerkt met talloze AI-startups en publicaties wereldwijd.