Connect with us

De bÀsta AI-modellerna gÄr vilse i lÄnga dokument

Artificiell intelligens

De bÀsta AI-modellerna gÄr vilse i lÄnga dokument

mm

En ny studie från forskare vid LMU Munich, Munich Center for Machine Learning och Adobe Research har avslöjat en svaghet i AI-språkmodeller: de har svårt att förstå långa dokument på sätt som kan förvåna. Forskningsgruppens resultat visar att även de mest avancerade AI-modellerna har svårt att koppla samman information när de inte kan lita till enkel ordmatchning.

Det dolda problemet med AI:s läsförmåga

Föreställ dig att du försöker hitta en specifik detalj i en lång forskningsrapport. Du kanske bläddrar igenom den, skapar mentala kopplingar mellan olika avsnitt för att sammanfoga den information du behöver. Många AI-modeller, det visar sig, fungerar inte alls på det sättet. Istället litar de ofta tungt på att hitta exakta ordmatcher, liknande att använda Ctrl+F på din dator.

Forskningsgruppen utvecklade en ny benchmark som kallas NOLIMA (No Literal Matching) för att testa olika AI-modeller. Resultaten visade att när AI-modellerna hanterar texter längre än 2 000 ord, sjunker deras prestanda dramatiskt. När de når 32 000 ord – ungefär längden på en kort bok – presterar de flesta modeller på hälften av deras vanliga förmåga. Detta inkluderade testning av stora modeller som GPT-4o, Gemini 1.5 Pro och Llama 3.3 70B.

Tänk på en medicinsk forskare som använder AI för att analysera patientjournaler eller en juridisk grupp som använder AI för att granska rättsdokument. Om AI:n missar viktiga kopplingar för att den relevanta informationen använder olika ord än sökfrågan, kan konsekvenserna vara betydande.

Varför ordmatchning inte räcker

Nuvarande AI-modeller bearbetar text med hjälp av något som kallas en uppmärksamhetsmekanism. Detta system hjälper AI:n att fokusera på olika delar av texten för att förstå relationer mellan ord och idéer. När de arbetar med kortare texter fungerar detta tillräckligt bra. Men forskningen visar att denna mekanism blir överbelastad när texterna blir längre, särskilt när den inte kan lita till exakta ordmatcher.

NOLIMA-testet avslöjade denna begränsning genom att ställa AI-modellerna frågor där svaren krävde förståelse av sammanhang snarare än att hitta matchande ord. Resultaten var talande. Medan modellerna presterade bra med korta texter, sjönk deras förmåga att göra dessa kopplingar betydligt när textlängden ökade. Även specialiserade modeller som är utformade för resonemangsaktiviteter fick en träffsäkerhet under 50 % när de hanterade längre dokument.

Ututan stödet från ordmatchning kämpade AI-modellerna för att:

  • Koppla samman relaterade begrepp som använder olika terminologi
  • Följa flerstegs resonemangsvägar
  • Hitta relevant information när den dyker upp efter den viktiga kontexten
  • Ignorera vilseledande ordmatcher i irrelevanta avsnitt

Siffrorna berättar historien

Forskningsresultaten målar upp en tydlig bild av hur AI-modeller hanterar längre texter. GPT-4o visade den starkaste prestandan och behöll effektiviteten upp till cirka 8 000 token (ungefär 6 000 ord). Men även denna topppresterare visade en betydande nedgång med längre texter. De flesta andra modeller, inklusive Gemini 1.5 Pro och Llama 3.3 70B, upplevde skarpa prestandafall mellan 2 000 och 8 000 token.

Prestandafallet blev ännu mer uttalat när uppgifterna krävde flera steg av resonemang. Till exempel, om en modell behövde göra två logiska kopplingar – som att förstå att en karaktär bodde nära en landmärke och att landmärket var i en specifik stad – sjönk framgångsgraden avsevärt. Forskningen visade att denna typ av flerstegsresonemang blev särskilt utmanande i texter längre än 16 000 token, även när tekniker som Chain-of-Thought prompting användes.

Vad som gör dessa fynd särskilt anmärkningsvärda är att de utmanar påståenden om AI-modellernas förmåga att hantera långa sammanhang. Medan många modeller annonserar stöd för omfattande kontextfönster, visar NOLIMA-benchmarken att effektiv förståelse sjunker långt innan de teoretiska gränserna nås.

Källa: Modarressi et al.

När AI missar skogen för träden

Dessa begränsningar har allvarliga implikationer för hur vi använder AI i realvärldens tillämpningar. Tänk på ett juridiskt AI-system som söker igenom rättsfall. Det kan missa relevanta prejudikat enbart för att de använder olika terminologi än sökfrågan. Systemet kan istället fokusera på mindre relevanta fall som råkar dela fler ord med söktermerna.

Inverkan på sökning och dokumentanalys är särskilt oroväckande. Nuvarande AI-drivna söksystem förlitar sig ofta på en teknik som kallas Retrieval-Augmented Generation (RAG). Även när dessa system framgångsrikt hämtar ett dokument som innehåller rätt information, kan AI:n misslyckas med att känna igen dess relevans om formuleringen skiljer sig från frågan. Istället kan AI:n dras till mindre relevanta dokument som delar ytmässiga likheter med söktermerna.

För AI-användare innebär dessa fynd flera viktiga överväganden:

Först, kortare frågor och dokument kommer troligen att ge mer tillförlitliga resultat. När du arbetar med längre texter kan det vara bra att bryta dem ner i mindre, fokuserade segment för att underhålla AI-prestanda.

Andra, användare bör vara särskilt försiktiga när de ber AI att göra kopplingar över olika delar av ett långt dokument. Forskningen visar att AI-modeller kämpar mest när de behöver sammanfoga information från olika avsnitt, särskilt när kopplingen inte är uppenbar genom delad vokabulär.

Tredje, dessa begränsningar understryker den fortsatta betydelsen av mänsklig tillsyn. Medan AI-verktyg kan vara kraftfulla hjälpmedel för att bearbeta och analysera text, bör de inte behandlas som fullständiga ersättningar för mänsklig analys av komplexa dokument. Den mänskliga förmågan att upprätthålla sammanhang och göra konceptuella kopplingar över långa texter förblir överlägsen nuvarande AI-förmågor.

Fynden fungerar som en påminnelse om att trots snabba framsteg inom AI-teknik, bearbetar dessa system information mycket annorlunda än människor. Att förstå dessa begränsningar är avgörande för att använda AI-verktyg effektivt och veta när mänsklig bedömning förblir essentiell.

Vad som kommer härnäst

Att förstå begränsningarna i nuvarande AI-modellers förmåga att bearbeta långa texter öppnar upp viktiga frågor om AI-utvecklingens framtid. Forskningen bakom NOLIMA-benchmarken har avslöjat att våra nuvarande tillvägagångssätt för AI-textbearbetning kanske behöver betydande förbättring, särskilt i hur modellerna hanterar information över längre passager.

Nuvarande lösningar har visat endast delvis framgång. Chain-of-Thought prompting, som uppmuntrar AI-modeller att bryta ner sitt resonemang i steg, förbättrar prestanda något. Till exempel, när denna teknik användes, visade Llama 3.3 70B bättre förmåga att hantera längre sammanhang. Men detta tillvägagångssätt är fortfarande otillräckligt när det gäller texter längre än 16 000 token, vilket tyder på att vi behöver mer grundläggande lösningar.

Uppmärksamhetsmekanismen, som utgör ryggraden i hur nuvarande AI-modeller bearbetar text, behöver omprövas. Tänk på det som att försöka ha ett samtal i ett överfullt rum – ju längre samtalet blir, desto svårare blir det att hålla reda på alla viktiga punkter som nämndes tidigare. Våra nuvarande AI-modeller står inför en liknande utmaning, men i en mycket större skala.

Om vi blickar mot framtiden, utforskar forskare flera lovande riktningar. En approach innebär att utveckla nya sätt för AI att organisera och prioritera information i långa texter, flytta bortom enkel ordmatchning för att förstå djupare konceptuella kopplingar. Detta kan fungera mer som hur människor skapar mentala kartor över information, kopplar idéer baserat på mening snarare än bara delad vokabulär.

Ett annat utvecklingsområde fokuserar på att förbättra hur AI-modeller hanterar vad forskare kallar “latenta hopp” – de logiska steg som behövs för att koppla samman olika delar av information. Nuvarande modeller kämpar med dessa kopplingar, särskilt i längre texter, men nya arkitekturer kan hjälpa till att överbrygga denna klyfta.

För de som arbetar med AI-verktyg idag, innebär dessa fynd flera praktiska tillvägagångssätt:

Överväg att bryta längre dokument ner i meningsfulla segment när du arbetar med AI. Detta hjälper till att skapa logiska sektioner som bevarar viktigt sammanhang. Till exempel, om du analyserar en forskningsrapport, kan du hålla metod- och resultatssektionerna tillsammans eftersom de ofta innehåller relaterad information.

När du ber AI att analysera längre texter, var specifik om de kopplingar du vill att den ska göra. Istället för att ställa breda frågor, vägled AI:n mot de specifika relationer du är intresserad av att utforska. Detta hjälper till att kompensera för modellens nuvarande begränsningar i att göra dessa kopplingar oberoende.

Kanske mest viktigt, underhåll realistiska förväntningar om AI:s förmåga med långa texter. Medan dessa verktyg kan vara oerhört hjälpsamma för många uppgifter, bör de inte behandlas som fullständiga ersättningar för mänsklig analys av komplexa dokument. Den mänskliga förmågan att upprätthålla sammanhang och göra konceptuella kopplingar över långa texter förblir överlägsen nuvarande AI-förmågor.

Vägen framåt för AI-utveckling inom detta område är både utmanande och spännande. När vi bättre förstår dessa begränsningar kan vi arbeta mot AI-system som verkligen förstår långa texter snarare än att bara bearbeta dem. Tills dess, att använda AI effektivt innebär att arbeta med dess nuvarande begränsningar medan man uppskattar dess styrkor.

Alex McFarland Àr en AI-journalist och författare som utforskar de senaste utvecklingarna inom artificiell intelligens. Han har samarbetat med mÄnga AI-startups och publikationer över hela vÀrlden.