Inteligență artificială
Cele mai bune modele AI se pierd în documente lungi

O nouă studiu din partea cercetătorilor de la LMU Munich, Centrul de învățare automată din München și Adobe Research a expus o slăbiciune a modelelor de limbaj AI: acestea au dificultăți în a înțelege documente lungi în moduri care ar putea să vă surprindă. Rezultatele echipei de cercetare arată că chiar și cele mai avansate modele AI au probleme în a conecta informațiile atunci când nu se pot baza pe simpla potrivire a cuvintelor.
Problema ascunsă a abilităților de citire ale AI
Încercați să găsiți un detaliu specific într-un lung articol de cercetare. Ați putea să treceți prin el, făcând legături mentale între diferite secțiuni pentru a reuni informațiile de care aveți nevoie. Multe modele AI, se pare, nu funcționează deloc în acest fel. În schimb, ele se bazează adesea foarte mult pe găsirea unor potriviri exacte de cuvinte, similare cu utilizarea Ctrl+F pe computer.
Echipa de cercetare a dezvoltat o nouă benchmark numită NOLIMA (Fără potrivire literală) pentru a testa diverse modele AI. Rezultatele au arătat că atunci când modelele AI au de-a face cu texte mai lungi de 2.000 de cuvinte, performanța lor scade dramatic. Până la momentul în care ajung la 32.000 de cuvinte – aproximativ lungimea unei cărți scurte – majoritatea modelelor funcționează la jumătate din capacitatea lor obișnuită. Acest lucru a inclus testarea unor modele majore, cum ar fi GPT-4o, Gemini 1.5 Pro și Llama 3.3 70B.
Luați în considerare un cercetător medical care utilizează AI pentru a analiza dosarele pacienților sau o echipă juridică care utilizează AI pentru a revizui documente legale. Dacă AI-ul ratează conexiuni cruciale din cauză că informațiile relevante folosesc cuvinte diferite de cele din interogarea de căutare, consecințele ar putea fi semnificative.
De ce potrivirea cuvintelor nu este suficientă
Modelele actuale de AI procesează textul utilizând ceva numit mecanism de atenție. Acest sistem ajută AI-ul să se concentreze pe diferite părți ale textului pentru a înțelege relațiile dintre cuvinte și idei. Atunci când lucrează cu texte scurte, acest lucru funcționează suficient de bine. Cu toate acestea, cercetarea arată că acest mecanism devine copleșit pe măsură ce textele devin mai lungi, mai ales atunci când nu se poate baza pe potriviri exacte de cuvinte.
Testul NOLIMA a dezvăluit această limitare, solicitând modelelor AI să răspundă la întrebări al căror răspuns necesită înțelegerea contextului, mai degrabă decât găsirea unor cuvinte potrivite. Rezultatele au fost elocvente. În timp ce modelele au funcționat bine cu texte scurte, capacitatea lor de a face aceste conexiuni a scăzut semnificativ pe măsură ce lungimea textului a crescut. Chiar și modelele specializate, proiectate pentru sarcini de raționament, au obținut sub 50% acuratețe atunci când au avut de-a face cu documente mai lungi.
Fără ajutorul potrivirii cuvintelor, modelele AI au avut dificultăți în a:
- Conecta concepte legate care folosesc terminologie diferită
- Urmări căi de raționament multi-etapă
- Găsi informații relevante atunci când acestea apar după contextul cheie
- Ignora potrivirile înșelătoare de cuvinte în secțiuni nerelevante
Numerele spun povestea
Rezultatele cercetării oferă o imagine clară a modului în care modelele AI gestionează texte lungi. GPT-4o a arătat cea mai bună performanță, menținându-și eficacitatea până la aproximativ 8.000 de tokeni (aproximativ 6.000 de cuvinte). Cu toate acestea, chiar și acest performer de top a arătat un declin semnificativ cu texte mai lungi. Majoritatea celorlalte modele, inclusiv Gemini 1.5 Pro și Llama 3.3 70B, au experimentat o scădere bruscă a performanței între 2.000 și 8.000 de tokeni.
Declinul performanței a devenit și mai pronunțat atunci când sarcinile au necesitat mai multe etape de raționament. De exemplu, dacă un model a trebuit să facă două conexiuni logice – cum ar fi înțelegerea că un personaj trăiește lângă un reper și că acel reper se află într-un anumit oraș – rata de succes a scăzut considerabil. Cercetarea a arătat că acest tip de raționament multi-etapă a devenit deosebit de dificil în texte care depășesc 16.000 de tokeni, chiar și atunci când s-au utilizat tehnici proiectate pentru a îmbunătăți raționamentul, cum ar fi Chain-of-Thought prompting.
Ce face aceste constatări deosebit de remarcabile este că ele contestă afirmațiile despre capacitatea modelelor AI de a gestiona contexte lungi. În timp ce multe modele publicitatează suport pentru ferestre de context extinse, benchmark-ul NOLIMA arată că înțelegerea eficientă scade mult înainte de a atinge aceste limite teoretice.

Sursă: Modarressi et al.
Când AI-ul pierde pădurea din cauza copacilor
Aceste limitări au implicații serioase pentru modul în care utilizăm AI în aplicații din lumea reală. Luați în considerare un sistem juridic AI care caută prin legislația cazurilor. Acesta ar putea să rateze precedente relevante pur și simplu pentru că acestea folosesc o terminologie diferită de cea a interogării de căutare. Sistemul ar putea să se concentreze în schimb asupra unor cazuri mai puțin relevante care, din întâmplare, împărtășesc mai multe cuvinte cu termenii de căutare.
Impactul asupra căutării și analizei documentelor este deosebit de îngrijorător. Sistemele actuale de căutare bazate pe AI se bazează adesea pe o tehnică numită Retrieval-Augmented Generation (RAG). Chiar și atunci când aceste sisteme reușesc să recupereze un document care conține informația corectă, AI-ul ar putea să nu recunoască relevanța sa dacă terminologia diferă de cea a interogării. În schimb, AI-ul ar putea să se îndrepte spre documente mai puțin relevante care prezintă asemănări de suprafață cu termenii de căutare.
Pentru utilizatorii de AI, aceste constatări sugerează câteva considerații importante:
În primul rând, interogările și documentele mai scurte vor probabil oferi rezultate mai fiabile. Atunci când lucrați cu texte mai lungi, împărțirea lor în segmente mai mici și mai focalizate ar putea ajuta la menținerea performanței AI.
În al doilea rând, utilizatorii ar trebui să fie deosebit de atenți atunci când solicită AI-ului să facă conexiuni între diferite părți ale unui document lung. Cercetarea arată că modelele AI au cele mai mari dificultăți atunci când trebuie să reunească informații din secțiuni diferite, mai ales atunci când legătura nu este evidentă prin vocabularul împărtășit.
În cele din urmă, aceste limitări subliniază importanța continuă a supravegherii umane. În timp ce AI poate fi un instrument puternic pentru procesarea și analiza textului, nu ar trebui să se bazeze exclusiv pe el pentru identificarea conexiunilor importante în documente lungi sau complexe.
Rezultatele servesc ca un reminder că, în ciuda progreselor rapide în tehnologia AI, aceste sisteme procesează informații într-un mod foarte diferit de cel al oamenilor. Înțelegerea acestor limitări este crucială pentru utilizarea eficientă a instrumentelor AI și pentru a ști când judecata umană rămâne esențială.
Ce urmează
Înțelegerea limitărilor actuale ale capacității modelelor AI de a procesa texte lungi deschide întrebări importante despre viitorul dezvoltării AI. Cercetarea din spatele benchmark-ului NOLIMA a arătat că abordările noastre actuale privind procesarea textului AI ar putea necesita o refacere semnificativă, în special în ceea ce privește modul în care modelele gestionează informațiile de-a lungul unor pasaje mai lungi.
Soluțiile actuale au arătat doar un succes parțial. Prompting-ul Chain-of-Thought, care încurajează modelele AI să-și descompună raționamentul în etape, ajută la îmbunătățirea performanței într-o oarecare măsură. De exemplu, atunci când s-a utilizat această tehnică, Llama 3.3 70B a arătat o capacitate mai bună de a gestiona contexte mai lungi. Cu toate acestea, această abordare încă nu este suficientă atunci când se confruntă cu texte care depășesc 16.000 de tokeni, sugerând că avem nevoie de soluții mai fundamentale.
Mecanismul de atenție, care formează coloana vertebrală a modului în care modelele actuale de AI procesează textul, are nevoie de o reevaluare. Gândiți-vă la acesta ca la încercarea de a purta o conversație într-o cameră aglomerată – cu cât conversația devine mai lungă, cu atât devine mai greu să țineți evidența tuturor punctelor importante menționate anterior. Modelele noastre actuale de AI se confruntă cu o provocare similară, dar la o scară mult mai mare.
Privind spre viitor, cercetătorii explorează câteva direcții promițătoare. O abordare implică dezvoltarea de noi modalități pentru ca AI-ul să organizeze și să prioritizeze informațiile în texte lungi, mergând dincolo de simpla potrivire a cuvintelor pentru a înțelege conexiuni conceptuale mai profunde. Acest lucru ar putea funcționa mai mult ca modul în care oamenii creează hărți mentale ale informațiilor, conectând idei pe baza înțelesului, mai degrabă decât doar a vocabularului împărtășit.
O altă zonă de dezvoltare se concentrează pe îmbunătățirea modului în care modelele AI gestionează ceea ce cercetătorii numesc “sărituri latente” – pașii logici necesari pentru a conecta diferite piese de informație. Modelele actuale au dificultăți cu aceste conexiuni, mai ales în texte lungi, dar arhitecturi noi ar putea ajuta la podirea acestui gol.
Pentru cei care lucrează cu instrumente AI astăzi, aceste constatări sugerează câteva abordări practice:
Luați în considerare împărțirea documentelor mai lungi în segmente semnificative atunci când lucrați cu AI. Acest lucru ajută la crearea unor secțiuni logice care păstrează contextul important. De exemplu, atunci când analizați un articol de cercetare, ați putea să păstrați împreună secțiunile de metodologie și rezultate, deoarece acestea conțin adesea informații legate.
Atunci când solicitați AI-ului să analizeze texte lungi, fiți specifici cu privire la conexiunile pe care doriți să le facă. În loc de a pune întrebări largi, ghidați AI-ul spre relațiile specifice pe care sunteți interesat să le explorați. Acest lucru ajută la compensarea limitărilor actuale ale modelului în a face aceste conexiuni în mod independent.
Poate cel mai important, mențineți așteptări realiste cu privire la capacitățile AI-ului cu texte lungi. În timp ce aceste instrumente pot fi incredibil de utile pentru multe sarcini, nu ar trebui să fie tratate ca înlocuitori compleți pentru analiza umană a documentelor complexe. Capacitatea umană de a menține contextul și de a face conexiuni conceptuale de-a lungul textelor lungi rămâne superioară capacităților actuale ale AI.
Calea înainte pentru dezvoltarea AI în acest domeniu este atât provocatoare, cât și încurajatoare. Pe măsură ce înțelegem mai bine aceste limitări, putem lucra spre sisteme AI care să înțeleagă cu adevărat texte lungi, mai degrabă decât doar să le proceseze. Până atunci, utilizarea eficientă a AI înseamnă a lucra cu limitările sale actuale, în timp ce apreciem punctele sale forte.












