Intelligenza artificiale

I migliori modelli di intelligenza artificiale si perdono nei documenti lunghi

Published February 13, 2025

Updated April 26, 2026

Alex McFarland

Uno nuudo studio dei ricercatori dell’LMU di Monaco, del Munich Center for Machine Learning e di Adobe Research ha esposto una debolezza nei modelli linguistici di intelligenza artificiale: hanno difficoltà a comprendere documenti lunghi in modi che potrebbero sorprendere. Le scoperte del team di ricerca mostrano che anche i modelli di intelligenza artificiale più avanzati hanno problemi a collegare le informazioni quando non possono fare affidamento su semplici corrispondenze di parole.

Il problema nascosto delle capacità di lettura dell’IA

Immagina di cercare un dettaglio specifico in una lunga relazione di ricerca. Potresti scorrere la relazione, creando collegamenti mentali tra diverse sezioni per ricomporre le informazioni di cui hai bisogno. Molti modelli di intelligenza artificiale, si scopre, non funzionano in questo modo. Invece, spesso si affidano fortemente alla ricerca di corrispondenze esatte di parole, simile all’uso di Ctrl+F sul tuo computer.

Il team di ricerca ha sviluppato un nuovo benchmark chiamato NOLIMA (No Literal Matching) per testare vari modelli di intelligenza artificiale. I risultati hanno mostrato che quando i modelli di intelligenza artificiale trattano testi più lunghi di 2.000 parole, le loro prestazioni calano drasticamente. Quando raggiungono i 32.000 parole – circa la lunghezza di un libro breve – la maggior parte dei modelli funziona a metà della loro capacità abituale. Ciò include il test di importanti modelli come GPT-4o, Gemini 1.5 Pro e Llama 3.3 70B.

Considera un ricercatore medico che utilizza l’IA per analizzare le cartelle cliniche dei pazienti o un team legale che utilizza l’IA per esaminare documenti di casi. Se l’IA perde collegamenti cruciali perché le informazioni rilevanti utilizzano parole diverse dalla query di ricerca, le conseguenze potrebbero essere significative.

Perché la corrispondenza di parole non è sufficiente

I modelli di intelligenza artificiale attuali elaborano il testo utilizzando qualcosa chiamato meccanismo di attenzione. Questo sistema aiuta l’IA a concentrarsi su diverse parti del testo per comprendere le relazioni tra parole e idee. Quando si lavora con testi più brevi, funziona abbastanza bene. Tuttavia, la ricerca mostra che questo meccanismo diventa sopraffatto man mano che i testi si allungano, soprattutto quando non può fare affidamento su corrispondenze esatte di parole.

Il test NOLIMA ha rivelato questa limitazione chiedendo ai modelli di intelligenza artificiale domande le cui risposte richiedevano la comprensione del contesto piuttosto che la ricerca di parole corrispondenti. I risultati sono stati eloquenti. Mentre i modelli hanno funzionato bene con testi brevi, la loro capacità di stabilire questi collegamenti è calata notevolmente man mano che la lunghezza del testo aumentava. Anche i modelli specializzati progettati per compiti di ragionamento hanno ottenuto un punteggio di accuratezza inferiore al 50% quando hanno trattato documenti più lunghi.

Senza l’aiuto della corrispondenza di parole, i modelli di intelligenza artificiale hanno faticato a:

Collegare concetti correlati che utilizzano terminologie diverse
Seguire percorsi di ragionamento multi-step
Trovare informazioni rilevanti quando appaiono dopo il contesto chiave
Ignorare corrispondenze di parole fuorvianti in sezioni non rilevanti

I numeri raccontano la storia

Le scoperte della ricerca dipingono un quadro netto di come i modelli di intelligenza artificiale trattano testi più lunghi. GPT-4o ha mostrato le prestazioni più forti, mantenendo l’efficacia fino a circa 8.000 token (circa 6.000 parole). Tuttavia, anche questo modello di punta ha mostrato un calo significativo con testi più lunghi. La maggior parte degli altri modelli, tra cui Gemini 1.5 Pro e Llama 3.3 70B, ha sperimentato un calo netto delle prestazioni tra 2.000 e 8.000 token.

Il calo delle prestazioni è diventato ancora più pronunciato quando i compiti richiedevano più passaggi di ragionamento. Ad esempio, se un modello doveva stabilire due collegamenti logici – come capire che un personaggio viveva vicino a un punto di riferimento e che quel punto di riferimento si trovava in una città specifica – il tasso di successo è calato notevolmente. La ricerca ha mostrato che questo tipo di ragionamento multi-step è diventato particolarmente impegnativo in testi oltre 16.000 token, anche quando si utilizzavano tecniche progettate per migliorare il ragionamento, come Chain-of-Thought prompting.

Ciò che rende queste scoperte particolarmente degne di nota è che sfidano le affermazioni sull’abilità dei modelli di intelligenza artificiale di trattare contesti lunghi. Mentre molti modelli pubblicizzano il supporto per ampie finestre di contesto, il benchmark NOLIMA mostra che la comprensione efficace cala ben prima di raggiungere questi limiti teorici.

Source: Modarressi et al.

Quando l’IA perde la foresta per gli alberi

Queste limitazioni hanno implicazioni serie per l’utilizzo dell’IA in applicazioni del mondo reale. Considera un sistema legale di IA che cerca attraverso la legislazione. Potrebbe perdere precedenti rilevanti semplicemente perché utilizzano una terminologia diversa dalla query di ricerca. Il sistema potrebbe invece concentrarsi su casi meno rilevanti che condividono più parole con i termini di ricerca.

L’impatto sulla ricerca e sull’analisi dei documenti è particolarmente preoccupante. I sistemi di ricerca attuali alimentati da IA spesso si affidano a una tecnica chiamata Retrieval-Augmented Generation (RAG). Anche quando questi sistemi recuperano con successo un documento che contiene le informazioni giuste, l’IA potrebbe non riconoscere la sua rilevanza se la formulazione differisce dalla query. Invece, l’IA potrebbe gravitare verso documenti meno rilevanti che condividono somiglianze superficiali con i termini di ricerca.

Per gli utenti di strumenti di IA, queste scoperte suggeriscono diverse considerazioni importanti:

Primo, le query e i documenti più brevi probabilmente produrranno risultati più affidabili. Quando si lavora con testi più lunghi, dividere il testo in segmenti significativi potrebbe aiutare a mantenere le prestazioni dell’IA.

Secondo, gli utenti dovrebbero essere particolarmente cauti quando chiedono all’IA di stabilire collegamenti all’interno di diverse parti di un documento lungo. La ricerca mostra che i modelli di intelligenza artificiale hanno più difficoltà quando devono combinare informazioni da diverse sezioni, soprattutto quando il collegamento non è ovvio attraverso un vocabolario condiviso.

Infine, queste limitazioni evidenziano l’importanza continua della supervisione umana. Mentre gli strumenti di IA possono essere molto utili per molti compiti, non dovrebbero essere trattati come sostituti completi dell’analisi umana di documenti complessi. La capacità umana di mantenere il contesto e stabilire collegamenti concettuali attraverso testi lunghi rimane superiore alle capacità attuali dell’IA.

Le scoperte servono come promemoria che, nonostante i rapidi progressi nella tecnologia di IA, questi sistemi elaborano ancora le informazioni in modo molto diverso dagli esseri umani. Comprendere queste limitazioni è cruciale per utilizzare gli strumenti di IA in modo efficace e sapere quando il giudizio umano rimane essenziale.

Cosa viene dopo

Comprendere le limitazioni dell’attuale capacità dei modelli di IA di elaborare testi lunghi apre importanti domande sul futuro dello sviluppo di IA. La ricerca dietro il benchmark NOLIMA ha rivelato che i nostri attuali approcci all’elaborazione del testo di IA potrebbero richiedere un significativo affinamento, in particolare su come i modelli gestiscono le informazioni attraverso passaggi più lunghi.

Le soluzioni attuali hanno mostrato solo un successo parziale. La tecnica di Chain-of-Thought prompting, che incoraggia i modelli di IA a scomporre il loro ragionamento in passaggi, aiuta a migliorare le prestazioni in qualche misura. Ad esempio, quando si utilizza questa tecnica, Llama 3.3 70B ha mostrato una migliore capacità di trattare contesti più lunghi. Tuttavia, questo approccio è ancora insufficiente quando si tratta di testi oltre 16.000 token, suggerendo che abbiamo bisogno di soluzioni più fondamentali.

Il meccanismo di attenzione, che costituisce la spina dorsale di come i modelli di IA attuali elaborano il testo, necessita di una rielaborazione. Pensalo come cercare di sostenere una conversazione in una stanza affollata – più lunga è la conversazione, più difficile diventa tenere traccia di tutti i punti importanti menzionati in precedenza. I nostri attuali modelli di IA affrontano una sfida simile, ma su una scala molto più grande.

Guardando al futuro, i ricercatori stanno esplorando diverse direzioni promettenti. Un approccio coinvolge lo sviluppo di nuovi modi per l’IA di organizzare e dare priorità alle informazioni in testi lunghi, andando oltre la semplice corrispondenza di parole per comprendere collegamenti concettuali più profondi. Ciò potrebbe funzionare più come la creazione di mappe mentali di informazioni da parte degli esseri umani, collegando idee in base al significato piuttosto che solo al vocabolario condiviso.

Un’altra area di sviluppo si concentra sul miglioramento di come i modelli di IA gestiscono ciò che i ricercatori chiamano “salti latenti” – i passaggi logici necessari per collegare diverse porzioni di informazione. I modelli attuali lottano con questi collegamenti, soprattutto in testi più lunghi, ma nuove architetture potrebbero aiutare a colmare questo divario.

Per coloro che lavorano con strumenti di IA oggi, queste scoperte suggeriscono diversi approcci pratici:

Considera la divisione dei documenti più lunghi in segmenti significativi quando lavori con l’IA. Ciò aiuta a creare sezioni logiche che preservano il contesto importante. Ad esempio, se si analizza una relazione di ricerca, potresti tenere insieme le sezioni di metodologia e risultati poiché spesso contengono informazioni correlate.

Quando chiedi all’IA di analizzare testi più lunghi, sii specifico sui collegamenti che desideri che stabilisca. Invece di porre domande ampie, guida l’IA verso le relazioni specifiche che sei interessato a esplorare. Ciò aiuta a compensare le limitazioni attuali del modello nel stabilire questi collegamenti in modo indipendente.

Forse più importante, mantieni aspettative realistiche sulle capacità dell’IA con testi lunghi. Mentre questi strumenti possono essere incredibilmente utili per molti compiti, non dovrebbero essere trattati come sostituti completi dell’analisi umana di documenti complessi. La capacità umana di mantenere il contesto e stabilire collegamenti concettuali attraverso testi lunghi rimane superiore alle capacità attuali dell’IA.

La strada ahead per lo sviluppo di IA in questo settore è sia impegnativa che emozionante. Man mano che comprendiamo meglio queste limitazioni, possiamo lavorare verso sistemi di IA che comprendono veramente testi lunghi invece di semplicemente elaborarli. Fino ad allora, utilizzare l’IA in modo efficace significa lavorare con le sue limitazioni attuali mentre apprezziamo le sue forze.

Alex McFarland

Alex McFarland è un giornalista e scrittore di intelligenza artificiale che esplora gli ultimi sviluppi nel campo dell'intelligenza artificiale. Ha collaborato con numerose startup di intelligenza artificiale e pubblicazioni in tutto il mondo.