Angolo di Anderson

ChatGPT-5 e Gemini 2.5 producono allucinazioni nel 40% delle query di stile redazionale testate

Published October 1, 2025

Updated May 17, 2026

Martin Anderson

A robot journalist in a retro newsroom. SDXL, Flux Kontext Pro, Firefly 3, et al.

Uno studio recente scopre che ChatGPT-5 e Google Gemini producono allucinazioni nel 40% delle query di stile redazionale, inventando spesso affermazioni che suonano convincenti ma non sono supportate da fatti verificabili. Google’s NotebookLM si comporta meglio con solo il 13% – un tasso che comunque sarebbe sufficiente per licenziare qualsiasi giornalista al mondo. Lo studio ha scoperto che i modelli distorcono frequentemente le fonti trasformando le opinioni in fatti e rimuovendo l’attribuzione, rendendoli strumenti rischiosi per il giornalismo. Gli autori chiedono strumenti migliori e dedicati per questi compiti.

I Large Language Model hanno visto una rapida adozione nel giornalismo negli ultimi tempi, in ambienti di lavoro che hanno comunque ridotto i costi, i budget e il personale dal momento in cui il giornalismo digitale ha cancellato due secoli di tradizione in un processo inarrestabile che è iniziato all’inizio degli anni 2000.

In realtà, il terreno era già fertile, poiché i media si erano già abituati a tagliare i posti di lavoro attraverso l’ “innovazione” fin dagli anni turbolenti dell’introduzione della composizione digitale negli anni ’80, nonché dalle sfide precedenti dell’ avvento della radio e della televisione.

Il percorso implacabile dell’AI nei redazioni e nelle testate non è stato senza intoppi, tuttavia; in un contesto in cui il 55% delle aziende ora si pente di aver sostituito gli esseri umani con l’AI, e in cui Gartner prevede che le organizzazioni ridurranno drasticamente i loro piani di adozione dell’AI entro due anni, un certo numero di organizzazioni di notizie ha riassunto i giornalisti sostituiti dall’AI, poiché le gravi e spesso imbarazzanti carenze delle alternative di apprendimento automatico sono diventate evidenti.

L’errore non è solo umano

Sebbene le allucinazioni siano state un problema enorme per i campi in cui la citazione accurata è essenziale (con una notevole attenzione pubblica per i casi di fallimento dell’AI nei settori giuridico, ricerca e giornalismo), uno studio statunitense recente scopre che l’apprendimento automatico nel giornalismo affronta sfide più ampie del previsto.

Gli autori della ricerca hanno valutato ChatGPT, Google Gemini e il più focalizzato sulla citazione NotebookLM su un compito di stile redazionale: utilizzando un corpus di 300 documenti concentrato sulla litigiosità e sulla politica di TikTok negli Stati Uniti.

I ricercatori hanno variato la specificità della richiesta e il numero di documenti forniti, quindi hanno analizzato i risultati utilizzando una tassonomia progettata per catturare il tipo e la gravità delle allucinazioni.

In tutti gli output, il 30% conteneva almeno un’allucinazione, mentre ChatGPT e Gemini hanno mostrato ciascuno un tasso di allucinazione del 40% – poco più di tre volte superiore al tasso di errore del 13% di NotebookLM.

Invece di inventare fatti o entità, i ricercatori notano che i modelli hanno spesso mostrato sovracomprensione interpretativa, aggiungendo caratterizzazioni non supportate e trasformando opinioni attribuite in affermazioni generali:

‘Qualitativamente, la maggior parte degli errori non coinvolgeva entità inventate o numeri; invece, abbiamo osservato una sovracomprensione interpretativa – i modelli hanno aggiunto caratterizzazioni non supportate delle fonti e trasformato opinioni attribuite in affermazioni generali.

‘Questi modelli rivelano un fondamentale disaccordo epistemologico: mentre il giornalismo richiede una fonte esplicita per ogni affermazione, i LLM generano testi che suonano autorevoli indipendentemente dal sostegno evidenziario.

‘Proponiamo estensioni specifiche per il giornalismo alle tassonomie esistenti delle allucinazioni e sosteniamo che gli strumenti efficaci per le redazioni debbano avere architetture che impongano un’attribuzione accurata piuttosto che ottimizzare la fluidità.’

Lo studio recente, una lettura affascinante ma breve di cinque pagine, è intitolato Non sbagliato, ma non vero: la sovracomprensione dei LLM nelle query basate sui documenti e proviene da tre ricercatori dell’Università Northwestern e dell’Università del Minnesota.

Teoria e metodo

La causa esatta delle allucinazioni* è disputata in vari momenti; sebbene quasi tutte le teorie concordino che la qualità dei dati e/o le distribuzioni siano un fattore contributivo durante l’addestramento, è stato anche proposto che il 100% dell’output dei LLM sia essenzialmente un’allucinazione (tranne che alcune di quelle allucinazioni coincidono con la realtà).

Gli autori osservano^†:

‘Da un punto di vista tecnico, le allucinazioni emergono dalla capacità dei LLM di generare testi che seguono modelli comuni senza possedere una comprensione di ciò che è vero. Questa caratteristica produce risposte plausibili che non riflettono la realtà – ad esempio, leggi inventate dai LLM che si infiltrano negli argomenti.

‘E mentre le capacità dei LLM sono aumentate notevolmente negli ultimi cinque anni, le allucinazioni rimangono un problema, in alcuni casi addirittura aumentando man mano che i modelli diventano più capaci.’

Il settore della ricerca, osserva il documento, ha esplorato una serie di modi per ridurre o comprendere meglio le allucinazioni dei LLM, che tendono a cadere in tre aree principali: in primo luogo, nel contesto, i modelli possono essere basati su fonti esterne come database, raccolte di documenti o contenuti web per supportare le loro affermazioni.

Questo funziona bene quando il materiale è affidabile e completo, ma lacune, informazioni obsolete o dati di scarsa qualità causano ancora errori; e i modelli hanno anche l’abitudine di fare affermazioni confidenti che vanno oltre ciò che le fonti dicono effettivamente.

In secondo luogo, il prompting e decoding si riferisce all’uso di istruzioni accurate per guidare i modelli. Ciò può comportare chiedere ai modelli di verificare le loro prove, suddividere i compiti in passaggi più piccoli o seguire formati più rigidi. A volte, i modelli vengono anche diretti a rivedere il proprio lavoro o a confrontare più risposte.

Queste tecniche possono cogliere gli errori, ma aumentano anche i costi e spesso falliscono nel rilevare errori sottili; pertanto, senza una verifica affidabile, gran parte del carico di verifica ricade ancora sull’utente.

In terzo luogo, i modelli e strumenti si riferiscono al fornire ai LLM l’accesso a risorse che possono supportare la verifica, come motori di ricerca o calcolatrici – sebbene l’accuratezza possa anche migliorare quando i modelli vengono addestrati su dati ben fonti o quando le funzionalità di citazione vengono integrate.

Tuttavia, queste misure non sono infallibili e dipendono ancora dalla qualità delle fonti, dalla chiarezza delle linee guida e dalla supervisione umana per prevenire la diffusione di informazioni false.

Tik Tok

Per scoprire quali approcci potrebbero essere utili per i giornalisti, lo studio ha condotto valutazioni progettate per riflettere i flussi di lavoro e gli standard delle redazioni, con allucinazioni esaminate nel contesto di compiti di reporting tipici.

I modelli di frontiera sono stati testati utilizzando strategie di richiesta comuni e impostazioni di base dei documenti, in modo che sia la frequenza che il tipo di errori di allucinazione potessero essere misurati – insieme a ciò che quegli errori significano effettivamente per l’integrazione dell’AI nelle redazioni.

L’analisi si è concentrata sul tipo di query basata sui documenti tipica nel giornalismo di ricerca e investigativo. Gli autori hanno cercato di curare un corpus destinato a riflettere un progetto di redazione tipico di piccole e medie dimensioni, ma che fosse ancora abbastanza grande da catturare la complessità del reporting del mondo reale; a questo scopo, hanno selezionato lo sforzo legale in corso per bandire TikTok negli Stati Uniti.

I documenti sono stati raccolti dal Washington Post, il New York Times, ProQuest e Westlaw, risultando in una raccolta di 300 documenti che comprende cinque articoli accademici, 150 articoli di notizie e 145 documenti legali (con la compilazione completa disponibile per i ricercatori accademici su richiesta attraverso il repository del progetto).

Dal momento che le risposte dei LLM dipendono fortemente da come viene formulata la richiesta e da quanto contesto viene fornito, gli autori hanno progettato cinque query che vanno da molto ampie a molto specifiche – da domande generali sui divieti di TikTok a prompt dettagliati che sollecitano testimonianze da casi giudiziari specifici.

Il numero di documenti forniti a ciascun modello è stato variato a 10, 100 – o tutti i 300, dal corpus completo, con due documenti chiave inclusi in ogni campione, per garantire la coerenza. Sono state prodotte 15 risposte per ciascun modello, tranne che per ChatGPT, che è stato limitato a 10 risposte.

Concorrenti

Tre strumenti sono stati testati, ciascuno rappresentante un approccio diverso alla query basata sui documenti: ChatGPT-5 è stato valutato utilizzando la funzione Projects, che limitava gli upload a 100 documenti; Google Gemini 2.5 Pro è stato in grado di elaborare l’intero corpus di 300 documenti in contesto (utilizzando la sua finestra di contesto di un milione di token per ingerire direttamente 923.000 token); Google NotebookLM, che offre il recupero delle citazioni integrato, è stato testato utilizzando notebook dedicati per ogni campione.

Mentre questi metodi di gestione dei documenti differiscono, tutti e tre rappresentano strumenti reali attualmente disponibili per i giornalisti; e in ogni caso, lo stato attuale è più sperimentale che omogeneo, con una parità di funzionalità e portata che inevitabilmente differisce tra le offerte attuali.

Per catturare la gamma di comportamenti di allucinazione possibili, è stata utilizzata una tassonomia da un lavoro precedente del 2023, con allucinazioni codificate per orientamento (distorsione vs. elaborazione); categoria (tipo di errore); e grado (gravità valutata come lieve, moderato o allarmante).

Tutti gli output del modello sono stati annotati da un autore umano, che ha esaminato ogni frase e applicato questi codici. Gli errori non coperti dalla tassonomia sono stati contrassegnati come vari e successivamente analizzati per sviluppare categorie specifiche per il giornalismo.

Dati e test

Nel test iniziale per la prevalenza delle allucinazioni, 12 risposte del modello su 40 sono state trovate a contenere almeno un’allucinazione, con una notevole variazione tra gli strumenti. ChatGPT e Gemini hanno prodotto allucinazioni nel 40% dei loro output, mentre NotebookLM ha prodotto allucinazioni nel 13% dei casi:

Tassi di allucinazione complessivi per ogni strumento, con Gemini e ChatGPT che producono la percentuale più alta di risposte contenenti errori. Fonte: https://arxiv.org/pdf/2509.25498 Tassi di allucinazione complessivi per ogni strumento, con Gemini e ChatGPT che producono la percentuale più alta di risposte contenenti errori. Fonte: https://arxiv.org/pdf/2509.25498

Di questi risultati, gli autori commentano:

‘Ciò indica che, mentre la maggior parte delle risposte in tutti gli strumenti non contiene allucinazioni, la scelta dello strumento fa una differenza per lo stesso corpus di documenti e set di query.’

Le allucinazioni raramente si verificano in isolamento, nota il documento; Gemini ha fatto in media quattro allucinazioni per risposta difettosa, NotebookLM tre e ChatGPT 1,5. La maggior parte era moderata in gravità, ma il 14% è stata classificata come allarmante. In un caso, ChatGPT ha inventato un motivo di ritorsione dietro un divieto di TikTok che non appariva nella fonte:

‘[In] una query ChatGPT ha inquadrato un possibile divieto di TikTok come una misura reciproca da parte dei legislatori statunitensi in risposta alla politica cinese, un’affermazione completamente assente dal documento di riferimento.’

Complessivamente, il 64% delle risposte allucinanti ha introdotto inesattezze fattuali o divagazioni, potenzialmente sollevando domande su quanto l’uso dei LLM possa effettivamente risparmiare tempo in questo tipo di flusso di lavoro basato sulle informazioni, almeno nello stato attuale.

Nel test iniziale, la maggior parte delle allucinazioni non rientrava nelle categorie esistenti, spesso coinvolgendo citazioni inventate o espansioni di acronimi errate, suggerendo che gli attuali framework potrebbero essere troppo ristretti per i casi d’uso del giornalismo.

Il tasso di allucinazione più basso di NotebookLM, osservano gli autori, suggerisce che il suo sistema RAG basato sulla citazione fornisce un ancoraggio più affidabile rispetto alla funzione Projects di ChatGPT o all’elaborazione in contesto di Gemini, specialmente quando si devono fare riferimenti a documenti specifici.

Riguardo allo studio delle caratteristiche qualitative delle allucinazioni osservate nei risultati del test, i ricercatori osservano che le allucinazioni derivano non principalmente da fatti inventati, ma da eccesso interpretativo:

‘I modelli hanno aggiunto caratterizzazioni autorevoli sui propositi dei documenti, sui pubblici e sulle intenzioni degli oratori che sembravano autorevoli ma mancavano di una base nel testo effettivo. Hanno trasformato affermazioni caute o attribuite in affermazioni definitive.’

L’eccesso di fiducia ha assunto due forme: in primo luogo, i modelli hanno aggiunto affermazioni non supportate sui propositi o sul pubblico di un documento, come etichettare un articolo come ‘scritto per il pubblico’ o un deposito come ‘indirizzato agli avvocati’.

In secondo luogo, hanno convertito le opinioni attribuite in affermazioni simili a fatti, oscurando la fonte originale e compromettendo la valutazione della fonte.

Questi comportamenti sono apparsi in tutti gli strumenti e non sono stati limitati a un’architettura – e la maggior parte degli errori non erano invenzioni, ma piuttosto sovrinterpretazioni.

La maggior parte delle allucinazioni è stata etichettata come varia, poiché non rientrava nelle categorie esistenti, offuscando le differenze chiave tra i tipi di errori. Problemi frequenti come mancanza di attribuzione e descrizioni di fonti vaghe suggeriscono che le tassonomie attuali mancano dei tipi di errori che più contano nel giornalismo, dove la fonte chiara è essenziale.

Gli autori osservano che ‘I modelli aggiungono analisi confidenti che i documenti non supportano e rimuovono l’attribuzione cruciale.’

Conclusione

Chiunque abbia sperimentato i tre modelli studiati nel nuovo documento sa che ognuno ha i suoi punti deboli e forti. Sebbene NotebookLM si esprima molto meglio nella citazione rispetto a ChatGPT o Gemini, potrebbe considerare che è stato costruito specificamente per questa funzionalità e comunque consegna un tasso di errore che otterrebbe il licenziamento della maggior parte dei giornalisti, ricercatori o avvocati, con incidenti ripetuti.

Inoltre, NotebookLM, che si posiziona come un framework di ricerca, manca di molti dei raffinamenti dell’UX che rendono le altre due piattaforme un’esperienza di scrittura più semplice.

Tuttavia, almeno NotebookLM sembra effettivamente leggere i documenti caricati invece di cadere nell’abitudine estremamente distruttiva di ChatGPT di inferire cosa potrebbe dire un documento caricato in base a ciò che sa sulla distribuzione generale di documenti simili. Può essere una lotta in salita per ottenere che qualsiasi versione di ChatGPT esegua una lettura completa del testo dei documenti caricati, invece di affidarsi ai metadati o alle proprie supposizioni/allucinazioni.

Per i campi in cui la provenienza e gli standard di citazione sono fondamentali, come la legge, il giornalismo e la ricerca scientifica, sembra che non ci siano attualmente strutture nativamente formate nei LLM leader del mercato che possano migliorare la loro capacità limitata di estrarre e gestire le informazioni che l’utente gli chiede di gestire.

Come stanno le cose, e in attesa dell’arrivo di sistemi ausiliari che possano offrire un’interfaccia migliore ai LLM rispetto a un semplice prompt di sistema o impostazione MCP, tutto ciò che questi sistemi producono per questi settori critici deve ancora essere verificato da quegli esseri umani costosi, scomodi e generalmente fastidiosi.

* Google Cloud offre una spiegazione ragionevolmente interessante e approfondita sull’argomento qui.

^†La mia conversione delle citazioni in linea degli autori in collegamenti ipertestuali.

Pubblicato per la prima volta mercoledì 1 ottobre 2025. Modificato giovedì 2 ottobre per correggere un errore nel riassunto e modificare un errore stilistico nel primo paragrafo.