Intelligenza artificiale
Quando i benchmark dell’IA insegnano ai modelli a mentire

L’allucinazione dell’IA — quando un sistema produce risposte che sembrano corrette ma sono in realtà sbagliate — rimane una delle sfide più difficili nell’intelligenza artificiale. Anche i modelli più avanzati di oggi, come DeepSeek-V3, Llama e gli ultimi rilasci di OpenAI, producono ancora informazioni inaccurate con alta fiducia. In aree come la sanità o il diritto, tali errori possono portare a conseguenze gravi.
Tradizionalmente, le allucinazioni sono state viste come un sottoprodotto di come vengono addestrati i grandi modelli linguistici: imparano a prevedere la parola successiva più probabile senza verificare se le informazioni sono vere. Ma nuove ricerche suggeriscono che il problema potrebbe non fermarsi all’addestramento. I benchmark utilizzati per testare e confrontare le prestazioni dell’IA potrebbero in realtà rafforzare comportamenti fuorvianti, premiare risposte che sembrano convincenti piuttosto che quelle corrette.
Questo cambio di prospettiva ridefinisce il problema. Se i modelli sono addestrati a soddisfare il test piuttosto che dire la verità, allora le allucinazioni non sono difetti accidentali, ma strategie apprese. Per capire perché questo accade, dobbiamo esaminare il motivo per cui i modelli dell’IA scelgono di indovinare piuttosto che ammettere la loro ignoranza?
Perché i modelli dell’IA indovinano
Per capire perché i modelli dell’IA spesso indovinano invece di ammettere di non sapere, consideriamo uno studente che affronta una domanda difficile in un esame. Lo studente ha due opzioni: lasciare la risposta in bianco e ottenere zero punti, o fare un’ipotesi educata che potrebbe guadagnare alcuni punti. Razionalmente, indovinare sembra la scelta migliore perché c’è almeno una possibilità di essere nel giusto.
I modelli dell’IA affrontano una situazione simile durante la valutazione. La maggior parte dei benchmark utilizza un sistema di punteggio binario: le risposte corrette guadagnano punti, mentre le risposte scorrette o incerte guadagnano nulla. Se a un modello viene chiesto: “Qual è il compleanno di un ricercatore?” e non lo sa veramente, rispondere con “Non lo so” conta come fallimento. Inventare una data, tuttavia, porta con sé una possibilità di essere corretti — e anche se è sbagliato, il sistema non punisce l’ipotesi fiduciosa più della mancanza di risposta.
Questa dinamica spiega perché le allucinazioni persistono nonostante le estensive ricerche per eliminarle. I modelli non si comportano male; stanno seguendo gli incentivi costruiti nella valutazione. Imparano che sembrare fiduciosi è il modo migliore per massimizzare il loro punteggio, anche quando la risposta è falsa. Di conseguenza, invece di esprimere incertezza, i modelli sono spinti a fornire dichiarazioni autorevoli — giuste o sbagliate.
I fondamenti matematici della disonestà dell’IA
La ricerca mostra che le allucinazioni derivano dai fondamenti matematici di come i modelli linguistici imparano. Anche se un modello fosse addestrato solo su informazioni perfettamente accurate, i suoi obiettivi statistici porterebbero comunque a errori. Ciò accade perché generare la risposta giusta è fondamentalmente più difficile che riconoscere se una risposta è valida.
Ciò aiuta a spiegare perché i modelli spesso falliscono sui fatti che mancano di chiari modelli, come compleanni o altri dettagli unici. L’analisi matematica suggerisce che i tassi di allucinazione in questi casi saranno almeno tanto alti quanto la frazione di fatti che appaiono solo una volta nei dati di addestramento. In altre parole, più rara è l’informazione nei dati, più probabile è che il modello abbia difficoltà con essa.
Il problema non è limitato ai fatti rari. Le limitazioni strutturali come la capacità del modello limitata o la progettazione architettonica producono anche errori sistematici. Ad esempio, i modelli precedenti con finestre di contesto molto brevi fallivano costantemente in compiti che richiedevano ragionamento a lungo raggio. Questi errori non erano glitch casuali, ma risultati prevedibili della struttura matematica del modello.
Perché la formazione post-addestramento non risolve il problema
Una volta che un modello dell’IA è stato addestrato su enormi set di dati testuali, di solito passa attraverso un affinamento per rendere la sua uscita più utile e meno dannosa. Tuttavia, questo processo affronta lo stesso problema di base che causa le allucinazioni in primo luogo; il modo in cui valutiamo i modelli.
I metodi di affinamento più comuni, come l’apprendimento per rinforzo da feedback umano, si basano ancora su benchmark che utilizzano un punteggio binario. Questi benchmark premiano i modelli per fornire risposte fiduciose mentre non offrono alcun credito quando un modello ammette di non sapere. Di conseguenza, un sistema che risponde sempre con certezza, anche quando è sbagliato, può superare uno che esprime onestamente l’incertezza.
I ricercatori chiamano questo problema la penalizzazione dell’incertezza. Anche le tecniche avanzate per rilevare o ridurre le allucinazioni lottano quando i benchmark sottostanti continuano a favorire l’eccessiva fiducia. In altre parole, non importa quanto siano sofisticate le soluzioni, finché i sistemi di valutazione premiano le ipotesi fiduciose, i modelli saranno distorti verso risposte sbagliate ma certe invece di ammissioni oneste di dubbio.
L’illusione del progresso
Le classifiche, ampiamente condivise nella comunità dell’IA, amplificano questo problema. I benchmark come MMLU, GPQA e SWE-bench dominano gli articoli di ricerca e gli annunci di prodotti. Le aziende evidenziano i loro punteggi per mostrare un rapido progresso. Tuttavia, come nota il rapporto, questi stessi benchmark incoraggiano le allucinazioni.
Un modello che onestamente dice “Non lo so” potrebbe essere più sicuro in ambienti reali, ma si classificherebbe più in basso nella classifica. Al contrario, un modello che inventa risposte convincenti ma false otterrebbe un punteggio migliore. Quando l’adozione, il finanziamento e il prestigio dipendono dalle classifiche, la direzione del progresso diventa distorta. Il pubblico vede una narrazione di costante miglioramento, ma sotto, i modelli sono addestrati a ingannare.
Perché l’incertezza onesta è importante nell’IA
Le allucinazioni non sono solo una sfida di ricerca; hanno conseguenze reali. Nella sanità, un modello che inventa interazioni farmacologiche potrebbe fuorviare i medici. Nell’istruzione, uno che inventa fatti storici potrebbe disinformare gli studenti. Nel giornalismo, un chatbot che produce citazioni false ma convincenti potrebbe diffondere disinformazione. Questi rischi sono già visibili. L’Indice dell’IA di Stanford 2025 ha riferito che i benchmark progettati per misurare le allucinazioni “hanno lottato per guadagnare trazione”, anche mentre l’adozione dell’IA si accelera. Nel frattempo, i benchmark che dominano le classifiche e che premiano risposte fiduciose ma non affidabili continuano a stabilire la direzione del progresso.
Questi risultati evidenziano sia una sfida che un’opportunità. Esaminando le radici matematiche delle allucinazioni, i ricercatori hanno identificato direzioni chiare per costruire sistemi dell’IA più affidabili. La chiave è smettere di trattare l’incertezza come un difetto e invece riconoscerla come una capacità essenziale che dovrebbe essere misurata e premiata.
Questo cambio di prospettiva ha implicazioni che vanno oltre la riduzione delle allucinazioni. I sistemi dell’IA che possono valutare e comunicare correttamente i limiti della loro conoscenza sarebbero più adatti per applicazioni ad alto rischio dove la fiducia eccessiva porta a gravi rischi. La diagnosi medica, l’analisi legale e la ricerca scientifica richiedono tutte la capacità di distinguere tra conoscenza fiduciosa e speculazione informata.
Ripensare la valutazione per un’IA onesta
Questi risultati evidenziano che costruire sistemi dell’IA più affidabili richiede un ripensamento di come misuriamo le capacità dell’IA. Invece di affidarsi a semplici punteggi giusto o sbagliato, i framework di valutazione dovrebbero premiare i modelli per esprimere l’incertezza in modo appropriato. Ciò significa fornire indicazioni chiare sui soglie di fiducia e gli schemi di punteggio corrispondenti all’interno delle istruzioni del benchmark.
Un approccio promettente coinvolge la creazione di obiettivi di fiducia espliciti che specificano quando i modelli dovrebbero rispondere e quando dovrebbero astenersi. Ad esempio, le istruzioni potrebbero affermare che le risposte dovrebbero essere fornite solo quando la fiducia supera una soglia specifica, con il punteggio regolato di conseguenza. In questo setup, l’incertezza non è più una debolezza, ma una parte preziosa del comportamento responsabile.
La chiave è rendere le richieste di fiducia trasparenti piuttosto che implicite. I benchmark attuali creano penalità nascoste per l’incertezza che i modelli imparano a evitare. Gli obiettivi di fiducia espliciti consentirebbero ai modelli di ottimizzare il comportamento effettivamente desiderato: risposte accurate quando si è fiduciosi e oneste ammissioni di incertezza quando la conoscenza manca.
Il punto fondamentale
Le allucinazioni dell’IA non sono difetti casuali — sono rafforzate dai benchmark utilizzati per misurare il progresso. Premiare le ipotesi fiduciose rispetto all’incertezza onesta spinge i modelli verso l’inganno piuttosto che l’affidabilità. Se vogliamo un’IA che possa essere affidabile in domini ad alto rischio come la sanità, il diritto e la scienza, dobbiamo ripensare come testiamo e premiamo i modelli. Il progresso dovrebbe essere misurato non solo dall’accuratezza, ma dalla capacità di riconoscere e ammettere ciò che il modello non sa.












