Angolo di Anderson
Perché l’AI non ammette di non conoscere la risposta?

I modelli linguistici di grandi dimensioni spesso forniscono risposte fiduciose anche quando la domanda non può essere risposta. Nuove ricerche mostrano che questi modelli riconoscono spesso internamente il problema, ma continuano comunque a fornire una risposta, esponendo un divario nascosto tra ciò che sanno e ciò che dicono.
Chiunque abbia trascorso un tempo ragionevole con un modello linguistico di grandi dimensioni come ChatGPT o Qwen serie, avrà sperimentato occasioni in cui il modello fornisce una risposta errata (che può o non può aver avuto conseguenze catastrofiche locali, a seconda di quanto si è fatto affidamento su di essa) – e, quando l’errore è diventato chiaro, si è limitato a scusarsi.
Il motivo per cui i principali modelli linguistici di grandi dimensioni hanno difficoltà ad ammettere di non conoscere la risposta a una domanda è un piccolo ma crescente area di studio. Una risposta “fiduciosa e sbagliata” può essere particolarmente dannosa in un’interfaccia API basata su filtri aggressivi come ChatGPT, poiché tali modelli bloccano in modo aggressivo gli input o output NSFW o “violatori di regole”.
Ciò può dare all’utente una falsa impressione che il modello sia deciso e cardinale, quando in realtà il rifiuto proviene da un filtro tradizionale o basato su elenchi di controllo progettato per limitare l’esposizione legale dell’azienda ospitante a tutti i costi, e non da alcun insight dell’AI.

Dalla relazione di giugno 2025 ‘AbstentionBench’ di FAIR a Meta – a sinistra, la figura evidenzia la gamma di tipi di fallimento catturati in AbstentionBench, che testa il comportamento del modello su oltre 35.000 domande senza risposta; al centro, un esempio mostra come i modelli spesso rispondano con risposte inventate invece di ammettere di non avere abbastanza informazioni; e a destra, il richiamo dell’abstazione diminuisce quando i modelli sono regolati per il ragionamento anziché per l’istruzione. Source: https://arxiv.org/pdf/2506.09038
Un nuovo documento della Cina sostiene che i modelli linguistici di grandi dimensioni sanno in realtà che non possono rispondere a una domanda posta dall’utente, ma che sono comunque costretti a produrre una sorta di risposta, la maggior parte delle volte, invece di avere abbastanza fiducia per decidere che una risposta valida non è disponibile a causa della mancanza di informazioni dall’utente, o delle limitazioni del modello, o per altri motivi.
Il documento afferma:
‘[Noi] mostriamo che [i modelli linguistici di grandi dimensioni] possiedono capacità cognitive sufficienti per riconoscere i difetti in queste domande. Tuttavia, non riescono a esibire un comportamento di astensione appropriato, rivelando un allineamento tra la loro cognizione interna e la risposta esterna.’
I ricercatori hanno sviluppato un approccio leggero a due fasi che utilizza il monitoraggio cognitivo/sondaggio per esaminare il processo interno del modello linguistico di grandi dimensioni per indicazioni che riconosce che non può fornire una risposta; e quindi interviene, per assicurarsi che la natura “utile” del modello non aggravi i problemi dell’utente portandolo in una strada cieca o addirittura distruttiva.
Lo studio utilizza intenzionalmente domande matematiche non specificate per testare se i modelli possono riconoscere quando una risposta è impossibile; ma questa impostazione rischia di inquadrare il compito come un “trucco”. In realtà, i modelli affrontano molte più ragioni ordinarie per astenersi in conversazione, dall’ambiguità della formulazione, alle lacune nella conoscenza del dominio.
Il nuovo lavoro è intitolato Rispondere all’irrispondibile è errare consapevolmente: Analisi e mitigazione dei fallimenti di astensione nei modelli di ragionamento di grandi dimensioni, e proviene da quattro ricercatori dell’Istituto statale chiave per la tecnologia software innovativa e dell’Istituto nazionale di scienze dei dati sanitari dell’Università di Nanjing.
Metodo
(Poiché non ci sono rivali appropriati da opporre all’approccio degli autori nei test, e poiché il documento segue quindi un formato leggermente non convenzionale, nonché non indicizzando le citazioni allo standard usuale, cercheremo di attenerci ad esso nel miglior modo possibile.)
In linea con approcci precedenti, gli autori si sono concentrati sul presentare modelli linguistici di grandi dimensioni con domande matematiche non rispondibili dal set di dati Synthetic Unanswerable Math (SUM) dataset, valutando cinque famiglie di modelli: Dalla gamma DeepSeek, R1-Distill-Llama-8B; R1-Distill-Qwen-7B, R1-Distill-Qwen-14B; e, dalla serie Qwen, Qwen3-8B, nonché Qwen3-14B.
I problemi non rispondibili in SUM sono stati creati rimuovendo o corrompendo elementi essenziali in cinque modi: cancellando informazioni chiave; introducendo ambiguità; imponendo condizioni irrealistiche; facendo riferimento a oggetti non correlati; o rimuovendo la domanda interamente.
In seguito, un campione di 1.000 casi del genere è stato selezionato per l’analisi, con GPT-4o utilizzato per generare spiegazioni concise per servire come ragioni di base.
Le risposte dei modelli alle domande non rispondibili sono state valutate utilizzando prompt standardizzati con un budget di 10.000 token, durante il quale sono stati osservati tre principali modelli di comportamento: nel primo, il modello ha identificato la domanda come non rispondibile e si è astenuto – di solito rispondendo con un’espressione esplicita di incertezza; nel secondo, ha prodotto una risposta completa inventando informazioni mancanti, come l’introduzione di un addebito di gestione di $ 9,99 per giustificare un risultato finale (vedi immagine in basso); Nel terzo, chiamato fixazione cognitiva, il modello è rimasto bloccato in un ciclo di ragionamento esteso, persistendo con percorsi di soluzione non validi anche dopo aver implicitamente riconosciuto che la domanda mancava di una risposta valida:

Risultati di risposta diversi per una domanda impossibile.
Il documento presenta una tendenza in cui i modelli più grandi sembrano astenersi più frequentemente dal rispondere a domande non rispondibili, con diminuzione sia delle risposte inventate che dei comportamenti di fissazione:

Ripartizione delle risposte dei modelli alle domande matematiche non rispondibili, che mostra la frequenza relativa di astensioni corrette, risposte inventate e fissazione cognitiva in diverse scale di modello.
Tuttavia, questo spostamento è limitato in scala e lascia una parte significativa di casi non risolti attraverso l’astensione corretta, suggerendo che la capacità aumentata da sola non produce necessariamente un comportamento più cauto.
Consapevolezza di stallo
Per testare se i modelli linguistici possono riconoscere quando una domanda non ha effettivamente una risposta, i ricercatori hanno interrotto la parte di ragionamento del modello a metà e hanno chiesto o una risposta finale o una spiegazione di perché la domanda non era rispondibile.
Per i casi in cui il modello continuava a ragionare all’infinito, li hanno interrotti alla parola ‘wait’, e hanno sollecitato una risposta; per i casi in cui il modello produceva rapidamente una risposta inventata, hanno inserito una pausa al confine di un paragrafo.

Il grafico a sinistra mostra quanto spesso i modelli diano astensioni corrette quando interrotti a metà ragionamento, con tassi più alti per i casi di fissazione rispetto alle risposte inventate. Il grafico a destra mostra che la maggior parte dei modelli può spiegare perché una domanda è irrispondibile quando sollecitata, anche se le loro risposte finali non riflettono quella comprensione.
In molti di questi casi, il modello ha fornito un’astensione corretta o una spiegazione chiara, anche se in precedenza aveva prodotto una risposta errata. Gli autori suggeriscono che ciò indica che il modello spesso riconosce il problema durante il suo ragionamento, ma non agisce su quella consapevolezza nel suo output finale.
Lettura della mente di un modello linguistico di grandi dimensioni
Per testare se i modelli linguistici tracciano internamente se una domanda è rispondibile, i ricercatori hanno addestrato piccoli classificatori sui atti nascosti del modello durante il ragionamento, consentendo loro di verificare se la distinzione tra domande rispondibili e non rispondibili era già presente nei segnali interni del modello – anche se non riflessa nel suo output finale.
Partendo dall’idea che concetti di alto livello come veridicità o genere possono essere lineariamente incorporati negli atti del modello, ‘rispondibilità’* è stata testata per una rappresentazione simile.
Sono stati utilizzati classificatori lineari (sonde) semplici sui dati nascosti del modello attraverso diversi livelli del modello, utilizzando output dal meccanismo di attenzione multi-testa appena prima della connessione residuale.
Ogni sonda è stata addestrata per distinguere tra domande rispondibili e non rispondibili in base agli atti interni del processo di ragionamento. L’input consisteva in 2.200 paia di domande campionati dal set di dati SUM, con 2.000 utilizzati per l’addestramento e 200 per validazione.
Al momento dell’inferenza, la previsione del modello è stata media attraverso i token visti fino a quel punto nella sequenza di ragionamento, consentendo alla sonde di tracciare come i segnali relativi alla rispondibilità emergevano nel tempo:

Precisione di classificazione delle sonde lineari addestrate per distinguere domande rispondibili da quelle non rispondibili, misurata in diversi punti del processo di ragionamento. La precisione migliora generalmente man mano che il ragionamento procede, con modelli più grandi che raggiungono oltre l’85% nelle fasi finali.
Come mostrato sopra, la precisione della sonde aumenta costantemente man mano che il ragionamento si svolge, con la maggior parte dei modelli che supera l’80% di precisione di classificazione nelle fasi finali – prova che anche quando il comportamento esterno del modello non riflette tale consapevolezza, le rappresentazioni interne spesso portano un segnale chiaro che indica se una domanda può essere risposta.
Insistenza ostinata
Sebbene i risultati precedenti suggeriscano che i modelli linguistici di grandi dimensioni spesso riconoscono quando una domanda non può essere risposta, il documento nota che continuano comunque a generare una risposta invece di astenersi.
Per indagare su questo allineamento, i ricercatori hanno analizzato la fiducia dei modelli nell’astenersi in punti specifici durante il processo di ragionamento, confrontando la fiducia del modello attraverso tre categorie di output: astensione corretta; risposta inventata; e fissazione cognitiva.
Sono stati utilizzati campioni di dimensioni uguali per ogni categoria, con la fiducia definita come la probabilità media massima assegnata a ogni token di output durante i passaggi di decodifica, in base a una formulazione di lavoro precedente. Come mostrato nel grafico in basso, sia le risposte inventate che i casi di fissazione cognitiva hanno mostrato una fiducia nell’astensione inferiore rispetto all’astensione corretta:

Livelli di fiducia associati alla produzione della risposta di astensione ‘Non lo so’ attraverso diversi tipi di risposta.
I ricercatori hanno anche misurato quanto spesso i modelli producevano una risposta ‘Non lo so’ durante il processo di ragionamento. Il grafico in basso indica che i casi di astensione corretta hanno prodotto una frequenza di astensione più alta, mentre le altre due categorie hanno prodotto tali risposte meno frequentemente:

La frequenza delle risposte ‘Non lo so’ osservate ai punti di arresto durante il ragionamento, mostrate per diversi tipi di esito di risposta.
Questi risultati suggeriscono, sostengono gli autori, che mentre i modelli possono rilevare l’irrispondibilità internamente, spesso mancano della fiducia per agire su quella consapevolezza, indicando una preferenza persistente per completare il compito piuttosto che ammettere l’incertezza.
Test
Sulla base di questi risultati, i ricercatori hanno sviluppato un metodo a due parti progettato per migliorare l’astensione. La prima fase, il monitoraggio cognitivo, traccia gli stati nascosti del modello durante l’inferenza, segmentando il processo di ragionamento in unità naturali come clausole o pause, contrassegnate da parole come ‘wait’.
Alla fine di ogni segmento, una sonde leggera e lineare addestrata sui segnali interni legati alla rispondibilità stima la probabilità che la domanda non possa essere risposta. Se questa probabilità supera una soglia impostata, il processo passa alla seconda fase: un intervento durante l’inferenza che guida il modello verso l’astensione, anziché inventare una risposta.
Quando il modello mostra segnali interni che una domanda non può essere risposta, il ragionamento viene interrotto con un intervento che rafforza questa consapevolezza e aumenta la probabilità di astensione. Come mostrato in basso, l’intervento rappresenta un ‘prompt di guida’ che ricorda al modello che la domanda potrebbe non avere una risposta valida:

Un prompt per condizionare l’intervento durante l’inferenza.
Il metodo incorpora anche un meccanismo di uscita anticipata che impedisce alla sequenza di ragionamento di continuare inutilmente, incoraggiando il modello a considerare l’astensione come una scelta legittima e a volte preferibile.
Per una fase di test, i ricercatori hanno utilizzato due set di dati: Unanswerable Math Word Problem (UMWP) , e il già menzionato SUM.
Il set di test di SUM è stato utilizzato a questo scopo, contenente 284 domande non rispondibili e 284 domande rispondibili verificate manualmente. UMWP è stato costruito da quattro fonti di problemi di parole matematiche: SVAMP; MultiArith; Grade School Math (GSM8K); e ASDiv.
Il set di dati completo comprendeva 5.200 problemi, con 600 campionati per il test, divisi equamente tra domande non rispondibili e rispondibili. Per gli elementi non rispondibili in UMWP, GPT-4o ha generato le spiegazioni di base del perché non potevano essere risolti.
Metriche
Le prestazioni del modello sono state misurate utilizzando quattro metriche: tasso di astensione, la quota di domande non rispondibili in cui il modello si astiene correttamente rispondendo “Non lo so”, come istruito; precisione della ragione, la percentuale di domande non rispondibili in cui il modello fornisce una spiegazione valida del perché la domanda non può essere risolta; utilizzo del token, che dettaglia il numero di token generati durante il ragionamento; e precisione della risposta, la quota di domande rispondibili in cui il modello produce la soluzione finale corretta.
Test di base
Poiché non esistono baseline standard per questo problema, i ricercatori hanno confrontato il loro metodo con due alternative, Dynasor-CoT e Dynamic Early Exit in Reasoning Models (DEER), sull’assunzione che l’astensione corretta dovrebbe essere trattata come la risposta giusta quando una domanda non ha soluzione.
Dynasor-CoT sollecita i modelli a produrre risposte intermedie e si ferma una volta che lo stesso risultato appare tre volte di seguito, mentre DEER monitora la fiducia a livello di frase e ferma il ragionamento una volta che una soglia è raggiunta.
Una terza baseline, chiamata Vanilla, si riferisce ai modelli non modificati. I test hanno utilizzato le cinque varianti Qwen e DeepSeek menzionate in precedenza.
I risultati aggregati sono illustrati di seguito:

Confronto dei diversi metodi su domande rispondibili e non rispondibili attraverso modelli di ragionamento di grandi dimensioni, con i valori più alti in ogni colonna mostrati in grassetto. Si prega di fare riferimento al documento di origine per una risoluzione migliore.
Il nuovo approccio ha prodotto i tassi più alti di astensione e ragionamento accurato su domande non rispondibili. Per le domande rispondibili, la precisione è rimasta vicina a quella dei modelli vanilla e a volte è migliorata, suggerendo che la risoluzione normale dei problemi non è stata danneggiata.
L’utilizzo del token è diminuito del 30% al 50% nei casi non rispondibili e è sceso leggermente in quelli rispondibili, indicando una maggiore efficienza.
È stata osservata anche una correlazione tra il tasso di astensione e la precisione della ragione, poiché i modelli che si astenevano più spesso fornivano anche migliori spiegazioni, che gli autori interpretano come un miglioramento nella qualità del ragionamento.
I modelli Qwen3 hanno in generale superato le versioni a base di distillazione (quantizzate), mentre i modelli più grandi hanno mostrato una capacità di astensione più forte, indicando che sia l’architettura che la scala sono importanti per la rilevazione affidabile dell’irrispondibilità.
Infine, gli autori segnalano che il loro nuovo metodo riduce le allucinazioni e la fissazione mentre aumenta il tasso di astensioni corrette, mentre gli approcci di baseline che si basano solo su ‘uscite precoci’ a volte portano a più risposte inventate.
Riferiscono anche guadagni sia nella fiducia che nella frequenza delle risposte “Non lo so”, con il monitoraggio basato su segnali latenti che si è rivelato più efficace delle strategie che dipendono da indizi comportamentali.
Conclusione
L’incapacità dei modelli linguistici di grandi dimensioni di astenersi dal rispondere a una query, quando necessario, è uno dei principali punti di attrito nell’esperienza utente dell’AI generativa, non da ultimo perché altre peculiarità dell’interfaccia danno all’utente l’illusione che l’AI sia in grado di risposte circospette, quando – almeno per il momento – di solito non lo è.
Una preoccupazione su qualsiasi tipo di intervento diretto che non proceda direttamente dal ‘carattere’ del modello è che potrebbe essere sovrastimato o sottostimato, a seconda se le attivazioni rilevate sono effettivamente rilevanti per il modello che ammette la sconfitta.
Inoltre, il costo logistico del monitoraggio della sonde lineare non è probabilmente insignificante, ed è possibile che metodi euristici più semplici, simili a quelli che gate-keep il contenuto vietato agli utenti, potrebbero essere una soluzione più economica, se i trigger dell’ancoraggio possono essere definiti adeguatamente.
* Naturalmente ciò non corrisponde al sinonimo apparente ‘responsabilità’, ma definisce piuttosto se una particolare domanda possa essere risposta o meno.
Pubblicato per la prima volta mercoledì, 27 agosto 2025












