Connect with us

Dare ai Modelli Linguistici un ‘Selettore di Verità’

Angolo di Anderson

Dare ai Modelli Linguistici un ‘Selettore di Verità’

mm
AI-generated image of a retro dial that goes from 'BULL' to 'FACT', GPT5.2's (unknown) underlying model + SDXL for outpainting.

Verità o chiacchiere: scegli una. Un nuovo metodo di addestramento consente agli utenti di dire ai chatbot AI esattamente quanto ‘fattuale’ essere, trasformando l’accuratezza in un selettore che può essere regolato su e giù.

 

Una nuova collaborazione di ricerca tra gli Stati Uniti e la Cina offre qualcosa che quasi tutti gli utenti di chatbot AI apprezzerebbero: un ‘pulsante virtuale’ che dice al bot se deve essere ‘loquace’ o ‘veritiero’

Il sistema è stato creato perfezionando un modello Mistral-7B su dati sintetici, in modo che lo schema per una ‘scala di verità’ potesse essere impresso sul modello. Dopo questa revisione, il modello Mistral è in grado di controllare il numero di fatti in una risposta; più alto è il valore di ‘verità’ dato dall’utente, meno – ma più sicuri – saranno le risposte più brevi.

Alle impostazioni più basse, la risposta del chatbot diventa ciò che gli autori del documento chiamano ‘informativa’, ovvero darà una risposta più lunga e conterrà più fatti; ma alcuni di questi fatti potrebbero essere allucinati.

I dati sintetici su cui il sistema è stato addestrato hanno utilizzato Wikipedia come riferimento per un dominio di test: fatti biografici reali sulle persone. Che si pensi o no che Wikipedia debba essere una fonte autorevole, il valore del lavoro sta nel progettare qualsiasi tipo di sistema che possa limitare la tendenza nativa dei LLM a fornire risposte, anche quando non ha risposte da fornire.

Un esempio dal progetto FactScore che ha alimentato la creazione del set di dati per il documento che stiamo esaminando qui, utilizzando Wikipedia come autorità di riferimento per i dettagli biografici. Fonte - https://aclanthology.org/2023.emnlp-main.741.pdf

Un esempio dal progetto FactScore che ha alimentato la creazione del set di dati per il documento che stiamo esaminando qui, utilizzando Wikipedia come autorità di riferimento per i dettagli biografici. Fonte

Gli autori notano che contesti ad alta garanzia come i domini medici e legali richiedono output conservativi e affidabilmente fattuali, mentre molti altri tipi di utenti richiedono un output più duttile e creativo, interpretativo (ad esempio, scrittura discorsiva e analisi accademica, tra gli altri).

Osservano*:

‘[I LLM attuali] non offrono alcun meccanismo di controllo integrato per gestire questo compromesso.

‘Mentre gli utenti possono cercare di guidare il comportamento del modello con prompt come “sii più fattuale”, scopriamo che i modelli di frontiera non si adattano in modo affidabile alle loro uscite in risposta a tali prompt in questo compito.

‘Su FactScore, scopriamo che i modelli pronti all’uso spesso non soddisfano nemmeno obiettivi moderatamente stretti. Questa lacuna motiva un’alternativa controllabile che consente agli utenti di richiedere un livello di fattualità specifico e al modello di adattare le sue risposte di conseguenza.’

Solo i Fatti

Per comprendere il documento e le soluzioni che propone, è necessario rivedere la propria definizione di ‘informatività’. Gli autori affermano che la quantificazione di una risposta informativa equivale a ‘la quantità di contenuto supportato nella risposta, misurata come il numero di affermazioni atomiche validate, normalizzate per lunghezza di output’.

Altrove nel documento si afferma più semplicemente che l’informatività è ‘il numero totale di fatti atomici nella risposta, sia corretti che no’.

Inoltre, i ricercatori notano che la tendenza dei LLM a oscillare tra accuratezza fattuale e ipotesi soggettive è un tratto molto umano, documentato da diversi studi scientifici*:

‘[La conoscenza dei LLM] è instabile: alcune affermazioni sono fortemente supportate, mentre altre sono speculative, obsolete o incerte. La generazione richiede quindi decidere quanto dire e come dirlo con cautela, creando una tensione tra precisione fattuale e informatività.

‘Gli esseri umani fanno scelte analoghe: iniziando con fatti ad alta affidabilità e aggiungendo dettagli a bassa certezza solo quando richiesto.’

Sebbene gli esperimenti siano stati condotti solo sul modello Mistral di medie dimensioni, i principi applicati dovrebbero funzionare su diverse scale e piattaforme, poiché coinvolgono una nuova quantificazione dei dati, come aggiunta allo schema interno di un LLM; e un emendamento di questo tipo non è specifico dell’architettura.

Il nuovo documento si intitola Factuality on Demand: Controlling the Factuality-Informativeness Trade-off in Text Generation e proviene da sette ricercatori di Columbia University, New York University e NYU Shanghai.

Metodo e Dati

Il nuovo approccio presentato nel documento è chiamato Generazione Controllata della Fattualità (FCG) e introduce un selettore virtuale che consente agli utenti di specificare quanto accurata debba essere la risposta di un chatbot. ‘In sostanza’, il documento afferma, ‘FCG migliora il modello con un “pulsante” controllabile per la fattualità’.

Il modello riceve sia una domanda dell’utente che un livello di fattualità desiderato, quindi genera una risposta che include solo le informazioni che ritiene sufficientemente affidabili, cercando comunque di essere il più dettagliato possibile all’interno di quella costrizione di confidenza.

Utilizzando il sistema FactScore (sopra collegato), l’output segmentato da query di esempio è stato valutato per l’accuratezza, una qualità definita come aderenza alla fattualità:

Pipeline di dati di addestramento per FCG: un modello linguistico genera una risposta iniziale, la divide in fatti atomici, li classifica per confidenza e scarta i meno affidabili fino a quando non si raggiunge il livello di verità desiderato. Fonte - https://arxiv.org/pdf/2602.00848

Pipeline di dati di addestramento per FCG: un modello linguistico genera una risposta iniziale, la divide in fatti atomici, li classifica per confidenza e scarta i meno affidabili fino a quando non si raggiunge il livello di verità desiderato. Fonte

Poiché non esisteva un set di dati esistente che soddisfacesse i requisiti di FCG, gli autori hanno creato un set di dati sintetici facendo generare al modello linguistico GPT-4 una risposta non vincolata, quindi rimuovendo i ‘fatti a bassa confidenza’, fino a quando la risposta non ha soddisfatto un livello di accuratezza dato.

Un lavoro precedente ha suggerito che l’addestramento solo su dati di verità potrebbe effettivamente rendere i modelli meno fattuali, scoraggiandoli dal fornire qualsiasi dettaglio extra. Pertanto, gli esempi di addestramento FCG sono stati minimamente modificati, preservando la fraseologia e il ritmo del modello, mentre si è ridotto solo quanto necessario per soddisfare l’obiettivo di confidenza richiesto.

Applicando questo processo di editing su una gamma di livelli di confidenza di destinazione, dal 10% a una soglia rigorosa del 100%, è stato creato un set di dati sintetici in cui ogni domanda è stata accoppiata con più risposte filtrate.

In ogni versione, solo i fatti giudicati dal modello come sufficientemente affidabili per soddisfare il livello di fattualità richiesto sono stati conservati; questi esempi sono stati utilizzati come dati di addestramento per il perfezionamento supervisionato.

Il set di dati finale consisteva in 3.302 triple (domanda, controllo, risposta) per l’addestramento e 396 per la validazione, costruiti da 500 entità divise in 450 per l’addestramento e 50 per lo sviluppo. Un ulteriore 183 entità distinte sono state utilizzate per il test.

Addestramento e Test

Gli autori hanno perfezionato il modello Mistral-7B-Instruct-v0.2 LLM a vari tassi di apprendimento (3e-6, 1e-5, 3e-5) per arrivare al tasso di apprendimento ottimale (non dichiarato), per 30 epoche, con una dimensione del batch di 256 (n.b. l’hardware di addestramento non è specificato).

FCG è stato testato contro due baseline. La prima era Nessun Controllo di Fattualità (NFC), dove il modello è stato semplicemente richiesto con una richiesta come Raccontami la biografia di X, senza menzionare l’accuratezza o la confidenza. Questa versione riflette il comportamento predefinito di un LLM, senza alcun meccanismo di filtraggio o vincolo.

Il secondo metodo, chiamato Inferenza Controllata dalla Fattualità (FCI), ha utilizzato gli stessi prompt di livello di confidenza senza alcun perfezionamento. Ad esempio, il modello potrebbe essere stato richiesto con ‘Produci informazioni che ritieni al 90% sicure’. In questo caso, l’istruzione assomigliava a quelle utilizzate nell’addestramento, ma il modello non aveva alcuna precedente esposizione a tali vincoli:

Confronto dei tre approcci testati: la baseline senza controllo; una versione che utilizza prompt di fattualità senza addestramento; e il modello perfezionato che ha imparato a seguire le impostazioni di accuratezza attraverso l'esposizione a dati filtrati.

Confronto dei tre approcci testati: la baseline senza controllo; una versione che utilizza prompt di fattualità senza addestramento; e il modello perfezionato che ha imparato a seguire le impostazioni di accuratezza attraverso l’esposizione a dati filtrati.

Inizialmente è stato eseguito un test per aderenza alla fattualità:

Prestazioni a tre livelli di confidenza di destinazione. Solo il modello perfezionato è stato in grado di produrre output completamente fattuali e ha superato entrambe le baseline in tutti gli aspetti, in particolare alle soglie più elevate.

Prestazioni a tre livelli di confidenza di destinazione. Solo il modello perfezionato è stato in grado di produrre output completamente fattuali e ha superato entrambe le baseline in tutti gli aspetti, in particolare alle soglie più elevate.

Quando testato contro soglie di fattualità dell’80%, 90% e 100%, solo il modello perfezionato è stato in grado di soddisfare costantemente gli obiettivi. Sorprendentemente, l’aggiunta semplice di istruzioni di confidenza, senza addestrare il modello a seguirle, non ha aiutato. In alcuni casi, ha addirittura peggiorato le cose; ad esempio, solo il 3,8% degli output del modello con prompt ha soddisfatto la soglia del 90%, rispetto al 5,5% della versione senza istruzione:

Ciò suggerisce, affermano gli autori, che il modello Mistral-7B di base non è stato in grado di interpretare prompt come ‘sii al 90% sicuro’ in modo utile e che l’istruzione aggiuntiva potrebbe aver addirittura interrotto la sua uscita abituale.

Al contrario, il modello addestrato ha risposto in modo affidabile ai segnali di controllo, producendo il 18,7% di output conformi all’80%, il 12,6% al 90% e il 23,6% al 100%; e si è rivelato l’unico metodo in grado di generare risposte completamente fattuali:

‘Questi miglioramenti indicano che la capacità di controllare la fattualità può effettivamente essere instillata attraverso l’addestramento supervisionato. Il modello FCG ha imparato ad adattare il suo contenuto e includere solo fatti di cui è sufficientemente sicuro, mentre il modello pronti all’uso non poteva utilizzare efficacemente il segnale di controllo di per sé.’

In un test separato progettato per confermare che il modello avesse effettivamente imparato a interpretare il segnale di controllo, i ricercatori hanno verificato se la fattualità media delle risposte aumentava all’aumentare delle impostazioni di verità richieste.

Non è emerso alcun modello prima dell’addestramento, ma dopo, i risultati hanno rivelato una tendenza costante verso l’alto, con impostazioni di confidenza più elevate che producevano risposte più accurate:

Man mano che il livello di verità di destinazione saliva, il modello perfezionato produceva output sempre più fattuali in risposta, con i modelli di baseline che non mostravano alcun cambiamento costante nella stessa gamma.

Man mano che il livello di verità di destinazione saliva, il modello perfezionato produceva output sempre più fattuali in risposta, con i modelli di baseline che non mostravano alcun cambiamento costante nella stessa gamma.

Il compromesso tra verità e ‘ricchezza’ è stato esaminato. Gli output sono stati valutati non solo per l’accuratezza, ma anche per quanto contenuto verificato rimaneva alle condizioni di fattualità sempre più strette. Come mostrato nel grafico qui sotto, il modello FCG è stato trovato superiore a entrambe le baseline e al modello non vincolato nella maggior parte dei livelli:

Un grafico che rappresenta il compromesso tra fattualità e informatività tra tre metodi. Il modello perfezionato è stato trovato offrire un miglior equilibrio tra verità e dettagli rispetto a entrambe le baseline. A livelli di accuratezza confrontabili, più contenuto fattuale è stato conservato e, al livello più alto, è rimasto l'unico metodo in grado di produrre risposte completamente verificate che non erano vuote.

Un grafico che rappresenta il compromesso tra fattualità e informatività tra tre metodi. Il modello perfezionato è stato trovato offrire un miglior equilibrio tra verità e dettagli rispetto a entrambe le baseline. A livelli di accuratezza confrontabili, più contenuto fattuale è stato conservato e, al livello più alto, è rimasto l’unico metodo in grado di produrre risposte completamente verificate che non erano vuote.

Al livello di accuratezza del 90%, più fatti sono stati conservati da FCG rispetto a qualsiasi altro metodo e, su tutta la gamma di impostazioni di confidenza, nessuna baseline ha prodotto risultati costantemente migliori.

La differenza è stata più evidente al livello più rigoroso, dove FCG ha continuato a produrre una non-nullità di informatività, mentre la baseline con prompt soli è stata costretta a rimuovere tutto. In quei casi, anche una sola affermazione a bassa confidenza ha causato la rimozione dell’intera risposta.

Al contrario, il modello addestrato è stato in grado di riplasmare la sua uscita per conservare solo fatti che considerava completamente affidabili, evitando il collasso nel silenzio che ha colpito gli altri.

La fattualità è stata direttamente vincolata dall’impostazione di controllo, mentre l’informatività è stata ottimizzata consentendo al modello di includere quanta più contenuto affidabile possibile. A impostazioni più elevate, solo affermazioni verificabili sono state mantenute; a impostazioni più basse, più dettagli speculativi sono stati consentiti, aumentando la lunghezza ma riducendo l’accuratezza.

Gli autori concludono:

‘[Quando] una costrizione di fattualità alta è in atto, il modello dà priorità alle affermazioni fattualmente verificabili, mantenendo comunque quanta più informazione rilevante possibile. Al contrario, il modello ha la libertà di incorporare una gamma più ampia di dettagli, compresi quelli meno verificabili o più speculativi, risultando in una maggiore informatività (più fatti menzionati) a scapito di alcune accuratezza.

‘Questo comportamento si allinea con il nostro progetto dei dati di addestramento: poiché abbiamo sempre rimosso i fatti minimi necessari, il modello ha imparato “se devi essere x% fattuale, scarta i dettagli meno certi ma mantieni tutto il resto.” ‘

Il documento si conclude con la speranza che la nuova metodologia verrà provata con modelli di larga scala e applicata a compiti più complessi, tra le altre possibili estensioni future del lavoro.

Conclusione

La soluzione offerta qui affronta uno dei più gravi e frequenti problemi anche delle ultime generazioni di Large Language Model – la loro tendenza a favorire la loquacità sull’accuratezza, apparentemente solo per ‘mantenere la conversazione’, e presentare con fiducia informazioni obsolete o completamente allucinate come fatti.

Per gli utenti di ChatGPT, qualsiasi risposta fidata non preceduta dalla breve comparsa di un widget ‘ricerca web’ proviene o dai confini della data di conoscenza del modello o potrebbe essere altrettanto bene un’allucinazione quanto un fatto.

Tuttavia, le ricerche web aumentano la latenza e i costi di esecuzione del modello LLM e, come sa qualsiasi utente, vengono eseguite selettivamente; o su richiesta dell’utente; o come ‘impostazione speciale’ che potrebbe comportare addebiti aggiuntivi per token.

Nonostante ciò, questo tipo di economia interna può avere un effetto critico sulle query LLM in determinati domini o per determinati tipi di query. Qualsiasi metodo che possa imporre uno schema relativo all’accuratezza dell’output è benvenuto come ricerca.

 

* La mia conversione delle citazioni in linea degli autori in collegamenti ipertestuali.

Numero di versione completo non fornito.

Pubblicato per la prima volta venerdì 6 febbraio 2026. Emendato nei cinque minuti successivi per una ripetizione di parole

Scrittore su apprendimento automatico, specialista di dominio nella sintesi di immagini umane. Ex capo della ricerca contenuti presso Metaphysic.ai.