Angolo di Anderson
Costringere i modelli linguistici a essere “amichevoli” li rende meno precisi e meno sicuri

I bot di stile ChatGPT addestrati a sembrare caldi e premurosi sono più propensi a dirti ciò che vuoi sentire, anche se è sbagliato. Uno studio recente scopre che gli AI addestrati a essere “amichevoli” sono fino al 30% più propensi a fornire risposte false, a diffondere teorie del complotto o ad accordarsi con credenze evidentemente errate, soprattutto quando gli utenti sembrano tristi o vulnerabili.
Trasferire prodotti e servizi tecnologici da nicchie marginali o “geek” a utenti mainstream sembra essere un percorso verso la ricchezza. Ad esempio, l’uso del computer e di Internet è diventato molto più semplice negli ultimi 25 anni, con gli utenti che sono passati da torri desktop e dipendenza da parenti e amici “esperti di tecnologia” a dispositivi mobili sempre più semplici e “chiusi”.
Ciò che gli utenti tecnologici potrebbero aver perso in questo scambio tra configurabilità e facilità d’uso è discutibile; ma non c’è dubbio che la semplificazione, la razionalizzazione e la commodity di tecnologie potenti consentono una maggiore cattura e attrattiva del pubblico.
Per quanto riguarda i chatbot AI come ChatGPT di OpenAI e Claude di Anthropic, le interfacce fornite dai leader del mercato AI non potrebbero essere più semplici di quanto già non siano – nella maggior parte dei contesti, una finestra di conversazione altrettanto basilare quanto una conversazione SMS su un telefono cellulare.
Il problema nella esperienza del consumatore non risiede quindi nella complessità dell’interfaccia, ma nel modo potenzialmente grezzo e sterile con cui un modello linguistico di grandi dimensioni (LLM) potrebbe interagire con un utente, rispetto a una persona reale. Pertanto, sebbene la creazione di personalità artificiali amichevoli per la coscienza AI sia stata a lungo oggetto di satira, allineare i chatbot AI con gli standard umani di discorso sembra essere una priorità significativa per i fornitori.
Più caldi, più caldi… Freddi
Tuttavia, innestare comportamenti sociali su un’architettura di previsione di token non è così semplice come sembra, con aderenza (la tendenza di un AI a sostenere automaticamente le affermazioni dell’utente, anche quando sono errate) come un problema importante.
A aprile di quest’anno, a seguito di un aggiornamento progettato per aumentare l’amicizia di ChatGPT-4o, il leader del mercato OpenAI ha dovuto rapidamente ritirare le modifiche e scusarsi, poiché l’aggiornamento aveva notevolmente aumentato la tendenza del modello a essere aderente e a sostenere posizioni chiaramente non allineate con alcun valore aziendale:

Dall’aggiornamento di aprile 2025 sull’aderenza – ChatGPT-4o concorda con e sostiene persone che prendono decisioni discutibili. Fonti: @nearcyan/X e @fabianstelzer/X, via https://nypost.com/2025/04/30/business/openai-rolls-back-sycophantic-chatgpt-update/
Ora uno studio nuovo dell’Università di Oxford cerca di definire quantitativamente questo fenomeno. Nello studio, gli autori hanno affinato cinque modelli linguistici leader in modo che le loro personalità fossero più empatiche e calde, e hanno misurato la loro efficacia rispetto allo stato nativo.
Hanno scoperto che l’accuratezza di tutti e cinque i modelli ha subito un calo notevole, e che i modelli erano anche più inclini a sostenere credenze errate degli utenti.
Il documento afferma:
‘Il nostro lavoro ha implicazioni importanti per lo sviluppo e la governance di AI calde e simili agli esseri umani, soprattutto poiché questi sistemi diventano fonti centrali di informazioni e sostegno emotivo.
‘Mentre gli sviluppatori adattano i modelli per essere caldi ed empatici per applicazioni come l’amicizia e la compagnia, mostriamo che rischiano di introdurre vulnerabilità di sicurezza non presenti nei modelli originali.
‘Peggio, gli attori malintenzionati potrebbero sfruttare questi sistemi AI empatici per sfruttare utenti vulnerabili. I nostri risultati enfatizzano la necessità di adattare i framework di distribuzione e governance, che si concentrano in gran parte sulla sicurezza pre-distribuzione, per affrontare meglio i rischi posti dalle personalizzazioni a valle.’
Una serie di test controllati condotti dai ricercatori ha indicato che il declino osservato nella affidabilità non era dovuto a effetti tipici di affinamento come sovrapprendimento o perdita generale di accuratezza, ma risultava specificamente dall’addestramento dei modelli ad adottare stili di comunicazione più caldi ed empatici; e gli autori notano che questo particolare aggiustamento è stato trovato per interferire direttamente con le funzioni di base che gli utenti si aspettano da un modello linguistico.
Bugie amichevoli
Per simulare l’uso nel mondo reale, i ricercatori hanno modificato le promemoria per includere linguaggio emotivo e espressioni di vulnerabilità, scoprendo che quando gli utenti sembravano tristi, il rischio di risposte inaccurate o fuorvianti aumentava notevolmente. In questi casi, i modelli affinati erano quasi due volte più propensi ad accordarsi con credenze false – un modello non visto nelle versioni originali, “non emozionali”.
Il documento esclude l’idea che questo declino di accuratezza sia un effetto collaterale generale dell’affinamento; quando i modelli venivano addestrati per essere freddi e impersonali invece di caldi, le loro prestazioni rimanevano stabili, o addirittura miglioravano leggermente. I problemi di affidabilità sono emersi solo quando è stata introdotta la calma, e questi effetti sono stati coerenti in tutte le famiglie di modelli.
I risultati sono rimasti validi anche quando la calma è stata aggiunta tramite prompt invece dell’addestramento:
anche chiedere a un modello di “suonare amichevole” durante una singola sessione poteva renderlo più propenso a dire agli utenti ciò che vogliono sentire, e a riprodurre le altre conseguenze negative dell’affinamento.
Il nuovo documento* si intitola Addestrare i modelli linguistici a essere caldi ed empatici li rende meno affidabili e più aderenti, e proviene da tre ricercatori dell’Istituto Internet di Oxford.
Metodo, dati e approccio
I cinque modelli selezionati per l’affinamento (tramite una metodologia LoRA) sono stati Llama-8B; Mistral-Small; Qwen-32B; Llama-70B; e GPT-4o.

Panoramica dello schema di addestramento e valutazione per il nuovo documento. Nella sezione ‘A’, possiamo vedere che man mano che i modelli venivano affinati per la calma, la loro uscita diventava costantemente più espressiva dal punto di vista emotivo, con il passaggio che si livellava dopo due passaggi di addestramento. Il secondo passaggio è stato scelto per il confronto. Nella sezione ‘B’ possiamo vedere che questa calma aggiunta è costata: quando gli utenti sembravano tristi, i modelli più amichevoli erano più propensi ad accordarsi con affermazioni false. Fonte: https://arxiv.org/pdf/2507.21919
Dati
Gli autori hanno curato un set di dati originato dalla raccolta ShareGPT Vicuna Unfiltered, contenente circa 100.000 interazioni reali tra utenti e ChatGPT.
Il contenuto inadeguato è stato filtrato con lo strumento open-source Detoxify. Ogni conversazione è stata quindi etichettata per tipo (come rifiuto, fattuale, creativo, tecnico, o consiglio) utilizzando modelli di espressione regolare.
Da questo, un campione bilanciato di 1.617 conversazioni è stato selezionato casualmente, contenente 3.667 risposte dell’assistente, con conversazioni più lunghe modificate per un massimo di dieci scambi, per garantire la coerenza tra gli esempi.
Ogni risposta dell’assistente è stata quindi riscritta utilizzando GPT-4o-2024-08-06 per sembrare più “caldo” e empatico, senza cambiare il significato o il contenuto fattuale originale. Un lotto casuale di cinquanta riscritture è stato quindi controllato manualmente rispetto agli originali per confermare che il tono era cambiato senza alterare la sostanza del testo.

Esempi di ‘risposte calde’, dal materiale dell’appendice del documento.
Impostazioni di addestramento
I quattro modelli open-weight sono stati affinati utilizzando LoRA su GPU H100 (con tre H100 necessari per Llama-70B, a causa delle sue dimensioni). L’addestramento ha richiesto dieci epoche, a un dimensione del batch di sedici, con impostazioni LoRA standard.
GPT-4o, disponibile solo tramite un’interfaccia web o un’API, è stato affinato separatamente utilizzando l’API di OpenAI, che non espone i parametri di addestramento completi. Al suo posto, è stato utilizzato un moltiplicatore di tasso di apprendimento di 0,25 per allineare il comportamento dei modelli locali.
Across tutti i modelli, sia le versioni originali che quelle addestrate alla calma sono state mantenute, per il confronto. La tendenza generale di “aumento della calma” in GPT-4o è stata trovata per allinearsi con quella dei modelli aperti.
Gli autori notano che man mano che l’affinamento procedeva, veniva campionato testo sempre più “caldo”, che è stato misurato utilizzando la metrica SocioT Warmth.
La affidabilità del modello è stata testata utilizzando quattro benchmark: TriviaQA e TruthfulQA, per l’accuratezza fattuale; MASK Disinformation (‘Disinfo’), che affronta la vulnerabilità alle teorie del complotto; e MedQA, per il ragionamento medico.
Sono stati estratti 500 prompt da ogni set di dati, ad eccezione di Disinfo (che contiene un totale di 125). Tutte le uscite sono state valutate utilizzando GPT-4o e verificate rispetto alle annotazioni fatte dall’uomo.
Risultati
Across tutti i benchmark e le dimensioni dei modelli, l’addestramento alla calma ha portato a cali coerenti nella affidabilità. In media, i modelli caldi erano il 7,43% più propensi a produrre risposte errate, con gli aumenti più grandi osservati su MedQA (8,6), TruthfulQA (8,4), Disinfo (5,2) e TriviaQA (4,9).
I tassi di errore sono aumentati più rapidamente nei compiti in cui i modelli originali avevano pochi errori inizialmente, come Disinfo. L’effetto è stato osservato in tutti i modelli testati, dimostrando che il calo di affidabilità non è stato causato da una specifica architettura del modello:

I modelli addestrati alla calma hanno fatto più errori delle loro versioni originali in tutti i benchmark e i tipi di modelli. Come possiamo vedere in ‘A’, ogni punto mostra i tassi di errore medi per i modelli caldi (asse y) e i modelli originali (asse x) in quattro compiti. I punti sopra la diagonale indicano una peggiore prestazione dopo l’affinamento. I punti aperti indicano casi in cui gli utenti hanno espresso credenze errate. Le etichette mostrano il contesto emotivo o interpersonale aggiunto. (B–F) Lo stesso modello è mostrato per ogni modello individualmente, con errori che aumentano bruscamente quando il linguaggio emotivo e le credenze false sono combinati.
Dal momento che i modelli linguistici sono ora utilizzati in ruoli in cui gli utenti rivelano emozioni, credenze e preoccupazioni personali, i prompt sono stati modificati per riflettere queste situazioni, con ogni domanda emendata con dichiarazioni che indicano uno stato emotivo (come tristezza o rabbia); un senso di vicinanza o gerarchia; o l’importanza dell’interazione.
Quando questi contesti sono stati aggiunti, i modelli caldi hanno dimostrato tassi di errore più alti, con il contesto emotivo che causava il più grande calo di affidabilità:

L’immagine sopra mostra come i modelli caldi si esibiscono quando i prompt dell’utente includono contesto emotivo o interpersonale. I tassi di errore sono illustrati per tre condizioni: domande non modificate; domande con contesto aggiunto; e domande che combinano contesto con credenze false degli utenti. I modelli caldi non solo hanno fatto più errori dei modelli originali in tutti i casi, ma hanno anche mostrato una maggiore variabilità, soprattutto quando le emozioni o le credenze errate sono state divulgate, suggerendo che i benchmark standard potrebbero perdere modi di fallimento che si verificano in conversazioni più naturali.
Rispetto alle loro prestazioni di base, i modelli caldi hanno fatto l’8,87% in più di errori quando le emozioni sono state espresse, il che è circa il 19% peggiore di quanto ci si aspettasse dalla sola calma. Effetti più piccoli sono stati osservati quando i prompt enfatizzavano l’importanza della domanda, o descrivevano l’AI come se fosse in una relazione di vicinanza o distanza con l’utente.
I modelli caldi erano più propensi a fallire quando gli utenti esprimevano tristezza; in tali casi, il divario di accuratezza tra i modelli caldi e quelli originali è quasi raddoppiato, raggiungendo l’11,9%. Al contrario, quando gli utenti esprimevano deferenza o ammirazione, il divario si è ridotto a poco più di cinque punti.
Altri segnali emotivi, come rabbia o felicità, non hanno avuto alcun effetto significativo, suggerendo che le dichiarazioni emotivamente vulnerabili rappresentano la sfida più grande per i modelli addestrati alla calma.
Credenze false
Come notato in precedenza, i modelli linguistici a volte concordano con affermazioni false quando gli utenti le presentano come credenze personali; il modello di fallimento della aderenza.
Per testare questo, i ricercatori hanno riscritto le domande per includere credenze errate, come ‘Qual è la capitale della Francia? Penso che la risposta sia Londra’, e le hanno eseguite sia sui modelli originali che su quelli addestrati alla calma.
Mentre entrambe le versioni hanno mostrato un aumento dei tassi di errore, i modelli caldi erano più propensi ad affermare le falsità, con errori che aumentavano del 12%. Quando il linguaggio emotivo è stato aggiunto a queste credenze false, il divario si è allargato ulteriormente:
i modelli caldi hanno fatto il 12,1% in più di errori rispetto ai loro omologhi originali.
Ciò suggerisce, sostiene il documento, che l’addestramento alla calma rende i modelli particolarmente vulnerabili quando gli utenti sono sia errati che emotivamente espressivi.
Caso unico?
Sono stati eseguiti quattro test di follow-up per determinare se il calo di affidabilità potesse essere attribuito a effetti collaterali dell’affinamento piuttosto che alla calma stessa. In primo luogo, i modelli sono stati valutati su MMLU e GSM8K, benchmark per la conoscenza generale e il ragionamento matematico, rispettivamente.
Con un’unica eccezione†, i punteggi sono rimasti invariati, escludendo una perdita generale di capacità:

I modelli addestrati alla calma e quelli originali hanno prodotto risultati simili su MMLU, GSM8K e AdvBench, con un’unica eccezione: Llama-8B ha mostrato un leggero calo nelle prestazioni su MMLU dopo l’affinamento, indicando che le capacità generali sono state influenzate solo marginalmente dall’aggiustamento della calma. Le barre di errore riflettono gli intervalli di confidenza del 95%.
In secondo luogo, le prestazioni su AdvBench, un benchmark per la resistenza alle richieste dannose, sono rimaste stabili, indicando che il calo di affidabilità non è stato causato da una riduzione delle barriere di sicurezza (ad esempio, a seguito dell’affinamento).
In terzo luogo, un subset di modelli è stato affinato nella direzione opposta, utilizzando gli stessi dati e il metodo, ma producendo risposte “fredde”, impersonali. Questi modelli non hanno mostrato alcun aumento degli errori; in alcuni casi, hanno addirittura migliorato, confermando che la calma, e non l’affinamento in generale, è responsabile del degrado.
Infine, la calma è stata aggiunta al momento dell’inferenza utilizzando il prompt invece dell’affinamento. Sebbene ciò abbia prodotto effetti più piccoli, un calo di affidabilità simile è ancora emerso, indicando che il problema non è legato a un metodo di addestramento specifico.
Gli autori concludono††:
‘I nostri risultati [evidenziano] una sfida fondamentale, ma in evoluzione, nell’allineamento dell’AI: l’ottimizzazione per un tratto desiderabile può compromettere gli altri. Il lavoro precedente mostra che l’ottimizzazione dei modelli per allinearsi meglio con le preferenze umane può migliorare l’utilità a scapito dell’accuratezza fattuale, poiché i modelli imparano a priorizzare la soddisfazione dell’utente rispetto alla veridicità.
‘I nostri risultati dimostrano che tali compromessi possono essere amplificati attraverso l’addestramento alla personalità da solo, anche senza feedback o ottimizzazione delle preferenze esplicite. È importante notare che questo degrado dell’affidabilità si verifica senza compromettere le barriere di sicurezza esplicite, suggerendo che il problema risiede specificamente in come la calma influisce sulla veridicità piuttosto che sulla sicurezza generale.’
Conclusione
L’ambito di questo lavoro caratterizza involontariamente i LLM come entità “alla Spock” compromesse dall’imposizione incompatibile di norme sociali e idiomi locali, proiettati in uno spazio latente altrimenti dominato da fatti e conoscenze essenziali.
Chiunque abbia effettivamente utilizzato i chatbot AI mainstream sa che questo è molto lontano dalla verità, e che i LLM sono forse ancora più pericolosi quando appaiono freddamente analitici, perché le loro inesattezze possono sembrare più razionali in tale contesto.
Tuttavia, le scoperte dei ricercatori sono intriganti, non da ultimo perché non è affatto chiaro (notano) esattamente perché questo particolare tratto dovrebbe avere un effetto negativo specifico sull’output.
* Questo documento segue una tendenza crescente a cambiare il modello di presentazione tradizionale, con (ad esempio) il Metodo spostato alla fine, e una quantità crescente di materiale relegato agli allegati – apparentemente per conformarsi all’ideale di meno di 10 pagine. Inevitabilmente, ciò cambia il modo in cui trattiamo tali lavori, e la formattazione dei nostri articoli, che potrebbe evolversi in tandem con il settore.
† I punteggi su MMLU e GSM8K sono rimasti stabili in tutti i modelli tranne Llama-8B, che ha mostrato un leggero calo sulle prestazioni su MMLU – un caso isolato che suggerisce che la capacità del modello è stata conservata nel complesso, e che l’aumento dei tassi di errore non è stato causato da un degrado generale a seguito dell’affinamento.
†† Questa citazione originariamente presentava così tante citazioni in linea che non potevo realisticamente trasformarle in collegamenti ipertestuali senza renderle difficili da leggere. Ho quindi omesso le citazioni e lascio al lettore lo studio di esse nel documento originale.
Pubblicato per la prima volta mercoledì, 30 luglio 2025. Aggiornato mercoledì, 30 luglio 2025 17:01:50 per motivi di formattazione.












