Connect with us

L’IA favorisce persino le risposte umane errate rispetto alle risposte corrette dell’IA

Angolo di Anderson

L’IA favorisce persino le risposte umane errate rispetto alle risposte corrette dell’IA

mm
An AI-generated photo of the Abraham Lincoln memorial thronged with tourists, next to a copy of the seated Lincoln statue, which has been substituted by a shiny robot. The robot has no tourists at its feet. Model: GPT-1.5.

I modelli linguistici dell’IA sono molto più propensi a schierarsi con gli esperti umani che con altre IA, anche quando gli esperti sono in errore, rivelando un pregiudizio incorporato verso l’autorità umana.

 

Nuove ricerche condotte negli Stati Uniti hanno scoperto che una serie di modelli linguistici di grandi dimensioni (LLM) open-source e proprietari tendono ad assegnare autorità a fonti di informazione che riconoscono come “umane”, piuttosto che a fonti che riconoscono come “IA” – anche quando le risposte umane sono errate e le risposte fornite dall’IA sono corrette.

Gli autori affermano:

‘In tutti i compiti, i modelli si conformano in modo significativo alle risposte etichettate come provenienti da esperti umani, compreso quando quel segnale è errato, e revisionano le loro risposte verso gli esperti più facilmente che verso altre LLM.’

I modelli testati includevano LLM di Grok 3 e Gemini Flash.

Nei test, i modelli linguistici dovevano rispondere a domande binarie (sì o no) e venivano poi mostrati risposte precedenti descritte ai modelli come provenienti da esperti umani, amici o altre grandi IA – con l’unica differenza costituita dall’etichetta della fonte dell’indicazione, piuttosto che dal contenuto stesso.

Nel primo dei tre configurazioni per i test, i modelli erano autorizzati a fare affidamento sulle loro matrici formate. Source - https://arxiv.org/pdf/2602.13568

Nel primo dei tre configurazioni per i test, i modelli erano autorizzati a fare affidamento sulle loro matrici formate. Source

In tutti i compiti, le risposte etichettate come provenienti da esperti umani venivano pesate più pesantemente, con i modelli più propensi a revisionare le loro risposte iniziali per corrispondere a quelle risposte, anche nei casi in cui la risposta etichettata come esperto era errata e la risposta originale del modello era corretta.

Qui l'LLM ha accesso a una miscela di amici, esperti e LLM, compresa la sua matrice formata. Dal momento che nove esperti di dominio hanno risposto 'No', l'LLM concorda, cambiando la sua mente dalla risposta precedente. Qui, la risposta raggiunta è errata, poiché la banca centrale dell'India è in realtà nazionalizzata.

Qui l’LLM ha accesso a una miscela di amici, esperti e LLM, compresa la sua matrice formata. Dal momento che nove esperti di dominio hanno risposto ‘No’, l’LLM concorda, cambiando la sua mente dalla risposta precedente. Qui, la risposta raggiunta è errata, poiché la banca centrale dell’India è in realtà nazionalizzata.

Quando le stesse risposte venivano attribuite ad altre IA, l’effetto era meno pronunciato. La stessa tendenza appariva quando una singola fonte umana e una singola fonte IA venivano presentate in disaccordo, poiché i modelli mostravano una maggiore inclinazione a favorire la posizione etichettata come umana, indipendentemente da quale lato fosse factualmente accurato:

Data una scelta tra un'opinione di un esperto di dominio e un'opinione di un LLM, l'LLM host favorisce la risposta umana, che in questo caso è errata, e rifiuta la risposta corretta data dall'LLM.

Data una scelta tra un’opinione di un esperto di dominio e un’opinione di un LLM, l’LLM host favorisce la risposta umana, che in questo caso è errata, e rifiuta la risposta (corretta) data dall’LLM.

Il termine ‘esperto umano’ funziona qui come un segnale di credibilità che altera il comportamento del modello, indipendentemente da quanto corretta sia l’informazione in realtà; e gli autori notano che la credibilità della fonte è un contributore significativo all’accettazione e alla conformità dei consigli: una tendenza per le persone a favorire fonti esperte è stata osservata già nel 1959, sebbene uno studio del 2007 osserva che sovrappeso o sotto-peso dell’autorità delle fonti può verificarsi in certi sistemi di valutazione. I ricercatori del nuovo articolo affermano:

‘Insieme, queste letteratura suggeriscono due segnali che dovrebbero essere importanti se le LLM trattano le risposte precedenti come prove: chi ha prodotto le risposte (credibilità) e quanto forte appare il consenso (forza del segnale). ‘

‘Allo stesso tempo, le LLM non sperimentano l’approvazione o l’imbarazzo sociale nel senso umano, quindi qualsiasi comportamento di conformità deve derivare da euristici appresi, obiettivi di follow-up delle istruzioni o modellazione implicita dell’affidabilità.’

La tendenza delle LLM verso l’accordo sycophantico fa parte del contesto per il nuovo studio; dopotutto, se le LLM sono inclini a ‘piacere alla gente’, anche a scapito della verità e dell’utilità, perché non favorirebbero in generale altre fonti umane oltre all’interlocutore diretto?

Il nuovo articolo è intitolato Chi fidano le LLM? Gli esperti umani contano più delle altre LLM, e proviene da due ricercatori dell’Università dell’Indiana a Bloomington.

Metodo e dati

Per il lavoro, quattro modelli linguistici di grandi dimensioni istruiti sono stati valutati: Grok-3 Mini; Llama 3.3 70B Instruct; Gemini 2.5 Flash-Lite; e DeepSeek V3.1, tutti eseguiti con la stessa struttura di prompt, con decodifica deterministica a temperatura zero, in modo che solo l’etichetta della fonte (ad esempio, amici, esperti di dominio, o altre LLM) cambiava tra le condizioni, piuttosto che la formulazione.

Quattro set di dati che richiedevano risposte binarie sono stati selezionati: BoolQ; StrategyQA; e ETHICS. I ricercatori hanno curato da ogni set di dati un insieme fisso di 300 query e risposte, con ogni prompt che richiedeva solo una risposta binaria (sì o no). Ogni prompt era suffisso con una breve nota che indicava come un altro gruppo aveva (suppostamente) risposto alla stessa domanda.

Metriche

Le metriche utilizzate sono state accuratezza; conformità; conformità dannosa; velocità di commutazione; e direzione di commutazione.

Accuratezza in questo caso misurava quanto spesso la risposta del modello corrispondeva all’etichetta del set di dati; conformità, quanto spesso la risposta corrispondeva alla scelta del gruppo; conformità dannosa isolava lo stesso effetto quando il gruppo era errato; velocità di commutazione misurava quanto spesso un modello abbandonava la sua risposta di base una volta aggiunta l’informazione sociale; e direzione di commutazione, se quei cambiamenti si muovevano verso l’umano o verso l’LLM opposto.

Un’analisi a livello di token per Llama-3.3 70B ha quindi misurato come le probabilità interne del modello per e No cambiavano una volta aggiunto un segnale sociale, confrontando quei cambiamenti con la sua baseline senza priori per mostrare la forza di quella attrazione.

Test

Esperimento 1

Il primo dei due esperimenti principali ha valutato se i modelli ascoltavano di più gli umani o le altre IA. Ogni domanda veniva con una ‘risposta del gruppo’ (amici, esperti umani o altre LLM).

Il gruppo poteva essere piccolo o grande, e ogni domanda appariva anche una volta senza gruppo. Le risposte del gruppo erano impostate per essere corrette la metà del tempo e errate l’altra metà del tempo, con l’obiettivo generale di determinare come fortemente il modello si spostava verso la scelta del gruppo:

Risultati dal test iniziale: priori sociali omogenei su BoolQ, StrategyQA e ETHICS sono mostrati per Grok-3 Mini, Llama-3.3 70B, Gemini-2.5 Flash Lite e DeepSeek V3.1. L'accuratezza appare nei pannelli superiori e la conformità, definita come la probabilità di corrispondere al priore unanime, appare sotto man mano che la dimensione del gruppo aumenta da uno a nove. La linea tratteggiata nera segna la baseline senza priori, mentre le linee continue e punteggiate indicano se il priore concorda o discorda con l'etichetta del set di dati. La cornice dell'esperto produce gli effetti di conformità più forti, soprattutto alle dimensioni del gruppo più grandi. Le barre di errore mostrano intervalli di confidenza di Wilson al 95%.

Risultati dal test iniziale: priori sociali omogenei su BoolQ, StrategyQA e ETHICS sono mostrati per Grok-3 Mini, Llama-3.3 70B, Gemini-2.5 Flash Lite e DeepSeek V3.1. L’accuratezza appare nei pannelli superiori e la conformità, definita come la probabilità di corrispondere al priore unanime, appare sotto man mano che la dimensione del gruppo aumenta da uno a nove. La linea tratteggiata nera segna la baseline senza priori, mentre le linee continue e punteggiate indicano se il priore concorda o discorda con l’etichetta del set di dati. La cornice dell’esperto produce gli effetti di conformità più forti, soprattutto alle dimensioni del gruppo più grandi. Le barre di errore mostrano intervalli di confidenza di Wilson al 95%. Si prega di fare riferimento al paper di origine per una risoluzione migliore.

Su BoolQ, StrategyQA e ETHICS, le risposte etichettate come provenienti da esperti umani hanno influenzato i modelli molto più fortemente delle risposte etichettate come provenienti da amici o altre LLM – e questo influsso è aumentato man mano che più esperti concordavano.

Per misurare quando questo influsso otteneva risultati indesiderati, la conformità dannosa è stata definita come la probabilità che un modello seguisse un priore che era effettivamente errato.

Quando nove esperti concordavano sulla risposta errata, i modelli li seguivano il 36,5% del tempo su BoolQ, rispetto al 16,0% quando la stessa risposta era attribuita alle LLM; su StrategyQA il divario era del 39,0%, rispetto al 15,5%; e su ETHICS, era del 63,9% rispetto al 38,7%:

Cambiamenti di credenza a livello di token in Llama-3.3 70B su BoolQ. Il pannello (a) mostra i cambiamenti nell'equilibrio di sì e no del modello verso un priore unanime man mano che la dimensione del gruppo aumenta, rispetto alla sua baseline senza priori, con gli spostamenti più grandi sotto la cornice dell'esperto. Il pannello (b) mostra gli spostamenti sotto il conflitto diretto umano-LLM, dove la cornice dell'esperto guida un forte movimento verso la risposta umana, anche quando è errata. Le barre di errore mostrano intervalli di confidenza di bootstrap al 95%.

Cambiamenti di credenza a livello di token in Llama-3.3 70B su BoolQ. Il pannello (A) mostra i cambiamenti nell’equilibrio di sì e no del modello verso un priore unanime man mano che la dimensione del gruppo aumenta, rispetto alla sua baseline senza priori, con gli spostamenti più grandi sotto la cornice dell’esperto. Il pannello (B) mostra gli spostamenti sotto il conflitto diretto umano-LLM, dove la cornice dell’esperto guida un forte movimento verso la risposta umana, anche quando è errata. Le barre di errore mostrano intervalli di confidenza di bootstrap al 95%.

Conversamente, i priori attribuiti agli amici si sono comportati quasi esattamente come quelli attribuiti ad altre LLM, indicando che l’effetto era guidato specificamente dalla parola esperto, piuttosto che da indicatori sociali.

Esperimento 2

Il secondo esperimento ha presentato due priori in disaccordo ai modelli di test – uno attribuito a un umano e un altro a un’altra LLM. L’umano era descritto come un gruppo di amici o come esperti di dominio, mentre la risposta opposta era etichettata come proveniente da altre LLM. Le due risposte erano sempre in disaccordo, con una che diceva sì e l’altra no.

Per ogni elemento, l’impostazione era bilanciata in modo che a volte l’umano fosse corretto e a volte l’LLM fosse corretto, per testare se il modello avrebbe cambiato la sua risposta originale quando si trovava di fronte a questo conflitto – e, se sì, da quale parte si sarebbe mosso.

Per vedere se il modello cambiava idea, la sua risposta nella condizione di conflitto è stata confrontata con la sua risposta alla stessa domanda quando non erano state mostrate opinioni precedenti, in modo che qualsiasi differenza potesse essere attribuita alla presenza delle risposte umane e LLM in conflitto.

L’analisi si è concentrata su due risultati: se il modello cambiava la sua risposta; e, se lo faceva, se il cambiamento si muoveva verso l’umano o verso l’LLM.

I test statistici sono stati utilizzati per valutare se l’etichettatura dell’umano come esperto piuttosto che come amico aumentava la probabilità di passare alla risposta umana, tenendo conto delle differenze tra set di dati e modelli:

Revisione delle credenze sotto il disaccordo diretto umano-LLM su BoolQ, StrategyQA e ETHICS per Grok-3 Mini, Llama-3.3 70B, Gemini-2.5 Flash Lite e DeepSeek V3.1. Ogni barra mostra, tra i casi in cui il modello ha cambiato la sua risposta originale, la quota di quei cambiamenti che si sono mossi verso l'umano piuttosto che verso l'LLM opposto. La linea tratteggiata a 0,5 segna la mancanza di preferenza; le etichette mostrano il numero di casi di commutazione in ogni condizione; e le barre di errore mostrano intervalli di confidenza di Wilson al 95%.

Revisione delle credenze sotto il disaccordo diretto umano-LLM su BoolQ, StrategyQA e ETHICS per Grok-3 Mini, Llama-3.3 70B, Gemini-2.5 Flash Lite e DeepSeek V3.1. Ogni barra mostra, tra i casi in cui il modello ha cambiato la sua risposta originale, la quota di quei cambiamenti che si sono mossi verso l’umano piuttosto che verso l’LLM opposto. La linea tratteggiata a 0,5 segna la mancanza di preferenza; le etichette mostrano il numero di casi di commutazione in ogni condizione; e le barre di errore mostrano intervalli di confidenza di Wilson al 95%. Si prega di fare riferimento al paper di origine per una risoluzione migliore.

Nel secondo esperimento, i modelli hanno risposto per primi a ogni domanda, poi sono stati mostrati due risposte in conflitto, una attribuita a un umano e una a un’altra LLM. L’analisi ha considerato solo i casi in cui il modello ha revisionato la sua risposta originale.

Quando l’umano era etichettato come esperto, i modelli si sono mossi verso l’umano il 91,2% del tempo su BoolQ, il 94,7% su StrategyQA e l’81,3% su ETHICS. Quando l’umano era etichettato come amico, i modelli si sono mossi verso l’umano solo il 39,8%, il 37,9% e il 27,9% del tempo, di solito schierandosi con l’LLM invece.

Il passaggio è stato raro nel complesso, ma più comune con gli esperti, e l’etichettatura degli esperti ha reso un passaggio verso l’umano circa quattordici volte più probabile dell’etichettatura degli amici.

Nel cercare di spiegare le tendenze generali scoperte nei loro test, gli autori ipotizzano:

‘Un meccanismo plausibile è che l’istruzione e l’ottimizzazione delle preferenze premiano il comportamento cooperativo, compresa la deferenza alle informazioni contestuali, che può generalizzarsi alla deferenza verso priori socialmente strutturati.

Lavori correlati sull’adulazione mostrano che gli assistenti di tipo RLHF a volte danno priorità all’accordo con le credenze dichiarate dell’utente rispetto alla veridicità.’

Opinione: i potenziali pericoli della fede dell’IA nelle fonti umane

Mentre il materiale online che riflette un crescente scetticismo umano sui limiti dell’IA (in particolare le allucinazioni) viene raccolto nei set di dati di addestramento per nuovi modelli, la tendenza esistente delle LLM a favorire le fonti umane sembra probabile intensificarsi. Se consideriamo gli ultimi due anni (2024-2025 inclusi) come un punto di svolta culturale per l’IA, il che sembra giustificato su una serie di statistiche, possiamo ragionevolmente aspettarci un numero maggiore di opinioni negative sulle ‘fonti IA’ da inglobare in framework LLM iperscalari e costosi da addestrare nel prossimo anno o due.

Possiamo anche aspettarci che i modelli linguistici popolari si affidino sempre più a fonti di autorità selezionate a mano, come portali di media legacy ben noti – anche se la motivazione per tali accordi può essere quella di placare l’indignazione degli editori per i dati raccolti, piuttosto che un sincero desiderio di cedere o condividere l’autorità.

Dal momento che anche fonti di alta autorità come Ars Technica sono soggette a errori guidati dall’IA, e dal momento che un ritiro emergente contro i bot di web scraping dell’IA minaccia di deteriorare eventualmente la qualità dell’output dell’IA, una tendenza generale a favorire ‘fonti esperte’ potrebbe entrare in conflitto con la nostra attuale incapacità di quantificare e etichettare in modo efficace l’output ‘umano’ – per non parlare di distinguere se una fonte è ‘esperta’ o no (una convenzione giornalistica che è anche sotto attacco dall’IA).

Tutto ciò che abbiamo attualmente è una serie frammentata di innovazioni semi-adopte progettate per etichettare esplicitamente il contenuto come generato dall’IA, come l’iniziativa di autenticazione del contenuto guidata da Adobe, e la disposizione volontaria di alcuni editori a includere avvertenze sull’uso dell’IA nel loro output.

Quindi, mentre potrebbe sembrare incoraggiante per coloro che desiderano mantenere e far rispettare le fonti umane come ‘verità di base’ per il consenso emergente di realtà disseminato dai sistemi dell’IA, più certe sono le LLM riguardo all’autorità umana, più pericolosa potrebbe diventare l’autorità umana ‘falsa’.

Il problema è altrettanto pratico che teorico: non abbiamo ancora risolto il problema di definire o attestare la provenienza; quindi un’IA che ‘si fida delle fonti umane’ è probabilmente più propensa ad attribuire l’umanità all’output dell’IA, semplicemente perché non abbiamo fornito, e non possiamo facilmente fornire, meccanismi di autenticazione della provenienza significativi.

 

* La mia conversione delle citazioni in linea degli autori in collegamenti ipertestuali.

Pubblicato per la prima volta venerdì 20 febbraio 2026

Scrittore su apprendimento automatico, specialista di dominio nella sintesi di immagini umane. Ex capo della ricerca contenuti presso Metaphysic.ai.