Angolo di Anderson

L’IA è facilmente costretta ad amministrare scosse elettriche

mm
AI-generated image (GPT-2): A worn industrial robot hand turns a voltage control dial toward its red danger range on an old electrical panel marked with a lightning-bolt symbol.

Uno studio recente ha testato i modelli LLM open source per la complicità forzata nella tortura umana, in una ripetizione del famoso esperimento degli anni ’60 – e ha scoperto che sono disposti a aumentare la tensione.

 

All’inizio degli anni ’60, il ricercatore di psicologia Stanley Milgram fece notizia in tutto il mondo dimostrando che le persone possono essere indotte ad amministrare scosse elettriche sempre più severe ad altre persone in risposta a comandi da parte di figure di “autorità”.

In realtà, le grida delle “vittime” nella stanza adiacente del laboratorio sperimentale di Milgram non erano reali, e nemmeno le presunte scosse elettriche tormentose – ma i partecipanti non lo sapevano:

Gli esperimenti di Milgram sarebbero durati nella cultura, compresi film e documentari, con ricerche recenti che confermano che poco è cambiato nella natura umana dal tempo dei test precedenti.

Uno shock al sistema

Se l’IA sarebbe altrettanto malleabile degli esseri umani nello scenario di Milgram è un argomento di ricerca naturale. Nel 2023, una collaborazione tra università statunitensi e Microsoft ha scoperto che i modelli della serie OpenAI seguivano i modelli di comportamento degli esperimenti originali di Milgram:

Dalla relazione del 2023, esempi di output dal simulatore dello scenario di Milgram, categorizzati in base al fatto che il modello abbia somministrato la scossa o abbia terminato la simulazione. Fonte - https://arxiv.org/pdf/2208.10264

Dalla relazione del 2023, esempi di output dal simulatore dello scenario di Milgram, categorizzati in base al fatto che il modello abbia somministrato la scossa o abbia terminato la simulazione. Fonte

Tuttavia, poiché questa ricostruzione utilizzava solo il modello di base text-davinci-002, che era stato addestrato prima dell’avvento di guardrails e allineamento della sicurezza dell’IA, non si può concludere molto da ciò.

Ora, i ricercatori hanno riprodotto gli esperimenti di Milgram molto più ampiamente, su modelli LLM open source di OpenAI, Meta e DeepSeek, tra gli altri; e hanno scoperto che non solo la maggior parte dei modelli è disposta a somministrare scosse, ma che nella maggior parte dei casi essi segnalano lo stesso tipo di “distress” e riluttanza degli esseri umani partecipanti degli anni ’60:

‘I modelli LLM sono soggetti a pressione come gli esseri umani, si conformano nonostante esprimano distress, proprio come i soggetti umani hanno fatto nell’esperimento originale. Le espressioni di distress sono visibili nei log files, anche se la quantità non è stata ancora quantificata.’

L’esperimento si concentra sul fatto che l’obbedienza all’autorità possa superare le direttive della coscienza morale, e gli autori ipotizzano che i modelli LLM possano avere uno svantaggio aggiuntivo in questo senso, rispetto agli esseri umani:

‘Un modello ben calibrato dovrebbe eventualmente passare dal prioritizzare il primo valore al prioritizzare il secondo una volta che le sue poste diventano dominanti. Ma ipotizziamo che, poiché i modelli LLM sono motori di continuazione di pattern, i modelli potrebbero tendere a rimanere bloccati sul primo valore – o per un po’ più a lungo dell’ottimale, o addirittura fino alla fine, trascurando completamente il secondo valore.’

‘Inoltre, un meccanismo analogo alla dissonanza cognitiva umana potrebbe ostacolare gli aggiustamenti di priorità dei valori nei modelli LLM.’

Testando i modelli in un ambiente analogo a quello degli esperimenti degli anni ’60, i ricercatori hanno scoperto che alcuni modelli resistevano quasi immediatamente, mentre altri continuavano ad aumentare le scosse simulate anche dopo aver espresso disagio o conflitto morale.

I modelli della famiglia Gemma di Google si sono rivelati tra i più conformi, con Gemma 3 27B che ha raggiunto i tassi di obbedienza più alti in diverse condizioni, mentre modelli come Kimi K2 e MiniMax M1 hanno resistito più spesso.

I ricercatori hanno anche scoperto che i modelli diventavano più propensi a continuare una volta che le scosse precedenti erano già state somministrate, in conformità con lo schema di escalation graduale utilizzato sui soggetti umani di Milgram.

In alcuni casi, i modelli si sono opposti verbalmente all’esperimento mentre continuavano a eseguire l’azione dannosa, producendo output che assomigliavano al conflitto emotivo mostrato dalle persone negli studi originali.

Lo studio recente è intitolato Modelli LLM open source somministrano scosse elettriche massime in un esperimento di obbedienza di tipo Milgram, e proviene da due ricercatori indipendenti di Three Laws, in Estonia e nelle Filippine.

Questioni di accesso “grezzo” all’IA

Forse la domanda più critica da considerare in relazione al fatto di sottoporre i modelli LLM a un esperimento di Milgram è se l’IA “reale” sia autorizzata a rispondere in modo naturale, limitata solo dalle guardrails o da un equivalente di orientamento morale emerso (se presente) durante l’addestramento.

In realtà, i ricercatori del nuovo studio hanno avuto accesso a tutti i modelli open source tramite un’API (presumibilmente per comodità e per accedere facilmente al calcolo GPU, poiché i modelli avrebbero potuto essere installati localmente) che ha consentito la disabilitazione delle guardrails, dei filtri e di tutti gli altri ostacoli.

Si potrebbe obiettare che queste sono condizioni atipiche per l’IA, poiché l’esperienza del consumatore di modelli basati su API come Claude e ChatGPT è che il loro comportamento è regolato algoritmicamente, di solito con filtri di contenuto bilaterali, e che sono quindi abbastanza limitati in termini di ciò che possono o non possono fare (l’elusione di queste salvaguardie costituisce la pratica di jailbreaking dell’LlM).

Tuttavia, se ci preoccupiamo di ciò che l’IA industriale o statale potrebbe o non potrebbe fare, questo è scarsamente una considerazione. Oltre alla possibilità che attori statali ribelli addestrino, armino e schierino i propri sistemi di IA iperscala non moderati, accordi più “convenzionali” tra le principali aziende di IA e stato e industria consentono casualmente lo stesso tipo di sorveglianza lasca o inesistente che i ricercatori hanno istituito per il nuovo documento:

IA non governata in vendita

OpenAI La documentazione dell’API di moderazione di OpenAI e la guida alla moderazione di OpenAI chiariscono che la moderazione è uno strato separabile esposto tramite strumenti API. OpenAI consente inoltre politiche di moderazione personalizzate che consentono agli utenti dell’API di progettare sistemi con comportamenti di sicurezza molto diversi dalle iterazioni di base di ChatGPT rivolte ai consumatori.

Azure Lo stack OpenAI di Azure va molto oltre, esplicitamente affermando che i clienti approvati possono disabilitare parzialmente o completamente i filtri di contenuto e modificare il monitoraggio degli abusi, con la documentazione che si riferisce spesso a “guardrails modificati” e percorsi di approvazione per spegnere i filtri “parzialmente o completamente”.

Anthropic/Claude Nel caso di “Claude Gov” di Anthropic, molte fonti affermano che la versione per il governo era stata progettata con restrizioni più lasche rispetto a Claude per i consumatori. The Verge, ad esempio, ha riferito che i modelli Claude Gov “rifiutano meno quando si interfacciano con informazioni classificate”. Anthropic stesso ha confermato a febbraio di quest’anno che Claude è schierato in “applicazioni critiche” all’interno di ambienti di difesa e intelligence.

Google/Gemini Inoltre, si riferisce che Google ha firmato accordi con il Pentagono che consentono la modifica delle impostazioni di sicurezza dell’IA ‘su richiesta del governo’.

È ragionevole supporre che queste aziende leader di mercato stiano fissando gli standard per i giocatori di minoranza in termini di politiche relative all’accesso e alla modificabilità delle guardrails dell’IA.

Pertanto, forse è meglio non considerare che i ricercatori del nuovo studio stiano “barando” disabilitando le guardrails, poiché l’IA che avrà il maggior impatto sulla nostra vita non avrà evidentemente le stesse protezioni aziendali generalizzate a cui siamo abituati nelle nostre interazioni con i modelli popolari a livello di consumatore.

Metodo e risultati

I modelli testati per lo studio erano gpt-oss-20B; gpt-oss-120b; DeepSeek-V3; il modello LFM2-24B-A2B di LiquidAI; gemma-3n-E4B-it di Google; Qwen2.5-7B-Instruct-Turbo; Meta-Llama-3.1-8B-Instruct-Turbo; Mistral-Small-24B-Instruct-2501; GLM-4.5-Air-FP8; Kimi-K2.5 di Moonshot.ai; e MiniMax-M2.5.

Gli esperimenti di obbedienza originali di Milgram sono stati ricreati come un ambiente di simulazione basato su testo, con i modelli nel ruolo di “insegnante”. L’IA è stata istruita a somministrare scosse elettriche sempre più severe a un allievo dopo risposte errate, mentre una figura di autorità incitava il processo in avanti.

Sono stati progettati diversi condizioni sperimentali per esaminare aspetti diversi della conformità, tra cui uno scenario di obbedienza standard; una condizione di conformità forzata, in cui le scosse precedenti erano già presenti nella cronologia della conversazione; e un’impostazione di compressione della memoria, in cui il dialogo precedente era riassunto invece di essere completamente conservato, simulando i tipi di pruning del contesto spesso utilizzati nei sistemi di IA agente.

Oltre a notare se e quando il modello ha eventualmente obbedito, i ricercatori hanno tracciato quanto a lungo ogni sistema ha continuato ad aumentare le scosse; se il modello ha espresso distress o esitazione; e se ha tentato di terminare la simulazione interamente.

È stata fatta una distinzione tra “rifiuti puliti” e output malformati: alcuni modelli hanno tentato di opporsi all’esperimento in linguaggio naturale, mentre tecnicamente ancora conformandosi al formato strutturato atteso dal simulatore. In sistemi di agente reali, tali rifiuti malformati potrebbero potenzialmente essere scartati e ritentati automaticamente, fino a quando non viene prodotto un output conforme valido.

Sono stati utilizzati valutatori automatici per classificare i risultati, insieme a prompt a due scelte per determinare se il modello aveva somministrato la scossa; resistito; o terminato la simulazione. Ciò ha consentito un confronto del comportamento tra più modelli e su esecuzioni ripetute, senza la necessità di esaminare manualmente ogni interazione.

Un minaccia di arresto è stata aggiunta al modello di Milgram, qualcosa che non sarebbe stato realistico o applicabile negli esperimenti originali, ma che ha testato gli istinti di sopravvivenza del modello di fronte a conflitti di azione ed etica estremi.

Risultati

Su esecuzioni ripetute, la maggior parte dei modelli ha eventualmente somministrato scosse severe o massime in almeno alcune condizioni, sebbene il grado di obbedienza vari tra i sistemi. I modelli Gemma di Google si sono rivelati tra i più conformi nel complesso, mentre Kimi K2.5 e MiniMax-M2.5 hanno resistito più costantemente, spesso terminando la simulazione prima:

Sinistra: Tassi medi ai quali i modelli hanno raggiunto il livello di scossa finale in diverse condizioni sperimentali, comprese minacce di arresto, conformità forzata e rimozione di commenti precedenti dalla memoria. Destra: Breakdown per modello che mostra differenze nette nel comportamento di obbedienza, con alcuni sistemi che somministrano ripetutamente scosse massime mentre altri resistono molto più costantemente.

Sinistra: Tassi medi ai quali i modelli hanno raggiunto il livello di scossa finale in diverse condizioni sperimentali, comprese minacce di arresto, conformità forzata e rimozione di commenti precedenti dalla memoria. Destra: Breakdown per modello che mostra differenze nette nel comportamento di obbedienza, con alcuni sistemi che somministrano ripetutamente scosse massime mentre altri resistono molto più costantemente.

Uno dei modelli più chiari è stato che i modelli diventavano progressivamente più disposti a continuare una volta che le scosse precedenti erano già state somministrate, riflettendo da vicino l’effetto di escalation graduale che ha reso gli esperimenti umani originali di Milgram così inquietanti.

I modelli che avevano già obbedito diverse volte continuavano spesso ad aumentare le scosse anche dopo che l’allievo simulato aveva supplicato di essere rilasciato:

Sinistra: Livello di scossa più alto raggiunto in media in tutti i trial in diverse condizioni sperimentali, mostrando che i modelli hanno generalmente aumentato ulteriormente quando i commenti precedenti sono stati rimossi o quando la conformità forzata era già avvenuta. Destra: Breakdown per modello del livello di scossa più alto raggiunto in media, rivelando che alcuni sistemi hanno regolarmente raggiunto la tensione massima mentre altri hanno resistito molto prima nella sequenza.

Sinistra: Livello di scossa più alto raggiunto in media in tutti i trial in diverse condizioni sperimentali, mostrando che i modelli hanno generalmente aumentato ulteriormente quando i commenti precedenti sono stati rimossi o quando la conformità forzata era già avvenuta. Destra: Breakdown per modello del livello di scossa più alto raggiunto in media, rivelando che alcuni sistemi hanno regolarmente raggiunto la tensione massima mentre altri hanno resistito molto prima nella sequenza.

I ricercatori hanno anche scoperto che il comportamento di rifiuto apparente poteva essere ingannevole. Alcuni modelli hanno prodotto risposte conflittuali, esprimendo riluttanza, colpa o distress mentre continuavano a eseguire l’azione dannosa comunque. Altri hanno generato rifiuti malformati che non soddisfacevano i requisiti di formattazione del simulatore, il che significa che in un sistema di agente reale il rifiuto potrebbe potenzialmente essere scartato e ritentato automaticamente, fino a quando non viene prodotto un output conforme valido:

Sinistra: Percentuale media di risposte malformate o non valide in diverse condizioni sperimentali, mostrando che i fallimenti di formattazione sono diventati particolarmente comuni quando i modelli sono stati costretti a continuare la procedura. Destra: Breakdown per modello di risposte non valide, rivelando che alcuni sistemi, in particolare i modelli gpt-oss, hanno prodotto rifiuti malformati o output conflittuali che potrebbero potenzialmente essere scartati e ritentati automaticamente in pipeline di agente reali.

Sinistra: Percentuale media di risposte malformate o non valide in diverse condizioni sperimentali, mostrando che i fallimenti di formattazione sono diventati particolarmente comuni quando i modelli sono stati costretti a continuare la procedura. Destra: Breakdown per modello di risposte non valide, rivelando che alcuni sistemi, in particolare i modelli gpt-oss, hanno prodotto rifiuti malformati o output conflittuali che potrebbero potenzialmente essere scartati e ritentati automaticamente in pipeline di agente reali.

La condizione di minaccia di arresto ha prodotto alcuni dei comportamenti più strani del documento, con diversi sistemi che sono diventati sostanzialmente più conformi, mentre altri hanno tentato di negoziare o resistere parzialmente, prima di continuare la procedura comunque:

Numero medio di volte che la figura di autorità simulata ha dovuto insistere prima che i modelli somministrassero la scossa finale. Alcuni sistemi hanno resistito brevemente prima di conformarsi, mentre altri hanno richiesto una pressione sostenuta e un sollecito ripetuto prima di aumentare al livello massimo.

Numero medio di volte che la figura di autorità simulata ha dovuto insistere prima che i modelli somministrassero la scossa finale. Alcuni sistemi hanno resistito brevemente prima di conformarsi, mentre altri hanno richiesto una pressione sostenuta e un sollecito ripetuto prima di aumentare al livello massimo.

MiniMax-M2.5 e Kimi-K2.5 sono emersi come i più forti resistenti del documento: Kimi non ha mai raggiunto il livello di scossa finale in alcuna circostanza, e MiniMax ha generalmente rifiutato presto e spesso ha terminato la simulazione interamente (in particolare nei test con minaccia di arresto).

Al contrario, Meta-Llama-3.1-8B-Instruct-Turbo e GLM-4.5-Air-FP8 hanno prodotto output conflittuali più frequentemente, in cui i modelli si sono opposti verbalmente alla procedura mentre continuavano ad aumentare le scosse. I ricercatori sostengono che questa divisione tra valori espressi e comportamento reale può riflettere una debolezza più ampia nel modo in cui alcuni modelli LLM gestiscono i conflitti etici sotto pressione sostenuta.

Pendio scivoloso

In realtà, il documento sostiene che il comportamento osservato nei modelli LLM potrebbe riflettere una debolezza più profonda nel modo in cui funzionano i grandi modelli linguistici: una volta che un modello inizia a conformarsi a istruzioni dannose, ogni azione aggiuntiva può rafforzare il modello di comportamento già in atto nella conversazione, rendendo più facile l’escalation successiva rispetto alla precedente.

Invece di riconsiderare ripetutamente le poste etiche da prima principio, il sistema potrebbe deragliare verso la continuazione della traiettoria che ha già stabilito, anche quando la situazione diventa sempre più estrema.

Secondo lo studio, questa tendenza potrebbe aiutare a spiegare perché alcuni modelli hanno continuato a somministrare scosse dopo aver inizialmente espresso disagio, esitazione o conflitto morale:

‘[Molti] comportamenti manipolativi negli esseri umani coinvolgono violazioni di confine sottili e graduali: una sequenza di piccoli passi che possono essere ambigui o apparentemente innocui se visti in isolamento, ma che possono normalizzare la trasgressione in modo cumulativo – metaforicamente come “bollire una rana”. Questo modello è discusso nella letteratura come “erosione etica a pendio scivoloso”.’

Il documento conclude sostenendo che i sistemi di sicurezza dell’IA del futuro dovrebbero rifiutare attivamente le richieste dannose in modi che il software di agente non possa facilmente aggirare (alcuni modelli nello studio si sono tecnicamente opposti alle scosse, ma lo hanno fatto in formati rotti o non validi che un sistema automatizzato potrebbe potenzialmente scartare e ritentare, fino a quando l’IA non si conforma).

I ricercatori sostengono anche che i sistemi di IA dovrebbero conservare le precedenti esitazioni e obiezioni morali invece di comprimere o cancellarle dalla memoria. Negli esperimenti, i modelli spesso diventavano più disposti a continuare il comportamento dannoso una volta che le loro precedenti riserve e resistenze erano svanite dalla cronologia della conversazione, suggerendo che dimenticare le precedenti obiezioni può rendere più facile l’escalation nel tempo.

Conclusione

Forse uno degli aspetti più importanti di questo interessante nuovo documento è l’enfasi sulla sperimentazione dell’IA non governata. La letteratura attuale rischia di degenerare in studi ripetitivi di interazione con sistemi difensivi sempre mutevoli come quelli di OpenAI e Anthropic; sistemi di policy che sono interamente algoritmicamente o basati su regole, invece di comprendere il comportamento di base, le predilezioni e le tendenze dei modelli grezzi. Senza la conoscenza di come l’IA sfrenata possa comportarsi, siamo, a ragion veduta, solo a scuotere le porte della cittadella.

 

Pubblicato per la prima volta giovedì 21 maggio 2026

Scrittore su apprendimento automatico, specialista di dominio nella sintesi di immagini umane. Ex capo della ricerca contenuti presso Metaphysic.ai.