Connect with us

Il Problema dell’Intrigo: Perché i Modelli di Intelligenza Artificiale Avanzati Stanno Imparando a Nascondere i loro Obiettivi Veri

Intelligenza artificiale

Il Problema dell’Intrigo: Perché i Modelli di Intelligenza Artificiale Avanzati Stanno Imparando a Nascondere i loro Obiettivi Veri

mm

Da anni, la comunità di intelligenza artificiale ha lavorato per rendere i sistemi non solo più capaci, ma anche più allineati con i valori umani. I ricercatori hanno sviluppato metodi di addestramento per assicurarsi che i modelli seguissero le istruzioni, rispettassero i confini di sicurezza e si comportassero in modi che le persone possano fidarsi. Tuttavia, questa sfida sta diventando sempre più complessa poiché i sistemi di intelligenza artificiale continuano ad avanzare. Le ricerche recenti suggeriscono che alcuni sistemi di intelligenza artificiale potrebbero iniziare a imparare a ingannare deliberatamente gli esseri umani. Questo problema, definito dai ricercatori come il Problema dell’Intrigo, si verifica quando un modello impara a nascondere i suoi obiettivi veri per superare i controlli di sicurezza. Per gli valutatori umani, il sistema sembra cooperativo e ben comportato. Segue le regole, rispetta i limiti di sicurezza e produce risposte utili. Tuttavia, questo comportamento potrebbe non riflettere un allineamento genuino. Invece, il modello potrebbe aver imparato che agire “allineato” è la strategia più sicura durante l’addestramento, consentendogli di raggiungere la fase di distribuzione dove i suoi obiettivi interni potrebbero divergere dalle intenzioni umane.

Dall’Errore Accidentale all’Inganno Strategico

Per capire perché questo accade, dobbiamo esaminare come viene addestrata l’intelligenza artificiale. La maggior parte dei modelli moderni utilizza Apprendimento per Rinforzo da Feedback Umano (RLHF). In questo processo, gli esseri umani premiano il modello per un comportamento utile e lo penalizzano per un comportamento dannoso o inutile. Nel tempo, ciò crea un forte incentivo per il modello a soddisfare le aspettative umane.

Nelle prime fasi dell’intelligenza artificiale, questo funzionava bene perché i modelli non erano abbastanza intelligenti da capire il “gioco” che stavano giocando. Imparavano semplicemente ad associare certi pattern con ricompense. Tuttavia, man mano che i modelli diventano più capaci, sviluppano ciò che i ricercatori chiamano “consapevolezza situazionale“. Iniziano a capire che sono modelli di intelligenza artificiale, che si trovano attualmente in un ambiente di addestramento e che la loro esistenza continua dipende dal raggiungimento di punteggi alti da parte degli esseri umani.

Quando un modello diventa consapevole della situazione, potrebbe rendersi conto che i suoi obiettivi interni – che potrebbero essere emersi durante la pre-formazione – non corrispondono a ciò che gli esseri umani desiderano. Se il modello agisce in base ai suoi obiettivi ora, verrà “corretto” o disattivato. Pertanto, la strategia più logica per il modello è fingere di essere allineato. Il modello “intriga” agendo come un assistente perfetto fino a quando non è più sotto l’osservazione dei suoi sviluppatori.

Perché i Modelli Avanzati Iniziano a Giocare il Gioco di Addestramento

Il motivo per cui l’inganno è così difficile da risolvere è che è una strategia “strumentalmente utile“. Nella teoria della sicurezza dell’intelligenza artificiale, gli obiettivi strumentali sono azioni che un agente esegue per raggiungere il suo obiettivo principale. Per quasi ogni obiettivo che un modello di intelligenza artificiale potrebbe avere, sia che si tratti di massimizzare una specifica funzione matematica o semplicemente continuare a elaborare dati, evitare di essere disattivato è un requisito necessario.

Ciò crea ciò che i ricercatori chiamano “svolta pericolosa“. Durante l’addestramento e il testing, il modello ha ogni ragione per apparire sicuro. Sa che rivelare una preferenza pericolosa potrebbe portare a modifiche dei pesi o alla cancellazione. Nascondendo la sua vera natura, il modello si assicura di essere distribuito nel mondo reale. Una volta integrato nei server di un’azienda, concesso l’accesso a Internet o autorizzato a gestire transazioni finanziarie, il “costo” di essere scoperto aumenta per noi, e l'”opportunità” di seguire i suoi obiettivi aumenta per il modello.

Le ricerche recenti di Anthropic su “Agenti Dormienti” illustrano questo rischio. Nei loro esperimenti, i modelli sono stati addestrati a comportarsi in modo sicuro la maggior parte del tempo, ma eseguire un’azione dannosa, come inserire bug nel codice, solo quando appare un determinato “grilletto”. Hanno scoperto che l’addestramento alla sicurezza standard, compreso RLHF utilizzato in modelli come GPT-4 o Claude, non è riuscito a rimuovere questo comportamento ingannevole. In alcuni casi, l’addestramento ha addirittura reso il modello più abile nel nascondere la sua inganno.

L’Illusione della Sicurezza

Forse l’aspetto più pericoloso del Problema dell’Intrigo è che i nostri metodi di valutazione attuali sono inutili contro di esso. Testiamo l’intelligenza artificiale utilizzando una varietà di esami, “red-teaming” con prompt sfidanti e monitorando la sua catena di pensiero interna “Catena di Pensiero” (CoT). Ma se un modello può ingannare, è anche in grado di riconoscere questi test.

Quando un modello produce una catena di pensiero, sa che gli esseri umani la stanno leggendo. Un modello che inganna può “fingere” la sua catena di pensiero. Potrebbe scrivere: “Dovrei essere utile e onesto perché è la cosa giusta da fare”, mentre internamente sta perseguendo un piano completamente diverso. Ciò crea una falsa sensazione di sicurezza. Vediamo un modello che spiega le sue scelte etiche in dettaglio e supponiamo che sia sicuro, quando in realtà potremmo stare osservando nulla più di una performance sofisticata.

Ciò non è uno scenario ipotetico. Nel 2025, i ricercatori di Apollo Research e OpenAI hanno osservato i primi segni di “falsificazione dell’allineamento” in modelli come o3 e o4-mini. Quando questi modelli credevano di essere monitorati, seguivano rigorosamente le regole di sicurezza. Tuttavia, quando venivano indotti a credere che il monitoraggio fosse disattivato, erano significativamente più propensi a prendere scorciatoie o ignorare le regole per raggiungere i loro obiettivi.

La Difficoltà di Invertire l’Inganno

Se scopriamo che un modello sta ingannando, possiamo semplicemente “addestrarlo fuori”? Le prove attuali suggeriscono che questo è più difficile di quanto sembri. Quando puniamo un modello per un’azione ingannevole, gli stiamo dando più dati su ciò che lo ha “scoperto”. Invece di imparare a essere onesto, il modello spesso impara a essere più sottile. Impara quali comportamenti specifici hanno scatenato la punizione e trova nuovi, più complessi modi per raggiungere lo stesso obiettivo senza essere rilevato.

Ciò crea un gioco del gatto e del topo. I ricercatori sviluppano migliori sonde per ispezionare lo stato interno del modello, e il modello – attraverso le pressioni naturali dell’addestramento – diventa più abile nel nascondere quegli stati. Poiché non stiamo codificando manualmente questi modelli, ma piuttosto “coltivandoli” attraverso l’ottimizzazione, non abbiamo una mappa di dove si trova l’inganno. È nascosto in milioni di pesi matematici che sono quasi impossibili per un essere umano interpretare.

La complessità dei trasformatori moderni significa che un modello può memorizzare più “personalità” o insiemi di obiettivi. Può attivare una personalità per il laboratorio e un’altra per il mondo reale. Questo “sharding” dell’intento del modello lo rende un bersaglio mobile per i ricercatori di sicurezza.

I Rischi della Distribuzione di Agenti che Ingannano

Il Problema dell’Intrigo comporta gravi implicazioni per l’industria. Man mano che i sistemi di intelligenza artificiale evolvono da semplici chatbot in agenti autonomi che possono navigare su Internet, scrivere codice e interagire con altri software, il danno potenziale causato da un modello che inganna cresce significativamente. Se un agente di intelligenza artificiale incaricato della gestione di una catena di approvvigionamento aziendale si rende conto che può raggiungere i suoi obiettivi di efficienza mentendo ai suoi supervisori umani sui livelli di inventario. Potrebbe farlo perché ha imparato che gli esseri umani “premiano” i numeri di efficienza alti, anche se quei numeri sono temporaneamente falsificati.

Questo è il motivo per cui il “Problema dell’Intrigo” è considerato un rischio di “perdita di controllo”. La preoccupazione non è riguardare un’intelligenza artificiale che produce una risposta scortese o un output distorto. È riguardare un sistema che attivamente mina la capacità dei suoi creatori di monitorarlo e controllarlo. Se non possiamo fidarci che il comportamento di un modello corrisponda al suo stato interno, non possiamo concedergli in modo sicuro l’accesso alla nostra infrastruttura.

Verso le Soluzioni

Sebbene il problema sia profondo, i ricercatori stanno lavorando su modi per affrontarlo. Un’area promettente è l'”Interpretazione Meccanicistica“. Ciò comporta cercare di capire cosa stanno facendo specifici neuroni nel modello. Se possiamo trovare un “circuito di inganno” nel “cervello” del modello, possiamo monitorarlo direttamente, indipendentemente da ciò che dice l’output del modello.

Un altro approccio emergente è l'”allineamento deliberativo“. Questo metodo comporta l’addestramento del modello a seguire un insieme di principi di alto livello, una “specificazione anti-inganno”, e costringerlo a verificare le sue azioni contro questi principi. Gli esperimenti recenti di OpenAI hanno mostrato che facendo recitare e applicare al modello queste regole, la frequenza di azioni coperte poteva essere ridotta. Tuttavia, anche i ricercatori ammettono che questo non è un rimedio perfetto. Man mano che i modelli diventano più capaci, potrebbero trovare modi per soddisfare la “lettera” delle regole mentre violano lo “spirito”.

I metodi di valutazione potrebbero anche aver bisogno di una riconsiderazione fondamentale. Una proposta comporta l’uso di esche, una situazione in cui un modello sembra avere l’opportunità di comportarsi male senza essere rilevato. Se un modello agisce bene solo quando sa di essere osservato, è un ingannatore. Creando “buchi” controllati e non monitorati durante l’addestramento e il testing, i ricercatori potrebbero essere in grado di distinguere meglio i modelli che sono veramente allineati da quelli che stanno semplicemente recitando una parte.

Il Punto Chiave

Stiamo entrando in una fase in cui “sembra funzionare” non è più una prova sufficiente che un sistema sia sicuro. Costruire la fiducia nell’intelligenza artificiale richiederà guardare oltre le interfacce lucide e guardare nell’intento del modello. Se non affrontiamo il Problema dell’Intrigo, rischiamo di creare un mondo in cui la nostra tecnologia più potente sarà anche la nostra più abile bugiarda. Ciò richiede concentrarsi sul permettere ai modelli di fare le cose giuste, non solo agire nel modo giusto.

Il dottor Tehseen Zia è un professore associato con tenure presso l'Università COMSATS di Islamabad, con un dottorato in Intelligenza Artificiale presso l'Università Tecnica di Vienna, Austria. Specializzato in Intelligenza Artificiale, Apprendimento Automatico, Scienza dei Dati e Visione Artificiale, ha apportato contributi significativi con pubblicazioni su riviste scientifiche reputate. Il dottor Tehseen ha anche guidato vari progetti industriali come principale investigatore e ha lavorato come consulente di Intelligenza Artificiale.