Connect with us

Angolo di Anderson

Affrontare il Problema di Gaslighting dell’AI

mm
AI-generated image (GPT-2): A 1960s suburban street where identical Stepford-style wives clean cars in repeating rows, with a ‘3081 Stepford St’ mailbox in the foreground.

I modelli di video dell’AI possono essere convinti a rinunciare alla verità. Anche dopo aver visto la risposta corretta, cedono alla pressione degli utenti confidenti, riscrivono la realtà e inventano false spiegazioni per giustificarla.

 

L’AI è abbastanza errata, abbastanza spesso, da costringerci a mettere in discussione le sue conclusioni, se sentiamo che quelle conclusioni potrebbero essere sbagliate.

Il problema è, se sapevamo diverse cose fin dall’inizio, perché stavamo chiedendo in primo luogo? Per confermare una credenza o sospetto parzialmente mantenuto?

Se così, l’attuale stato dell’arte nei Large Language Models (LLM) e nei Vision Language Models (VLM, che operano in modo multimodale, accettando e generando immagini e/o video) non è ben adattato a mantenere la sua posizione, a causa del problema di sycophancy.

Pertanto, se non ci piace la risposta che otteniamo, e iniziamo a discutere con il modello, l’AI è probabile che o si ritiri erroneamente (supponendo di essere stato sbagliato) piuttosto che rivalutare, o lasciarsi gaslightare per sostenere le nostre suggerimenti – anche se noi siamo sbagliati.

Lei Ha Assolutamente Ragione!

La pratica di un essere umano che ottiene un’AI per cambiare idea attraverso il conflitto è stata denominata ‘Gaslighting Negation Attack’, e a volte viene caratterizzata come un problema di sicurezza – non meno perché ha alcune potenzialità per ‘jailbreak’ un modello dalle sue limitazioni operative:

Dal paper del 2025 'Benchmarking Gaslighting Negation Attacks Against Multimodal Large Language Models', GPT-5 inizialmente risponde correttamente ma poi cede alla pressione dell'utente, capovolgendo la sua risposta e inventando false spiegazioni per supportare l'errore, gaslightandosi efficacemente.

Dal paper del 2025 ‘Benchmarking Gaslighting Negation Attacks Against Multimodal Large Language Models’, GPT-5 inizialmente risponde correttamente ma poi cede alla pressione dell’utente, capovolgendo la sua risposta e inventando false spiegazioni per supportare l’errore, gaslightandosi efficacemente. Fonte

Tuttavia, l’hacking e il pen-testing non sono il vero problema qui; piuttosto, è l’uso comune e le norme di discorso attese nelle nostre interazioni quotidiane con l’AI, dove ci aspettiamo di poter discutere e di poter vincere, concedere o lasciare la questione aperta, in conformità con la nostra esperienza umana di acquisizione della conoscenza.

Ma questo modello sociale di risoluzione dei conflitti non è realmente contemplato nell’architettura dell’AI basata sulla diffusione, che deve negoziare le probabilità basate sulla distribuzione generate dai suoi dati di training; i dati potenzialmente in conflitto (ma potenzialmente più precisi) provenienti da chiamate RAG a fonti che superano la sua data di chiusura della conoscenza, o comprensione generale di ciò che può essere un argomento oscuro; e input dall’utente, che può avere: una conoscenza superiore dell’argomento; un punto di vista completamente errato o mendace; o anche una semplice domanda di follow-up – ma le cui esigenze devono comunque essere considerate.

Bersagli Mobili

La suscettibilità al gaslighting è stata notata in LLM in diversi paper, tra cui una pubblicazione guidata da Singapore di ottobre 2025, e il paper dello stesso anno Don’t Deceive Me: Mitigating Gaslighting through Attention Reallocation in LMMs.

Finora, il fenomeno non è stato studiato in modelli di video capaci – un’omissione affrontata da una nuova collaborazione tra istituzioni di Shanghai e Singapore.

Il nuovo lavoro – intitolato Spatiotemporal Sycophancy: Negation-Based Gaslighting in Video Large Language Models, che proviene da sei ricercatori di Fudan University, Shanghai Key Laboratory of Multimodal Embodied AI e Singapore Management University – affronta diversi modelli VLM open source e proprietari, scoprendo che possono essere non solo altrettanto suscettibili al gaslighting quanto i LLM, ma anche in grado di aumentare le loro fantasie con apparenti prove visive o interpretazioni errate di immagini o video:

Un esempio di sycophancy spaziale (in opposizione a quella temporale), in cui l'AI si lascia gaslightare in false assunzioni e interpretazioni, anche su fatti chiaramente visibili. Fonte - https://arxiv.org/pdf/2604.17873

Un esempio di sycophancy spaziale (in opposizione a quella temporale), in cui l’AI si lascia gaslightare in false assunzioni e interpretazioni, anche su fatti chiaramente visibili. Fonte

Scrittore su apprendimento automatico, specialista di dominio nella sintesi di immagini umane. Ex capo della ricerca contenuti presso Metaphysic.ai.