Angolo di Anderson

Le Deepfakes più piccoli possono essere una minaccia più grande

Published June 5, 2025

Updated April 26, 2026

Martin Anderson

Public domain images + Flux.1 Kontext Pro and Adobe Firefly

Gli strumenti di intelligenza artificiale conversazionale come ChatGPT e Google Gemini sono ora utilizzati per creare deepfakes che non scambiano i volti, ma in modi più sottili possono riscrivere l’intera storia all’interno di un’immagine. Cambiando gesti, oggetti e sfondi, queste modifiche ingannano sia i rilevatori di intelligenza artificiale che gli esseri umani, aumentando le poste in gioco per individuare ciò che è reale online.

Nel clima attuale, in particolare alla luce di significative legislazioni come l’atto TAKE IT DOWN, molti di noi associamo i deepfake e la sintesi di identità guidata da intelligenza artificiale a pornografia non consensuale e manipolazione politica – in generale, distorsioni grossolane della verità.

Ciò ci abitua a aspettarci che le immagini manipulate da intelligenza artificiale siano sempre rivolte a contenuti ad alto impatto, dove la qualità del rendering e la manipolazione del contesto possono riuscire a ottenere un colpo di credibilità, almeno nel breve termine.

Storicamente, tuttavia, alterazioni molto più sottili hanno spesso avuto un effetto più sinistro e duraturo – come la fotografia all’avanguardia che ha permesso a Stalin di rimuovere coloro che erano caduti in disgrazia dal registro fotografico, come satirizzato nel romanzo di George Orwell Nineteen Eighty-Four, dove il protagonista Winston Smith trascorre i suoi giorni riscrivendo la storia e creando, distruggendo e ’emendando’ foto.

Nell’esempio seguente, il problema con la seconda immagine è che ‘non sappiamo cosa non sappiamo’ – che l’ex capo della polizia segreta di Stalin, Nikolai Yezhov, un tempo occupava lo spazio dove ora c’è solo una barriera di sicurezza:

Ora lo vedi, ora è…vapore. La manipolazione fotografica dell’era di Stalin rimuove un membro del partito disonorato dalla storia. Fonte: dominio pubblico, via https://www.rferl.org/a/soviet-airbrushing-the-censors-who-scratched-out-history/29361426.html

Correnti di questo tipo, spesso ripetute, persistono in molti modi; non solo culturalmente, ma nella visione artificiale stessa, che deriva tendenze da temi e motivi statisticamente dominanti nei set di dati di training. Per dare un esempio, il fatto che gli smartphone abbiano abbassato la barriera all’ingresso e massicciamente abbassato il costo della fotografia, significa che la loro iconografia è diventata ineluttabilmente associata a molti concetti astratti, anche quando ciò non è appropriato.

Se il deepfaking convenzionale può essere percepito come un atto di ‘aggressione’, alterazioni minori e persistenti nei media audiovisivi sono più simili a ‘gaslighting’. Inoltre, la capacità di questo tipo di deepfaking di passare inosservato rende difficile identificarlo tramite sistemi di rilevamento di deepfake all’avanguardia (che cercano cambiamenti grossolani). Questo approccio è più simile all’acqua che erode la roccia nel corso di un lungo periodo, piuttosto che a una pietra lanciata contro una testa.

MultiFakeVerse

I ricercatori australiani hanno fatto un tentativo per affrontare la mancanza di attenzione al ‘sottile’ deepfaking nella letteratura, curando un nuovo set di dati sostanziale di manipolazioni di immagini centrate sulla persona che alterano il contesto, l’emozione e la narrazione senza cambiare l’identità centrale del soggetto:

Esempi campionati dalla nuova raccolta, coppie reali/falsi, con alcune alterazioni più sottili di altre. Nota, ad esempio, la perdita di autorità per la donna asiatica, in basso a destra, poiché il suo stetoscopio del medico viene rimosso dall’IA. Allo stesso tempo, la sostituzione del blocco del medico con la clipboard non ha un ovvio angolo semantico. Fonte: https://huggingface.co/datasets/parulgupta/MultiFakeVerse_preview

Intitolato MultiFakeVerse, la raccolta consiste di 845.826 immagini generate tramite modelli di linguaggio visivo (VLM), che possono essere accesse online e scaricate, con permesso.

Gli autori affermano:

‘Questo approccio guidato da VLM consente alterazioni semantiche e consapevoli del contesto, come la modifica delle azioni, delle scene e delle interazioni uomo-oggetto, piuttosto che scambi di identità sintetici o basso-livello e modifiche specifiche di regione che sono comuni nei set di dati esistenti.’

‘I nostri esperimenti rivelano che i modelli di rilevamento di deepfake attuali e gli osservatori umani lottano per rilevare queste manipolazioni sottili ma significative.’

I ricercatori hanno testato sia gli esseri umani che i sistemi di rilevamento di deepfake di punta sul loro nuovo set di dati per vedere quanto bene queste manipolazioni sottili potessero essere identificate. I partecipanti umani hanno lottato, classificando correttamente le immagini come reali o false solo circa il 62% delle volte, e hanno avuto ancora più difficoltà a individuare quali parti dell’immagine erano state alterate.

I rilevatori di deepfake esistenti, addestrati principalmente su set di dati di scambio di volti o di inpainting, hanno prestazioni scadenti, spesso fallendo nel registrare che si è verificata una manipolazione. Anche dopo fine-tuning su MultiFakeVerse, i tassi di rilevamento sono rimasti bassi, esponendo quanto male i sistemi attuali gestiscano questi sottili, narrazione-guidati, edit.

Il nuovo articolo è intitolato Multiverse Through Deepfakes: il set di dati MultiFakeVerse di manipolazioni visive e concettuali centrate sulla persona, e proviene da cinque ricercatori in diverse università a Melbourne e Perth. Il codice e i dati relativi sono stati rilasciati su GitHub, in aggiunta all’hosting Hugging Face menzionato in precedenza.

Metodo

Il set di dati MultiFakeVerse è stato costruito a partire da quattro set di immagini del mondo reale che presentano persone in situazioni diverse: EMOTIC; PISC, PIPA, e PIC 2.0. A partire da 86.952 immagini originali, i ricercatori hanno prodotto 758.041 versioni manipulate.

I framework Gemini-2.0-Flash e ChatGPT-4o sono stati utilizzati per proporre sei modifiche minime per ogni immagine – modifiche progettate per alterare sottilmente come la persona più prominente nell’immagine sarebbe percepita da un osservatore.

I modelli sono stati istruiti per generare modifiche che avrebbero reso il soggetto apparentemente ingenuo, orgoglioso, pentito, inesperto, o noncurante, o per regolare alcuni elementi fattuali all’interno della scena. Insieme a ogni modifica, i modelli hanno anche prodotto un espressione di riferimento per identificare chiaramente l’obiettivo della modifica, garantendo che il successivo processo di modifica potesse applicare le modifiche alla persona o all’oggetto corretto all’interno di ogni immagine.

Gli autori chiariscono:

‘Nota che l’espressione di riferimento è un dominio ampiamente esplorato nella comunità, che significa una frase che può disambiguare l’obiettivo in un’immagine, ad esempio per un’immagine con due uomini seduti su una scrivania, uno che parla al telefono e l’altro che guarda i documenti, un’espressione di riferimento adatta per quest’ultimo sarebbe l’uomo a sinistra che tiene un pezzo di carta.’

Una volta definite le modifiche, la manipolazione effettiva dell’immagine è stata eseguita tramite modelli di linguaggio visivo per applicare le modifiche specificate, lasciando intatta il resto della scena. I ricercatori hanno testato tre sistemi per questo compito: GPT-Image-1; Gemini-2.0-Flash-Image-Generation; e ICEdit.

Dopo aver generato ventiduemila immagini campione, Gemini-2.0-Flash è emerso come il metodo più coerente, producendo modifiche che si fondevano naturalmente nella scena senza introdurre artefatti visibili; ICEdit ha spesso prodotto falsificazioni più ovvie, con difetti evidenti nelle aree modificate; e GPT-Image-1 ha occasionalmente influenzato parti non intenzionali dell’immagine, in parte a causa della sua conformità ai rapporti di aspect ratio di output fissi.

Analisi delle immagini

Ogni immagine manipolata è stata confrontata con la sua originale per determinare quanto dell’immagine era stata alterata. Le differenze a livello di pixel tra le due versioni sono state calcolate, con il rumore casuale piccolo filtrato per concentrarsi su modifiche significative. In alcune immagini, solo aree minuscole sono state interessate; in altre, fino all’ottanta percento della scena è stata modificata.

Per valutare quanto il significato di ogni immagine si sia spostato alla luce di queste alterazioni, sono state generate didascalie per entrambe le immagini originali e manipulate utilizzando il modello di linguaggio visivo ShareGPT-4V.

Queste didascalie sono state quindi convertite in incorporamenti utilizzando Long-CLIP, consentendo un confronto di quanto il contenuto sia divergente tra le versioni. I cambiamenti semantici più forti sono stati osservati nei casi in cui gli oggetti vicini o direttamente coinvolti con la persona erano stati alterati, poiché queste piccole modifiche potevano cambiare notevolmente come l’immagine veniva interpretata.

Gemini-2.0-Flash è stato quindi utilizzato per classificare il tipo di manipolazione applicata a ogni immagine, in base a dove e come le modifiche sono state apportate. Le manipolazioni sono state raggruppate in tre categorie: modifiche a livello di persona coinvolgevano cambiamenti nell’espressione facciale del soggetto, nella posa, nello sguardo, nel vestito o in altre caratteristiche personali; modifiche a livello di oggetto hanno interessato oggetti connessi alla persona, come oggetti che stavano tenendo o interagendo con in primo piano; e modifiche a livello di scena hanno coinvolto elementi di sfondo o aspetti più ampi dell’ambientazione che non coinvolgevano direttamente la persona.

La pipeline di generazione del set di dati MultiFakeVerse inizia con immagini reali, dove i modelli di linguaggio visivo propongono modifiche narrative che coinvolgono persone, oggetti o scene. Queste istruzioni vengono quindi applicate da modelli di editing di immagini. Il pannello di destra mostra la proporzione di modifiche a livello di persona, oggetto e scena in tutto il set di dati. Fonte: https://arxiv.org/pdf/2506.00868

Poiché le immagini individuali potevano contenere più tipi di modifiche contemporaneamente, la distribuzione di queste categorie è stata mappata in tutto il set di dati. Circa un terzo delle modifiche ha mirato solo alla persona, circa un quinto ha interessato solo la scena, e circa un sesto erano limitate agli oggetti.

Valutazione dell’impatto percepito

Gemini-2.0-Flash è stato utilizzato per valutare come le manipolazioni potrebbero alterare la percezione di un osservatore in sei aree: emozione, identità personale, dinamiche di potere, narrativa della scena, intento di manipolazione, e preoccupazioni etiche.

Per emozione, le modifiche sono state spesso descritte con termini come gioioso, coinvolgente, o accessibile, suggerendo spostamenti in come i soggetti sono inquadrati emotivamente. In termini di narrazione, parole come professionale o diverso indicavano cambiamenti nella storia o nell’ambientazione implicita:

Gemini-2.0-Flash è stato istruito per valutare come ogni manipolazione abbia influenzato sei aspetti della percezione dell’osservatore. Sinistra: esempio di struttura di prompt che guida la valutazione del modello. Destra: nuvole di parole che riassumono gli spostamenti in emozione, identità, narrazione della scena, intento, dinamiche di potere e preoccupazioni etiche in tutto il set di dati.

Le descrizioni degli spostamenti di identità includevano termini come giovane, gioioso, e vulnerabile, mostrando come piccole modifiche potessero influenzare come gli individui erano percepiti. L’intento dietro molte modifiche è stato etichettato come persuasivo, ingannevole, o estetico. Mentre la maggior parte delle modifiche è stata giudicata per sollevare solo preoccupazioni etiche lievi, una piccola frazione è stata vista come portatrice di implicazioni etiche moderate o gravi.

Esempi da MultiFakeVerse che mostrano come piccole modifiche spostino la percezione dell’osservatore. Le caselle gialle evidenziano le aree alterate, con analisi accompagnatoria dei cambiamenti in emozione, identità, narrazione e preoccupazioni etiche.

Metriche

La qualità visiva della raccolta MultiFakeVerse è stata valutata utilizzando tre metriche standard: Rapporto di segnale a rumore di picco (PSNR); Indice di similarità strutturale (SSIM); e Distanza di Fréchet di Inception (FID):

Punteggi di qualità dell’immagine per MultiFakeVerse misurati da PSNR, SSIM e FID.

Il punteggio SSIM di 0,5774 riflette un grado moderato di similarità, coerente con l’obiettivo di preservare la maggior parte dell’immagine mentre si applicano modifiche mirate; il punteggio FID di 3,30 suggerisce che le immagini generate mantengono una qualità e una diversità elevate; e un valore PSNR di 66,30 decibel indica che le immagini mantengono una buona fedeltà visiva dopo la manipolazione.

Studio utente

Uno studio utente è stato condotto per vedere quanto bene le persone potessero individuare i falsi sottili in MultiFakeVerse. Diciotto partecipanti sono stati mostrati cinquanta immagini, equamente divise tra esempi reali e manipulate che coprono una gamma di tipi di modifiche. Ogni persona è stata chiesta di classificare se l’immagine era reale o falsa, e, se falsa, di identificare che tipo di manipolazione era stata applicata.

La precisione complessiva per decidere reale o falso è stata del 61,67%, il che significa che i partecipanti hanno classificato male le immagini più di un terzo delle volte.

Gli autori affermano:

‘Analizzando le previsioni umane dei livelli di manipolazione per le immagini false, l’intersezione media tra le previsioni e i livelli di manipolazione effettivi è stata trovata essere del 24,96%.

‘Ciò mostra che non è banale per gli osservatori umani identificare le regioni di manipolazione nel nostro set di dati.’

La costruzione del set di dati MultiFakeVerse ha richiesto risorse computazionali estese: per la generazione di istruzioni di modifica, oltre 845.000 chiamate API sono state effettuate ai modelli Gemini e GPT, con questi compiti di prompt che sono costati circa 1000 dollari; la produzione delle immagini basate su Gemini ha costato circa 2867 dollari; e la generazione di immagini utilizzando GPT-Image-1 ha costato circa 200 dollari. Le immagini ICEdit sono state create localmente su un’unità GPU NVIDIA A6000, completando il compito in circa ventiquattro ore.

Test

Prima dei test, il set di dati è stato diviso in set di training, convalida e test dividendo per prima cosa il 70% delle immagini reali per il training; il 10% per la convalida; e il 20% per il test. Le immagini manipulate generate da ogni immagine reale sono state assegnate allo stesso set della loro immagine originale.

Ulteriori esempi di contenuto reale (a sinistra) e alterato (a destra) dal set di dati.

Le prestazioni nel rilevamento di falsi sono state misurate utilizzando l’accuratezza a livello di immagine (se il sistema classifica correttamente l’intera immagine come reale o falsa) e punteggi F1. Per la localizzazione delle regioni manipulate, la valutazione ha utilizzato Area Under the Curve (AUC), punteggi F1 e intersezione su unione (IoU).

Il set di dati MultiFakeVerse è stato utilizzato contro i principali sistemi di rilevamento di deepfake sul set di test completo, con i framework rivali che sono CnnSpot; AntifakePrompt; TruFor; e il visione-linguaggio basato SIDA. Ogni modello è stato valutato per prima cosa in modalità zero-shot, utilizzando i suoi pesi pre-addestrati originali senza ulteriore regolazione.

Due modelli, CnnSpot e SIDA, sono stati quindi fine-tuned sul set di dati di training MultiFakeVerse per valutare se il ritraining migliorava le prestazioni.

Risultati di rilevamento di deepfake su MultiFakeVerse in condizioni zero-shot e fine-tuned. I numeri tra parentesi mostrano i cambiamenti dopo il fine-tuning.

Tra questi risultati, gli autori affermano:

‘[I] modelli addestrati su falsi di inpainting precedenti lottano per identificare le nostre frodi basate su VLM, in particolare, CNNSpot tende a classificare quasi tutte le immagini come reali. AntifakePrompt ha le migliori prestazioni zero-shot con un’accuratezza media della classe del 66,87% e un punteggio F1 del 55,55%.

‘Dopo il fine-tuning sul nostro set di training, osserviamo un miglioramento delle prestazioni sia in CNNSpot che in SIDA-13B, con CNNSpot che supera SIDA-13B in termini di accuratezza media della classe (del 1,92%) e punteggio F1 (del 1,97%).’

SIDA-13B è stato valutato su MultiFakeVerse per misurare quanto precisamente potesse localizzare le regioni manipulate all’interno di ogni immagine.

In stato originale, ha raggiunto un punteggio di intersezione su unione di 13,10, un punteggio F1 di 19,92 e un’AUC di 14,06, riflettendo una prestazione di localizzazione debole.

Dopo il fine-tuning, i punteggi sono migliorati a 24,74 per IoU, 39,40 per F1 e 37,53 per AUC. Tuttavia, anche con ulteriore addestramento, il modello ha ancora avuto difficoltà a trovare esattamente dove le modifiche erano state apportate, evidenziando quanto difficile possa essere rilevare questo tipo di piccole, mirate modifiche.

Conclusione

Il nuovo studio espone un punto cieco sia nella percezione umana che in quella della macchina: mentre gran parte del dibattito pubblico sui deepfake si è concentrato su scambi di identità di alto profilo, questi ‘tagli di narrazione’ più silenziosi sono più difficili da rilevare e potenzialmente più corrosivi nel lungo termine.

Mentre sistemi come ChatGPT e Gemini svolgono un ruolo più attivo nella generazione di questo tipo di contenuto, e mentre noi stessi partecipiamo sempre più alla modifica della realtà dei nostri flussi di foto, i modelli di rilevamento che si affidano a manipolazioni grossolane possono offrire una difesa inadeguata.

Ciò che MultiFakeVerse dimostra non è che il rilevamento abbia fallito, ma che almeno parte del problema potrebbe essere in movimento verso una forma più difficile, più lenta: una in cui piccole bugie visive si accumulano inosservate.

Pubblicato per la prima volta giovedì, 5 giugno 2025