Seguici sui social

I deepfake più piccoli potrebbero rappresentare la minaccia più grande

L'angolo di Anderson

I deepfake più piccoli potrebbero rappresentare la minaccia più grande

mm
Immagini di pubblico dominio + Flux.1 Kontext Pro e Adobe Firefly

Strumenti di intelligenza artificiale conversazionale come ChatGPT e Google Gemini vengono ora utilizzati per creare deepfake che non scambiano i volti, ma che in modi più sottili possono riscrivere l'intera storia all'interno di un'immagine. Modificando gesti, oggetti di scena e sfondi, queste modifiche ingannano sia i rilevatori di intelligenza artificiale che gli esseri umani, aumentando la posta in gioco nell'individuazione di ciò che è reale online.

 

Nel clima attuale, in particolare sulla scia di importanti normative come la TOGLIETELO atto, molti di noi associano i deepfake e la sintesi dell'identità guidata dall'intelligenza artificiale con la pornografia non consensuale dell'intelligenza artificiale e la manipolazione politica – in generale, lordo distorsioni della verità.

Ciò ci porta ad aspettarci che le immagini manipolate dall'intelligenza artificiale siano sempre destinate a contenuti di alto profilo, in cui la qualità del rendering e la manipolazione del contesto potrebbero riuscire a dare un colpo di credibilità, almeno nel breve termine.

Storicamente, tuttavia, alterazioni molto più sottili hanno spesso avuto un effetto più sinistro e duraturo, come l’inganno fotografico all’avanguardia che ha permesso a Stalin di rimuovi quelli che era caduto in disgrazia nella documentazione fotografica, come satireggiato nel romanzo di George Orwell 1984, dove il protagonista Winston Smith trascorre le sue giornate riscrivendo la storia e facendo creare, distruggere e "modificare" le sue foto.

Nell'esempio seguente, il problema con il secondo l'immagine è che "non sappiamo cosa non sappiamo" – che l'ex capo della polizia segreta di Stalin, Nikolai Yezhov, occupava lo spazio dove ora c'è solo una barriera di sicurezza:

Ora lo vedi, ora è... vapore. La manipolazione fotografica dell'era staliniana rimuove dalla storia un membro del partito caduto in disgrazia. Fonte: Pubblico dominio, tramite https://www.rferl.org/a/soviet-airbrushing-the-censors-who-scratched-out-history/29361426.html

Ora lo vedi, ora è... vapore. La manipolazione fotografica dell'era staliniana cancella dalla storia un membro del partito caduto in disgrazia. Fonte: pubblico dominio, tramite https://www.rferl.org/a/soviet-airbrushing-the-censors-who-scratched-out-history/29361426.html

Correnti di questo tipo, spesso ripetute, persistono in molti modi; non solo culturalmente, ma nella stessa visione artificiale, che trae le tendenze da temi e motivi statisticamente dominanti nei set di dati di addestramento. Per fare un esempio, il fatto che gli smartphone abbiano abbassato la barriera all'ingresso, e massicciamente ha abbassato il costo della fotografia, significa che la loro iconografia è diventata ineluttabilmente associata a molti concetti astratti, anche quando questo non è appropriato.

Se il deepfaking convenzionale può essere percepito come un atto di "aggressione", piccole alterazioni perniciose e persistenti nei media audiovisivi sono più simili al "gaslighting". Inoltre, la capacità di questo tipo di deepfaking di passare inosservato rende difficile l'identificazione tramite i sistemi di rilevamento dei deepfake all'avanguardia (che cercano cambiamenti grossolani). Questo approccio è più simile all'acqua che erode una roccia per un periodo prolungato, che a una pietra lanciata contro una testa.

MultiFakeVerse

I ricercatori australiani hanno tentato di affrontare la mancanza di attenzione al deepfaking "sottile" nella letteratura, curando un nuovo e consistente set di dati di manipolazioni di immagini incentrate sulla persona che alterano il contesto, le emozioni e la narrazione senza cambiare l'identità fondamentale del soggetto:

Campionati dalla nuova collezione, coppie reale/falso, con alcune alterazioni più sottili di altre. Si noti, ad esempio, la perdita di autorità per la donna asiatica, in basso a destra, quando lo stetoscopio del suo medico viene rimosso dall'IA. Allo stesso tempo, la sostituzione del blocco note del medico con la cartella clinica non ha un'evidente utilità semantica. Fonte: https://huggingface.co/datasets/parulgupta/MultiFakeVerse_preview

Tratto dalla nuova collezione, coppie reale/falso, con alcune alterazioni più sottili di altre. Si noti, ad esempio, la perdita di autorevolezza della donna asiatica, in basso a destra, quando lo stetoscopio del suo medico viene rimosso dall'IA. Allo stesso tempo, la sostituzione del blocco note del medico con la cartella clinica non ha un'evidente utilità semantica.Fonte: https://huggingface.co/datasets/parulgupta/MultiFakeVerse_preview

Titolato MultiFakeVerse, la raccolta è composta da 845,826 immagini generate tramite modelli di linguaggio visivo (VLM), che possono essere accesso online e scaricato, con permesso.

Gli autori affermano:

Questo approccio basato su VLM consente alterazioni semantiche e contestuali, come la modifica di azioni, scene e interazioni tra esseri umani e oggetti, anziché scambi di identità sintetici o di basso livello e modifiche specifiche per regione, comuni nei set di dati esistenti.

"I nostri esperimenti rivelano che gli attuali modelli di rilevamento dei deepfake all'avanguardia e gli osservatori umani hanno difficoltà a rilevare queste manipolazioni sottili ma significative".

I ricercatori hanno testato sia esseri umani che i principali sistemi di rilevamento deepfake sul loro nuovo set di dati per verificare con quale accuratezza queste sottili manipolazioni potessero essere identificate. I partecipanti umani hanno avuto difficoltà, classificando correttamente le immagini come reali o false solo nel 62% circa dei casi, e hanno avuto ancora più difficoltà a individuare quali parti dell'immagine fossero state alterate.

Anche i rilevatori di deepfake esistenti, addestrati principalmente su dataset di face-swapping o inpainting più evidenti, hanno funzionato male, spesso non riuscendo a registrare alcuna manipolazione. Anche dopo ritocchi su MultiFakeVerse, i tassi di rilevamento sono rimasti bassi, evidenziando quanto male i sistemi attuali gestiscano queste modifiche sottili e basate sulla narrazione.

Migliori nuovo documento è intitolato Multiverso attraverso i Deepfake: il dataset MultiFakeVerse di manipolazioni visive e concettuali incentrate sulla personae proviene da cinque ricercatori della Monash University di Melbourne e della Curtin University di Perth. Il codice e i dati correlati sono stati pubblicati. su GitHub, oltre all'hosting di Hugging Face menzionato in precedenza.

Metodo

Il set di dati MultiFakeVerse è stato creato a partire da quattro set di immagini del mondo reale che ritraggono persone in diverse situazioni: EMOTICO; PISC, TUBOe FOTO 2.0Partendo da 86,952 immagini originali, i ricercatori hanno prodotto 758,041 versioni manipolate.

Migliori Gemini-2.0-Flash e ChatGPT-4o Sono stati utilizzati framework per proporre sei modifiche minime per ogni immagine, modifiche studiate per alterare in modo sottile il modo in cui la persona più in evidenza nell'immagine sarebbe percepita dall'osservatore.

Ai modelli è stato chiesto di generare modifiche che avrebbero fatto apparire il soggetto ingenuo, orgoglioso, pentito, inesperto, o indifferente, o per regolare qualche elemento fattuale all'interno della scena. Insieme a ogni modifica, i modelli hanno anche prodotto un espressione di riferimento per identificare chiaramente l'obiettivo della modifica, assicurando che il successivo processo di editing possa applicare le modifiche alla persona o all'oggetto corretto in ogni immagine.

Gli autori chiariscono:

'Notare che espressione di riferimento è un dominio ampiamente esplorato nella comunità, che significa una frase che può disambiguare il target in un'immagine, ad esempio per un'immagine con due uomini seduti su una scrivania, uno che parla al telefono e l'altro che guarda dei documenti, un'espressione di riferimento adatta per quest'ultimo sarebbe l'uomo a sinistra tiene in mano un pezzo di carta. '

Una volta definite le modifiche, la manipolazione vera e propria dell'immagine è stata eseguita sollecitando i modelli di linguaggio visivo ad applicare le modifiche specificate, lasciando intatto il resto della scena. I ricercatori hanno testato tre sistemi per questo compito: Immagine GPT-1; Generazione di immagini flash Gemini 2.0, E ICModifica.

Dopo aver generato ventiduemila immagini campione, Gemini-2.0-Flash è emerso come il metodo più coerente, producendo modifiche che si fondevano naturalmente nella scena senza introdurre artefatti visibili; ICEdit produceva spesso falsificazioni più evidenti, con difetti evidenti nelle regioni modificate; e GPT-Image-1 occasionalmente influenzava parti indesiderate dell'immagine, in parte a causa della sua conformità ai rapporti di aspetto di output fissi.

Analisi delle immagini

Ogni immagine manipolata è stata confrontata con l'originale per determinare quanto fosse stata alterata. Sono state calcolate le differenze a livello di pixel tra le due versioni, filtrando il rumore casuale per concentrarsi sulle modifiche significative. In alcune immagini, solo piccole aree sono state interessate; in altre, fino a l'ottanta per cento della scena è stato modificato.

Per valutare quanto il significato di ciascuna immagine si sia spostato alla luce di queste alterazioni, sono state generate didascalie sia per le immagini originali che per quelle manipolate utilizzando CondividiGPT-4V modello visione-linguaggio.

Queste didascalie sono state poi convertite in incorporamenti utilizzando CLIP lungo, consentendo un confronto di quanto il contenuto differisse tra le versioni. I cambiamenti semantici più significativi si sono osservati nei casi in cui erano stati modificati oggetti vicini o che coinvolgevano direttamente la persona, poiché questi piccoli aggiustamenti potevano modificare significativamente l'interpretazione dell'immagine.

Gemini-2.0-Flash è stato quindi utilizzato per classificare il Digitare di manipolazione applicata a ciascuna immagine, in base a dove e come sono state apportate le modifiche. Le manipolazioni sono state raggruppate in tre categorie: livello personale le modifiche hanno comportato cambiamenti nell'espressione facciale, nella posa, nello sguardo, nell'abbigliamento o in altre caratteristiche personali del soggetto; a livello di oggetto le modifiche hanno interessato gli elementi collegati alla persona, come gli oggetti che teneva in mano o con cui interagiva in primo piano; e livello di scena le modifiche riguardavano elementi di sfondo o aspetti più ampi dell'ambientazione che non coinvolgevano direttamente la persona.

La pipeline di generazione del dataset MultiFakeVerse inizia con immagini reali, dove i modelli di linguaggio visivo propongono modifiche narrative mirate a persone, oggetti o scene. Queste istruzioni vengono poi applicate dai modelli di editing delle immagini. Il pannello di destra mostra la proporzione di manipolazioni a livello di persona, oggetto e scena nel dataset. Fonte: https://arxiv.org/pdf/2506.00868

La pipeline di generazione del dataset MultiFakeVerse inizia con immagini reali, dove i modelli di linguaggio visivo propongono modifiche narrative mirate a persone, oggetti o scene. Queste istruzioni vengono poi applicate dai modelli di editing delle immagini. Il pannello di destra mostra la proporzione di manipolazioni a livello di persona, oggetto e scena nel dataset. Fonte: https://arxiv.org/pdf/2506.00868

Poiché le singole immagini potevano contenere più tipi di modifiche contemporaneamente, la distribuzione di queste categorie è stata mappata nel dataset. Circa un terzo delle modifiche riguardava solo la persona, circa un quinto riguardava solo la scena e circa un sesto era limitato agli oggetti.

Valutazione dell'impatto percettivo

Gemini-2.0-Flash è stato utilizzato per valutare in che modo le manipolazioni potrebbero alterare la percezione dell'osservatore in sei aree: emozione, identità personale, energia dinamica, narrazione della scena, intento di manipolazionee questioni etiche.

Per emozione, le modifiche venivano spesso descritte con termini come gioioso, impegnandosi, o accessibile, suggerendo cambiamenti nel modo in cui i soggetti venivano inquadrati emotivamente. In termini narrativi, parole come professionale or diverso cambiamenti indicati alla storia o all'ambientazione implicita:

Gemini-2.0-Flash è stato invitato a valutare in che modo ciascuna manipolazione influisse su sei aspetti della percezione dello spettatore. A sinistra: esempio di struttura del prompt che guida la valutazione del modello. A destra: word cloud che riassumono i cambiamenti di emozione, identità, narrazione della scena, intento, dinamiche di potere e preoccupazioni etiche nel dataset.

Gemini-2.0-Flash è stato invitato a valutare in che modo ciascuna manipolazione influisse su sei aspetti della percezione dello spettatore. A sinistra: esempio di struttura del prompt che guida la valutazione del modello. A destra: word cloud che riassumono i cambiamenti di emozione, identità, narrazione della scena, intento, dinamiche di potere e preoccupazioni etiche nel dataset.

Le descrizioni dei cambiamenti di identità includevano termini come minore, giocosoe vulnerabile, mostrando come piccoli cambiamenti potessero influenzare la percezione degli individui. L'intento dietro molte modifiche è stato etichettato come persuasivo, ingannevole, o esteticoMentre la maggior parte delle modifiche sono state giudicate tali da sollevare solo lievi preoccupazioni etiche, una piccola parte è stata ritenuta comportare implicazioni etiche moderate o gravi.

Esempi tratti da MultiFakeVerse che mostrano come piccole modifiche modifichino la percezione dello spettatore. I riquadri gialli evidenziano le aree modificate, con un'analisi dei cambiamenti in termini di emozioni, identità, narrazione e preoccupazioni etiche.

Esempi tratti da MultiFakeVerse che mostrano come piccole modifiche modifichino la percezione dello spettatore. I riquadri gialli evidenziano le aree modificate, con un'analisi dei cambiamenti in termini di emozioni, identità, narrazione e preoccupazioni etiche.

Metrica

La qualità visiva della raccolta MultiFakeVerse è stata valutata utilizzando tre parametri standard: Rapporto segnale/rumore di picco (PSNR); Indice di similarità strutturale (SSIM); e Distanza iniziale di Fréchet (FID):

Punteggi di qualità delle immagini per MultiFakeVerse misurati da PSNR, SSIM e FID.

Punteggi di qualità delle immagini per MultiFakeVerse misurati da PSNR, SSIM e FID.

Il punteggio SSIM di 0.5774 riflette un grado moderato di somiglianza, coerente con l'obiettivo di preservare la maggior parte dell'immagine applicando modifiche mirate; il punteggio FID di 3.30 suggerisce che le immagini generate mantengono un'elevata qualità e diversità; e un valore PSNR di 66.30 decibel indica che le immagini mantengono una buona fedeltà visiva dopo la manipolazione.

Studio dell'utente

È stato condotto uno studio sugli utenti per verificare quanto fossero efficaci nel riconoscere i falsi sottili in MultiFakeVerse. A diciotto partecipanti sono state mostrate cinquanta immagini, equamente suddivise tra esempi reali e manipolati, che comprendevano una vasta gamma di tipi di modifica. A ogni persona è stato chiesto di classificare se l'immagine fosse reale o falsa e, in caso di falsità, di identificare il tipo di manipolazione applicata.

La precisione complessiva nel distinguere le immagini vere da quelle false è stata del 61.67%, il che significa che i partecipanti hanno classificato male le immagini in più di un terzo dei casi.

Gli autori affermano:

Analizzando le previsioni umane sui livelli di manipolazione delle immagini false, l'intersezione media sull'unione tra i livelli di manipolazione previsti e quelli effettivi è risultata essere del 24.96%.

"Ciò dimostra che non è banale per gli osservatori umani identificare le regioni di manipolazione nel nostro set di dati."

La creazione del dataset MultiFakeVerse ha richiesto ingenti risorse di calcolo: per generare le istruzioni di modifica, sono state effettuate oltre 845,000 chiamate API ai modelli Gemini e GPT, con un costo di queste attività di prompt di circa 1000 dollari; la produzione delle immagini basate su Gemini è costata circa 2,867 dollari; e la generazione di immagini utilizzando GPT-Image-1 è costata circa 200 dollari. Le immagini ICEdit sono state create localmente su una GPU NVIDIA A6000, completando l'attività in circa ventiquattro ore.

Test

Prima dei test, il set di dati era Diviso in set di addestramento, convalida e test selezionando prima il 70% delle immagini reali per l'addestramento, il 10% per la convalida e il 20% per il test. Le immagini manipolate generate da ciascuna immagine reale sono state assegnate allo stesso set dell'originale corrispondente.

Ulteriori esempi di contenuti reali (a sinistra) e modificati (a destra) dal set di dati.

Ulteriori esempi di contenuti reali (a sinistra) e modificati (a destra) dal set di dati.

Le prestazioni nel rilevamento dei falsi sono state misurate utilizzando l'accuratezza a livello di immagine (se il sistema classifica correttamente l'intera immagine come reale o falsa) e Punteggio F1Per localizzare le regioni manipolate, la valutazione utilizzata Area sotto la curva (AUC), punteggi F1 e intersezione su unione (IoU).

Il set di dati MultiFakeVerse è stato utilizzato contro i principali sistemi di rilevamento deepfake sul set di test completo, con i framework rivali CnnSpot; AntifakePrompt; TruFor; e la visione basata sul linguaggio AIDSOgni modello è stato prima valutato in colpo zero modalità, utilizzando il suo pre-addestrato originale pesi senza ulteriori aggiustamenti.

Furono quindi sviluppati due modelli, CnnSpot e SIDA. messo a punto sui dati di addestramento MultiFakeVerse per valutare se il riaddestramento abbia migliorato le prestazioni.

Risultati del rilevamento di deepfake su MultiFakeVerse in condizioni zero-shot e fine-tuning. I numeri tra parentesi mostrano le variazioni dopo la fine-tuning.

Risultati del rilevamento di deepfake su MultiFakeVerse in condizioni zero-shot e fine-tuning. I numeri tra parentesi mostrano le variazioni dopo la fine-tuning.

Di questi risultati, gli autori affermano:

"[I] modelli addestrati su falsi basati su inpainting precedenti faticano a identificare i nostri falsi basati su VLM-Editing; in particolare, CNNSpot tende a classificare quasi tutte le immagini come reali. AntifakePrompt ha le migliori prestazioni zero-shot con una precisione media del 66.87% per classe e un punteggio F55.55 del 1%.

"Dopo la messa a punto del nostro set di treni, abbiamo osservato un miglioramento delle prestazioni sia in CNNSpot che in SIDA-13B, con CNNSpot che supera SIDA-13B sia in termini di accuratezza media per classe (dell'1.92%) sia di punteggio F1 (dell'1.97%)."

SIDA-13B è stato valutato su MultiFakeVerse per misurarne la precisione di localizzazione delle regioni manipolate all'interno di ciascuna immagine. Il modello è stato testato sia in modalità zero-shot che dopo un'ottimizzazione sul dataset.

Nel suo stato originale, ha raggiunto un punteggio di intersezione su unione di 13.10, un punteggio F1 di 19.92 e un'AUC di 14.06, riflettendo scarse prestazioni di localizzazione.

Dopo la messa a punto, i punteggi sono migliorati a 24.74 per IoU, 39.40 per F1 e 37.53 per AUC. Tuttavia, anche con un addestramento aggiuntivo, il modello ha ancora avuto difficoltà a individuare esattamente dove fossero state apportate le modifiche, evidenziando quanto possa essere difficile rilevare questo tipo di piccole modifiche mirate.

Conclusione

Il nuovo studio mette in luce un punto cieco sia nella percezione umana che in quella delle macchine: mentre gran parte del dibattito pubblico sui deepfake si è concentrato su scambi di identità che catturano l'attenzione, queste "modifiche narrative" più discrete sono più difficili da rilevare e potenzialmente più corrosive nel lungo termine.

Poiché sistemi come ChatGPT e Gemini assumono un ruolo più attivo nella generazione di questo tipo di contenuti, e poiché noi stessi partecipare sempre di più nell'alterare la realtà dei nostri flussi di foto, i modelli di rilevamento che si basano sull'individuazione di manipolazioni grossolane potrebbero offrire una difesa inadeguata.

Ciò che dimostra MultiFakeVerse non è che il rilevamento sia fallito, ma che almeno parte del problema potrebbe trasformarsi in una forma più difficile e lenta: una in cui piccole bugie visive si accumulano inosservate.

 

Prima pubblicazione giovedì 5 giugno 2025

Scrittore di machine learning, specialista di dominio nella sintesi di immagini umane. Ex responsabile dei contenuti di ricerca presso Metaphysic.ai.
Sito personale: martinandson.ai
Contatti: [email protected]
Twitter: @manders_ai