Seguici sui social

L'angolo di Anderson

Esporre piccole ma significative modifiche AI ​​in video reali

mm
Montaggio di illustrazioni dal documento 'Rilevamento di manipolazioni deepfake localizzate mediante rappresentazioni video guidate da unità di azione' (https://arxiv.org/pdf/2503.22121)

Nel 2019, la Speaker della Camera dei rappresentanti degli Stati Uniti Nancy Pelosi è stata oggetto di un attacco mirato e piuttosto low-tech in stile deepfake, quando un suo vero video è stato modificato per farla sembrare ubriaca, un incidente irreale che è stato condiviso milioni di volte prima che la verità venisse fuori (e, potenzialmente, dopo che un danno ostinato al suo capitale politico fosse stato arrecato da coloro che non erano rimasti in contatto con la storia).

Sebbene questa falsa rappresentazione abbia richiesto solo un semplice editing audiovisivo, senza l'intervento dell'intelligenza artificiale, resta un esempio chiave di come anche piccoli cambiamenti nell'output audiovisivo reale possano avere effetti devastanti.

All'epoca, la scena deepfake era dominata da basato su autoencoder sistemi di sostituzione del viso che avevano debuttato alla fine del 2017 e che da allora non erano migliorati in modo significativo in termini di qualità. Tali primi sistemi avrebbero avuto difficoltà a creare questo tipo di piccole ma significative modifiche o a perseguire realisticamente filoni di ricerca moderni come modifica dell'espressione:

Il recente framework 'Neural Emotion Director' cambia l'umore di un volto famoso. Fonte: https://www.youtube.com/watch?v=Li6W8pRDMJQ

Il framework "Neural Emotion Director" del 2022 cambia l'umore di un volto famoso. Fonte: https://www.youtube.com/watch?v=Li6W8pRDMJQ

Le cose ora sono molto diverse. L'industria cinematografica e televisiva è seriamente interessato nell'alterazione post-produzione di performance reali utilizzando approcci di apprendimento automatico e facilitazione dell'IA post fatto il perfezionismo ha persino sono stati recentemente criticati.

Anticipando (o forse creando) questa domanda, la scena della ricerca sulla sintesi di immagini e video ha lanciato una vasta gamma di progetti che offrono "modifiche locali" di acquisizioni facciali, piuttosto che sostituzioni vere e proprie: progetti di questo tipo includono Autoencoder video a diffusione; Cucilo in tempo; ChatFace; MagicFace, E DISCO.

Expression-editing con il progetto MagicFace di gennaio 2025. Fonte: https://arxiv.org/pdf/2501.02260

Modifica delle espressioni con il progetto MagicFace di gennaio 2025. Fonte: https://arxiv.org/pdf/2501.02260

Nuovi volti, nuove rughe

Tuttavia, le tecnologie abilitanti si stanno sviluppando molto più rapidamente dei metodi per rilevarle. Quasi tutti i metodi di rilevamento dei deepfake che emergono in letteratura stanno inseguendo i metodi dei deepfake di ieri con set di dati di ieriFino a questa settimana, nessuno di loro aveva affrontato il potenziale strisciante dei sistemi di intelligenza artificiale di creare piccole e attuali alterazioni locali nei video.

Ora, un nuovo documento dall'India ha posto rimedio a questa situazione, con un sistema che cerca di identificare i volti che sono stati modificato (piuttosto che sostituiti) attraverso tecniche basate sull'intelligenza artificiale:

Rilevamento di modifiche locali sottili nei deepfake: un video reale viene alterato per produrre falsi con cambiamenti sfumati come sopracciglia alzate, tratti di genere modificati e cambiamenti nell'espressione verso il disgusto (illustrati qui con un singolo fotogramma). Fonte: https://arxiv.org/pdf/2503.22121

Rilevamento di lievi modifiche locali nei deepfake: un video reale viene alterato per produrre falsi con modifiche sfumate, come sopracciglia alzate, tratti di genere modificati e cambiamenti nell'espressione verso il disgusto (qui illustrati con un singolo fotogramma). Fonte: https://arxiv.org/pdf/2503.22121

Il sistema degli autori è mirato a identificare i deepfake che comportano manipolazioni facciali sottili e localizzate, una categoria di falsificazione altrimenti trascurata. Anziché concentrarsi su incongruenze globali o discrepanze di identità, l'approccio mira a modifiche più dettagliate, come lievi cambiamenti di espressione o piccole modifiche a specifici tratti del viso.

Il metodo utilizza il delimitatore delle unità di azione (AU) nel Sistema di codifica dell'azione facciale (FACS), che definisce 64 possibili aree individuali mutabili del viso, che insieme formano le espressioni.

Alcune delle 64 parti di espressione costituenti in FACS. Fonte: https://www.cs.cmu.edu/~face/facs.htm

Alcune delle 64 parti di espressione costituenti il ​​FACS. Fonte: https://www.cs.cmu.edu/~face/facs.htm

Gli autori hanno valutato il loro approccio rispetto a una serie di metodi di modifica recenti e segnalano miglioramenti costanti delle prestazioni, sia con set di dati più vecchi che con vettori di attacco molto più recenti:

"Utilizzando le funzionalità basate su AU per guidare le rappresentazioni video apprese tramite Masked Autoencoders [(MAE)], il nostro metodo cattura in modo efficace i cambiamenti localizzati, fondamentali per rilevare anche le più piccole modifiche facciali.

"Questo approccio ci consente di costruire una rappresentazione latente unificata che codifica sia le modifiche localizzate sia le alterazioni più ampie nei video incentrati sul volto, fornendo una soluzione completa e adattabile per il rilevamento dei deepfake".

. nuovo documento è intitolato Rilevamento di manipolazioni deepfake localizzate mediante rappresentazioni video guidate da unità di azionee proviene da tre autori dell'Indian Institute of Technology di Madras.

Metodo

In linea con l’approccio adottato da VideoMAE, il nuovo metodo inizia applicando il rilevamento dei volti a un video e campionando fotogrammi uniformemente distanziati centrati sui volti rilevati. Questi fotogrammi vengono quindi divisi in piccole divisioni 3D (vale a dire, abilitate temporalmente patch), ognuno dei quali cattura dettagli spaziali e temporali locali.

Schema per il nuovo metodo. Il video in ingresso viene elaborato con il rilevamento del volto per estrarre fotogrammi uniformemente distanziati e centrati sul volto, che vengono poi divisi in patch tubolari e passati attraverso un codificatore che fonde rappresentazioni latenti da due attività di pretesto pre-addestrate. Il vettore risultante viene poi utilizzato da un classificatore per determinare se il video è reale o falso.

Schema del nuovo metodo. Il video in ingresso viene elaborato con il rilevamento facciale per estrarre fotogrammi uniformemente distanziati e centrati sul volto, che vengono poi suddivisi in patch "tubulari" e passati attraverso un codificatore che fonde le rappresentazioni latenti di due compiti pre-addestrati. Il vettore risultante viene quindi utilizzato da un classificatore per determinare se il video è reale o falso.

Ogni patch 3D contiene una finestra di pixel di dimensioni fisse (ad esempio, 16×16) da un piccolo numero di fotogrammi successivi (ad esempio, 2). Ciò consente al modello di apprendere cambiamenti di movimento ed espressione a breve termine, non solo l'aspetto del viso, ma come si muove.

Le patch sono incorporate e codificato in modo posizionale prima di essere passati a un codificatore progettato per estrarre caratteristiche in grado di distinguere il vero dal falso.

Gli autori riconoscono che ciò è particolarmente difficile quando si ha a che fare con manipolazioni sottili e affrontano questo problema costruendo un codificatore che combina due tipi separati di rappresentazioni apprese, utilizzando un attenzione incrociata meccanismo per fonderli. Questo è destinato a produrre un più sensibile e generalizzabile spazio delle caratteristiche per rilevare modifiche localizzate.

Compiti di pretesto

La prima di queste rappresentazioni è un codificatore addestrato con un'attività di autoencoding mascherata. Con il video diviso in patch 3D (la maggior parte delle quali sono nascoste), il codificatore impara quindi a ricostruire le parti mancanti, costringendolo a catturare importanti modelli spaziotemporali, come il movimento facciale o la coerenza nel tempo.

L'addestramento tramite attività pretesto prevede il mascheramento di parti dell'input video e l'utilizzo di una configurazione codificatore-decodificatore per ricostruire i fotogrammi originali o le mappe delle unità di azione per fotogramma, a seconda dell'attività.

L'addestramento tramite attività pretesto prevede il mascheramento di parti dell'input video e l'utilizzo di una configurazione codificatore-decodificatore per ricostruire i fotogrammi originali o le mappe delle unità di azione per fotogramma, a seconda dell'attività.

Tuttavia, osserva il documento, questo da solo non fornisce sufficiente sensibilità per rilevare modifiche a grana fine, e gli autori introducono quindi un secondo codificatore addestrato per rilevare unità di azione facciale (AU). Per questo compito, il modello impara a ricostruire mappe AU dense per ogni fotogramma, sempre da input parzialmente mascherati. Ciò lo incoraggia a concentrarsi sull'attività muscolare localizzata, che è dove si verificano molte modifiche deepfake sottili.

Ulteriori esempi di unità di azione facciale (FAU o AU). Fonte: https://www.eiagroup.com/the-facial-action-coding-system/

Ulteriori esempi di unità di azione facciale (FAU o AU). Fonte: https://www.eiagroup.com/the-facial-action-coding-system/

Una volta che entrambi gli encoder sono stati pre-addestrati, i loro output vengono combinati usando l'attenzione incrociata. Invece di unire semplicemente i due set di feature, il modello usa le feature basate su AU come query che guidano l'attenzione sulle caratteristiche spazio-temporali apprese dall'autoencoding mascherato. In effetti, il codificatore dell'unità di azione indica al modello dove guardare.

Il risultato è una rappresentazione latente fusa che ha lo scopo di catturare sia il contesto di movimento più ampio sia il dettaglio localizzato a livello di espressione. Questo spazio di caratteristiche combinato viene quindi utilizzato per l'attività di classificazione finale: prevedere se un video è reale o manipolato.

Dati e test

Implementazione/Attuazione

Gli autori hanno implementato il sistema preelaborando i video di input con l' FacciaXZoo Framework di rilevamento del volto basato su PyTorch, che ottiene 16 fotogrammi incentrati sul volto da ogni clip. Le attività di pretesto descritte sopra sono state quindi addestrate su Sede centrale di CelebV set di dati composto da 35,000 video facciali di alta qualità.

Dal documento di origine, esempi dal dataset CelebV-HQ utilizzato nel nuovo progetto. Fonte: https://arxiv.org/pdf/2207.12393

Dal documento originale, esempi dal set di dati CelebV-HQ utilizzato nel nuovo progetto. Fonte: https://arxiv.org/pdf/2207.12393

La metà degli esempi di dati sono stati mascherati, costringendo il sistema ad apprendere i principi generali invece di overfitting ai dati di origine.

Per l'attività di ricostruzione del frame mascherato, il modello è stato addestrato per prevedere le regioni mancanti dei frame video utilizzando un Perdita L1, riducendo al minimo la differenza tra il contenuto originale e quello ricostruito.

Per il secondo compito, il modello è stato addestrato a generare mappe per 16 unità di azione facciale, ciascuna rappresentante lievi movimenti muscolari in aree quali sopracciglia, palpebre, naso e labbra, sempre supervisionate dalla perdita di L1.

Dopo il pre-addestramento, i due codificatori sono stati fusi e perfezionati per il rilevamento dei deepfake utilizzando FaceForensics ++ set di dati, che contiene sia video reali che manipolati.

Il dataset FaceForensics++ è stato il punto di riferimento centrale per il rilevamento dei deepfake dal 2017, sebbene sia ormai notevolmente obsoleto, per quanto riguarda le ultime tecniche di sintesi facciale. Fonte: https://www.youtube.com/watch?v=x2g48Q2I2ZQ

Il set di dati FaceForensics++ è stato il fondamento del rilevamento dei deepfake sin dal 2017, sebbene sia ormai notevolmente obsoleto per quanto riguarda le più recenti tecniche di sintesi facciale. Fonte: https://www.youtube.com/watch?v=x2g48Q2I2ZQ

Per rendere conto squilibrio di classe, gli autori hanno utilizzato Perdita focale (una variante di perdita di entropia crociata), che pone l'accento su esempi più impegnativi durante l'allenamento.

Tutta la formazione è stata condotta su una singola GPU RTX 4090 con 24 Gb di VRAM, con un dimensione del lotto di 8 per 600 epoche (recensioni complete dei dati), utilizzando pre-addestrato checkpoint da VideoMAE per inizializzare i pesi per ciascuna delle attività pretesto.

Test

Sono state effettuate valutazioni quantitative e qualitative su diversi metodi di rilevamento dei deepfake: FTCN; RealForensics; Analisi forense delle labbra; EfficienteNet+ViT; Radiografia del viso; Alt-congelamento;  CADMM; Rete LAANet; e BlendFace SBIIn tutti i casi, il codice sorgente era disponibile per questi framework.

I test si sono concentrati su deepfake modificati localmente, in cui solo una parte di una clip sorgente è stata alterata. Le architetture utilizzate sono state Diffusion Video Autoencoders (DVA); Stitch It In Time (STIT); Modifica del viso districato (Dipartimento di Scienze della Formazione); Flusso di token; VideoP2P; Testo2Live, E DestinoZeroQuesti metodi impiegano una diversità di approcci (diffusione per DVA e StyleGAN2 per STIT e DFE, ad esempio)

Gli autori affermano:

"Per garantire una copertura completa delle diverse manipolazioni facciali, abbiamo incorporato un'ampia varietà di caratteristiche facciali e modifiche degli attributi. Per la modifica delle caratteristiche facciali, abbiamo modificato le dimensioni degli occhi, la distanza occhio-sopracciglio, il rapporto naso, la distanza naso-bocca, il rapporto labbra e il rapporto guance. Per la modifica degli attributi facciali, abbiamo variato espressioni come sorriso, rabbia, disgusto e tristezza.

"Questa diversità è essenziale per convalidare la robustezza del nostro modello su un'ampia gamma di modifiche localizzate. In totale, abbiamo generato 50 video per ciascuno dei metodi di editing sopra menzionati e convalidato la forte generalizzazione del nostro metodo per il rilevamento dei deepfake".

Sono stati inclusi nei round anche i dataset deepfake più vecchi, vale a dire Celeb-DFv2 (CDF2); Rilevamento DeepFake (DFD); Sfida di rilevamento DeepFake (DFDC); e Fake selvaggio (DFW).

Le metriche di valutazione erano Area sotto la curva (UCA); Precisione media; e significa Punteggio F1.

Dall'articolo: il confronto tra i recenti deepfake localizzati mostra che il metodo proposto ha superato tutti gli altri, con un guadagno del 15-20 percento sia nell'AUC che nella precisione media rispetto al secondo approccio migliore.

Dall'articolo: il confronto tra i recenti deepfake localizzati mostra che il metodo proposto ha superato tutti gli altri, con un guadagno del 15-20 percento sia nell'AUC che nella precisione media rispetto al secondo approccio migliore.

Gli autori forniscono inoltre un confronto di rilevamento visivo per viste manipolate localmente (riprodotto solo in parte di seguito, per mancanza di spazio):

Un video reale è stato modificato utilizzando tre diverse manipolazioni localizzate per produrre falsi che rimanessero visivamente simili all'originale. Qui sono mostrati fotogrammi rappresentativi insieme ai punteggi medi di rilevamento dei falsi per ciascun metodo. Mentre i rilevatori esistenti hanno avuto difficoltà con queste modifiche sottili, il modello proposto ha assegnato costantemente probabilità di falsificazione elevate, indicando una maggiore sensibilità ai cambiamenti localizzati.

Un video reale è stato modificato utilizzando tre diverse manipolazioni localizzate per produrre falsi che rimanessero visivamente simili all'originale. Qui sono mostrati fotogrammi rappresentativi insieme ai punteggi medi di rilevamento dei falsi per ciascun metodo. Mentre i rilevatori esistenti hanno avuto difficoltà con queste modifiche sottili, il modello proposto ha assegnato costantemente probabilità di falsificazione elevate, indicando una maggiore sensibilità ai cambiamenti localizzati.

I ricercatori commentano:

"[Gli] attuali metodi di rilevamento SOTA, [LAANet], [SBI], [AltFreezing] e [CADMM], subiscono un calo significativo delle prestazioni sui metodi di generazione di deepfake più recenti. Gli attuali metodi SOTA presentano AUC basse fino al 48-71%, dimostrando le loro scarse capacità di generalizzazione ai recenti deepfake.

"D'altra parte, il nostro metodo dimostra una robusta generalizzazione, raggiungendo un'AUC compresa tra l'87 e il 93%. Una tendenza simile è evidente anche nel caso della precisione media. Come mostrato [di seguito], il nostro metodo raggiunge costantemente prestazioni elevate anche su set di dati standard, superando il 90% di AUC e risultando competitivo con i recenti modelli di rilevamento deepfake."

Le prestazioni sui set di dati deepfake tradizionali dimostrano che il metodo proposto è rimasto competitivo con gli approcci principali, il che indica una forte generalizzazione su una vasta gamma di tipi di manipolazione.

Le prestazioni sui set di dati deepfake tradizionali dimostrano che il metodo proposto è rimasto competitivo con gli approcci principali, il che indica una forte generalizzazione su una vasta gamma di tipi di manipolazione.

Gli autori osservano che questi ultimi test coinvolgono modelli che potrebbero ragionevolmente essere considerati obsoleti e che sono stati introdotti prima del 2020.

Per una rappresentazione visiva più completa delle prestazioni del nuovo modello, gli autori forniscono alla fine un'ampia tabella, di cui qui abbiamo spazio per riprodurre solo una parte:

In questi esempi, un video reale è stato modificato utilizzando tre modifiche localizzate per produrre falsi visivamente simili all'originale. I punteggi di confidenza medi in queste manipolazioni mostrano, affermano gli autori, che il metodo proposto ha rilevato le contraffazioni in modo più affidabile rispetto ad altri approcci principali. Si prega di fare riferimento alla pagina finale del PDF di origine per i risultati completi.

In questi esempi, un video reale è stato modificato utilizzando tre modifiche localizzate per produrre falsi visivamente simili all'originale. I punteggi di confidenza medi in queste manipolazioni mostrano, affermano gli autori, che il metodo proposto ha rilevato le contraffazioni in modo più affidabile rispetto ad altri approcci principali. Si prega di fare riferimento alla pagina finale del PDF di origine per i risultati completi.

Gli autori sostengono che il loro metodo raggiunge punteggi di confidenza superiori al 90 percento per il rilevamento di modifiche localizzate, mentre i metodi di rilevamento esistenti sono rimasti al di sotto del 50 percento sullo stesso compito. Interpretano questa lacuna come prova sia della sensibilità che della generalizzabilità del loro approccio, e come un'indicazione delle sfide affrontate dalle tecniche attuali nel gestire questi tipi di sottili manipolazioni facciali.

Per valutare l'affidabilità del modello in condizioni reali e secondo il metodo stabilito da CADMM, gli autori ne hanno testato le prestazioni su video modificati con distorsioni comuni, tra cui regolazioni di saturazione e contrasto, sfocatura gaussiana, pixelazione e artefatti di compressione basati su blocchi, nonché rumore additivo.

I risultati hanno mostrato che l'accuratezza del rilevamento è rimasta ampiamente stabile attraverso queste perturbazioni. L'unico calo degno di nota si è verificato con l'aggiunta del rumore gaussiano, che ha causato un modesto calo delle prestazioni. Altre alterazioni hanno avuto un effetto minimo.

Un'illustrazione di come cambia la precisione di rilevamento sotto diverse distorsioni video. Il nuovo metodo è rimasto resiliente nella maggior parte dei casi, con solo un piccolo calo dell'AUC. Il calo più significativo si è verificato quando è stato introdotto il rumore gaussiano.

Un'illustrazione di come cambia la precisione di rilevamento sotto diverse distorsioni video. Il nuovo metodo è rimasto resiliente nella maggior parte dei casi, con solo un piccolo calo dell'AUC. Il calo più significativo si è verificato quando è stato introdotto il rumore gaussiano.

Questi risultati, propongono gli autori, suggeriscono che la capacità del metodo di rilevare manipolazioni localizzate non viene facilmente interrotta dai tipici deterioramenti della qualità video, supportando la sua potenziale robustezza in contesti pratici.

Conclusione

La manipolazione dell'intelligenza artificiale è presente nella coscienza pubblica principalmente nella nozione tradizionale di deepfake, in cui l'identità di una persona viene imposta sul corpo di un'altra persona, che potrebbe compiere azioni antitetiche ai principi del proprietario dell'identità. Questa concezione sta lentamente venendo aggiornata per riconoscere le capacità più insidiose dei sistemi video generativi (nella nuova generazione di video deepfake) e alle capacità dei modelli di diffusione latente (LDM) in generale.

Pertanto è ragionevole aspettarsi che il tipo di editing locale di cui si occupa il nuovo giornale potrebbe non attirare l'attenzione del pubblico fino a quando non si verifica un evento cruciale in stile Pelosi, poiché le persone sono distratte da questa possibilità da argomenti più facili da leggere sui titoli come video deepfake frode.

Tuttavia, per quanto l'attore Nic Cage abbia ha espresso preoccupazione costante riguardo alla possibilità che i processi di post-produzione "revisionino" la performance di un attore, forse dovremmo anche incoraggiare una maggiore consapevolezza di questo tipo di "sottile" adattamento video, non da ultimo perché siamo per natura incredibilmente sensibili a variazioni molto piccole dell'espressione facciale e perché il contesto può modificare significativamente l'impatto di piccoli movimenti facciali (si pensi all'effetto dirompente di un sorriso compiaciuto a un funerale, per esempio).

 

Prima pubblicazione mercoledì 2 aprile 2025