Intelligenza Artificiale

Le informazioni sulla profondità possono rivelare deepfake in tempo reale

aggiornato on Dicembre 9, 2022

Una nuova ricerca italiana ha scoperto che le informazioni approfondite ottenute dalle immagini possono essere uno strumento utile per rilevare i deepfake, anche in tempo reale.

Considerando che la maggior parte della ricerca sul rilevamento dei deepfake negli ultimi cinque anni si è concentrata su identificazione del manufatto (che può essere mitigato da tecniche migliorate o scambiato per una scarsa compressione del codec video), illuminazione ambientale, tratti biometrici, disordine temporale, e persino istinto umano, il nuovo studio è il primo a suggerire che le informazioni approfondite potrebbero essere una cifra preziosa per i contenuti deepfake.

Esempi di mappe di profondità derivate e la differenza nelle informazioni sulla profondità percettiva tra immagini reali e false. Fonte: https://arxiv.org/pdf/2208.11074.pdf

Fondamentalmente, i framework di rilevamento sviluppati per il nuovo studio funzionano molto bene su una rete leggera come xception, e accettabilmente bene Rete Mobile, e il nuovo documento riconosce che la bassa latenza di inferenza offerta attraverso tali reti può consentire il rilevamento di deepfake in tempo reale contro la nuova tendenza verso la frode di deepfake dal vivo, esemplificata dal recente attacco a Binance.

È possibile ottenere una maggiore economia nel tempo di inferenza perché il sistema non necessita di immagini a colori per determinare la differenza tra mappe di profondità false e reali, ma può operare in modo sorprendentemente efficiente esclusivamente su immagini in scala di grigi delle informazioni sulla profondità.

Gli autori affermano: "Questo risultato suggerisce che la profondità in questo caso aggiunge un contributo più rilevante alla classificazione rispetto agli artefatti cromatici".

I risultati rappresentano parte di una nuova ondata di ricerca sul rilevamento di deepfake diretta contro sistemi di sintesi facciale in tempo reale come DeepFace dal vivo – un luogo di impegno che ha subito un'accelerazione notevole negli ultimi 3-4 mesi, sulla scia delle richieste dell'FBI avvertimento a marzo sul rischio di deepfake audio e video in tempo reale.

Il carta è intitolato DepthFake: una strategia basata sulla profondità per rilevare i video Deepfake, e proviene da cinque ricercatori della Sapienza Università di Roma.

Custodie Edge

Durante l'addestramento, i modelli deepfake basati su autoencoder danno la priorità alle regioni interne del viso, come occhi, naso e bocca. Nella maggior parte dei casi, attraverso distribuzioni open source come DeepFaceLab ed Cambia faccia (entrambi biforcuti dall'originale 2017 Codice reddit prima della sua cancellazione), i lineamenti esterni del viso non diventano ben definiti fino a una fase molto avanzata dell'addestramento ed è improbabile che corrispondano alla qualità della sintesi nell'area interna del viso.

Da uno studio precedente, vediamo una visualizzazione delle "mappe di salienza" del volto. Fonte: https://arxiv.org/pdf/2203.01318.pdf

Da uno studio precedente, vediamo una visualizzazione delle "mappe di salienza" del viso. Fonte: https://arxiv.org/pdf/2203.01318.pdf

Normalmente, questo non è importante, poiché la nostra tendenza a concentrarci prima sugli occhi e dare la priorità, "verso l'esterno" a livelli di attenzione decrescenti, significa che è improbabile che siamo turbati da questi cali di qualità periferica - soprattutto se stiamo parlando dal vivo con il persona che sta falsificando un'altra identità, che innesca le convenzioni sociali e limitazioni di elaborazione non presente quando valutiamo filmati deepfake "renderizzati".

Tuttavia, la mancanza di dettagli o accuratezza nelle regioni marginali interessate di un volto deepfaked può essere rilevata algoritmicamente. Nel mese di marzo, è stato introdotto un sistema che utilizzava chiavi nell'area periferica del viso ha annunciato. Tuttavia, poiché richiede una quantità di dati di addestramento superiore alla media, è destinato solo alle celebrità che probabilmente appariranno nei set di dati facciali più diffusi (come ImageNet) che hanno origine nelle attuali tecniche di visione artificiale e di rilevamento dei deepfake.

Invece, il nuovo sistema, intitolato ProfonditàFake, può operare genericamente anche su identità oscure o sconosciute, distinguendo la qualità delle informazioni della mappa di profondità stimata nei contenuti video reali e falsi.

Andando in profondità

Le informazioni sulle mappe di profondità vengono sempre più integrate negli smartphone, incluso Implementazioni stereo assistite da AI che sono particolarmente utili per gli studi sulla visione artificiale. Nel nuovo studio, gli autori hanno utilizzato il modello FaceDepth dell'Università Nazionale d'Irlanda, una rete di codifica/decodifica convoluzionale in grado di stimare in modo efficiente le mappe di profondità da immagini a sorgente singola.

Il modello FaceDepth in azione. Fonte: https://tinyurl.com/3ctcazma

Successivamente, la pipeline per il nuovo framework dei ricercatori italiani estrae un patch di 224×224 pixel del volto del soggetto sia dall'immagine RGB originale sia dalla mappa di profondità derivata. Fondamentalmente, ciò consente al processo di copiare il contenuto principale senza ridimensionarlo; questo è importante, poiché gli algoritmi di ridimensionamento standard delle dimensioni influiranno negativamente sulla qualità delle aree mirate.

Utilizzando queste informazioni, provenienti sia da fonti reali che deepfaked, i ricercatori hanno poi addestrato una rete neurale convoluzionale (CNN) in grado di distinguere le istanze reali da quelle false, in base alle differenze tra la qualità percettiva delle rispettive mappe di profondità.

Pipeline concettuale per DepthFake.

Il modello FaceDepth viene addestrato su dati realistici e sintetici utilizzando una funzione ibrida che offre maggiori dettagli sui margini esterni del viso, rendendolo adatto per DepthFake. Utilizza un'istanza MobileNet come estrattore di funzionalità ed è stato addestrato con immagini di input 480×640 che producono mappe di profondità 240×320. Ciascuna mappa di profondità rappresenta un quarto dei quattro canali di ingresso utilizzati nel discriminatore del nuovo progetto.

La mappa di profondità viene incorporata automaticamente nell'immagine RGB originale per fornire il tipo di immagine RGBD, ricca di informazioni sulla profondità, che le moderne fotocamere degli smartphone possono emettere.

Training

Il modello è stato addestrato su una rete Xception già preaddestrata su ImageNet, sebbene l'architettura necessitasse di alcuni adattamenti per accogliere le informazioni di profondità aggiuntive mantenendo la corretta inizializzazione dei pesi.

Inoltre, una discrepanza negli intervalli di valori tra le informazioni di profondità e ciò che la rete si aspetta ha reso necessario che i ricercatori normalizzassero i valori a 0-255.

Durante l'allenamento, sono stati applicati solo capovolgimenti e rotazioni. In molti casi varie altre perturbazioni visive sarebbero state presentate al modello per sviluppare un'inferenza solida, ma la necessità di preservare le informazioni limitate e molto fragili della mappa di profondità del bordo nelle foto di origine ha costretto i ricercatori ad adottare un regime di riduzione.

Il sistema è stato inoltre addestrato su una semplice scala di grigi a 2 canali, al fine di determinare quanto complesse dovevano essere le immagini sorgente per ottenere un algoritmo funzionante.

L'addestramento è avvenuto tramite l'API TensorFlow su una NVIDIA GTX 1080 con 8 GB di VRAM, utilizzando l'ottimizzatore ADAMAX, per 25 epoche, con una dimensione batch di 32. La risoluzione di input è stata fissata a 224×224 durante il ritaglio e il rilevamento e l'estrazione del volto sono stati realizzato con il dlib Libreria C++.

Risultati

L'accuratezza dei risultati è stata testata contro Deepfake, faccia2faccia, Cambia faccia, Struttura neuralee il set di dati completo con input RGB e RGBD, utilizzando il file FaceForensic++ struttura.

Risultati sull'accuratezza rispetto a quattro metodi deepfake e rispetto all'intero set di dati non suddiviso. I risultati sono divisi tra l'analisi delle immagini RGB di origine e le stesse immagini con una mappa di profondità dedotta incorporata. I migliori risultati sono in grassetto, con cifre percentuali sottostanti che dimostrano la misura in cui le informazioni della mappa di profondità migliorano il risultato.

In tutti i casi, il canale di profondità migliora le prestazioni del modello in tutte le configurazioni. Xception ottiene i migliori risultati, con l'agile MobileNet alle spalle. A questo proposito gli autori commentano:

'[È] interessante notare che MobileNet è leggermente inferiore a Xception e supera in prestazioni il più profondo ResNet50. Questo è un risultato notevole se si considera l'obiettivo di ridurre i tempi di inferenza per le applicazioni in tempo reale. Anche se questo non è il contributo principale di questo lavoro, lo consideriamo comunque un risultato incoraggiante per sviluppi futuri.'

I ricercatori notano anche un consistente vantaggio dell'input in scala di grigi RGBD e a 2 canali rispetto all'input RGB e in scala di grigi diretto, osservando che le conversioni in scala di grigi delle inferenze di profondità, che sono computazionalmente molto economiche, consentono al modello di ottenere risultati migliori con risorse locali molto limitate, facilitare lo sviluppo futuro del rilevamento di deepfake in tempo reale basato su informazioni di profondità.

Pubblicato per la prima volta l'24 agosto 2022.