Seguici sui social

Intelligenza Artificiale

Le informazioni sulla profondità possono rivelare deepfake in tempo reale

mm

Una nuova ricerca italiana ha scoperto che le informazioni approfondite ottenute dalle immagini possono essere uno strumento utile per rilevare i deepfake, anche in tempo reale.

Considerando che la maggior parte della ricerca sul rilevamento dei deepfake negli ultimi cinque anni si è concentrata su identificazione del manufatto (che può essere mitigato da tecniche migliorate o scambiato per una scarsa compressione del codec video), illuminazione ambientale, tratti biometrici, disordine temporale, e persino istinto umano, il nuovo studio è il primo a suggerire che le informazioni approfondite potrebbero essere una cifra preziosa per i contenuti deepfake.

Esempi di mappe di profondità derivate e la differenza nelle informazioni sulla profondità percettiva tra immagini reali e false. Fonte: https://arxiv.org/pdf/2208.11074.pdf

Esempi di mappe di profondità derivate e la differenza nelle informazioni sulla profondità percettiva tra immagini reali e false. Fonte: https://arxiv.org/pdf/2208.11074.pdf

Fondamentalmente, i framework di rilevamento sviluppati per il nuovo studio funzionano molto bene su una rete leggera come xception, e accettabilmente bene Rete Mobile, e il nuovo documento riconosce che la bassa latenza di inferenza offerta attraverso tali reti può consentire il rilevamento di deepfake in tempo reale contro la nuova tendenza verso la frode di deepfake dal vivo, esemplificata dal recente attacco a Binance.

È possibile ottenere una maggiore economia nel tempo di inferenza perché il sistema non necessita di immagini a colori per determinare la differenza tra mappe di profondità false e reali, ma può operare in modo sorprendentemente efficiente esclusivamente su immagini in scala di grigi delle informazioni sulla profondità.

Gli autori affermano: "Questo risultato suggerisce che in questo caso la profondità apporta un contributo più rilevante alla classificazione rispetto agli artefatti del colore."

I risultati rappresentano parte di una nuova ondata di ricerca sul rilevamento di deepfake diretta contro sistemi di sintesi facciale in tempo reale come DeepFace dal vivo – un centro di sforzi che ha subito un'accelerazione notevole negli ultimi 3-4 mesi, sulla scia dell'FBI avvertimento a marzo sul rischio di deepfake audio e video in tempo reale.

. carta è intitolato DepthFake: una strategia basata sulla profondità per rilevare i video Deepfake, e proviene da cinque ricercatori della Sapienza Università di Roma.

Custodie Edge

Durante l'addestramento, i modelli deepfake basati su autoencoder danno la priorità alle regioni interne del viso, come occhi, naso e bocca. Nella maggior parte dei casi, attraverso distribuzioni open source come DeepFaceLab e Cambia faccia (entrambi biforcuti dall'originale 2017 Codice reddit prima della sua cancellazione), i lineamenti esterni del viso non diventano ben definiti fino a una fase molto avanzata dell'addestramento ed è improbabile che corrispondano alla qualità della sintesi nell'area interna del viso.

Da uno studio precedente, vediamo una visualizzazione delle "mappe di salienza" del volto. Fonte: https://arxiv.org/pdf/2203.01318.pdf

Da uno studio precedente, vediamo una visualizzazione delle "mappe di salienza" del viso. Fonte: https://arxiv.org/pdf/2203.01318.pdf

Normalmente, questo non è importante, poiché la nostra tendenza a concentrarci prima sugli occhi e a dare priorità all'"esterno" a livelli di attenzione decrescenti significa che è improbabile che siamo turbati da questi cali nella qualità periferica, soprattutto se stiamo parlando dal vivo con la persona che sta fingendo un'altra identità, il che innesca convenzioni sociali e limitazioni di elaborazione non presente quando valutiamo i filmati deepfake "renderizzati".

Tuttavia, la mancanza di dettagli o accuratezza nelle regioni marginali interessate di un volto deepfaked può essere rilevata algoritmicamente. Nel mese di marzo, è stato introdotto un sistema che utilizzava chiavi nell'area periferica del viso ha annunciatoTuttavia, poiché richiede una quantità di dati di addestramento superiore alla media, è destinato solo alle celebrità che probabilmente appariranno in set di dati facciali popolari (come ImageNet) che hanno origine nelle attuali tecniche di visione artificiale e di rilevamento dei deepfake.

Invece, il nuovo sistema, intitolato ProfonditàFake, può operare genericamente anche su identità oscure o sconosciute, distinguendo la qualità delle informazioni della mappa di profondità stimata nei contenuti video reali e falsi.

Andando in profondità

Le informazioni sulle mappe di profondità vengono sempre più integrate negli smartphone, incluso Implementazioni stereo assistite da AI che sono particolarmente utili per gli studi sulla visione artificiale. Nel nuovo studio, gli autori hanno utilizzato il modello FaceDepth della National University of Ireland, una rete convoluzionale di codifica/decodifica in grado di stimare in modo efficiente le mappe di profondità a partire da immagini provenienti da una singola sorgente.

Il modello FaceDepth in azione. Fonte: https://tinyurl.com/3ctcazma

Il modello FaceDepth in azione. Fonte: https://tinyurl.com/3ctcazma

Successivamente, la pipeline del nuovo framework dei ricercatori italiani estrae una patch di 224×224 pixel del volto del soggetto sia dall'immagine RGB originale che dalla mappa di profondità derivata. Questo consente al processo di copiare il contenuto principale senza ridimensionarlo; questo è importante, poiché gli algoritmi di ridimensionamento basati su standard dimensionali influiscono negativamente sulla qualità delle aree target.

Utilizzando queste informazioni, provenienti sia da fonti reali che deepfaked, i ricercatori hanno poi addestrato una rete neurale convoluzionale (CNN) in grado di distinguere le istanze reali da quelle false, in base alle differenze tra la qualità percettiva delle rispettive mappe di profondità.

Pipeline concettuale per DepthFake.

Pipeline concettuale per DepthFake.

Il modello FaceDepth è addestrato su dati realistici e sintetici utilizzando una funzione ibrida che offre maggiori dettagli sui margini esterni del volto, rendendolo ideale per DepthFake. Utilizza un'istanza MobileNet come estrattore di feature ed è stato addestrato con immagini di input 480×640 che generano mappe di profondità 240×320. Ogni mappa di profondità rappresenta un quarto dei quattro canali di input utilizzati nel discriminatore del nuovo progetto.

La mappa di profondità viene incorporata automaticamente nell'immagine RGB originale per fornire il tipo di immagine RGBD, ricca di informazioni sulla profondità, che le moderne fotocamere degli smartphone possono emettere.

Formazione

Il modello è stato addestrato su una rete Xception già preaddestrata su ImageNet, sebbene l'architettura necessitasse di alcuni adattamenti per accogliere le informazioni di profondità aggiuntive mantenendo la corretta inizializzazione dei pesi.

Inoltre, una discrepanza negli intervalli di valori tra le informazioni di profondità e ciò che la rete si aspetta ha reso necessario che i ricercatori normalizzassero i valori a 0-255.

Durante l'allenamento, sono stati applicati solo capovolgimenti e rotazioni. In molti casi varie altre perturbazioni visive sarebbero state presentate al modello per sviluppare un'inferenza solida, ma la necessità di preservare le informazioni limitate e molto fragili della mappa di profondità del bordo nelle foto di origine ha costretto i ricercatori ad adottare un regime di riduzione.

Il sistema è stato inoltre addestrato su una semplice scala di grigi a 2 canali, al fine di determinare quanto complesse dovevano essere le immagini sorgente per ottenere un algoritmo funzionante.

L'addestramento è avvenuto tramite l'API TensorFlow su una NVIDIA GTX 1080 con 8 GB di VRAM, utilizzando l'ottimizzatore ADAMAX, per 25 epoche, con una dimensione batch di 32. La risoluzione di input è stata fissata a 224×224 durante il ritaglio e il rilevamento e l'estrazione del volto sono stati realizzato con il dlib Libreria C++.

Risultati

L'accuratezza dei risultati è stata testata contro Deepfake, faccia2faccia, Cambia faccia, Struttura neuralee il set di dati completo con input RGB e RGBD, utilizzando il file FaceForensic++ struttura.

Risultati sull'accuratezza rispetto a quattro metodi deepfake e rispetto all'intero set di dati non suddiviso. I risultati sono divisi tra l'analisi delle immagini RGB di origine e le stesse immagini con una mappa di profondità dedotta incorporata. I migliori risultati sono in grassetto, con cifre percentuali sottostanti che dimostrano la misura in cui le informazioni della mappa di profondità migliorano il risultato.

Risultati sull'accuratezza rispetto a quattro metodi deepfake e rispetto all'intero set di dati non suddiviso. I risultati sono divisi tra l'analisi delle immagini RGB di origine e le stesse immagini con una mappa di profondità dedotta incorporata. I migliori risultati sono in grassetto, con cifre percentuali sottostanti che dimostrano la misura in cui le informazioni della mappa di profondità migliorano il risultato.

In tutti i casi, il canale di profondità migliora le prestazioni del modello in tutte le configurazioni. Xception ottiene i risultati migliori, seguito a ruota dall'agile MobileNet. A questo proposito, gli autori commentano:

"È interessante notare che MobileNet è leggermente inferiore a Xception e supera in prestazioni il più profondo ResNet50. Si tratta di un risultato notevole se si considera l'obiettivo di ridurre i tempi di inferenza per le applicazioni in tempo reale. Sebbene questo non sia il contributo principale di questo lavoro, lo consideriamo comunque un risultato incoraggiante per sviluppi futuri".

I ricercatori notano anche un consistente vantaggio dell'input in scala di grigi RGBD e a 2 canali rispetto all'input RGB e in scala di grigi diretto, osservando che le conversioni in scala di grigi delle inferenze di profondità, che sono computazionalmente molto economiche, consentono al modello di ottenere risultati migliori con risorse locali molto limitate, facilitare lo sviluppo futuro del rilevamento di deepfake in tempo reale basato su informazioni di profondità.

 

Pubblicato per la prima volta l'24 agosto 2022.

Scrittore di machine learning, specialista di dominio nella sintesi di immagini umane. Ex responsabile dei contenuti di ricerca presso Metaphysic.ai.
Sito personale: martinandson.ai
Contatti: [email protected]
Twitter: @manders_ai