Seguici sui social

Intelligenza Artificiale

Rilevamento di deepfake basato su tratti biometrici umani originali

mm
Immagini prodotte dai deepfaker sul DeepFaceLab Discord Channel
Immagini prodotte dai deepfaker sul DeepFaceLab Discord Channel

Un nuovo documento di ricercatori in Italia e Germania propone un metodo per rilevare i video deepfake basati sul comportamento biometrico del volto e della voce, piuttosto che artefatti creati da sistemi di sintesi del volto, costose soluzioni di watermarking o altri approcci più ingombranti.

Il framework richiede un input di 10 o più video vari e non falsi dell'argomento. Tuttavia, non richiede di essere specificamente addestrato, riaddestrato o potenziato sui video per caso, poiché il suo modello incorporato ha già astratto le probabili distanze vettoriali tra video reali e falsi in un modo ampiamente applicabile.

L'apprendimento contrastivo è alla base dell'approccio di POI-Forensics. I vettori derivati ​​dal materiale sorgente caso per caso vengono confrontati con gli stessi vettori in un potenziale falso video, con sfaccettature e tratti tratti sia dai componenti video che audio del filmato potenzialmente falso. Fonte: https://arxiv.org/pdf/2204.03083.pdf

L'apprendimento contrastivo è alla base dell'approccio di POI-Forensics. I vettori derivati ​​dal materiale sorgente caso per caso vengono confrontati con gli stessi vettori in un potenziale falso video, con sfaccettature e tratti tratti sia dai componenti video che audio del filmato potenzialmente falso. Fonte: https://arxiv.org/pdf/2204.03083.pdf

Titolato POI-Forense, l'approccio si basa su segnali di movimento e audio unici per l'individuo reale sottoposto a deepfaking.

Sebbene un sistema del genere potrebbe consentire framework di autenticazione completamente automatizzati e "pre-renderizzati" per celebrità, politici, influencer di YouTube e altre persone per le quali è facilmente disponibile una grande quantità di materiale video, potrebbe anche essere adattato in un framework in cui le vittime comuni delle tecnologie deepfake potrebbero potenzialmente avere una piattaforma per dimostrare la non autenticità degli attacchi contro di loro.

Visualizzazioni di funzionalità estratte da video autentici e falsi su quattro soggetti in POI-Forensics, tramite il framework t-SNE.

Visualizzazioni di funzionalità estratte da video autentici e falsi su quattro soggetti in POI-Forensics, tramite il struttura t-SNE.

Gli autori affermano che POI-Forensics raggiunge un nuovo stato dell'arte nel rilevamento dei deepfake. In una varietà di set di dati comuni in questo campo, il framework ha registrato un miglioramento dei punteggi AUC del 3%, 10% e 7% rispettivamente per i video di alta qualità, di bassa qualità e "attaccati". I ricercatori promettono di pubblicare il codice in breve.

Prestazioni di POI-Forensics rispetto ai framework SOTA rivali pDFDC, DeepFakeTIMIT, FakeAVCelebV2 e KoDF. La formazione in ciascun caso è stata eseguita su FaceForensics++, ID-Reveal e il metodo degli autori su VoxCeleb2. I risultati includono video di alta e bassa qualità.

Prestazioni di POI-Forensics rispetto ai framework SOTA rivali pDFDC, DeepFakeTIMIT, FalsoAVCelebV2e KoDF. La formazione in ogni caso è stata eseguita su FaceForensics ++ e gli autori stessi ID-Rivelazione su VoxCeleb2. I risultati includono video di alta e bassa qualità.

Gli autori affermano:

"L'addestramento viene effettuato esclusivamente su video di volti parlanti reali, quindi il rilevatore non dipende da alcun metodo di manipolazione specifico e offre la massima capacità di generalizzazione. Inoltre, il nostro metodo è in grado di rilevare sia attacchi monomodali (solo audio, solo video) che multimodali (audio-video), ed è robusto anche contro video di bassa qualità o corrotti, basandosi esclusivamente su caratteristiche semantiche di alto livello."

La nuova carta, che incorpora elementi di alcuni degli autori basati sulla visione ID-Rivelazione progetto del 2021, si intitola Rilevamento DeepFake di persona di interesse audiovisivo, ed è uno sforzo congiunto tra l'Università Federico II di Napoli e il Politecnico di Monaco di Baviera.

La corsa agli armamenti di Deepfake

Per sconfiggere un sistema di rilevamento di questa natura, i deepfake e i sistemi di sintesi umana richiederebbero la capacità di simulare almeno segnali biometrici visivi e audio dall'obiettivo previsto della sintesi - tecnologia che è lontana molti anni e che probabilmente rimarrà nell'ambito di sistemi chiusi costosi e proprietari sviluppati da società VFX, che avranno il vantaggio della cooperazione e della partecipazione degli obiettivi previsti (o delle loro proprietà, nel caso di simulazione di persone decedute).

L'approccio precedente degli autori, ID-Reveal, si concentrava interamente sulle informazioni visive. Fonte: https://arxiv.org/pdf/2012.02512.pdf

L'approccio precedente degli autori, ID-Reveal, si concentrava esclusivamente sulle informazioni visive. Fonte: https://arxiv.org/pdf/2012.02512.pdf

Metodi deepfake di successo e popolari come Cambia faccia e DeepFaceLab/"Live" attualmente non hanno alcuna capacità di creare approssimazioni biometriche così granulari, affidandosi nella migliore delle ipotesi a talenti imitatori a cui viene imposta l'identità falsa, e molto più comunemente su appositi filmati di persone "simili". Né la struttura del codice base del 2017, che ha poca modularità e che rimane la fonte originale per DFL e FaceSwap, rende fattibile l'aggiunta di questo tipo di funzionalità.

Questi due pacchetti deepfake dominanti sono basati su autoencoder. Metodi alternativi di sintesi umana possono utilizzare un Generative Adversarial Network (GAN) o Neural Radiance Field (NeRF) approccio alla ricostruzione dell'identità umana; ma entrambe queste linee di ricerca hanno anni di lavoro davanti anche per produrre video umani completamente fotorealistici.

Ad eccezione dell'audio (voci false), la simulazione biometrica è in fondo alla lista delle sfide che la sintesi delle immagini umane deve affrontare. In ogni caso, riprodurre il timbro e altre qualità della voce umana non ne riproduce le eccentricità e i "significati", né il modo in cui il soggetto reale utilizza la costruzione semantica. Pertanto, anche la perfezione della simulazione vocale generata dall'intelligenza artificiale non risolve il potenziale problema dell'autenticità biometrica.

Solo ad Arxiv, lo sono diverse strategie e innovazioni di rilevamento dei deepfake rilasciato ogni settimana. Approcci recenti si sono imperniati su Omogeneità voce-faccia, Istogramma modello binario locale (FF-LBPH), percezione umana dei deepfake audio, analizzare i bordi del viso, tenere conto del degrado videoe 'Balistica forense' – tra molti altri.

l'analisi dell'istogramma è tra le ultime tecniche offerte per migliorare il rilevamento dei deepfake. Fonte: https://arxiv.org/pdf/2203.09928.pdf

L'analisi dell'istogramma segmentato è tra le ultime tecniche offerte per migliorare il rilevamento dei deepfake. Fonte: https://arxiv.org/pdf/2203.09928.pdf

Approccio, dati e architettura

POI-Forensics adotta un approccio multimodale alla verifica dell'identità, sfruttando la biometria soft basata su segnali visivi e audio. Il framework presenta reti audio e video separate, che alla fine derivano dati vettoriali caratteristici che possono essere confrontati con le stesse caratteristiche estratte in un potenziale video deepfake in fase di studio.

L'architettura di POI-Forensics.

L'architettura concettuale di POI-Forensics.

Sia l'analisi separata (audio o video) che quella di fusione possono essere effettuate sulle clip target, arrivando infine a un indice di somiglianza del POI. La funzione di perdita contrastiva impiegata si basa su un 2021 collaborazione accademica tra Google Research, Boston University, Snap Inc. e MIT.

Il set di dati di base è stato suddiviso in base all'identità. 4608 identità sono state utilizzate per la formazione, con 512 rimanenti per la convalida. Le 500 identità utilizzate in FakeAVCelebV2 (un candidato al test, vedi sotto) sono state escluse per ottenere risultati non polarizzati.

Le due reti sono state addestrate per 12 epoche con un batch di dimensioni insolitamente grandi di 2304 batch per epoca, con ogni batch composto da segmenti video 8×8 – 8 segmenti per 8 identità diverse. L'ottimizzatore Adam è stato utilizzato con decadimento del peso disaccoppiato con un tasso di apprendimento di 10-4, e un decadimento del peso di 0.01.

Test e risultati

I set di dati deepfake testati per il progetto erano i anteprima del set di dati DeepFake Detection Challenge, che presenta scambi di volti tra 68 soggetti, da cui sono state selezionate 44 identità con più di nove video correlati, per un totale di 920 video reali e 2925 video falsi; DeepFake-TIMIT, un set di dati basato su GAN contenente 320 video di 32 soggetti, per un totale di 290 video reali e 580 video falsi della durata di almeno quattro secondi; FalsoAVCelebV2, comprendente 500 video reali da Voxceleb2, e circa 20,000 video falsi da vari set di dati, a cui è stato aggiunto audio falso clonato con SV2TTS per compatibilità; e KoDF, un set di dati deepfake coreano con 403 identità contraffatte tramite FaceSwap, DeepFaceLab e FGAN, oltre a tre modelli di movimento del primo ordine (FORM).

Quest'ultimo dispone anche di sintesi facciale guidata dall'audio ATFHP, e l'output da Wav2Lip, con gli autori che utilizzano un set di dati derivato contenente 276 video reali e 544 video falsi.

Le metriche utilizzate includevano l'area sotto la curva caratteristica operativa del ricevitore (AUC) e un tasso di falsi allarmi approssimativo del 10%, che sarebbe problematico nei framework che incorporano e si addestrano su dati falsi, ma tale preoccupazione è ovviata dal fatto che POI-Forensics accetta come input solo filmati video autentici.

I metodi sono stati testati contro il Seferbekov rilevatore di deepfake, che ha ottenuto il primo posto nella Kaggle Deepfake Detection La sfida; FTCN (Fully Temporal Convolution Network), una collaborazione tra l'Università cinese di Xiamen e Microsoft Research Asia; LipForensics, un lavoro congiunto del 2021 tra Imperial College London e Facebook; E ID-Rivelazione, un progetto precedente di diversi ricercatori del nuovo articolo, che omette un aspetto audio e che utilizza modelli 3D Morphable in combinazione con uno scenario di gioco avversario per rilevare output falsi.

Nei risultati (vedi tabella precedente sopra), POI-Forensics ha superato il leader di riferimento Seferbekov del 2.5% in AUC e dell'1.5% in termini di accuratezza. Le prestazioni sono state più competitive rispetto ad altri set di dati presso la sede centrale.

Tuttavia, il nuovo approccio ha dimostrato un notevole vantaggio rispetto a tutti i metodi di riferimento concorrenti per i video di bassa qualità, che rimangono i scenario più probabile in cui i deepfake tendono a ingannare gli spettatori occasionali, basandosi su contesti del "mondo reale".

Gli autori affermano:

"In effetti, in questo scenario difficile, solo gli approcci basati sull'identità continuano a fornire buone prestazioni, poiché si basano su caratteristiche semantiche di alto livello, piuttosto resistenti ai difetti delle immagini".

Considerando che PIO-Forensics utilizza solo video reali come materiale di partenza, si può sostenere che il risultato sia amplificato e suggerisca che l'utilizzo dei tratti biometrici nativi delle potenziali vittime di deepfake sia una valida strada per sfuggire alla "guerra fredda degli artefatti" tra software deepfake e soluzioni di rilevamento deepfake.

In un test finale, i ricercatori hanno aggiunto all'input rumore contraddittorio, un metodo che può ingannare in modo affidabile i classificatori. L'ormai venerabile metodo del segno del gradiente veloce si rivela ancora particolarmente efficace, in tal senso.

Come prevedibile, le strategie di attacco avversarie hanno ridotto il tasso di successo in tutti i metodi e set di dati, con l'AUC in calo con incrementi compresi tra il 10% e il 38%. Tuttavia, solo POI-Forensics e il precedente metodo degli autori ID-Reveal sono stati in grado di mantenere prestazioni ragionevoli in questo scenario di attacco, il che suggerisce che le caratteristiche di alto livello associate alla biometria soft sono straordinariamente resistenti all'elusione del rilevamento deepfake.

Gli autori concludono:

"Nel complesso, riteniamo che il nostro metodo rappresenti un primo passo avanti; in particolare, l'uso di caratteristiche semantiche di livello superiore rappresenta una promettente strada per la ricerca futura. Inoltre, l'analisi multimodale potrebbe essere ulteriormente arricchita includendo maggiori informazioni provenienti da altri domini, come i dati testuali."

 

Pubblicato per la prima volta l'8 aprile 2022.

Scrittore di machine learning, specialista di dominio nella sintesi di immagini umane. Ex responsabile dei contenuti di ricerca presso Metaphysic.ai.
Sito personale: martinandson.ai
Contatti: [email protected]
Twitter: @manders_ai