Intelligenza artificiale

I Deepfakes Possono Effettivamente Ingannare Molti Principali API di “Liveness” Faciale

Published February 23, 2022

Updated April 28, 2026

Martin Anderson

From DeepFace Live - Arnold Schwarzenegger 224 3.03M Iterations | RTX A6000 - https://www.youtube.com/watch?v=9tr35y-yQRY

Una nuova collaborazione di ricerca tra gli Stati Uniti e la Cina ha esaminato la suscettibilità ai deepfakes di alcuni dei più grandi sistemi di autenticazione basati sul viso del mondo e ha scoperto che la maggior parte di essi è vulnerabile a forme di attacco deepfake in via di sviluppo ed emergenti.

La ricerca ha condotto intrusioni basate su deepfake utilizzando un framework personalizzato distribuito contro sistemi di verifica di “liveness” facciale (FLV) comunemente forniti da grandi vendor e venduti come servizio a clienti downstream come compagnie aeree e società assicurative.

Dall’articolo, una panoramica del funzionamento delle API di verifica di liveness facciale (FLV) tra i principali fornitori. Fonte: https://arxiv.org/pdf/2202.10673.pdf

La “liveness” facciale è destinata a respingere l’uso di tecniche come gli attacchi di immagine avversariale, l’uso di maschere e video preregistrati, così come le cosiddette “facce master” e altre forme di clonazione dell’identità visiva.

Lo studio conclude che il numero limitato di moduli di rilevamento deepfake distribuiti in questi sistemi, molti dei quali servono milioni di clienti, sono lontani dall’essere infallibili e potrebbero essere stati configurati su tecniche deepfake che ora sono superate o potrebbero essere troppo specifiche dell’architettura.

Gli autori notano:

‘[Diversi] metodi deepfake mostrano variazioni tra diversi vendor… Senza accesso ai dettagli tecnici dei vendor FLV di destinazione, speculiamo che tali variazioni siano attribuibili alle misure di difesa distribuite da diversi vendor. Ad esempio, alcuni vendor potrebbero distribuire difese contro specifici attacchi deepfake.’

E continuano:

‘[La maggior parte] delle API FLV non utilizza la rilevazione anti-deepfake; anche per quelle con tali difese, la loro efficacia è preoccupante (ad esempio, potrebbe rilevare video sintetizzati di alta qualità ma non rilevare quelli di bassa qualità).’

I ricercatori osservano, a questo riguardo, che ‘l’autenticità’ è relativa:

‘[Anche] se un video sintetizzato è irreale per gli esseri umani, può comunque bypassare il meccanismo di rilevamento anti-deepfake attuale con un tasso di successo molto alto.’

Sopra, immagini deepfake di esempio che sono state in grado di autenticarsi negli esperimenti degli autori. Sotto, immagini deepfake apparentemente più realistiche che non sono riuscite ad autenticarsi.

Un’altra scoperta è stata che l’attuale configurazione dei sistemi di verifica facciale generici è distorta verso i maschi bianchi. Di conseguenza, le identità femminili e non bianche sono state trovate più efficaci nel bypassare i sistemi di verifica, mettendo i clienti in quelle categorie a maggior rischio di violazione tramite tecniche basate su deepfake.

Il rapporto trova che le identità maschili bianche sono valutate più rigorosamente e con maggiore accuratezza dalle popolari API di verifica di liveness facciale. Nella tabella sopra, vediamo che le identità femminili e non bianche possono essere utilizzate più facilmente per bypassare i sistemi.

Il documento osserva che ‘ci sono pregiudizi nella verifica di liveness facciale, che possono portare a rischi di sicurezza significativi per un particolare gruppo di persone.’

Gli autori hanno anche condotto attacchi di autenticazione facciale etici contro un governo cinese, una grande compagnia aerea cinese, una delle più grandi società assicurative della Cina e R360, uno dei più grandi gruppi di investimento unicorn in tutto il mondo, e segnalano il successo nel bypassare l’utilizzo downstream di queste organizzazioni delle API studiate.

Nel caso di un bypass di autenticazione di successo per la compagnia aerea cinese, l’API downstream ha richiesto all’utente di ‘scuotere la testa’ come prova contro il materiale deepfake potenziale, ma ciò si è rivelato non funzionante contro il framework ideato dai ricercatori, che incorpora sei architetture deepfake.

Nonostante la valutazione della compagnia aerea dell’oscillazione della testa dell’utente, il contenuto deepfake è stato in grado di superare il test.

Il documento nota che gli autori hanno contattato i vendor coinvolti, che hanno riconosciuto il lavoro.

Gli autori offrono una serie di raccomandazioni per migliorare l’attuale stato dell’arte nella FLV, tra cui l’abbandono dell’autenticazione basata su singole immagini (‘Image-based FLV’), dove l’autenticazione si basa su un singolo frame del feed della fotocamera del cliente; un aggiornamento più flessibile e completo dei sistemi di rilevamento deepfake attraverso domini di immagine e voce; l’imposizione della necessità che l’autenticazione vocale nel video dell’utente sia sincronizzata con i movimenti delle labbra (cosa che attualmente non avviene in generale); e la richiesta agli utenti di eseguire gesti e movimenti che attualmente sono difficili da riprodurre per i sistemi deepfake (ad esempio, viste laterali e parziale oscuramento del viso).

Il documento è intitolato Seeing is Living? Rethinking the Security of Facial Liveness Verification in the Deepfake Era, e proviene da joint lead authors Changjiang Li e Li Wang, e altri cinque autori dell’Università statale della Pennsylvania, dell’Università di Zhejiang e dell’Università di Shandong.

I Principali Obiettivi

I ricercatori hanno preso di mira i ‘sei più rappresentativi’ vendor di verifica di liveness facciale (FLV), che sono stati resi anonimi con criptonimi nella ricerca.

I vendor sono rappresentati così: ‘BD’ e ‘TC’ rappresentano un fornitore conglomerato con il maggior numero di chiamate API relative al viso e la più grande quota dei servizi cloud AI della Cina; ‘HW’ è ‘uno dei vendor con il più grande mercato pubblico cinese’; ‘CW’ ha il tasso di crescita più veloce nella visione artificiale e sta raggiungendo una posizione di mercato leader; ‘ST’ è tra i più grandi vendor di visione artificiale; e ‘iFT’ è tra i più grandi vendor di software AI in Cina.

Dati e Architettura

I dati sottostanti che alimentano il progetto includono un set di dati di 625.537 immagini dall’iniziativa cinese CelebA-Spoof, insieme a video live dal set di dati SiW-M del 2019 dell’Università statale del Michigan.

Tutti gli esperimenti sono stati condotti su un server con due CPU Intel Xeon E5-2640 v4 da 2,40 GHz che eseguono su 256 GB di RAM con un HDD da 4 TB e quattro GPU NVIDIA 1080Ti orchestrate, per un totale di 44 GB di VRAM operativo.

Sei in Uno

Il framework ideato dagli autori del documento si chiama LiveBugger e incorpora sei framework deepfake di stato dell’arte contro le quattro principali difese nei sistemi FLV.

LiveBugger contiene approcci deepfake diversi e si concentra sui quattro principali vettori di attacco nei sistemi FLV.

I sei framework deepfake utilizzati sono: X2Face dell’Università di Oxford del 2018; la collaborazione accademica statunitense ICface; due varianti del progetto israeliano FSGAN del 2019; il modello First Order Method (FOMM) dell’Italia, del 2020; e la collaborazione tra l’Università di Pechino e Microsoft Research FaceShifter (sebbene FaceShifter non sia open source, gli autori hanno dovuto ricostruirlo in base ai dettagli dell’architettura pubblicati).

I metodi utilizzati tra questi framework includono l’uso di video preregistrati in cui i soggetti del video di spoofing eseguono azioni ripetute che sono state estratte dai requisiti di autenticazione dell’API in un modulo di valutazione precedente di LiveBugger, e anche l’uso di ‘deepfake puppetry’ efficace, che traduce i movimenti live di un individuo in un flusso deepfake che è stato inserito in un flusso di webcam cooptato.

Un esempio di quest’ultimo è DeepFaceLive, che ha debuttato l’estate scorsa come un programma aggiuntivo al popolare DeepFaceLab, per abilitare la trasmissione deepfake in tempo reale, ma che non è incluso nella ricerca degli autori.

Attaccare i Quattro Vettori

I quattro vettori di attacco all’interno di un tipico sistema FLV sono: image-based FLV, che utilizza una singola foto fornita dall’utente come token di autenticazione contro un’identità facciale registrata nel sistema; silence-based FLV, che richiede all’utente di caricare un clip video di se stesso; action-based FLV, che richiede all’utente di eseguire azioni dettate dalla piattaforma; e voice-based FLV, che corrisponde il discorso dell’utente con il pattern di discorso registrato nel sistema.

La prima sfida per il sistema è stabilire l’estensione in cui un’API divulgherà i suoi requisiti, poiché possono essere anticipati e soddisfatti nel processo di deepfaking. Ciò è gestito dal motore di Intelligenza in LiveBugger, che raccoglie informazioni sui requisiti da documentazione API pubblicamente disponibile e altre fonti.

Poiché i requisiti pubblicati possono essere assenti (per vari motivi) dalle routine effettive dell’API, il motore di Intelligenza incorpora una sonda che raccoglie informazioni implicite in base ai risultati di chiamate API esplorative. Nel progetto di ricerca, ciò è stato facilitato da API di test ‘ufficiali’ offline fornite per i benefici dei developer e anche da volontari che hanno offerto di utilizzare i propri account live per i test.

Il motore di Intelligenza cerca prove riguardo al fatto che un’API stia attualmente utilizzando un approccio particolare che potrebbe essere utile negli attacchi. Caratteristiche di questo tipo possono includere rilevamento di coerenza, che verifica se i frame in un video sono temporalemente continui – un requisito che può essere stabilito inviando frame video casuali e osservando se ciò contribuisce al fallimento dell’autenticazione.

Il modulo cerca anche rilevamento del linguaggio labiale, dove l’API potrebbe verificare se il suono nel video è sincronizzato con i movimenti delle labbra dell’utente (raramente il caso – vedi ‘Risultati’ sotto).

Risultati

Gli autori hanno scoperto che tutte e sei le API valutate non utilizzavano il rilevamento di coerenza al momento degli esperimenti, permettendo al motore deepfake in LiveBugger di semplicemente cucire insieme audio sintetizzato con video deepfake, basato su materiale contribuito da volontari.

Tuttavia, alcune applicazioni downstream (cioè clienti dei framework API) sono state trovate ad aver aggiunto il rilevamento di coerenza al processo, necessitando la registrazione preventiva di un video adattato per eludere ciò.

Inoltre, solo alcuni dei vendor API utilizzano il rilevamento del linguaggio labiale; per la maggior parte di essi, il video e l’audio sono analizzati come quantità separate e non c’è funzionalità che tenta di abbinare il movimento delle labbra all’audio fornito.

Risultati diversi che coprono l’intervallo di tecniche deepfake disponibili in LiveBugger contro la varietà di vettori di attacco in API FLV. Numeri più alti indicano una maggiore percentuale di successo nel penetrare FLV utilizzando tecniche deepfake. Non tutte le API includono tutte le possibili difese per FLV; ad esempio, alcune non offrono alcuna difesa contro i deepfake, mentre altre non verificano che il movimento delle labbra e l’audio si abbinnino nel video dell’utente durante l’autenticazione.

Conclusione

I risultati e le indicazioni del documento per il futuro delle API FLV sono labirintici e gli autori li hanno concatenati in un ‘architettura di vulnerabilità’ funzionale che potrebbe aiutare gli sviluppatori FLV a comprendere meglio alcune delle questioni scoperte.

La rete di raccomandazioni del documento riguardo la suscettibilità esistente e potenziale dei rituali di identificazione video basati sul viso agli attacchi deepfake.

Le raccomandazioni notano:

‘I rischi di sicurezza della FLV esistono ampiamente in molte applicazioni del mondo reale e minacciano così la sicurezza di milioni di utenti finali’

Gli autori osservano anche che l’uso di FLV basata su azioni è ‘marginale’ e che aumentare il numero di azioni che gli utenti sono tenuti a eseguire ‘non può portare alcun guadagno di sicurezza’.

Inoltre, gli autori notano che combinare il riconoscimento vocale e il riconoscimento facciale temporale (in video) è una difesa inutile a meno che i fornitori di API non inizino a richiedere che i movimenti delle labbra siano sincronizzati con l’audio.

Il documento arriva alla luce di un recente avvertimento dell’FBI alle aziende sui pericoli della truffa deepfake, quasi un anno dopo la loro previsione dell’uso di questa tecnologia in operazioni di influenza straniera e di timori generali che la tecnologia deepfake live faciliti un nuovo crimine su una pubblico che ancora si fida dell’architettura di sicurezza dell’autenticazione video.

Questi sono ancora i primi giorni dell’attacco di autenticazione deepfake; nel 2020, 35 milioni di dollari sono stati estorti in modo fraudolento da una banca negli Emirati Arabi Uniti tramite l’uso di tecnologia audio deepfake, e un dirigente del Regno Unito è stato allo stesso modo truffato e costretto a disburse 243.000 nel 2019.

Pubblicato per la prima volta il 23 febbraio 2022.