Sicurezza informatica

Rilevamento di videoconferenze Deepfake con la funzione ‘Vibrazione’ di uno smartphone

Published September 24, 2024

Updated April 3, 2026

Martin Anderson

An AI-generated illustration: 'a gorgeous panoramic picture of a man sitting in an office, looking into his smartphone, which he is holding; the man is wearing a Guy Fawkes mask; photorealistic, UHQ' - ChatGPT 3, Tuesday, September 24, 2024 13:27:31

Nuove ricerche da Singapore hanno proposto un metodo innovativo per rilevare se qualcuno all’altro capo di uno strumento di videoconferenza per smartphone sta utilizzando metodi come DeepFaceLive per impersonare qualcun altro.

Intitolato SFake, il nuovo approccio abbandona i metodi passivi impiegati dalla maggior parte dei sistemi e causa la vibrazione del telefono dell’utente (utilizzando gli stessi meccanismi di ‘vibrazione’ comuni negli smartphone), e sfoca leggermente il viso.

Sebbene i sistemi di deepfaking live siano in grado di replicare il blur di movimento, a condizione che il footage sfocato sia stato incluso nei dati di training o almeno nei dati di pre-training, non possono rispondere abbastanza rapidamente al blur inaspettato di questo tipo e continuano a output di sezioni non sfocate dei visi, rivelando l’esistenza di una videoconferenza deepfake.

DeepFaceLive non può rispondere abbastanza rapidamente per simulare il blur causato dalle vibrazioni della camera. Fonte: https://arxiv.org/pdf/2409.10889v1

I risultati dei test sui dati auto-curati dei ricercatori (poiché non esistono dataset che presentino una scossa attiva della camera) hanno trovato che SFake ha superato i metodi di rilevamento di deepfake basati su video, anche quando si è trovato di fronte a circostanze impegnative, come il movimento naturale della mano che si verifica quando l’altra persona in una videoconferenza tiene la camera con la mano, invece di utilizzare un supporto per telefono statico.

La crescente necessità di rilevamento di deepfake basato su video

La ricerca sul rilevamento di deepfake basato su video è aumentata recentemente. Alla fine di diversi anni di successi di truffe di deepfake basate su voce, all’inizio di quest’anno un lavoratore del settore finanziario è stato ingannato nel trasferire 25 milioni di dollari a un truffatore che impersonava un CFO in una videoconferenza deepfake.

Sebbene un sistema di questo tipo richieda un alto livello di accesso all’hardware, molti utenti di smartphone sono già abituati a servizi di verifica finanziaria e altri tipi di servizi che ci chiedono di registrare le nostre caratteristiche facciali per l’autenticazione basata sul viso (in effetti, questo fa parte del processo di verifica di LinkedIn).

Pertanto, sembra probabile che tali metodi saranno sempre più utilizzati per i sistemi di videoconferenza, poiché questo tipo di crimine continua a fare notizie.

La maggior parte delle soluzioni che affrontano il deepfaking live in tempo reale assume uno scenario molto statico, in cui il comunicante utilizza una webcam stazionaria, e non ci si aspettano movimenti o cambiamenti ambientali o di illuminazione eccessivi. Una chiamata su smartphone non offre alcuna situazione ‘fissa’.

Al contrario, SFake utilizza una serie di metodi di rilevamento per compensare il grande numero di varianti visive in una videoconferenza basata su smartphone tenuta a mano, e sembra essere il primo progetto di ricerca ad affrontare il problema utilizzando l’attrezzatura di vibrazione standard integrata negli smartphone.

Il documento è intitolato Shaking the Fake: Detecting Deepfake Videos in Real Time via Active Probes, e proviene da due ricercatori dell’Università Tecnologica di Nanyang a Singapore.

Metodo

SFake è progettato come un servizio basato su cloud, in cui un’app locale invierebbe dati a un servizio API remoto per l’elaborazione, e i risultati verrebbero inviati indietro.

Tuttavia, la sua impronta di soli 450mb e la metodologia ottimizzata consentono che possa elaborare il rilevamento di deepfake interamente sul dispositivo stesso, nei casi in cui la connessione di rete potrebbe causare l’invio di immagini eccessivamente compressi, influenzando il processo diagnostico.

Eseguire ‘tutto locale’ in questo modo significa che il sistema avrebbe un accesso diretto al flusso della fotocamera dell’utente, senza l’interferenza del codec spesso associata alla videoconferenza.

Il tempo di analisi medio richiede un campione video di quattro secondi, durante il quale all’utente viene chiesto di rimanere fermo, e durante il quale SFake invia ‘sonde’ per causare vibrazioni della camera a intervalli selettivamente casuali che sistemi come DeepFaceLive non possono rispondere in tempo.

(Dovrebbe essere sottolineato che qualsiasi attaccante che non abbia incluso contenuti sfocati nel set di dati di training è improbabile che possa produrre un modello in grado di generare sfocatura anche in circostanze molto più favorevoli, e che DeepFaceLive non può semplicemente ‘aggiungere’ questa funzionalità a un modello addestrato su un set di dati non curato)

Il sistema sceglie aree selezionate del viso come aree di potenziale contenuto deepfake, escludendo gli occhi e le sopracciglia (poiché il battito delle palpebre e altri motilità facciali in quell’area sono al di fuori dell’ambito della rilevazione del blur, e non sono un indicatore ideale).

Schema concettuale per SFake.

Come possiamo vedere nello schema concettuale sopra, dopo aver scelto modelli di vibrazione appropriati e non prevedibili, aver deciso la lunghezza focale migliore e aver eseguito il riconoscimento facciale (inclusa la rilevazione dei punti di riferimento tramite un componente Dlib che stima 68 punti di riferimento facciali standard), SFake deriva gradienti dal viso di input e si concentra su aree selezionate di questi gradienti.

La sequenza di varianza viene ottenuta analizzando sequenzialmente ogni frame nel breve clip in studio, fino a quando non si raggiunge la sequenza media o ‘ideale’, e il resto viene scartato.

Ciò fornisce caratteristiche estratte che possono essere utilizzate come quantificatore della probabilità di contenuto deepfake, in base al database di training (di cui, più tardi).

Il sistema richiede una risoluzione dell’immagine di 1920×1080 pixel, nonché un requisito di zoom di almeno 2x per l’obiettivo. Il documento nota che tali risoluzioni (e anche risoluzioni più elevate) sono supportate in Microsoft Teams, Skype, Zoom e Tencent Meeting.

La maggior parte degli smartphone ha una fotocamera frontale e una fotocamera posteriore, e spesso solo una di queste ha le capacità di zoom richieste da SFake; l’app richiederebbe quindi al comunicante di utilizzare la fotocamera che soddisfa questi requisiti.

L’obiettivo qui è quello di ottenere una proporzione corretta del viso dell’utente nel flusso video che il sistema analizzerà. Il documento osserva che la distanza media che le donne utilizzano i dispositivi mobili è di 34,7 cm, e per gli uomini, 38,2 cm (come segnalato in Journal of Optometry), e che SFake funziona molto bene a queste distanze.

Poiché la stabilizzazione è un problema con la video tenuta a mano, e poiché il blur che si verifica dal movimento della mano è un ostacolo al funzionamento di SFake, i ricercatori hanno provato diversi metodi per compensare. Il più efficace di questi è stato calcolare il punto centrale dei punti di riferimento stimati e utilizzarlo come ‘ancora’ – in sostanza, una tecnica di stabilizzazione algoritmica. Con questo metodo, è stata ottenuta un’accuratezza del 92%.

Dati e test

Poiché non esistevano dataset appropriati per lo scopo, i ricercatori hanno sviluppato il proprio:

‘[Noi] utilizziamo 8 marche diverse di smartphone per registrare 15 partecipanti di genere e età variabili per costruire il nostro dataset. Mettiamo lo smartphone su un supporto per telefono 20 cm lontano dal partecipante e zoomiamo due volte, puntando sul viso del partecipante per comprendere tutte le sue caratteristiche facciali mentre vibrano lo smartphone in modelli diversi.

‘Per i telefoni la cui fotocamera frontale non può zoomare, utilizziamo le fotocamere posteriori come sostituto. Registriamo 150 video lunghi, ognuno della durata di 20 secondi. Per impostazione predefinita, supponiamo che il periodo di rilevamento duri 4 secondi. Tagliamo 10 clip di 4 secondi da un video lungo tagliando il tempo di inizio in modo casuale. Pertanto, otteniamo un totale di 1500 clip reali, ognuna della durata di 4 secondi.’

Sebbene DeepFaceLive (collegamento GitHub) sia stato il principale obiettivo dello studio, poiché è attualmente il sistema di deepfaking live open source più utilizzato, i ricercatori hanno incluso quattro altri metodi per addestrare il modello di rilevamento di base: Hififace; FS-GANV2; RemakerAI; e MobileFaceSwap – l’ultimo di questi una scelta particolarmente appropriata, data l’ambiente di destinazione.

1500 video contraffatti sono stati utilizzati per l’addestramento, insieme al numero equivalente di video reali e inalterati.

SFake è stato testato contro diversi classificatori, tra cui SBI; FaceAF; CnnDetect; LRNet; DefakeHop varianti; e il servizio di rilevamento di deepfake online gratuito Deepaware. Per ciascuno di questi metodi di deepfake, 1500 video falsi e 1500 video reali sono stati addestrati.

Per il classificatore di base, è stato utilizzato un semplice reticolo neurale a due strati con una funzione di attivazione ReLU. 1000 video reali e 1000 video falsi sono stati scelti casualmente (sebbene i video falsi fossero esclusivamente esempi di DeepFaceLive).

L’Area Under Receiver Operating Characteristic Curve (AUC/AUROC) e l’accuratezza (ACC) sono stati utilizzati come metriche.

Per l’addestramento e l’inferenza, è stato utilizzato un NVIDIA RTX 3060, e i test sono stati eseguiti su Ubuntu. I video di test sono stati registrati con un Xiaomi Redmi 10x, un Xiaomi Redmi K50, un OPPO Find x6, un Huawei Nova9, un Xiaomi 14 Ultra, un Honor 20, un Google Pixel 6a e un Huawei P60.

Per essere coerenti con i metodi di rilevamento esistenti, i test sono stati implementati in PyTorch. I risultati principali dei test sono illustrati nella tabella seguente:

Risultati per SFake contro metodi concorrenti.

Unite.AI

Rilevamento di videoconferenze Deepfake con la funzione ‘Vibrazione’ di uno smartphone

La crescente necessità di rilevamento di deepfake basato su video

Metodo

Dati e test

You may like