Intelligenza artificiale
Rilevamento di videochiamate Deepfake attraverso l’illuminazione del monitor

Una nuova collaborazione tra un ricercatore dell’Agenzia di Sicurezza Nazionale degli Stati Uniti (NSA) e l’Università della California a Berkeley offre un metodo innovativo per rilevare contenuti deepfake in un contesto di videochiamata live – osservando l’effetto dell’illuminazione del monitor sull’aspetto della persona all’altra estremità della videochiamata.

L’utente popolare di DeepFaceLive Druuzil Tech & Games prova il proprio modello DeepFaceLab di Christian Bale in una sessione live con i suoi follower, mentre le fonti di luce cambiano. Fonte: https://www.youtube.com/watch?v=XPQLDnogLKA
Il sistema funziona posizionando un elemento grafico sullo schermo dell’utente che cambia una gamma ristretta del suo colore più velocemente di quanto un sistema deepfake tipico possa rispondere – anche se, come l’implementazione di streaming deepfake in tempo reale DeepFaceLive (riprodotto sopra), ha alcune capacità di mantenere il trasferimento dei colori live e di tenere conto dell’illuminazione ambientale.
L’immagine del colore uniforme visualizzata sul monitor della persona all’altra estremità (ovvero il potenziale truffatore deepfake) passa attraverso una variazione limitata di cambi di tonalità progettati per non attivare il bilanciamento del bianco automatico della webcam e altri sistemi di compensazione dell’illuminazione ad hoc, che comprometterebbero il metodo.

Dal documento, un’illustrazione del cambiamento delle condizioni di illuminazione dal monitor di fronte a un utente, che funziona efficacemente come una ‘area light’ diffusa. Fonte: https://farid.berkeley.edu/downloads/publications/cvpr22a.pdf
La teoria alla base dell’approccio è che i sistemi deepfake live non possono rispondere in tempo ai cambiamenti rappresentati nel grafico sullo schermo, aumentando il ‘ritardo’ dell’effetto deepfake in alcune parti dello spettro dei colori, rivelando la sua presenza.
Per poter misurare con precisione la luce del monitor riflessa, il sistema deve tenere conto e poi scontare l’effetto dell’illuminazione ambientale generale non correlata alla luce del monitor. È quindi in grado di distinguere carenze nella misurazione della tonalità di illuminazione attiva e della tonalità facciale degli utenti, rappresentando uno spostamento temporale di 1-4 frame di differenza tra ciascuno:

Limitando le variazioni di tonalità nel grafico ‘rilevatore’ sullo schermo e assicurandosi che la webcam dell’utente non sia promossa ad auto-regolare le sue impostazioni di acquisizione a causa dei cambiamenti eccessivi nell’illuminazione del monitor, i ricercatori sono stati in grado di discernere un ritardo caratteristico nell’aggiustamento del sistema deepfake ai cambiamenti di illuminazione.
Il documento conclude:
‘A causa della ragionevole fiducia che riponiamo nelle videochiamate live, e della crescente ubiquità delle videochiamate nelle nostre vite personali e professionali, proponiamo che le tecniche per autenticare video (e audio) chiamate diventeranno sempre più importanti.’
Lo studio è intitolato Rilevamento di video deepfake in tempo reale utilizzando l’illuminazione attiva, e proviene da Candice R. Gerstner, un matematico di ricerca applicata del Dipartimento della Difesa degli Stati Uniti, e dal Professor Hany Farid di Berkeley.
Erosione della fiducia
La scena di ricerca anti-deepfake ha cambiato notevolmente negli ultimi sei mesi, passando dalla rilevazione generale dei deepfake (ovvero la mira a video registrati e contenuti pornografici) alla rilevazione della ‘vita’, in risposta a un’onda crescente di incidenti di utilizzo di deepfake nelle videochiamate e all’avvertimento recente dell’FBI sull’utilizzo crescente di tali tecnologie nelle applicazioni per il lavoro remoto.
Anche quando una videochiamata non si rivela essere stata deepfaked, le opportunità aumentate per gli impersonatori video guidati da AI stanno iniziando a generare paranoia.
Il nuovo documento afferma:
‘La creazione di deepfake in tempo reale [presenta] minacce uniche a causa del senso generale di fiducia che circonda una videochiamata o una telefonata live, e della sfida di rilevare i deepfake in tempo reale, mentre la chiamata si svolge.’
La comunità di ricerca ha da tempo stabilito l’obiettivo di trovare segni infallibili di contenuti deepfake che non possano essere facilmente compensati. Sebbene i media abbiano tipicamente caratterizzato questo come una guerra tecnologica tra ricercatori di sicurezza e sviluppatori di deepfake, la maggior parte delle negazioni degli approcci iniziali (come l’analisi del battito delle palpebre, la discernimento della posizione della testa e l’analisi del comportamento) sono stati semplicemente perché gli sviluppatori e gli utenti stavano cercando di creare deepfake più realistici in generale, piuttosto che affrontare specificamente l’ultimo ‘segno’ identificato dalla comunità di sicurezza.
Gettare luce sui video deepfake live
Rilevare i deepfake in ambienti di video live porta il fardello di tenere conto delle connessioni video scadenti, che sono molto comuni nelle scenari di videoconferenza. Anche senza un livello di deepfake interposto, il contenuto video può essere soggetto a lag di stile NASA, artefatti di rendering e altri tipi di degrado in audio e video. Questi possono servire a nascondere i bordi grezzi in un’architettura di deepfaking live, sia in termini di video che di audio deepfake.
Il nuovo sistema degli autori migliora i risultati e i metodi che figurano in una pubblicazione del 2020 del Center for Networked Computing della Temple University di Filadelfia.

Dal documento del 2020, possiamo osservare il cambiamento nell’illuminazione facciale ‘riempita’ mentre il contenuto dello schermo dell’utente cambia. Fonte: https://cis.temple.edu/~jiewu/research/publications/Publication_files/FakeFace__ICDCS_2020.pdf
La differenza nel nuovo lavoro è che tiene conto del modo in cui le webcam rispondono ai cambiamenti di illuminazione. Gli autori spiegano:
‘Poiché tutte le webcam moderne eseguono l’esposizione automatica, il tipo di illuminazione attiva ad alta intensità [utilizzato nel lavoro precedente] è probabilmente destinato a scatenare l’esposizione automatica della fotocamera, che a sua volta confonderà l’aspetto facciale registrato. Per evitare ciò, impieghiamo un’illuminazione attiva costituita da un cambiamento di tonalità isoluminante.
‘Mentre ciò evita l’esposizione automatica della fotocamera, potrebbe scatenare il bilanciamento del bianco della fotocamera, che confonderebbe nuovamente l’aspetto facciale registrato. Per evitare ciò, operiamo in una gamma di tonalità che abbiamo empiricamente determinato non scatena il bilanciamento del bianco.’
Per questa iniziativa, gli autori hanno anche considerato imprese simili precedenti, come LiveScreen, che costringe un modello di illuminazione poco appariscente sul monitor dell’utente finale nel tentativo di rivelare contenuti deepfake.
Sebbene quel sistema abbia raggiunto un tasso di accuratezza del 94,8%, i ricercatori concludono che la sottigliezza dei modelli di luce renderebbe un approccio occulto difficile da implementare in ambienti illuminati vividamente, e propongono invece che il loro sistema, o uno modellato su linee simili, potrebbe essere incorporato pubblicamente e per impostazione predefinita nel software di videoconferenza popolare:
‘La nostra proposta di intervento potrebbe essere realizzata da un partecipante alla chiamata che condivide semplicemente lo schermo e visualizza il modello variabile nel tempo, o, idealmente, potrebbe essere integrato direttamente nel client di videochiamata.’
Test
Gli autori hanno utilizzato una miscela di soggetti sintetici e del mondo reale per testare il loro rilevatore di deepfake guidato da Dlib. Per lo scenario sintetico, hanno utilizzato Mitsuba, un renderer forward e inverse dell’Istituto federale svizzero di tecnologia di Losanna.

Campioni dal set di dati simulati, con variazioni di tono della pelle, dimensione della fonte di luce, intensità della luce ambientale e prossimità alla fotocamera.
La scena rappresentata include una testa CGI parametrica catturata da una fotocamera virtuale con un campo di visione di 90°. Le teste presentano riflessione lambertiana e toni della pelle neutrali, e sono situate a 2 piedi di fronte alla fotocamera virtuale.
Per testare l’ambito del framework su una gamma di possibili toni della pelle e configurazioni, i ricercatori hanno eseguito una serie di test, variando diversi aspetti in sequenza. Gli aspetti modificati includevano il tono della pelle, la prossimità e la dimensione della luce di illuminazione.
Gli autori commentano:
‘In simulazione, con le nostre varie ipotesi soddisfatte, la nostra tecnica proposta è altamente robusta rispetto a una vasta gamma di configurazioni di imaging.’
Per lo scenario del mondo reale, i ricercatori hanno utilizzato 15 volontari con una gamma di toni della pelle, in ambienti diversi. Ognuno è stato sottoposto a due cicli della variazione di tonalità limitata, in condizioni in cui una frequenza di aggiornamento del display di 30Hz era sincronizzata con la webcam, il che significava che l’illuminazione attiva sarebbe durata solo un secondo alla volta. I risultati sono stati ampiamente paragonabili con i test sintetici, sebbene le correlazioni siano aumentate notevolmente con valori di illuminazione più grandi.
Direzioni future
Il sistema, gli autori ammettono, non tiene conto delle tipiche occlusioni facciali, come le frange, gli occhiali o i capelli facciali. Tuttavia, notano che il mascheramento di questo tipo può essere aggiunto a sistemi successivi (attraverso l’etichettatura e la successiva segmentazione semantica), che potrebbero essere formate per assumere valori esclusivamente dalle aree di pelle percepita nel soggetto bersaglio.
Gli autori suggeriscono anche che un paradigma simile potrebbe essere utilizzato per rilevare le chiamate audio deepfake, e che il suono necessario per la rilevazione potrebbe essere riprodotto in una frequenza al di fuori della normale gamma di udito umano.
Forse più interessante, i ricercatori suggeriscono anche che estendere l’area di valutazione oltre il viso in un framework di acquisizione più ricco potrebbe migliorare notevolmente la possibilità di rilevamento dei deepfake*:
‘Una stima più sofisticata della luce 3D avrebbe probabilmente fornito un modello di aspetto più ricco che sarebbe stato ancora più difficile per un falsario aggirare. Mentre ci siamo concentrati solo sul viso, il display del computer illumina anche il collo, il torso superiore e lo sfondo circostante, da cui potrebbero essere fatte misurazioni simili.
‘Queste misurazioni aggiuntive costringerebbero il falsario a considerare l’intera scena 3D, non solo il viso.’
* La mia conversione delle citazioni in linea degli autori in collegamenti ipertestuali.
Pubblicato per la prima volta il 6 luglio 2022.












