Angolo di Anderson

Volti Sintetici “Deteriorati” Potrebbero Migliorare il Riconoscimento delle Immagini Faciali

mm

I ricercatori dell’Università del Michigan hanno escogitato un modo per far sì che i volti sintetici possano fare una pausa dalla scena dei deepfake e fare del bene nel mondo – aiutando i sistemi di riconoscimento delle immagini a diventare più precisi.

Il nuovo modulo di sintesi facciale controllabile (CFSM) che hanno progettato è in grado di rigenerare i volti nello stile di riprese di videosorveglianza del mondo reale, piuttosto che affidarsi alle immagini di qualità uniformemente più alta utilizzate nei popolari set di dati open source di celebrità, che non riflettono tutte le imperfezioni e i difetti dei sistemi CCTV genuini, come sfocatura facciale, bassa risoluzione e rumore del sensore – fattori che possono influire sull’accuratezza del riconoscimento.

Architettura concettuale per il Modulo di Sintesi Facciale Controllabile (CFSM). Fonte: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022.pdf

Architettura concettuale per il Modulo di Sintesi Facciale Controllabile (CFSM). Fonte: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022.pdf

Il CFSM non è progettato specificamente per simulare in modo autentico pose della testa, espressioni o tutti gli altri tratti usuali che sono l’obiettivo dei sistemi di deepfake, ma piuttosto per generare una serie di viste alternative nello stile del sistema di riconoscimento di destinazione, utilizzando style transfer.

Il sistema è progettato per imitare il dominio di stile del sistema di destinazione e adattare la sua uscita in base alla risoluzione e alla gamma di “eccentricità” in esso. Il caso d’uso include sistemi legacy che non sono probabili essere aggiornati a causa dei costi, ma che possono attualmente contribuire poco alla nuova generazione di tecnologie di riconoscimento facciale, a causa della scarsa qualità dell’uscita che potrebbe essere stata una volta all’avanguardia.

Testando il sistema, i ricercatori hanno scoperto che ha fatto notevoli progressi nello stato dell’arte dei sistemi di riconoscimento delle immagini che devono affrontare questo tipo di dati rumorosi e di bassa qualità.

Addestramento dei modelli di riconoscimento facciale per adattarsi alle limitazioni dei sistemi di destinazione. Fonte: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022_supp.pdf

Addestramento dei modelli di riconoscimento facciale per adattarsi alle limitazioni dei sistemi di destinazione. Fonte: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022_supp.pdf

Inoltre, hanno trovato un utile sottoprodotto del processo – che i set di dati di destinazione potrebbero ora essere caratterizzati e confrontati tra loro, rendendo più facile la comparazione, la valutazione e la generazione di set di dati personalizzati per vari sistemi di sorveglianza CCTV in futuro.

Inoltre, il metodo può essere applicato ai set di dati esistenti, eseguendo de facto adattamento del dominio e rendendoli più adatti per i sistemi di riconoscimento facciale.

Il nuovo articolo è intitolato Sintesi Facciale Controllabile e Guidata per il Riconoscimento Facciale non Vincolato, è supportato in parte dall’Ufficio del Direttore dell’Intelligence Nazionale (ODNI, presso IARPA) e proviene da quattro ricercatori del Dipartimento di Informatica e Ingegneria dell’Università del Michigan.

Contenuto in Evidenza

Il riconoscimento facciale di bassa qualità (LQFR) è diventato un settore di studio notevole negli ultimi anni. Poiché le autorità civili e municipali hanno costruito sistemi di videosorveglianza per essere resilienti e duraturi (non volendo riallocare risorse al problema periodicamente), molti sistemi di sorveglianza “legacy” sono diventati vittime di debito tecnico, in termini di adattabilità come fonti di dati per l’apprendimento automatico.

Livelli di risoluzione facciale variabili in una serie di sistemi di videosorveglianza storici e più recenti. Fonte: https://arxiv.org/pdf/1805.11519.pdf

Livelli di risoluzione facciale variabili in una serie di sistemi di videosorveglianza storici e più recenti. Fonte: https://arxiv.org/pdf/1805.11519.pdf

Per fortuna, questo è un compito che i modelli di diffusione e altri modelli basati sul rumore sono insolitamente ben adattati a risolvere. Molti dei sistemi di sintesi di immagini più popolari e efficaci degli ultimi anni eseguono upscaling di immagini a bassa risoluzione come parte della loro pipeline, mentre questo è anche assolutamente essenziale per le tecniche di compressione neurale (metodi per salvare immagini e film come dati neurali invece di dati bitmap).

Parte della sfida del riconoscimento facciale è ottenere la massima accuratezza possibile dal minor numero di caratteristiche che possono essere estratte dalle immagini a bassa risoluzione più piccole e meno promettenti. Questa limitazione esiste non solo perché è utile poter identificare (o creare) un volto a bassa risoluzione, ma anche a causa di limitazioni tecniche sulla dimensione delle immagini che possono passare attraverso lo spazio latente emergente di un modello che viene addestrato in qualsiasi VRAM disponibile su una GPU locale.

In questo senso, il termine “caratteristiche” è confuso, poiché tali caratteristiche possono anche essere ottenute da un set di dati di panchine del parco. Nel settore della visione artificiale, “caratteristiche” si riferisce alle caratteristiche distintive ottenute dalle immagini – qualsiasi immagine, sia che si tratti dei lineamenti di una chiesa, di una montagna o della disposizione di caratteristiche facciali in un set di dati di volti.

Poiché gli algoritmi di visione artificiale sono ora abili nell’upscaling di immagini e filmati, vari metodi sono stati proposti per “migliorare” il materiale di sorveglianza legacy di bassa risoluzione o degradato, al punto che potrebbe essere possibile utilizzare tali miglioramenti per scopi legali, come collocare una persona specifica in una scena, in relazione a un’indagine su un crimine.

Oltre alla possibilità di identificazione errata, che ha occasionale raccolto titoli, in teoria non dovrebbe essere necessario iper-risolvere o trasformare altrimenti le immagini a bassa risoluzione per effettuare un’identificazione positiva di un individuo, poiché un sistema di riconoscimento facciale che si concentra su caratteristiche a basso livello non dovrebbe richiedere quel livello di risoluzione e chiarezza. Inoltre, tali trasformazioni sono costose nella pratica e sollevano ulteriori, ricorrenti domande sulla loro potenziale validità e legalità.

Il Bisogno di Più Celebrità “Sfigati”

Sarebbe più utile se un sistema di riconoscimento facciale potesse derivare caratteristiche (ovvero caratteristiche di apprendimento automatico di caratteristiche umane) dall’uscita dei sistemi legacy come stanno, comprendendo meglio la relazione tra “alta risoluzione” identità e le immagini degradate disponibili in quadri di videosorveglianza esistenti e inesorabili.

Il problema qui è uno di standard: set di dati comuni raccolti dal web come MS-Celeb-1M e WebFace260M (tra gli altri), sono stati agganciati dalla comunità di ricerca perché forniscono benchmark coerenti contro cui i ricercatori possono misurare il loro progresso incrementale o maggiore rispetto allo stato attuale dell’arte.

Esempi dal set di dati MS-Celeb1m di Microsoft. Fonte: https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/

Esempi dal set di dati MS-Celeb1m di Microsoft. Fonte: https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/

Tuttavia, gli autori sostengono che gli algoritmi di riconoscimento facciale (FR) addestrati su questi set di dati non sono adatti per i “domini” visivi dell’uscita di molti sistemi di sorveglianza più vecchi.

L’articolo afferma*:

‘[Stato dell’arte] (SoTA) modelli FR non funzionano bene su immagini di sorveglianza del mondo reale (non vincolate) a causa del problema di shift di dominio, ovvero i grandi set di dati di addestramento (semi-vincolati) ottenuti tramite volti di celebrità raccolti dal web mancano di variazioni in-situ, come rumore del sensore, bassa risoluzione, sfocatura del movimento, effetto di turbolenza, ecc.

‘Ad esempio, l’accuratezza di verifica 1:1 segnalata da uno dei modelli SoTA sul set di dati IJB-S non vincolato è di circa il 30% inferiore a quella sul set di dati LFW semi-vincolato.

‘Un possibile rimedio a tale divario di prestazioni è assemblare un grande set di dati di facce non vincolate. Tuttavia, costruire un tale set di dati di addestramento con decine di migliaia di soggetti è proibitivamente difficile con un alto costo di etichettatura manuale.’

L’articolo racconta vari metodi precedenti che hanno tentato di “abbbinare” i tipi variegati di uscite dei sistemi di sorveglianza storici o a basso costo, ma nota che questi hanno affrontato “miglioramenti ciechi”. Al contrario, il CFSM riceve un feedback diretto dall’uscita del mondo reale del sistema di destinazione durante l’addestramento e si adatta tramite style transfer per imitare quel dominio.

L'attrice Natalie Portman, non estranea ai pochi set di dati che dominano la comunità di visione artificiale, figura tra le identità in questo esempio di CFSM che esegue un adattamento del dominio abbinato allo stile in base al feedback dal dominio del modello di destinazione effettivo.

L’attrice Natalie Portman, non estranea ai pochi set di dati che dominano la comunità di visione artificiale, figura tra le identità in questo esempio di CFSM che esegue un adattamento del dominio abbinato allo stile in base al feedback dal dominio del modello di destinazione effettivo.

L’architettura progettata dagli autori utilizza il Metodo di Segno di Gradiente Rapido (FGSM) per individuare e “importare” gli stili e le caratteristiche ottenute dall’uscita effettiva del sistema di destinazione. La parte della pipeline dedicata alla generazione di immagini migliorerà e diventerà più fedele al sistema di destinazione con l’addestramento. Questo feedback dallo spazio di stile a bassa dimensionalità del sistema di destinazione è di natura a basso livello e corrisponde ai descrittori visivi derivati più ampi.

Gli autori commentano:

‘Con il feedback dal modello FR, le immagini sintetizzate sono più benefiche per le prestazioni FR, portando a capacità di generalizzazione significativamente migliorate dei modelli FR addestrati con esse.’

Test

I ricercatori hanno utilizzato il lavoro precedente di MSU come modello per testare il loro sistema. Sulla base degli stessi protocolli sperimentali, hanno utilizzato MS-Celeb-1m, che consiste esclusivamente di fotografie di celebrità raccolte dal web, come set di dati di addestramento etichettato. Per equità, hanno anche incluso MS1M-V2, che contiene 3,9 milioni di immagini con 85.700 classi.

I dati di destinazione erano il set di dati WiderFace, dell’Università cinese di Hong Kong. Questo è un set di immagini particolarmente diversificato progettato per compiti di rilevamento dei volti in situazioni impegnative. Sono stati utilizzati 70.000 immagini da questo set.

Per la valutazione, il sistema è stato testato contro quattro benchmark di riconoscimento facciale: IJB-B, IJB-C, IJB-S e TinyFace.

Il CFSM è stato addestrato con ∼10% dei dati di addestramento da MS-Celeb-1m, circa 0,4 milioni di immagini, per 125.000 iterazioni con una dimensione del batch di 32 sotto l’ottimizzatore Adam con un tasso di apprendimento molto basso di 1e-4.

Il modello di riconoscimento facciale di destinazione ha utilizzato una modifica di ResNet-50 per il backbone, con la funzione di perdita ArcFace abilitata durante l’addestramento. Inoltre, un modello è stato addestrato con CFSM come esercizio di ablazione e confronto (notato come ‘ArcFace’ nella tabella dei risultati di seguito).

Risultati dai test principali per CFSM. Numeri più alti sono migliori.

Risultati dai test principali per CFSM. Numeri più alti sono migliori.

Gli autori commentano i risultati principali:

‘Il modello ArcFace supera tutti i benchmark in entrambi i compiti di identificazione e verifica facciale e raggiunge una nuova prestazione SoTA.’

La capacità di estrarre domini dalle varie caratteristiche dei sistemi di sorveglianza legacy o sottodimensionati consente anche agli autori di confrontare e valutare la somiglianza di distribuzione tra questi framework e di presentare ogni sistema in termini di uno stile visivo che potrebbe essere sfruttato in lavori successivi.

Esempi da vari set di dati esibiscono chiare differenze di stile.

Esempi da vari set di dati esibiscono chiare differenze di stile.

Gli autori notano inoltre che il loro sistema potrebbe fare un uso utile di alcune tecnologie che, fino ad ora, sono state viste solo come problemi da risolvere dalla comunità di ricerca e visione:

‘[CFSM] mostra che la manipolazione avversariale potrebbe andare oltre essere un attaccante e servire per aumentare le accuratezze di riconoscimento in compiti di visione. Nel frattempo, definiamo una metrica di similarità del set di dati basata sulle basi di stile apprese, che catturano le differenze di stile in un modo agnostico rispetto all’etichetta o al predicatore.’

‘Crediamo che la nostra ricerca abbia presentato il potere di un modello di sintesi facciale controllabile e guidato per il riconoscimento facciale non vincolato e fornisce una comprensione delle differenze nel set di dati.’

 

* La mia conversione delle citazioni in linea degli autori in collegamenti ipertestuali.

Pubblicato per la prima volta il 1° agosto 2022.

Scrittore su apprendimento automatico, specialista di dominio nella sintesi di immagini umane. Ex capo della ricerca contenuti presso Metaphysic.ai.