Andersons vinkel
‘Degraded’ Synthetiske Ansigter Kan Hjælpe Med At Forbedre Ansigtsgenkendelse

Forskere fra Michigan State University har udviklet en metode til, at syntetiske ansigter kan tage en pause fra deepfake-scenen og gøre noget godt i verden – ved at hjælpe billedgenkendelsessystemer med at blive mere præcise.
Den nye kontrollerbare ansigtssyntesemodul (CFSM), som de har udviklet, er i stand til at regenerere ansigter i stilen af virkelige overvågningsvideooptagelser, snarere end at afhænge af de ensartede højerekvalitetsbilleder, der bruges i populære open source-datasets af kendisser, som ikke reflekterer alle fejl og mangler i ægte overvågningsystemer, såsom ansigtsuskarphed, lav opløsning og sensorstøj – faktorer, der kan påvirke genkendelsesnøjagtigheden.

Konceptuel arkitektur for den Kontrollerbare Ansigtssyntesemodul (CFSM). Kilde: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022.pdf
CFSM er ikke beregnet specifikt til at simulere hovedstillinger, udtryk eller alle de andre sædvanlige træk, der er målet for deepfake-systemer, men snarere til at generere en række alternative visninger i stilen af det targeterede genkendelsessystem, ved hjælp af style transfer.
Systemet er designet til at efterligne stil-domænet for det targeterede system og til at tilpasse sin output i henhold til opløsningen og rækkevidden af ‘eccentriciteter’ deri. Brugen omfatter legacy-systemer, der ikke er sandsynligt at blive opgraderet på grund af omkostninger, men som kan bidrage lidt til den nye generation af ansigtsgenkendelsesteknologier på grund af lavkvalitetsoutput, der engang var førende.
Under testningen fandt forskerne, at systemet gjorde bemærkelsesværdige fremskridt i billedgenkendelsessystemer, der skal håndtere denne type støjende og lavkvalitetsdata.

Træning af ansigtsgenkendelsesmodellerne til at tilpasse sig begrænsningerne i det targeterede system. Kilde: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022_supp.pdf
De fandt også en nyttig biprodukt af processen – at de targeterede datasets nu kunne karakteriseres og sammenlignes med hinanden, hvilket gjorde det lettere at sammenligne, benchmarkere og generere specialdesignede datasets for varierende overvågningsystemer i fremtiden.
Desuden kan metoden anvendes på eksisterende datasets, hvilket udfører de facto domæneadaptation og gør dem mere egnede til ansigtsgenkendelsessystemer.
Den nye artikel er titlen Kontrollerbar og Guidet Ansigtssyntese til Ubegrænset Ansigtsgenkendelse, er understøttet delvist af det amerikanske kontor for national efterretning (ODNI, på IARPA), og kommer fra fire forskere ved Computer Science & Engineering-afdelingen på MSU.
Udvalgt Indhold
Lavkvalitets ansigtsgenkendelse (LQFR) er blevet et bemærkelsesværdigt studieområde i de seneste år. Fordi civile og kommunale myndigheder byggede overvågningsystemer til at være robuste og langtidsholdbare (ikke ønskede at omfordele ressourcer til problemet periodisk), er mange ‘legacy’-overvågningsnetværk blevet ofre for teknisk gæld, i forhold til deres tilpasning som datakilder for maskinlæring.

Varying niveauer af ansigtsopløsning på tværs af en række historiske og mere nylige overvågningsvideo-systemer. Kilde: https://arxiv.org/pdf/1805.11519.pdf
Det er heldigt, at dette er en opgave, der diffusion-modeller og andre støj-baserede modeller er usædvanligt godt til at løse. Mange af de mest populære og effektive billedsyntesystemer i de seneste år udfører opskalering af lavkvalitetsbilleder som en del af deres pipeline, mens dette også er absolut essentiel for neurale kompressionsteknikker (metoder til at gemme billeder og film som neurale data i stedet for bitmap-data).
En del af udfordringen ved ansigtsgenkendelse er at opnå den maksimale mulige nøjagtighed fra det mindste antal træk, der kan udtrækkes fra de mindste og mindst lovende lavkvalitetsbilleder. Denne begrænsning findes ikke kun, fordi det er nyttigt at kunne identificere (eller oprette) et ansigt i lav opløsning, men også på grund af tekniske begrænsninger på størrelsen af billeder, der kan passere gennem den fremkommende latente rum i en model, der trænes i hvilket som helst lokalt GPU.
I denne forstand er begrebet ‘træk’ forvirrende, da sådanne træk også kan udtrækkes fra en dataset af parkbænke. I computer vision-sektoren refererer ‘træk’ til de karakteristiske træk, der udtrækkes fra billeder – enhver billeder, enten det er linjementerne på en kirke, et bjerg eller dispositionen af ansigtstræk i en ansigtsdataset.
Da computer vision-algoritmer nu er dygtige til at opskalere billeder og videooptagelser, er forskellige metoder blevet foreslået til at ‘forbedre’ lavkvalitets- eller anden degraderet legacy-overvågningsmateriale, så det kan være muligt at bruge sådanne forbedringer til juridiske formål, såsom at placere en bestemt person på et sted i forhold til en kriminalsag.
Ud over muligheden for misidentifikation, som har indimellem samlet overskrifter, burde det i teorien ikke være nødvendigt at hyper-resolvere eller på anden måde omdanne lavkvalitetsvideooptagelser for at kunne identificere en person, da et ansigtsgenkendelsessystem, der fokuserer på lavniveautræk, ikke behøver det niveau af opløsning og klarhed. Desuden er sådanne transformationer dyre i praksis og rejser yderligere, gentagne spørgsmål om deres potentielle gyldighed og lovlighed.
Behovet for Flere ‘Down-At-Heel’ Kendisser
Det ville være mere nyttigt, hvis et ansigtsgenkendelsessystem kunne udtrække træk (dvs. maskinlærings-træk af menneskelige træk) fra outputtet af legacy-systemer, som de er, ved at forstå bedre forholdet mellem ‘høj opløsning’ identitet og de degraderede billeder, der er tilgængelige i uforanderlige (og ofte uerstattelige) eksisterende overvågningsrammer.
Problemet her er et spørgsmål om standarder: Fælles web-samlede datasets som MS-Celeb-1M og WebFace260M (iblandt flere andre), er blevet fastgjort af forskningssamfundet, fordi de giver konsistente benchmarks, som forskerne kan måle deres inkrementelle eller store fremskridt imod den nuværende tilstand af kunsten.

Eksempler fra Microsofts populære MS-Celeb1m-dataset. Kilde: https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/
Forfatterne mener dog, at ansigtsgenkendelse (FR) algoritmer, der er trænet på disse datasets, er upassende materiale for de visuelle ‘domæner’ af outputtet fra mange ældre overvågningsystemer.
Artiklen siger*:
‘[State-of-the-art] (SoTA) FR-modeller fungerer ikke godt på virkelige overvågningsbilleder (ubegrænsede) på grund af domæne-skift-problemet, det vil sige, at de store skala-træningsdatasets (semi-begrænsede) erhvervet via web-crawled kendis-ansigter mangler i-til-vild-variationer, såsom indre sensorstøj, lav opløsning, bevægelsesuskarphed, turbulens-effekt osv.
‘For eksempel er 1:1-verificeringsnøjagtigheden rapporteret af en af SoTA-modellerne på ubegrænsede IJB-S-dataset om 30% lavere end på semi-begrænsede LFW.
‘En potentiel kur til sådan en performancesforskel er at samle en stor skala-ubegrænset ansigtsdataset. Men at konstruere sådant et træningsdataset med titusinder af emner er forbudt dyrt med høj manuel mærkningsomkostning.’
Artiklen redegør for forskellige tidligere metoder, der har forsøgt at ‘matche’ de forskellige typer output fra historiske eller lavkvalitets-overvågningsystemer, men bemærker, at disse har haft med ‘blinde’ forbedringer at gøre. I modsætning hertil modtager CFSM direkte feedback fra det virkelige output af det targeterede system under træning og tilpasser sig via style transfer til at efterligne det domæne.

Skuespilleren Natalie Portman, ingen fremmed for den håndfuld datasets, der dominerer computer vision-samfundet, er blandt identiteterne i dette eksempel på CFSM, der udfører style-matched domæneadaptation baseret på feedback fra domænet af det faktiske target-model.
Forfatterne bemærker:
‘Med feedback fra FR-modellen er de syntetiserede billeder mere nyttige for FR-præstationen, hvilket fører til betydeligt forbedret generaliseringsfærdighed for FR-modellerne, der er trænet med dem.’
Tests
Forskerne brugte MSU’s egen tidligere arbejde som en skabelon for at teste deres system. Baseret på de samme eksperimentelle protokoller brugte de MS-Celeb-1m, der består udelukkende af web-trawlede kendisfotografier, som det mærkede træningsdataset. For retfærdighedens skyld inkluderede de også MS1M-V2, der indeholder 3,9 millioner billeder med 85.700 klasser.
Target-data var WiderFace-datasettet fra det kinesiske universitet i Hong Kong. Dette er et særligt diverst sæt af billeder designet til ansigtsdetektionsopgaver i udfordrende situationer. 70.000 billeder fra dette sæt blev brugt.
Til evaluering blev systemet testet imod fire ansigtsgenkendelses-benchmarks: IJB-B, IJB-C, IJB-S og TinyFace.
CFSM blev trænet med ∼10% af træningsdata fra MS-Celeb-1m, omkring 0,4 millioner billeder, i 125.000 iterationer med en batch-størrelse på 32 under Adam-optimizeren med en (meget lav) læringsrate på 1e-4.
Det targeterede ansigtsgenkendelsesmodel brugte en modifikation af ResNet-50 som ryggrad, med ArcFace-tab-funktion aktiveret under træning. Desuden blev en model trænet med CFSM som en ablation og sammenligningsøvelse (noteret som ‘ArcFace’ i resultattabellen nedenfor).
Forfatterne bemærker om de primære resultater:
‘ArcFace-modellen overgår alle baseline-modellerne i både ansigt-identifikation og verificeringstasks og opnår en ny SoTA-præstation.’
Evnen til at udtrække domæner fra de forskellige karakteristika af legacy- eller under-speccede overvågningsystemer giver også forfatterne mulighed for at sammenligne og evaluere distributionsligheden mellem disse rammer og at præsentere hvert system i form af en visuel stil, der kan udnyttes i fremtidigt arbejde.
Forfatterne bemærker desuden, at deres system kunne gøre nyttig brug af nogle teknologier, der hidtil er blevet set som problemer, der skal løses af forskningssamfundet:
‘[CFSM] viser, at fjendtlig manipulation kan gå ud over at være en angriber og kan øge genkendelsesnøjagtigheden i visionstasks. Samtidig definerer vi en dataset-lighedsmåling baseret på de lænte stil-baser, der fanger stil-forskellene i en label eller predictor-agnostisk måde.’
‘Vi mener, at vores forskning har præsenteret kraften af en kontrollerbar og guidet ansigtssyntesemodel for ubegrænset FR og giver en forståelse af dataset-forskelle.’
* Min konvertering af forfatternes inline-citationer til hyperlinks.
Først udgivet 1. august 2022.














