Andersons vinkel

‘Forringede’ syntetiske ansikter kan hjelpe med å forbedre ansiktsgjenkjenning

mm

Forskere fra Michigan State University har funnet en måte for syntetiske ansikter å ta en pause fra deepfake-scenen og gjøre noe godt i verden – ved å hjelpe bilde-gjenkjenningssystemer til å bli mer nøyaktige.

Den nye kontrollerbare ansikts-syntesemodulen (CFSM) de har utviklet, kan regenerere ansikter i stilen til virkelige overvåkingsvideoer, i stedet for å basere seg på de uniformt høykvalitetsbildene som brukes i populære åpne kildekodesamlinger av kjendiser, som ikke reflekterer alle feilene og manglene i ekte overvåkingssystemer, som ansiktsuskarphet, lav oppløsning og sensorstøy – faktorer som kan påvirke gjenkjenningens nøyaktighet.

Konseptuell arkitektur for Controllable Face Synthesis Module (CFSM). Kilde: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022.pdf

Konseptuell arkitektur for Controllable Face Synthesis Module (CFSM). Kilde: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022.pdf

CFSM er ikke ment spesifikt å simulere hodeposisjoner, uttrykk eller andre vanlige trekk som er målet for deepfake-systemer, men heller å generere en rekke alternative visninger i stilen til mål-gjenkjenningssystemet, ved å bruke stiloverføring.

Systemet er designet for å etterligne stil-domenet til målsystemet, og til å tilpasse utdataene etter oppløsning og rekkevidde av ‘e Eccentriciteter’ der. Bruksområdet inkluderer legacy-systemer som ikke sannsynligvis vil bli oppdatert på grunn av kostnader, men som kan bidra lite til den nye generasjonen av ansikts-gjenkjenningsteknologier, på grunn av lav kvalitet på utdata som en gang var ledende.

Ved å teste systemet, fant forskerne at det ga merkede forbedringer på den nåværende tilstanden i bilde-gjenkjenningssystemer som måtte håndtere denne type støyelige og lavkvalitetsdata.

Trening av ansikts-gjenkjenningmodellene for å tilpasse seg begrensningene i målsystemene. Kilde: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022_supp.pdf

Trening av ansikts-gjenkjenningmodellene for å tilpasse seg begrensningene i målsystemene. Kilde: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022_supp.pdf

De fant også en nyttig biprodukt av prosessen – at måldatasettene nå kunne karakteriseres og sammenlignes med hverandre, og gjøre det lettere å sammenligne, benchmark og generere skreddersydd datasett for varierende overvåkingssystemer i fremtiden.

Metoden kan også brukes på eksisterende datasett, og utføre de facto domene-tilpasning og gjøre dem mer egnet for ansikts-gjenkjenningssystemer.

Den nye artikkelen heter Kontrollerbar og veiledet ansikts-syntese for ubegrenset ansikts-gjenkjenning, og er støttet delvis av USAs kontor for direktøren for nasjonal etterretning (ODNI, på IARPA), og kommer fra fire forskere ved avdelingen for datavitenskap og ingeniørvitenskap ved MSU.

Utvalgt innhold

Lavkvalitets ansikts-gjenkjenning (LQFR) har blitt et merkbart studieområde over de siste årene. Fordi sivile og kommunale myndigheter bygde overvåkingsystemer for å være robuste og langvarige (ikke ønskede å reallokere ressurser til problemet periodisk), har mange ‘legacy’-overvåkingssystemer blitt ofre for teknisk gjeld, i form av deres tilpasning som datakilder for maskinlæring.

Varierende nivåer av ansiktsoppløsning over en rekke historiske og mer nylige overvåkingsystemer. Kilde: https://arxiv.org/pdf/1805.11519.pdf

Varierende nivåer av ansiktsoppløsning over en rekke historiske og mer nylige overvåkingsystemer. Kilde: https://arxiv.org/pdf/1805.11519.pdf

Lykkeligvis er dette en oppgave som diffusjonsmodeller og andre støy-baserte modeller er usedvanlig godt tilpasset å løse. Mange av de mest populære og effektive bilde-syntesemodellene fra de siste årene utfører opp-skalerings av lav-oppløsningsbilder som en del av deres pipeline, mens dette også er absolutt essensielt for neurale kompresjonsteknikker (metoder for å lagre bilder og filmer som neurale data i stedet for bitmap-data).

En del av utfordringen med ansikts-gjenkjenning er å få maksimal mulig nøyaktighet fra det minste mulige antall trekk som kan trekkes ut fra de minste og minst lovende lav-oppløsningsbildene. Denne begrensningen eksisterer ikke bare fordi det er nyttig å kunne identifisere (eller opprette) et ansikt i lav oppløsning, men også på grunn av tekniske begrensninger på størrelsen av bilder som kan passere gjennom den fremvoksende latente rommet til en modell som er under trening i hvilket som helst VRAM som er tilgjengelig på en lokal GPU.

I denne sammenhengen er begrepet ‘trekk’ forvirrende, siden slike trekk også kan trekkes ut fra en datasett av parkbenker. I datavitenskapssektoren, refererer ‘trekk’ til skillelige karakteristika som trekkes ut fra bilder – enhver bilder, enten det er linjementene til en kirke, et fjell eller disposisjonen av ansikts-trekk i en ansiktsdatasett.

Siden datavitenskapsalgoritmer nå er dyktige i å oppskalere bilder og video, har forskjellige metoder blitt foreslått for å ‘forbedre’ lav-oppløsnings- eller andre degraderte legacy-overvåkingsmateriale, til det punktet at det kan være mulig å bruke slike forbedringer for juridiske formål, som å plassere en bestemt person på et sted i forbindelse med en kriminalitetssak.

Foruten muligheten for misidentifikasjon, som av og til har samlet overskrifter, bør det i teorien ikke være nødvendig å hyper-oppløse eller andre transformere lav-oppløsningsbilder for å gjøre en positiv identifikasjon av en person, siden et ansikts-gjenkjenningssystem som fokuserer på lav-nivå-trekk ikke bør trenge den type oppløsning og klarhet. Videre er slike transformasjoner dyre i praksis, og reiser ytterligere, gjentakende spørsmål rundt deres potensielle gyldighet og lovlighet.

Behovet for flere ‘ned-slitt’ kjendiser

Det ville være mer nyttig hvis et ansikts-gjenkjenningssystem kunne trekke ut trekk (dvs. maskinlærings-trekk av menneskelige trekk) fra utdataene til legacy-systemer som de er, ved å forstå bedre forholdet mellom ‘høy-oppløsning’ identitet og de degraderte bildene som er tilgjengelige i uforanderlige (og ofte uerstattelige) eksisterende overvåkingsrammeverk.

Problemet her er et spørsmål om standarder: vanlige web-samlede datasett som MS-Celeb-1M og WebFace260M (blant flere andre), har blitt festet av forskningsmiljøet fordi de gir konsistente benchmark mot hvilke forskerne kan måle sin progressive eller store fremgang mot den nåværende tilstanden i kunstig intelligens.

Eksempler fra Microsofts populære MS-Celeb1m-datasett. Kilde: https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/

Eksempler fra Microsofts populære MS-Celeb1m-datasett. Kilde: https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/

Imidlertid argumenterer forfatterne for at ansikts-gjenkjenning (FR) algoritmer trent på disse datasettene er uegnet materiale for de visuelle ‘domener’ til utdata fra mange eldre overvåkingssystemer.

Artikkelen sier*:

‘[Tilstand-av-kunst] (SoTA) FR-modeller fungerer ikke godt på virkelige overvåkingsbilder (ubegrenset) på grunn av domene-skift-problemet, det vil si at de store skala-træningsdatasettene (semi-begrenset) som er hentet via web-crawled kjendis-ansikter mangler i-til-vild-variasjoner, som innebygd sensor-støy, lav oppløsning, bevegelsesuskarphet, turbulenseffekt, osv.

‘For eksempel, 1:1 verifiseringssnøyaktighet rapportert av en av SoTA-modellene på ubegrenset IJB-S datasett er omtrent 30% lavere enn på semi-begrenset LFW.

‘En potensiell kur mot slike ytelsesgap er å samle en stor skala ubegrenset ansiktsdatasett. Imidlertid er det å konstruere et slikt treningsdataset med titusener av subjekter prohibitivt vanskelig med høy manuell merking-kostnad.’

Artikkelen redegjør for flere tidligere metoder som har forsøkt å ‘matche’ de varierte typer utdata fra historiske eller lav-kostnads overvåkingssystemer, men merker at disse har å gjøre med ‘blinde’ forbedringer. I kontrast mottar CFSM direkte tilbakemelding fra virkelige utdata fra målsystemet under trening, og tilpasser seg via stiloverføring for å etterligne det domenet.

Skuespiller Natalie Portman, ingen fremmed for håndfull datasett som dominerer datavitenskapsmiljøet, er blant identitetene i dette eksemplet på CFSM som utfører stil-matched domene-tilpasning basert på tilbakemelding fra domenet til den faktiske målmodellen.

Skuespiller Natalie Portman, ingen fremmed for håndfull datasett som dominerer datavitenskapsmiljøet, er blant identitetene i dette eksemplet på CFSM som utfører stil-matched domene-tilpasning basert på tilbakemelding fra domenet til den faktiske målmodellen.

Arkitekturen designet av forfatterne bruker Fast Gradient Sign Method (FGSM) for å individuere og ‘importere’ de oppnådde stilene og karakteristikkene fra sanne utdata fra målsystemet. Delen av pipeline-dedikert til bilde-generering vil deretter forbedre seg og bli mer tro mot målsystemet med trening. Denne tilbakemeldingen fra det lave dimensjonale stil-rommet til målsystemet er lav-nivå i natur, og korresponderer til de bredeste avledede visuelle beskrivere.

Forfatterne kommenterer:

‘Med tilbakemeldingen fra FR-modellen, er de syntetiske bildene mer nyttige for FR-ytelsen, og fører til betydelig forbedret generaliserings-evne for FR-modellene trent med dem.’

Tester

Forskerne brukte MSUs egen tidligere arbeid som en mal for å teste deres system. Basert på de samme eksperimentelle protokollene, brukte de MS-Celeb-1m, som består eksklusivt av web-trawlede kjendis-fotografier, som det merkte treningsdatasettet. For rettferdighet inkluderte de også MS1M-V2, som inneholder 3,9 millioner bilder med 85 700 klasser.

Måldata var WiderFace-datasettet fra det kinesiske universitetet i Hong Kong. Dette er et særlig variert sett av bilder designet for ansikts-gjenkjenning i utfordrende situasjoner. 70 000 bilder fra dette settet ble brukt.

Ved evaluering ble systemet testet mot fire ansikts-gjenkjenning-benchmark: IJB-B, IJB-C, IJB-S og TinyFace.

CFSM ble trent med ∼10% av treningsdata fra MS-Celeb-1m, rundt 0,4 millioner bilder, for 125 000 iterasjoner ved 32 batch-størrelse under Adam-optimizeren ved en (svært lav) læringsrate på 1e-4.

Mål-ansikts-gjenkjenningmodellen brukte en modifisering av ResNet-50 for ryggraden, med ArcFace-tap-funksjon aktivert under trening. I tillegg ble en modell trent med CFSM som en ablasjon og sammenligningsøvelse (notert som ‘ArcFace’ i resultattabellen nedenfor).

Resultater fra de primære testene for CFSM. Høyere tall er bedre.

Resultater fra de primære testene for CFSM. Høyere tall er bedre.

Forfatterne kommenterer på de primære resultater:

‘ArcFace-modellen overgår alle baseline-modellene i både ansikts-identifikasjon og verifisering, og oppnår en ny SoTA-ytelse.’

Evnen til å trekke ut domener fra de forskjellige karakteristikkene til legacy- eller under-spekkede overvåkingssystemer muliggjør også at forfatterne kan sammenligne og evaluere distribusjonslikheten blant disse rammeverkene, og å presentere hvert system i form av en visuell stil som kan utnyttes i senere arbeid.

Eksempler fra forskjellige datasett viser tydelige forskjeller i stil.

Eksempler fra forskjellige datasett viser tydelige forskjeller i stil.

Forfatterne merker også at deres system kunne gjøre nyttig bruk av noen teknologier som hittil har blitt sett på som problemer som må løses av forsknings- og visjonssamfunnet:

‘[CFSM] viser at adversativ manipulering kunne gå utover å være en angriper, og tjene til å øke gjenkjenningssnøyaktigheten i visuelle oppgaver. I mellomtiden definerer vi en datasett-ligningsmetrik basert på de lærte stil-basene, som fanger stil-forskjellene i en merke- eller prediktor-agnostisk måte.’

‘Vi tror at vår forskning har presentert kraften til en kontrollerbar og veiledet ansikts-syntese for ubegrenset ansikts-gjenkjenning og gir en forståelse av datasett-forskjeller.’

 

* Min konvertering av forfatternes inline-citater til hyperlenker.

Først publisert 1. august 2022.

Forfatter på maskinlæring, domeneekspert på menneskesynthese. Tidligere leder for forskningsinnhold på Metaphysic.ai.