Priežiūra

„Pablogėję“ sintetiniai veidai gali padėti geriau atpažinti veido vaizdą

paskelbta

prieš 2 metų

Rugpjūtis 1, 2022

Mokslininkai iš Mičigano valstijos universiteto sugalvojo būdą, kaip sintetiniai veidai galėtų pailsėti nuo gilių klastočių scenos ir nuveikti ką nors gero pasaulyje – padėdami vaizdų atpažinimo sistemoms tapti tikslesnėmis.

Jų sukurtas naujas valdomas veidų sintezės modulis (CFSM) gali atkurti veidus realaus pasaulio vaizdo stebėjimo filmuotos medžiagos stiliumi, o ne pasikliauti vienodai aukštesnės kokybės vaizdais, naudojamais populiariuose atvirojo kodo įžymybių duomenų rinkiniuose. neatspindi visų autentiškų CCTV sistemų gedimų ir trūkumų, tokių kaip veido neryškumas, maža skiriamoji geba ir jutiklių triukšmas – veiksniai, galintys turėti įtakos atpažinimo tikslumui.

Koncepcinė valdomo veido sintezės modulio (CFSM) architektūra. Šaltinis: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022.pdf

CFSM nėra specialiai skirtas autentiškai imituoti galvos pozas, išraiškas ar visus kitus įprastus bruožus, kurie yra giliai padirbtų sistemų tikslas, o greičiau sukurti įvairius alternatyvius vaizdus pagal taikinio atpažinimo sistemos stilių, naudojant stiliaus perkėlimas.

Sistema sukurta taip, kad imituotų tikslinės sistemos stiliaus sritį ir pritaikytų jos išvestį pagal skiriamąją gebą ir „ekscentricijų“ diapazoną. Naudojimo atvejis apima senas sistemas, kurios greičiausiai nebus atnaujintos dėl išlaidų, tačiau kurios šiuo metu gali mažai prisidėti prie naujos kartos veido atpažinimo technologijų dėl prastos išvesties kokybės, kuri kažkada galėjo būti pažangiausia.

Išbandę sistemą, mokslininkai nustatė, kad ji žymiai pagerino vaizdo atpažinimo sistemų, kurios turi susidoroti su tokio pobūdžio triukšmingais ir žemos kokybės duomenimis, pažangą.

Veido atpažinimo modelių mokymas prisitaikyti prie tikslinių sistemų apribojimų. Šaltinis: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022_supp.pdf

Be to, jie rado naudingą šalutinį proceso produktą – kad dabar tikslinius duomenų rinkinius būtų galima apibūdinti ir palyginti vienas su kitu, todėl ateityje būtų lengviau palyginti, lyginti ir generuoti pagal užsakymą pritaikytus duomenų rinkinius skirtingoms CCTV sistemoms.

Be to, metodas gali būti taikomas esamiems duomenų rinkiniams, atliekant de facto domeno pritaikymas ir padaryti jas labiau tinkamas veido atpažinimo sistemoms.

Šios naujas popierius yra tituluojamas Valdoma ir valdoma veido sintezė nesuvaržomam veido atpažinimui, iš dalies remia JAV Nacionalinės žvalgybos direktoriaus biuras (ODNI, adresu IARPA) ir yra iš keturių MSU kompiuterių mokslo ir inžinerijos katedros mokslininkų.

Teminiai turinys

Žemos kokybės veido atpažinimas (LQFR) tapo a žymi studijų sritis per pastaruosius kelerius metus. Kadangi pilietinės ir savivaldybių institucijos sukūrė vaizdo stebėjimo sistemas taip, kad jos būtų atsparios ir ilgaamžės (nenorėdamos periodiškai perskirstyti resursų problemai spręsti), daugelis „pasenusių“ stebėjimo tinklų tapo techninių skolų aukomis, atsižvelgiant į jų pritaikomumą kaip duomenis. mašininio mokymosi šaltiniai.

Skirtingi veido skiriamosios gebos lygiai įvairiose istorinėse ir naujesnėse vaizdo stebėjimo sistemose. Šaltinis: https://arxiv.org/pdf/1805.11519.pdf

Laimei, tai yra užduotis, kuriai išspręsti difuzijos modeliai ir kiti triukšmo modeliai yra neįprastai gerai pritaikyti. Veikia daugelis populiariausių ir efektyviausių pastarųjų metų vaizdo sintezės sistemų didinimas mažos skiriamosios gebos vaizdų kaip jų konvejerio dalis, o tai taip pat labai svarbu naudojant neuronų glaudinimo metodus (metodai, kaip išsaugoti vaizdus ir filmus kaip neuroninius duomenis, o ne bitmap duomenis).

Dalis veido atpažinimo iššūkio yra gauti didžiausią įmanomą tikslumą iš minimalaus skaičiaus funkcijos kuriuos galima išgauti iš mažiausių ir mažiausiai žadančių mažos raiškos vaizdų. Šis apribojimas egzistuoja ne tik dėl to, kad naudinga identifikuoti (arba sukurti) veidą esant mažai skyrai, bet ir dėl techninių vaizdų, galinčių praeiti pro besiformuojančią latentinę modelio, kuris mokomas bet kokiu atveju, dydžio apribojimų. VRAM galima naudoti vietiniame GPU.

Šia prasme sąvoka „ypatybės“ yra paini, nes tokias savybes taip pat galima gauti iš parko suoliukų duomenų rinkinio. Kompiuterinio matymo sektoriuje „ypatybės“ reiškia skiriamosios savybės gauta iš vaizdų – Bet koks vaizdų, nesvarbu, ar tai būtų bažnyčios, kalno linijos, ar jų išdėstymas veido veido duomenų rinkinio funkcijos.

Kadangi kompiuterinio matymo algoritmai dabar yra tinkami didinant vaizdų ir vaizdo įrašų mastelį, buvo pasiūlyti įvairūs metodai, kaip „patobulinti“ mažos skiriamosios gebos ar kitaip pablogėjusią seną stebėjimo medžiagą, kad būtų įmanoma naudoti tokius papildymus teisiniais tikslais, pavyzdžiui, konkretaus asmens patalpinimas į įvykio vietą, susijęs su nusikaltimo tyrimu.

Be klaidingo identifikavimo galimybės, kuri turi retkarčiais rinkdavo antraštes, teoriškai neturėtų prireikti didelės skiriamosios gebos ar kitaip transformuoti žemos raiškos filmuotą medžiagą, kad būtų galima teigiamai identifikuoti asmenį, nes veido atpažinimo sistemai, kuri įveda žemo lygio funkcijas, neturėtų būti reikalinga tokio lygio skiriamoji geba ir aiškumas. Be to, tokios transformacijos praktiškai yra brangios ir sukelia papildomų, pasikartojantys klausimai apie galimą jų galiojimą ir teisėtumą.

Reikia daugiau „pakulnų“ įžymybių

Būtų naudingiau, jei veido atpažinimo sistema galėtų išgauti ypatybes (ty mašininio mokymosi funkcijas žmogaus ypatybes) iš senų sistemų išvesties, kaip jos yra, geriau suprasdamos ryšį tarp „didelės skiriamosios gebos“ tapatybės ir pablogėjusių vaizdų, kurie yra prieinami nesuderinamose (ir dažnai nepakeičiamose) esamose vaizdo stebėjimo sistemose.

Problema čia yra viena iš standartų: įprasti žiniatinklyje surinkti duomenų rinkiniai, tokie kaip MS-Celeb-1M ir WebFace260M (tarp kelių kitų), buvo užsifiksavo mokslininkų bendruomenė, nes jie pateikia nuoseklius gaires, pagal kurias mokslininkai gali įvertinti savo laipsnišką ar didelę pažangą, palyginti su dabartine technikos pažanga.

Pavyzdžiai iš populiaraus Microsoft MS-Celeb1m duomenų rinkinio. Šaltinis: https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/

Tačiau autoriai teigia, kad veido atpažinimo (FR) algoritmai, parengti naudojant šiuos duomenų rinkinius, yra netinkama medžiaga daugelio senesnių stebėjimo sistemų išvesties vizualiniams „domenams“.

Laikraštyje rašoma*:

„[Pažangiausi] (SoTA) FR modeliai netinkamai veikia naudojant realaus pasaulio stebėjimo vaizdus (nesuvaržyti) dėl domeno poslinkio problemos, ty gautų didelio masto mokymo duomenų rinkinių (pusiau suvaržytų). Žiniatinklyje tikrinamiems įžymybių veidams trūksta natūralių variantų, pvz., būdingo jutiklio triukšmo, mažos skiriamosios gebos, judesio suliejimo, turbulencijos efekto ir kt.

„Pavyzdžiui, 1:1 patvirtinimo tikslumas, apie kurį pranešė vienas iš SoTA modelių ant nevaržomo IJB-S duomenų rinkinys yra maždaug 30 % mažesnis nei pusiau suvaržytas LFW.

„Galima priemonė tokiai našumo spragai yra surinkti didelio masto neribotą veido duomenų rinkinį. Tačiau sukurti tokį mokymo duomenų rinkinį, kuriame būtų dešimtys tūkstančių tiriamųjų, yra nepaprastai sunku dėl didelių rankinio ženklinimo išlaidų.

Straipsnyje aprašomi įvairūs ankstesni metodai, kuriais buvo bandoma „sulyginti“ įvairius istorinių ar pigių stebėjimo sistemų išvesties tipus, tačiau atkreipkite dėmesį, kad jie buvo susiję su „aklaisiais“ padidinimais. Priešingai, CFSM treniruočių metu gauna tiesioginį grįžtamąjį ryšį iš realios tikslinės sistemos išvesties ir prisitaiko per stiliaus perdavimą, kad imituotų tą sritį.

Aktorei Natalie Portman, kuriai nėra svetimi keli duomenų rinkiniai, dominuojantys kompiuterinio regėjimo bendruomenėje, šiame CFSM pavyzdyje yra viena iš identitetų, atliekančių pagal stilių suderintą domeno pritaikymą pagal grįžtamąjį ryšį iš tikrojo tikslinio modelio srities.

Autorių sukurta architektūra naudoja greito gradiento ženklo metodą (FGSM) individualizuoti ir „importuoti“ gautus stilius ir charakteristikas iš tikrosios tikslinės sistemos išvesties. Vaizdo generavimui skirta dujotiekio dalis vėliau tobulės ir taps ištikimesnė tikslinei sistemai, mokant. Šis grįžtamasis ryšys iš tikslinės sistemos žemų matmenų stiliaus erdvės yra žemo lygio ir atitinka plačiausius išvestinius vaizdinius aprašus.

Autoriai komentuoja:

„Atsižvelgiant į FR modelio grįžtamąjį ryšį, susintetinti vaizdai yra naudingesni FR veikimui, todėl žymiai pagerėjo su jais apmokytų FR modelių apibendrinimo galimybės.

Testai

Tyrėjai naudojo MSU ankstesnis darbas kaip šabloną jų sistemai išbandyti. Remdamiesi tais pačiais eksperimentiniais protokolais, kaip pažymėtą mokymo duomenų rinkinį jie naudojo MS-Celeb-1m, kurį sudaro tik tinkle traluojamos įžymybių nuotraukos. Teisybės dėlei jie taip pat įtraukė MS1M-V2, kuriame yra 3.9 milijono vaizdų su 85,700 XNUMX klasių.

Tiksliniai duomenys buvo „WiderFace“ duomenų rinkinys, iš Honkongo Kinijos universiteto. Tai ypač įvairus vaizdų rinkinys, skirtas veido aptikimo užduotims sudėtingose situacijose. Iš šio rinkinio buvo panaudota 70,000 XNUMX vaizdų.

Vertinant sistema buvo išbandyta pagal keturis veido atpažinimo etalonus: IJB-B, IJB-C, IJB-Sir TinyFace.

CFSM buvo apmokytas naudojant ~10% treniruočių duomenų iš MS-Celeb-1m, maždaug 0.4 milijono vaizdų, 125,000 32 iteracijų 1 partijos dydžiu, naudojant Adam optimizatorių, esant (labai mažam) mokymosi greičiui 4e-XNUMX.

Tikslinis veido atpažinimo modelis naudotas a modifikacija ResNet-50, skirtas stuburui, treniruotės metu įjungta ArcFace praradimo funkcija. Be to, modelis buvo apmokytas naudojant CFSM kaip abliaciją ir lyginamąjį pratimą (toliau pateiktoje rezultatų lentelėje pažymėtas kaip „ArcFace“).

Pirminių CFSM testų rezultatai. Didesni skaičiai yra geresni.

Autoriai komentuoja pirminius rezultatus:

„ArcFace modelis pranoksta visas bazines linijas tiek veido identifikavimo, tiek tikrinimo užduotyse ir pasiekia naują SoTA našumą.

Galimybė išskirti domenus iš įvairių senų ar nepakankamai apibrėžtų stebėjimo sistemų charakteristikų leidžia autoriams palyginti ir įvertinti šių sistemų pasiskirstymo panašumą ir pateikti kiekvieną sistemą vaizdiniu stiliumi, kurį būtų galima panaudoti tolesniame darbe. .

Įvairių duomenų rinkinių pavyzdžiai rodo akivaizdžius stiliaus skirtumus.

Autoriai taip pat pažymi, kad jų sistema galėtų naudingai panaudoti kai kurias technologijas, kurios iki šiol buvo laikomos tik problemomis, kurias turi išspręsti mokslinių tyrimų ir vizijos bendruomenė:

„[CFSM] rodo, kad priešiškas manipuliavimas gali būti ne tik užpuolikas, bet ir padidinti atpažinimo tikslumą atliekant regėjimo užduotis. Tuo tarpu mes apibrėžiame duomenų rinkinio panašumo metriką, pagrįstą išmoktomis stiliaus bazėmis, kurios fiksuoja stiliaus skirtumus etiketės arba prognozės agnostiniu būdu.

„Manome, kad mūsų tyrimas parodė valdomo ir vadovaujamo veido sintezės modelio galią neribotam FR ir leidžia suprasti duomenų rinkinių skirtumus.

* Mano autorių įterptųjų citatų konvertavimas į hipersaitus.

Pirmą kartą paskelbta 1 m. rugpjūčio 2022 d.

Susijusios temos:vaizdo sintezė tyrimas priežiūra

Kitas

AI padidina apsaugos kamerų galimybes

Nepraleiskite

Inžinieriai sukuria AI geležinkelių įsilaužimo aptikimo įrankį

Martinas Andersonas

Rašytojas apie mašininį mokymąsi, dirbtinį intelektą ir didelius duomenis.
Asmeninė svetainė: Martinanderson.ai
Kontaktai: [apsaugotas el. paštu]
Twitter: @manders_ai

Susivienyti.AI

„Pablogėję“ sintetiniai veidai gali padėti geriau atpažinti veido vaizdą

Priežiūra