Uzraudzība
“Degradētas” sintētiskās sejas var palīdzēt uzlabot sejas attēla atpazīšanu
Pētnieki no Mičiganas štata universitātes ir izstrādājuši veidu, kā sintētiskās sejas var atpūsties no dziļo viltojumu ainas un darīt kaut ko labu pasaulē, palīdzot attēlu atpazīšanas sistēmām kļūt precīzākām.
Jaunais vadāmais seju sintēzes modulis (CFSM), ko viņi ir izstrādājuši, spēj atjaunot sejas reālās pasaules videonovērošanas kadru stilā, nevis paļauties uz vienmērīgi augstākas kvalitātes attēliem, kas tiek izmantoti populārās slavenību atklātā pirmkoda datu kopās. neatspoguļo visus oriģinālo videonovērošanas sistēmu defektus un trūkumus, piemēram, sejas izplūšanu, zemu izšķirtspēju un sensoru troksni – faktorus, kas var ietekmēt atpazīšanas precizitāti.
CFSM nav īpaši paredzēts, lai autentiski simulētu galvas pozas, izteiksmes vai visas citas parastās iezīmes, kas ir dziļo viltojumu sistēmu mērķis, bet gan ģenerēt virkni alternatīvu skatu mērķa atpazīšanas sistēmas stilā, izmantojot stila pārnešana.
Sistēma ir izstrādāta, lai atdarinātu mērķa sistēmas stila domēnu un pielāgotu tās izvadi atbilstoši izšķirtspējai un “ekscentricitātes” diapazonam tajā. Lietošanas gadījumā ir iekļautas mantotās sistēmas, kuras, visticamāk, netiks jauninātas izmaksu dēļ, bet kuras pašlaik var maz veicināt jaunās paaudzes sejas atpazīšanas tehnoloģijās, jo sliktā izvades kvalitāte, iespējams, kādreiz bija vismodernākā.
Pārbaudot sistēmu, pētnieki atklāja, ka tā ir guvusi ievērojamus uzlabojumus attēlu atpazīšanas sistēmās, kurām jātiek galā ar šāda veida trokšņainiem un zemas kvalitātes datiem.
Viņi arī atklāja noderīgu procesa blakusproduktu – mērķa datu kopas tagad var raksturot un salīdzināt viena ar otru, tādējādi atvieglojot dažādu videonovērošanas sistēmu salīdzināšanu, salīdzinošo novērtēšanu un pielāgotu datu kopu ģenerēšanu nākotnē.
Turklāt metodi var pielietot esošām datu kopām, veicot faktiski domēna pielāgošana un padarot tos piemērotākus sejas atpazīšanas sistēmām.
Jūsu darbs IR Klientu apkalpošana jauns papīrs tiek nosaukts Kontrolējama un vadīta sejas sintēze neierobežotai sejas atpazīšanai, daļēji atbalsta ASV Nacionālās izlūkošanas direktora birojs (ODNI, plkst IARPA), un nāk no četriem pētniekiem MSU Datorzinātnes un inženierzinātņu nodaļā.
Piedāvātais saturs
Zemas kvalitātes sejas atpazīšana (LQFR) ir kļuvusi par a ievērojama studiju joma dažu pēdējo gadu laikā. Tā kā pilsoniskās un pašvaldību iestādes ir izveidojušas videonovērošanas sistēmas, lai tās būtu izturīgas un ilgstošas (nevēloties periodiski piešķirt resursus problēmas risināšanai), daudzi “mantotie” novērošanas tīkli ir kļuvuši par tehnisko parādu upuriem, ņemot vērā to pielāgojamību kā datus. mašīnmācības avoti.
Par laimi, tas ir uzdevums, kura risināšanai difūzijas modeļi un citi trokšņu modeļi ir neparasti labi pielāgoti. Darbojas daudzas no pēdējo gadu populārākajām un efektīvākajām attēlu sintēzes sistēmām uzlabošana zemas izšķirtspējas attēlus kā daļu no to konveijera, lai gan tas ir arī absolūti nepieciešams neironu saspiešanas metodēm (metodes attēlu un filmu saglabāšanai kā neironu dati, nevis bitkartes dati).
Daļa no sejas atpazīšanas izaicinājuma ir iegūt maksimālu iespējamo precizitāti no minimālā skaita funkcijas ko var iegūt no mazākajiem un vismazāk perspektīvajiem zemas izšķirtspējas attēliem. Šis ierobežojums pastāv ne tikai tāpēc, ka ir lietderīgi identificēt (vai izveidot) seju ar zemu izšķirtspēju, bet arī tāpēc, ka ir tehniski ierobežojumi attēlu izmēram, kas var iziet cauri jaunajam modelim, kas tiek apmācīts jebkurā jomā. VRAM ir pieejama vietējā GPU.
Šajā ziņā termins “iezīmes” ir mulsinošs, jo šādas pazīmes var iegūt arī no parka soliņu datu kopas. Datorredzes sektorā “funkcijas” attiecas uz atšķirīgās īpašības iegūts no attēliem - jebkurš attēlus neatkarīgi no tā, vai tas ir baznīcas, kalna līnijas vai izvietojums sejas funkcijas sejas datu kopā.
Tā kā datorredzes algoritmi tagad spēj palielināt attēlu un videomateriālu mērogošanu, ir ierosinātas dažādas metodes, lai “uzlabotu” zemas izšķirtspējas vai citādi degradētu mantoto novērošanas materiālu, līdz tas varētu būt iespējams izmantot šādus papildinājumus likumīgiem nolūkiem, piemēram, konkrētas personas ievietošana notikuma vietā saistībā ar nozieguma izmeklēšanu.
Papildus nepareizas identifikācijas iespējai, kas ir laiku pa laikam pulcējās virsraksti, teorētiski nevajadzētu pārāk izšķirt vai citādi pārveidot zemas izšķirtspējas videomateriālu, lai pozitīvi identificētu personu, jo sejas atpazīšanas sistēmai, kas ievada zema līmeņa funkcijas, nevajadzētu būt tādam izšķirtspējas līmenim un skaidrība. Turklāt šādas transformācijas praksē ir dārgas un rada papildu, atkārtoti jautājumi par to iespējamo derīgumu un likumību.
Nepieciešams vairāk slavenību ar zemu papēžiem
Būtu lietderīgāk, ja sejas atpazīšanas sistēma varētu iegūt funkcijas (ti, mašīnmācīšanās funkcijas no cilvēka funkcijas) no mantoto sistēmu izejas, kā tās ir, labāk izprotot attiecības starp “augstas izšķirtspējas” identitāti un degradētajiem attēliem, kas ir pieejami nesamierināmās (un bieži vien neaizstājamās) esošajās videonovērošanas sistēmās.
Problēma šeit ir viena no standartiem: izplatītas tīmeklī apkopotas datu kopas, piemēram, MS-Celeb-1M un WebFace260M (starp vairākiem citiem), ir bijuši nofiksēts uz pētnieku aprindām, jo tie nodrošina konsekventus etalonus, pēc kuriem pētnieki var novērtēt savu progresīvo vai lielo progresu salīdzinājumā ar pašreizējo tehnikas līmeni.
Tomēr autori apgalvo, ka sejas atpazīšanas (FR) algoritmi, kas apmācīti šajās datu kopās, nav piemērots materiāls daudzu vecāku uzraudzības sistēmu izvades vizuālajiem “domēniem”.
Papīrā ir rakstīts*:
“[State-of-the-art] (SoTA) FR modeļi nedarbojas labi uz reālās pasaules novērošanas attēliem (bez ierobežojumiem) domēna maiņas problēmas dēļ, tas ir, iegūtās liela mēroga apmācības datu kopas (daļēji ierobežotas). tīmeklī pārmeklētām slavenību sejām trūkst savvaļas variāciju, piemēram, raksturīga sensora trokšņa, zemas izšķirtspējas, kustības izplūšanas, turbulences efekta utt.
'Piemēram, 1:1 verifikācijas precizitāte, ko ziņoja viens no SoTA modeļiem par neierobežotu IJB-S datu kopa ir par aptuveni 30% zemāka nekā daļēji ierobežota LFW.
“Potenciāls risinājums šādai veiktspējas nepilnībai ir liela mēroga neierobežotas sejas datu kopas apkopošana. Tomēr šādas apmācības datu kopas izveidošana ar desmitiem tūkstošu priekšmetu ir ārkārtīgi sarežģīta, ņemot vērā augstās manuālās marķēšanas izmaksas.
Rakstā ir aprakstītas dažādas iepriekšējās metodes, kas ir mēģinājušas "saskaņot" vēsturisko vai zemo izmaksu uzraudzības sistēmu daudzveidīgos izejas veidus, taču ņemiet vērā, ka tās ir bijušas saistītas ar "aklo" palielināšanu. Turpretim CFSM apmācības laikā saņem tiešu atgriezenisko saiti no mērķa sistēmas reālās pasaules izvades un pielāgojas, izmantojot stila pārsūtīšanu, lai atdarinātu šo domēnu.
Autoru projektētajā arhitektūrā tiek izmantota ātrā gradienta zīmju metode (FGSM) iegūtos stilus un raksturlielumus individualizēt un “importēt” no mērķa sistēmas patiesās produkcijas. Attēlu ģenerēšanai paredzētā cauruļvada daļa pēc tam uzlabosies un ar apmācību kļūs uzticīgāka mērķa sistēmai. Šī atgriezeniskā saite no mērķa sistēmas zemo dimensiju stila telpas pēc būtības ir zema līmeņa un atbilst plašākajiem atvasinātajiem vizuālajiem deskriptoriem.
Autori komentē:
"Ar atgriezenisko saiti no FR modeļa sintezētie attēli ir izdevīgāki FR veiktspējai, tādējādi ievērojami uzlabojot ar tiem apmācīto FR modeļu vispārināšanas iespējas."
Testi
Pētnieki izmantoja MSU pašu iepriekšējais darbs kā veidni savas sistēmas testēšanai. Pamatojoties uz tiem pašiem eksperimentālajiem protokoliem, viņi izmantoja MS-Celeb-1m, kas sastāv tikai no tīmeklī tralētām slavenību fotogrāfijām, kā marķēto apmācības datu kopu. Taisnības labad tie iekļāva arī MS1M-V2, kurā ir 3.9 miljoni attēlu ar 85,700 XNUMX klasēm.
Mērķa dati bija WiderFace datu kopa, no Honkongas Ķīnas universitātes. Šis ir īpaši daudzveidīgs attēlu kopums, kas paredzēts sejas noteikšanas uzdevumiem sarežģītās situācijās. Tika izmantoti 70,000 XNUMX attēlu no šīs kopas.
Novērtēšanai sistēma tika pārbaudīta pret četriem sejas atpazīšanas kritērijiem: IJB-B, IJB-C, IJB-S, un TinyFace.
CFSM tika apmācīts, izmantojot aptuveni 10% apmācības datu no MS-Celeb-1m, aptuveni 0.4 miljoniem attēlu, 125,000 32 iterācijām 1 partijas lielumā, izmantojot Adam optimizētāju ar (ļoti zemu) mācīšanās ātrumu 4e-XNUMX.
Mērķa sejas atpazīšanas modelis tika izmantots a modifikācija ResNet-50 mugurkaulam ar ArcFace zaudēšanas funkciju, kas ir iespējota treniņa laikā. Turklāt modelis tika apmācīts ar CFSM kā ablācijas un salīdzinošo vingrinājumu (turpmāk rezultātu tabulā atzīmēts kā “ArcFace”).
Autori komentē primāros rezultātus:
"ArcFace modelis pārspēj visas bāzes līnijas gan seju identificēšanas, gan verifikācijas uzdevumos un sasniedz jaunu SoTA veiktspēju."
Spēja iegūt domēnus no dažādām mantoto vai nepietiekami specifikēto uzraudzības sistēmu īpašībām ļauj autoriem salīdzināt un novērtēt sadalījuma līdzību starp šiem ietvariem un parādīt katru sistēmu vizuālā stilā, ko varētu izmantot turpmākajā darbā. .
Autori turklāt atzīmē, ka viņu sistēma varētu lietderīgi izmantot dažas tehnoloģijas, kuras līdz šim ir uzskatītas tikai par problēmām, kas jāatrisina pētniecības un vīzijas kopienai:
“[CFSM] parāda, ka pretēja manipulācija var būt ne tikai par uzbrucēju, bet arī uzlabot atpazīšanas precizitāti redzes uzdevumos. Tikmēr mēs definējam datu kopas līdzības metriku, pamatojoties uz apgūtajām stilu bāzēm, kas tver stila atšķirības etiķetes vai prognozētāja agnostiskā veidā.
"Mēs uzskatām, ka mūsu pētījumi ir parādījuši vadāma un vadīta sejas sintēzes modeļa jaudu neierobežotai FR un sniedz izpratni par datu kopu atšķirībām."
* Es pārvēršu autoru iekļautos citātus par hipersaitēm.
Pirmo reizi publicēts 1. gada 2022. augustā.