stubs “Degradētas” sintētiskās sejas varētu palīdzēt uzlabot sejas attēla atpazīšanu — Unite.AI
Savienoties ar mums

Uzraudzība

“Degradētas” sintētiskās sejas var palīdzēt uzlabot sejas attēla atpazīšanu

mm

Izdots

 on

Pētnieki no Mičiganas štata universitātes ir izstrādājuši veidu, kā sintētiskās sejas var atpūsties no dziļo viltojumu ainas un darīt kaut ko labu pasaulē, palīdzot attēlu atpazīšanas sistēmām kļūt precīzākām.

Jaunais vadāmais seju sintēzes modulis (CFSM), ko viņi ir izstrādājuši, spēj atjaunot sejas reālās pasaules videonovērošanas kadru stilā, nevis paļauties uz vienmērīgi augstākas kvalitātes attēliem, kas tiek izmantoti populārās slavenību atklātā pirmkoda datu kopās. neatspoguļo visus oriģinālo videonovērošanas sistēmu defektus un trūkumus, piemēram, sejas izplūšanu, zemu izšķirtspēju un sensoru troksni – faktorus, kas var ietekmēt atpazīšanas precizitāti.

Kontrolējamās sejas sintēzes moduļa (CFSM) konceptuāla arhitektūra. Avots: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022.pdf

Kontrolējamās sejas sintēzes moduļa (CFSM) konceptuāla arhitektūra. Avots: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022.pdf

CFSM nav īpaši paredzēts, lai autentiski simulētu galvas pozas, izteiksmes vai visas citas parastās iezīmes, kas ir dziļo viltojumu sistēmu mērķis, bet gan ģenerēt virkni alternatīvu skatu mērķa atpazīšanas sistēmas stilā, izmantojot stila pārnešana.

Sistēma ir izstrādāta, lai atdarinātu mērķa sistēmas stila domēnu un pielāgotu tās izvadi atbilstoši izšķirtspējai un “ekscentricitātes” diapazonam tajā. Lietošanas gadījumā ir iekļautas mantotās sistēmas, kuras, visticamāk, netiks jauninātas izmaksu dēļ, bet kuras pašlaik var maz veicināt jaunās paaudzes sejas atpazīšanas tehnoloģijās, jo sliktā izvades kvalitāte, iespējams, kādreiz bija vismodernākā.

Pārbaudot sistēmu, pētnieki atklāja, ka tā ir guvusi ievērojamus uzlabojumus attēlu atpazīšanas sistēmās, kurām jātiek galā ar šāda veida trokšņainiem un zemas kvalitātes datiem.

Sejas atpazīšanas modeļu apmācība, lai pielāgotos mērķa sistēmu ierobežojumiem. Avots: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022_supp.pdf

Sejas atpazīšanas modeļu apmācība, lai pielāgotos mērķa sistēmu ierobežojumiem. Avots: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022_supp.pdf

Viņi arī atklāja noderīgu procesa blakusproduktu – mērķa datu kopas tagad var raksturot un salīdzināt viena ar otru, tādējādi atvieglojot dažādu videonovērošanas sistēmu salīdzināšanu, salīdzinošo novērtēšanu un pielāgotu datu kopu ģenerēšanu nākotnē.

Turklāt metodi var pielietot esošām datu kopām, veicot faktiski domēna pielāgošana un padarot tos piemērotākus sejas atpazīšanas sistēmām.

Jūsu darbs IR Klientu apkalpošana jauns papīrs tiek nosaukts Kontrolējama un vadīta sejas sintēze neierobežotai sejas atpazīšanai, daļēji atbalsta ASV Nacionālās izlūkošanas direktora birojs (ODNI, plkst IARPA), un nāk no četriem pētniekiem MSU Datorzinātnes un inženierzinātņu nodaļā.

Piedāvātais saturs

Zemas kvalitātes sejas atpazīšana (LQFR) ir kļuvusi par a ievērojama studiju joma dažu pēdējo gadu laikā. Tā kā pilsoniskās un pašvaldību iestādes ir izveidojušas videonovērošanas sistēmas, lai tās būtu izturīgas un ilgstošas ​​(nevēloties periodiski piešķirt resursus problēmas risināšanai), daudzi “mantotie” novērošanas tīkli ir kļuvuši par tehnisko parādu upuriem, ņemot vērā to pielāgojamību kā datus. mašīnmācības avoti.

Dažādi sejas izšķirtspējas līmeņi dažādās vēsturiskās un jaunākās videonovērošanas sistēmās. Avots: https://arxiv.org/pdf/1805.11519.pdf

Dažādi sejas izšķirtspējas līmeņi dažādās vēsturiskās un jaunākās videonovērošanas sistēmās. Avots: https://arxiv.org/pdf/1805.11519.pdf

Par laimi, tas ir uzdevums, kura risināšanai difūzijas modeļi un citi trokšņu modeļi ir neparasti labi pielāgoti. Darbojas daudzas no pēdējo gadu populārākajām un efektīvākajām attēlu sintēzes sistēmām uzlabošana zemas izšķirtspējas attēlus kā daļu no to konveijera, lai gan tas ir arī absolūti nepieciešams neironu saspiešanas metodēm (metodes attēlu un filmu saglabāšanai kā neironu dati, nevis bitkartes dati).

Daļa no sejas atpazīšanas izaicinājuma ir iegūt maksimālu iespējamo precizitāti no minimālā skaita funkcijas ko var iegūt no mazākajiem un vismazāk perspektīvajiem zemas izšķirtspējas attēliem. Šis ierobežojums pastāv ne tikai tāpēc, ka ir lietderīgi identificēt (vai izveidot) seju ar zemu izšķirtspēju, bet arī tāpēc, ka ir tehniski ierobežojumi attēlu izmēram, kas var iziet cauri jaunajam modelim, kas tiek apmācīts jebkurā jomā. VRAM ir pieejama vietējā GPU.

Šajā ziņā termins “iezīmes” ir mulsinošs, jo šādas pazīmes var iegūt arī no parka soliņu datu kopas. Datorredzes sektorā “funkcijas” attiecas uz atšķirīgās īpašības iegūts no attēliem - jebkurš attēlus neatkarīgi no tā, vai tas ir baznīcas, kalna līnijas vai izvietojums sejas funkcijas sejas datu kopā.

Tā kā datorredzes algoritmi tagad spēj palielināt attēlu un videomateriālu mērogošanu, ir ierosinātas dažādas metodes, lai “uzlabotu” zemas izšķirtspējas vai citādi degradētu mantoto novērošanas materiālu, līdz tas varētu būt iespējams izmantot šādus papildinājumus likumīgiem nolūkiem, piemēram, konkrētas personas ievietošana notikuma vietā saistībā ar nozieguma izmeklēšanu.

Papildus nepareizas identifikācijas iespējai, kas ir laiku pa laikam pulcējās virsraksti, teorētiski nevajadzētu pārāk izšķirt vai citādi pārveidot zemas izšķirtspējas videomateriālu, lai pozitīvi identificētu personu, jo sejas atpazīšanas sistēmai, kas ievada zema līmeņa funkcijas, nevajadzētu būt tādam izšķirtspējas līmenim un skaidrība. Turklāt šādas transformācijas praksē ir dārgas un rada papildu, atkārtoti jautājumi par to iespējamo derīgumu un likumību.

Nepieciešams vairāk slavenību ar zemu papēžiem

Būtu lietderīgāk, ja sejas atpazīšanas sistēma varētu iegūt funkcijas (ti, mašīnmācīšanās funkcijas no cilvēka funkcijas) no mantoto sistēmu izejas, kā tās ir, labāk izprotot attiecības starp “augstas izšķirtspējas” identitāti un degradētajiem attēliem, kas ir pieejami nesamierināmās (un bieži vien neaizstājamās) esošajās videonovērošanas sistēmās.

Problēma šeit ir viena no standartiem: izplatītas tīmeklī apkopotas datu kopas, piemēram, MS-Celeb-1M un WebFace260M (starp vairākiem citiem), ir bijuši nofiksēts uz pētnieku aprindām, jo ​​tie nodrošina konsekventus etalonus, pēc kuriem pētnieki var novērtēt savu progresīvo vai lielo progresu salīdzinājumā ar pašreizējo tehnikas līmeni.

Piemēri no Microsoft populārās MS-Celeb1m datu kopas. Avots: https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/

Piemēri no Microsoft populārās MS-Celeb1m datu kopas. Avots: https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/

Tomēr autori apgalvo, ka sejas atpazīšanas (FR) algoritmi, kas apmācīti šajās datu kopās, nav piemērots materiāls daudzu vecāku uzraudzības sistēmu izvades vizuālajiem “domēniem”.

Papīrā ir rakstīts*:

“[State-of-the-art] (SoTA) FR modeļi nedarbojas labi uz reālās pasaules novērošanas attēliem (bez ierobežojumiem) domēna maiņas problēmas dēļ, tas ir, iegūtās liela mēroga apmācības datu kopas (daļēji ierobežotas). tīmeklī pārmeklētām slavenību sejām trūkst savvaļas variāciju, piemēram, raksturīga sensora trokšņa, zemas izšķirtspējas, kustības izplūšanas, turbulences efekta utt.

'Piemēram, 1:1 verifikācijas precizitāte, ko ziņoja viens no SoTA modeļiem par neierobežotu IJB-S datu kopa ir par aptuveni 30% zemāka nekā daļēji ierobežota LFW.

“Potenciāls risinājums šādai veiktspējas nepilnībai ir liela mēroga neierobežotas sejas datu kopas apkopošana. Tomēr šādas apmācības datu kopas izveidošana ar desmitiem tūkstošu priekšmetu ir ārkārtīgi sarežģīta, ņemot vērā augstās manuālās marķēšanas izmaksas.

Rakstā ir aprakstītas dažādas iepriekšējās metodes, kas ir mēģinājušas "saskaņot" vēsturisko vai zemo izmaksu uzraudzības sistēmu daudzveidīgos izejas veidus, taču ņemiet vērā, ka tās ir bijušas saistītas ar "aklo" palielināšanu. Turpretim CFSM apmācības laikā saņem tiešu atgriezenisko saiti no mērķa sistēmas reālās pasaules izvades un pielāgojas, izmantojot stila pārsūtīšanu, lai atdarinātu šo domēnu.

Aktrise Natālija Portmane, kurai nav sveša nedaudzo datu kopu, kas dominē datorredzes kopienā, ir viena no identitātēm šajā CFSM piemērā, kas veic stilam atbilstošu domēna pielāgošanu, pamatojoties uz atgriezenisko saiti no faktiskā mērķa modeļa domēna.

Aktrise Natālija Portmane, kurai nav sveša nedaudzo datu kopu, kas dominē datorredzes kopienā, ir viena no identitātēm šajā CFSM piemērā, kas veic stilam atbilstošu domēna pielāgošanu, pamatojoties uz atgriezenisko saiti no faktiskā mērķa modeļa domēna.

Autoru projektētajā arhitektūrā tiek izmantota ātrā gradienta zīmju metode (FGSM) iegūtos stilus un raksturlielumus individualizēt un “importēt” no mērķa sistēmas patiesās produkcijas. Attēlu ģenerēšanai paredzētā cauruļvada daļa pēc tam uzlabosies un ar apmācību kļūs uzticīgāka mērķa sistēmai. Šī atgriezeniskā saite no mērķa sistēmas zemo dimensiju stila telpas pēc būtības ir zema līmeņa un atbilst plašākajiem atvasinātajiem vizuālajiem deskriptoriem.

Autori komentē:

"Ar atgriezenisko saiti no FR modeļa sintezētie attēli ir izdevīgāki FR veiktspējai, tādējādi ievērojami uzlabojot ar tiem apmācīto FR modeļu vispārināšanas iespējas."

Testi

Pētnieki izmantoja MSU pašu iepriekšējais darbs kā veidni savas sistēmas testēšanai. Pamatojoties uz tiem pašiem eksperimentālajiem protokoliem, viņi izmantoja MS-Celeb-1m, kas sastāv tikai no tīmeklī tralētām slavenību fotogrāfijām, kā marķēto apmācības datu kopu. Taisnības labad tie iekļāva arī MS1M-V2, kurā ir 3.9 miljoni attēlu ar 85,700 XNUMX klasēm.

Mērķa dati bija WiderFace datu kopa, no Honkongas Ķīnas universitātes. Šis ir īpaši daudzveidīgs attēlu kopums, kas paredzēts sejas noteikšanas uzdevumiem sarežģītās situācijās. Tika izmantoti 70,000 XNUMX attēlu no šīs kopas.

Novērtēšanai sistēma tika pārbaudīta pret četriem sejas atpazīšanas kritērijiem: IJB-B, IJB-C, IJB-S, un TinyFace.

CFSM tika apmācīts, izmantojot aptuveni 10% apmācības datu no MS-Celeb-1m, aptuveni 0.4 miljoniem attēlu, 125,000 32 iterācijām 1 partijas lielumā, izmantojot Adam optimizētāju ar (ļoti zemu) mācīšanās ātrumu 4e-XNUMX.

Mērķa sejas atpazīšanas modelis tika izmantots a modifikācija ResNet-50 mugurkaulam ar ArcFace zaudēšanas funkciju, kas ir iespējota treniņa laikā. Turklāt modelis tika apmācīts ar CFSM kā ablācijas un salīdzinošo vingrinājumu (turpmāk rezultātu tabulā atzīmēts kā “ArcFace”).

CFSM primāro pārbaužu rezultāti. Lielāki skaitļi ir labāki.

CFSM primāro pārbaužu rezultāti. Lielāki skaitļi ir labāki.

Autori komentē primāros rezultātus:

"ArcFace modelis pārspēj visas bāzes līnijas gan seju identificēšanas, gan verifikācijas uzdevumos un sasniedz jaunu SoTA veiktspēju."

Spēja iegūt domēnus no dažādām mantoto vai nepietiekami specifikēto uzraudzības sistēmu īpašībām ļauj autoriem salīdzināt un novērtēt sadalījuma līdzību starp šiem ietvariem un parādīt katru sistēmu vizuālā stilā, ko varētu izmantot turpmākajā darbā. .

Dažādu datu kopu piemēri uzrāda skaidras stila atšķirības.

Dažādu datu kopu piemēri uzrāda skaidras stila atšķirības.

Autori turklāt atzīmē, ka viņu sistēma varētu lietderīgi izmantot dažas tehnoloģijas, kuras līdz šim ir uzskatītas tikai par problēmām, kas jāatrisina pētniecības un vīzijas kopienai:

“[CFSM] parāda, ka pretēja manipulācija var būt ne tikai par uzbrucēju, bet arī uzlabot atpazīšanas precizitāti redzes uzdevumos. Tikmēr mēs definējam datu kopas līdzības metriku, pamatojoties uz apgūtajām stilu bāzēm, kas tver stila atšķirības etiķetes vai prognozētāja agnostiskā veidā.

"Mēs uzskatām, ka mūsu pētījumi ir parādījuši vadāma un vadīta sejas sintēzes modeļa jaudu neierobežotai FR un sniedz izpratni par datu kopu atšķirībām."

 

* Es pārvēršu autoru iekļautos citātus par hipersaitēm.

Pirmo reizi publicēts 1. gada 2022. augustā.