ciot Fețele sintetice „degradate” ar putea ajuta la îmbunătățirea recunoașterii imaginilor faciale - Unite.AI
Conectează-te cu noi

Monitorizarea

Fețele sintetice „degradate” ar putea ajuta la îmbunătățirea recunoașterii imaginii faciale

mm

Publicat

 on

Cercetătorii de la Universitatea de Stat din Michigan au conceput o modalitate prin care fețele sintetice să ia o pauză de la scena deepfake-urilor și să facă ceva bine în lume - ajutând sistemele de recunoaștere a imaginilor să devină mai precise.

Noul modul controlabil de sinteză a feței (CFSM) pe care l-au conceput este capabil să regenereze fețele în stilul filmărilor de supraveghere video din lumea reală, mai degrabă decât să se bazeze pe imaginile de calitate uniformă mai ridicată utilizate în seturile de date populare open source ale celebrităților, care nu nu reflectă toate defecțiunile și deficiențele sistemelor CCTV autentice, cum ar fi neclaritatea facială, rezoluția scăzută și zgomotul senzorului - factori care pot afecta acuratețea recunoașterii.

Arhitectură conceptuală pentru modulul de sinteză a feței controlabile (CFSM). Sursa: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022.pdf

Arhitectură conceptuală pentru modulul de sinteză a feței controlabile (CFSM). Sursa: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022.pdf

CFSM nu este destinat în mod special să simuleze în mod autentic pozițiile capului, expresiile sau toate celelalte trăsături obișnuite care sunt obiectivul sistemelor deepfake, ci mai degrabă să genereze o serie de vederi alternative în stilul sistemului de recunoaștere a țintei, folosind transfer de stil.

Sistemul este conceput pentru a imita domeniul de stil al sistemului țintă și pentru a-și adapta rezultatul în funcție de rezoluția și gama de „excentricități” din acesta. Cazul de utilizare include sistemele moștenite care nu sunt susceptibile de a fi modernizate din cauza costurilor, dar care în prezent pot contribui puțin la noua generație de tehnologii de recunoaștere facială, din cauza calității slabe a rezultatelor, care ar fi putut odată să fi fost de vârf.

Testând sistemul, cercetătorii au descoperit că acesta a obținut câștiguri notabile în ceea ce privește stadiul tehnicii în sistemele de recunoaștere a imaginilor care trebuie să se ocupe de acest tip de date zgomotoase și de grad scăzut.

Antrenarea modelelor de recunoaștere facială pentru a se adapta la limitările sistemelor țintă. Sursa: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022_supp.pdf

Antrenarea modelelor de recunoaștere facială pentru a se adapta la limitările sistemelor țintă. Sursa: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022_supp.pdf

În plus, au găsit un produs secundar util al procesului - că seturile de date țintă ar putea fi acum caracterizate și comparate între ele, facilitând în viitor compararea, compararea și generarea de seturi de date personalizate pentru diferite sisteme CCTV.

Mai mult, metoda poate fi aplicată la seturile de date existente, performanțe de facto adaptarea domeniului și făcându-le mai potrivite pentru sistemele de recunoaștere facială.

hârtie nouă se intitulează Sinteza feței controlabilă și ghidată pentru recunoașterea neconstrânsă a feței, este susținut parțial de Biroul american al directorului de informații naționale (ODNI, la IARPA), și provine de la patru cercetători de la departamentul Computer Science & Engineering de la MSU.

Conținut promovat

Recunoașterea feței de calitate scăzută (LQFR) a devenit un domeniu notabil de studiu de-a lungul ultimilor ani. Deoarece autoritățile civice și municipale au construit sisteme de supraveghere video pentru a fi rezistente și de lungă durată (nu dorind să realocați periodic resursele problemei), multe rețele de supraveghere „moștenite” au devenit victime ale datoriilor tehnice, în ceea ce privește adaptabilitatea lor ca date. surse pentru învățarea automată.

Niveluri variate de rezoluție facială într-o serie de sisteme de supraveghere video istorice și mai recente. Sursa: https://arxiv.org/pdf/1805.11519.pdf

Niveluri variate de rezoluție facială într-o serie de sisteme de supraveghere video istorice și mai recente. Sursa: https://arxiv.org/pdf/1805.11519.pdf

Din fericire, aceasta este o sarcină pe care modelele de difuzie și alte modele bazate pe zgomot sunt neobișnuit de bine adaptate să o rezolve. Multe dintre cele mai populare și eficiente sisteme de sinteză a imaginilor din ultimii ani funcționează upscaling de imagini cu rezoluție scăzută ca parte a conductei lor, în timp ce acest lucru este, de asemenea, absolut esențial pentru tehnicile de compresie neuronală (metode de salvare a imaginilor și filmelor ca date neuronale în loc de date bitmap).

O parte a provocării recunoașterii faciale este de a obține cea mai mare acuratețe posibilă din numărul minim de caracteristici care pot fi extrase din cele mai mici și mai puțin promițătoare imagini cu rezoluție scăzută. Această constrângere există nu numai pentru că este util să poți identifica (sau crea) o față la rezoluție scăzută, ci și din cauza limitărilor tehnice ale dimensiunii imaginilor care pot trece prin spațiul latent emergent al unui model care este antrenat în orice altceva. VRAM este disponibil pe un GPU local.

În acest sens, termenul „caracteristici” este confuz, deoarece astfel de caracteristici pot fi obținute și dintr-un set de date de bănci de parc. În sectorul viziunii computerizate, „funcții” se referă la caracteristici distinctive obtinut din imagini - Orice imagini, fie că este vorba despre liniile unei biserici, ale unui munte sau ale dispoziției facial caracteristici dintr-un set de date faciale.

Deoarece algoritmii de viziune computerizată sunt acum adepți la creșterea imaginilor și a înregistrărilor video, au fost propuse diferite metode pentru a „îmbunătăți” materialul de supraveghere moștenit de rezoluție joasă sau degradat în alt mod, până la punctul în care ar putea fi posibil să se utilizați astfel de măriri în scopuri legale, cum ar fi plasarea unei anumite persoane la fața locului, în legătură cu o anchetă a criminalității.

Pe lângă posibilitatea identificării greșite, care are adunat ocazional titluri, în teorie, nu ar trebui să fie necesară hiper-rezolvarea sau transformarea în alt mod a imaginilor cu rezoluție scăzută pentru a realiza o identificare pozitivă a unei persoane, deoarece un sistem de recunoaștere facială care introduce caracteristici de nivel scăzut nu ar trebui să aibă nevoie de acest nivel de rezoluție și claritate. În plus, astfel de transformări sunt costisitoare în practică și generează întrebări recurente în jurul validității și legalității lor potențiale.

Nevoia de mai multe celebrități „la călcâie”.

Ar fi mai util dacă un sistem de recunoaștere facială ar putea obține caracteristici (adică caracteristici de învățare automată ale uman caracteristici) din ieșirea sistemelor moștenite așa cum sunt acestea, prin înțelegerea mai bine a relației dintre identitatea „de înaltă rezoluție” și imaginile degradate care sunt disponibile în cadrele de supraveghere video existente implacabile (și adesea de neînlocuit).

Problema aici este una dintre standarde: seturi de date comune colectate pe web, cum ar fi MS-Celeb-1M și WebFace260M (printre altele), au fost prins pe de către comunitatea de cercetare, deoarece oferă repere consecvente în funcție de care cercetătorii își pot măsura progresul incremental sau major în raport cu stadiul actual al tehnicii.

Exemple din setul de date popular Microsoft MS-Celeb1m. Sursa: https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/

Exemple din setul de date popular Microsoft MS-Celeb1m. Sursa: https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/

Cu toate acestea, autorii susțin că algoritmii de recunoaștere facială (FR) antrenați pe aceste seturi de date sunt materiale nepotrivite pentru „domeniile” vizuale ale rezultatelor multor sisteme de supraveghere mai vechi.

Lucrarea precizează*:

„Modelele FR [de ultimă generație] (SoTA) nu funcționează bine pe imaginile de supraveghere din lumea reală (neconstrânse) din cauza problemei de schimbare a domeniului, adică seturile de date de antrenament la scară largă (semi-constrânse) obținute pe fețele celebrităților accesate cu crawlere le lipsesc variații în mod natural, cum ar fi zgomotul inerent al senzorului, rezoluția scăzută, neclaritatea mișcării, efectul de turbulență etc.

„De exemplu, acuratețea verificării 1:1 raportată de unul dintre modelele SoTA pe neconstrâns IJB-S setul de date este cu aproximativ 30% mai mic decât în ​​cazul semi-constrâns LFW.

„Un remediu potențial la un astfel de decalaj de performanță este asamblarea unui set de date pe față neconstrâns la scară largă. Cu toate acestea, construirea unui astfel de set de date de antrenament cu zeci de mii de subiecți este prohibitiv de dificilă cu costuri mari de etichetare manuală.

Lucrarea descrie diferite metode anterioare care au încercat să „potrivite” tipurile variate de rezultate din sistemele de supraveghere istorice sau cu costuri reduse, dar rețineți că acestea s-au ocupat de creșteri „oarbe”. În schimb, CFSM primește feedback direct de la ieșirea din lumea reală a sistemului țintă în timpul antrenamentului și se adaptează prin transfer de stil pentru a imita acel domeniu.

Actrița Natalie Portman, care nu este străină de numeroasele seturi de date care domină comunitatea de viziune computerizată, figurează printre identitățile din acest exemplu de CFSM care efectuează o adaptare a domeniului potrivite stilului pe baza feedback-ului din domeniul modelului țintă real.

Actrița Natalie Portman, care nu este străină de numeroasele seturi de date care domină comunitatea de viziune computerizată, figurează printre identitățile din acest exemplu de CFSM care efectuează o adaptare a domeniului potrivite stilului pe baza feedback-ului din domeniul modelului țintă real.

Arhitectura concepută de autori folosește metoda Fast Gradient Sign (FGSM) să identifice și să „importe” stilurile și caracteristicile obținute din rezultatul real al sistemului țintă. Partea din conductă dedicată generării de imagini se va îmbunătăți ulterior și va deveni mai fidelă sistemului țintă cu antrenament. Acest feedback din spațiul de stil dimensional scăzut al sistemului țintă este de natură la nivel scăzut și corespunde celor mai largi descriptori vizuali derivați.

Autorii comentează:

„Cu feedback-ul de la modelul FR, imaginile sintetizate sunt mai benefice pentru performanța FR, ceea ce duce la capacități de generalizare îmbunătățite semnificativ ale modelelor FR antrenate cu acestea”.

Teste

Cercetătorii au folosit propriile MSU munca anterioară ca șablon pentru testarea sistemului lor. Pe baza acelorași protocoale experimentale, ei au folosit MS-Celeb-1m, care constă exclusiv din fotografii ale celebrităților trasate pe web, ca set de date de antrenament etichetat. Pentru corectitudine, au inclus și MS1M-V2, care conține 3.9 milioane de imagini cu 85,700 de clase.

Datele țintă au fost Setul de date WiderFace, de la Universitatea Chineză din Hong Kong. Acesta este un set deosebit de divers de imagini concepute pentru sarcini de detectare a feței în situații dificile. Au fost folosite 70,000 de imagini din acest set.

Pentru evaluare, sistemul a fost testat pe baza a patru criterii de referință pentru recunoașterea feței: : IJB-B, IJB-C, IJB-S, și TinyFace.

CFSM a fost antrenat cu aproximativ 10% din datele de antrenament de la MS-Celeb-1m, aproximativ 0.4 milioane de imagini, pentru 125,000 de iterații la dimensiunea lotului de 32 sub optimizatorul Adam la o rată de învățare (foarte scăzută) de 1e-4.

Modelul de recunoaștere facială țintă utilizat a modificare de ResNet-50 pentru coloana vertebrală, cu funcția de pierdere ArcFace activată în timpul antrenamentului. În plus, un model a fost antrenat cu CFSM ca exercițiu de ablație și comparativ (notat ca „ArcFace” în tabelul cu rezultate de mai jos).

Rezultatele testelor primare pentru CFSM. Cifrele mai mari sunt mai bune.

Rezultatele testelor primare pentru CFSM. Cifrele mai mari sunt mai bune.

Autorii comentează rezultatele principale:

„Modelul ArcFace depășește toate liniile de bază atât pentru identificarea feței, cât și pentru sarcinile de verificare și atinge o nouă performanță SoTA”.

Abilitatea de a extrage domenii din diferitele caracteristici ale sistemelor de supraveghere moștenite sau sub-specificate le permite, de asemenea, autorilor să compare și să evalueze similaritatea distribuției dintre aceste cadre și să prezinte fiecare sistem în termenii unui stil vizual care ar putea fi valorificat în lucrările ulterioare. .

Exemplele din diferite seturi de date prezintă diferențe clare de stil.

Exemplele din diferite seturi de date prezintă diferențe clare de stil.

Autorii notează, în plus, că sistemul lor ar putea folosi în mod util unele tehnologii care, până în prezent, au fost privite doar ca probleme care trebuie rezolvate de comunitatea de cercetare și viziune:

„[CFSM] arată că manipularea adversară ar putea depăși a fi un atacator și poate servi la creșterea acurateței recunoașterii în sarcinile vizuale. Între timp, definim o metrică de similitudine a setului de date bazată pe bazele de stil învățate, care surprind diferențele de stil într-un mod agnostic de etichetă sau de predictor.

„Credem că cercetarea noastră a prezentat puterea unui model de sinteză a feței controlabil și ghidat pentru FR neconstrâns și oferă o înțelegere a diferențelor setului de date”.

 

* Conversia mea a citărilor inline ale autorilor în hyperlinkuri.

Publicat prima dată la 1 august 2022.