Inteligență artificială
Sectorul de sinteză a imaginilor a adoptat o metrică defectuoasă, afirmă cercetătorii

2021 a fost un an de progres fără precedent și un ritm frenetic de publicare în sectorul sintezei de imagini, oferind un flux de inovații și îmbunătățiri ale tehnologiilor capabile să reproducă personalități umane prin neural rendering, deepfakes și o serie de abordări noi.
Cu toate acestea, cercetătorii din Germania afirmă acum că standardul utilizat pentru a evalua automat realismul imaginilor sintetice este fatalmente defectuos; și că sutele, chiar mii de cercetători din întreaga lume care se bazează pe el pentru a reduce costul evaluării rezultatelor pe baza umană ar putea merge pe o cale închisă.
Pentru a demonstra modul în care standardul, Fréchet Inception Distance (FID), nu se ridică la standardele umane pentru evaluarea imaginilor, cercetătorii au implementat propriile GAN-uri, optimizate pentru FID (acum o metrică comună). Ei au descoperit că FID urmează propriile sale obsesii, bazate pe codul subiacent cu un obiectiv foarte diferit de cel al sintezei de imagini, și că nu reușește în mod regulat să atingă un standard “uman” de discernământ:

FID scores (lower is better) for images generated by various models using standard datasets and architectures. The researchers of the new paper pose the question ‘Would you agree with these rankings?’. Source: https://openreview.net/pdf?id=mLG96UpmbYz
În plus față de afirmația sa că FID nu este potrivit pentru sarcina sa intenționată, articolul sugerează, de asemenea, că “remediile” evidente, cum ar fi înlocuirea motorului său intern cu motoare concurente, vor schimba pur și simplu un set de prejudecăți cu altul. Autorii sugerează că acum revine noilor inițiative de cercetare să dezvolte metrice mai bune pentru a evalua “autenticitatea” în fotografiile generate sintetic.
Articolul este intitulat Internalized Biases in Fréchet Inception Distance și provine de la Steffen Jung de la Max Planck Institute for Informatics at Saarland și Margret Keuper, profesor de calcul vizual la Universitatea din Siegen.
Căutarea unui sistem de punctare pentru sinteza de imagini
După cum notează cercetarea, progresul în cadrul sintezei de imagini, cum ar fi GAN-uri și arhitecturi encoder/decoder, a depășit metodele prin care rezultatele acestor sisteme pot fi evaluate. Pe lângă faptul că este scump și, prin urmare, dificil de escaladat, evaluarea umană a rezultatelor acestor sisteme nu oferă o metodă empirică și reproductibilă de evaluare.
Prin urmare, au apărut o serie de cadre de metrici, inclusiv Inception Score (IS), prezentat în articolul din 2016 Improved Techniques for Training GANs, co-autor de către inventatorul GAN, Ian Goodfellow.
Discreditarea scorului IS ca o metrică larg aplicabilă pentru multiple rețele GAN în 2018 a condus la adoptarea pe scară largă a FID în comunitatea de sinteză de imagini GAN. Cu toate acestea, la fel ca și Inception Score, FID se bazează pe rețeaua de clasificare a imaginilor Inception v3 (IV3) a Google.
Autorii articolului nou afirmă că Fréchet Inception Distance propagă prejudecăți dăunătoare în IV3, ceea ce duce la o clasificare nerelevantă a calității imaginii.
Deoarece FID poate fi încorporat într-un cadru de învățare automată ca discriminator (un “judecător” încorporat care decide dacă GAN-ul funcționează bine sau ar trebui “să încerce din nou”), are nevoie să reprezinte cu acuratețe standardele pe care un om le-ar aplica la evaluarea imaginilor.
Fréchet Inception Distance
FID compară modul în care caracteristicile sunt distribuite în ansamblul de date de antrenare utilizat pentru a crea un model GAN (sau o funcționalitate similară) și rezultatele acelui sistem.
Prin urmare, dacă un cadru GAN este antrenat pe 10.000 de imagini cu (de exemplu) celebrități, FID compară imaginile originale (reale) cu imaginile false produse de GAN. Cu cât scorul FID este mai mic, cu atât GAN-ul s-a apropiat mai mult de imagini “fotorealistice”, conform criteriilor FID.

Din articol, rezultatele unui GAN antrenat pe FFHQ64, un subset al setului de date FFHQ foarte popular de la NVIDIA. Aici, deși scorul FID este un minunat de scăzut 5,38, rezultatele nu sunt plăcute sau convingătoare pentru omul obișnuit.
Problema, pe care autorii o susțin, este că Inception v3, ale cărui ipoteze alimentează Fréchet Inception Distance, nu se uită în locurile potrivite – cel puțin, nu atunci când se ia în considerare sarcina în cauză.
Inception V3 este antrenat pe ImageNet object recognition challenge, o sarcină care este, în mod evident, în contradicție cu modul în care obiectivele sintezei de imagini au evoluat în ultimii ani. IV3 pune la încercare robustețea unui model prin efectuarea de augmentări de date: îi întoarce imaginile aleatoriu, le taie la o scară aleatorie între 8-100%, schimbă raportul de aspect (într-un interval de la 3/4 la 4/3) și injectează aleatoriu distorsionări de culoare legate de luminozitate, saturație și contrast.
Cercetătorii din Germania au descoperit că IV3 are o tendință de a favoriza extragerea de margini și texturi, mai degrabă decât informații de culoare și intensitate, care ar fi indici mai semnificativi de autenticitate pentru imagini sintetice; și că scopul său original de detectare a obiectelor a fost, prin urmare, în mod inadecvat sechestrat pentru o sarcină nepotrivită. Autorii afirmă*:
‘[Inception v3] are o prejudecată în favoarea extragerii de caracteristici bazate pe margini și texturi, mai degrabă decât informații de culoare și intensitate. Acest lucru se aliniază cu pipeline-ul de augmentare care introduce distorsionări de culoare, dar păstrează informația de frecvență înaltă intactă (în contrast cu, de exemplu, augmentarea cu blur Gaussian).
‘Prin urmare, FID moștenește această prejudecată. Când se utilizează ca metrică de clasificare, modele generative care reproduc bine texturile pot fi preferate în locul modelelor care reproduc bine distribuțiile de culoare.’
Date și Metodă
Pentru a testa ipoteza lor, autorii au antrenat două arhitecturi GAN, DCGAN și SNGAN, pe setul de date FFHQ al NVIDIA, redimensionat la o rezoluție de imagine de 642, cu setul de date derivat numit FFHQ64.
Au fost urmărite trei proceduri de antrenare GAN: GAN G+D, o rețea standard bazată pe discriminator; GAN FID|G+D, unde FID funcționează ca un discriminator suplimentar; și GAN FID|G, unde GAN-ul este alimentat în întregime de scorul FID în curs de desfășurare.
Din punct de vedere tehnic, autorii notează că pierderea FID ar trebui să stabilizeze antrenamentul și, posibil, să poată înlocui complet discriminatorul (așa cum se face în #3, GAN FID|G), în timp ce oferă rezultate plăcute pentru om.
În practică, rezultatele sunt destul de diferite, cu – autorii ipotezei – modelele FID-asistate “supraantrenate” pe metrici greșite. Cercetătorii notează:
‘Ipotezăm că generatorul învață să producă caracteristici inadecvate pentru a se potrivi cu distribuția de date de antrenare. Această observație devine mai severă în cazul [GAN FID|G] . Aici, observăm că lipsa discriminatorului duce la distribuții de caracteristici spațial incoerente. De exemplu [SNGAN FID|G] adaugă în principal ochi individuali și aliniază caracteristicile faciale într-un mod înfricoșător.’
Autorii concluzionează*:
‘În timp ce annotatorii umani ar prefera cu siguranță imagini produse de SNGAN D+G față de SNGAN FID|G (în cazurile în care fidelitatea datelor este preferată în locul artei), vedem că acest lucru nu este reflectat de FID. Prin urmare, FID nu este aliniat cu percepția umană.
‘Sustinem că caracteristicile discriminative oferite de rețelele de clasificare a imaginilor nu sunt suficiente pentru a oferi baza unei metrice semnificative.’
Nu există alternative ușoare
Autorii au descoperit, de asemenea, că înlocuirea Inception V3 cu un motor similar nu a ameliorat problema. Prin înlocuirea IV3 cu “o alegere extinsă de rețele de clasificare diferite”, care au fost testate împotriva ImageNet-C (un subset al ImageNet destinat să benchmark coruperea și perturbarea comun generată în imagini de sinteză), cercetătorii nu au putut îmbunătăți semnificativ rezultatele:
‘[Prejudecăți] prezente în Inception v3 sunt, de asemenea, prezente pe scară largă în alte rețele de clasificare. În plus, observăm că diferite rețele ar produce clasificări diferite între tipurile de corupere.’
Autorii încheie articolul cu speranța că cercetările în curs vor dezvolta o “metrică aliniată cu omul și fără prejudecăți” capabilă să permită o clasificare mai corectă a arhitecturilor de generare de imagini.
* Accentuarea autorilor.
Publicat pentru prima dată pe 2 decembrie 2021, ora 13:00 GMT+2.











