Conectează-te cu noi

Inteligența artificială

Sectorul de sinteză a imaginilor a adoptat o valoare defectuoasă, afirmațiile de cercetare

mm

2021 a fost un an al progresului fără precedent și al unui ritm furibund de publicare în sectorul sintezei imaginii, oferind un flux de noi inovații și îmbunătățiri ale tehnologiilor care sunt capabile să reproducă personalitățile umane prin redare neuronală, deepfakes și o mulțime de abordări noi.

Cu toate acestea, cercetătorii din Germania susțin acum că standardul folosit pentru a judeca automat realismul imaginilor sintetice este fatal; și că sutele, chiar mii de cercetători din întreaga lume care se bazează pe aceasta pentru a reduce costurile evaluării costisitoare a rezultatelor bazate pe oameni s-ar putea îndrepta pe o uliță oarbă.

Pentru a demonstra modul în care standardul, Distanța de început Fréchet (FID), nu se ridică la standardele umane pentru evaluarea imaginilor, cercetătorii și-au implementat propriile GAN-uri, optimizate pentru FID (acum o măsură comună). Ei au descoperit că FID își urmărește propriile obsesii, bazate pe codul de bază cu o misiune foarte diferită de cea a sintezei imaginilor și că nu reușește în mod obișnuit să atingă un standard „uman” de discernământ:

Scoruri FID (mai mic este mai bun) pentru imaginile generate de diverse modele folosind seturi de date și arhitecturi standard. Cercetătorii noii lucrări pun întrebarea „Ați fi de acord cu aceste clasamente?”. Sursa: https://openreview.net/pdf?id=mLG96UpmbYz

Scoruri FID (mai mic este mai bun) pentru imaginile generate de diverse modele folosind seturi de date și arhitecturi standard. Cercetătorii noii lucrări pun întrebarea „Ați fi de acord cu aceste clasamente?”. Sursa: https://openreview.net/pdf?id=mLG96UpmbYz

În plus față de afirmația sa că FID nu este potrivit pentru sarcina intenționată, documentul sugerează în continuare că remediile „evidente”, cum ar fi oprirea motorului său intern pentru motoarele concurente, vor schimba pur și simplu un set de părtiniri cu altul. Autorii sugerează că acum depinde de noi inițiative de cercetare să dezvolte valori mai bune pentru a evalua „autenticitatea” în fotografiile generate sintetic.

hârtie se intitulează Prejudecăți interiorizate în distanța de început Fréchet, și vine de la Steffen Jung de la Institutul Max Planck pentru Informatică din Saarland și Margret Keuper, profesor de calcul vizual la Universitatea din Siegen.

Căutarea unui sistem de notare pentru sinteza imaginilor

După cum notează noua cercetare, progresul în cadrele de sinteză a imaginilor, cum ar fi GAN-urile și arhitecturile de codificator/decodor, a depășit metodele prin care rezultatele unor astfel de sisteme pot fi judecate. Pe lângă faptul că este costisitoare și, prin urmare, dificil de scalat, evaluarea umană a rezultatelor acestor sisteme nu oferă o metodă empirică și reproductibilă de evaluare.

Prin urmare, au apărut o serie de cadre metrice, inclusiv Scorul de început (IS), prezentat în 2016 hârtie Tehnici îmbunătățite pentru formarea GAN-urilor, în colaborare cu GAN inventator, Ian Goodfellow.

Discreditarea scorului IS ca o măsură aplicabilă pe scară largă pentru mai multe rețele GAN în 2018 a condus la adoptarea pe scară largă a FID în comunitatea de sinteză a imaginilor GAN. Cu toate acestea, la fel ca Inception Score, FID se bazează pe Google Rețeaua de clasificare a imaginilor Inception v3 (IV3).

Autorii noii lucrări susțin că Fréchet Inception Distance propagă părtiniri dăunătoare în IV3, ceea ce duce la o clasificare nesigură a calității imaginii.

Deoarece FID poate fi încorporat într-un cadru de învățare automată ca un discriminator (un „judecător” încorporat care decide dacă GAN merge bine sau ar trebui să „încerce din nou”), trebuie să reprezinte cu exactitate standardele pe care un om le-ar aplica atunci când evaluează imaginile.

Distanța de început Fréchet

FID compară modul în care funcțiile sunt distribuite în setul de date de antrenament utilizat pentru a crea un model GAN ​​(sau funcționalitate similară) și rezultatele acelui sistem.

Prin urmare, dacă un cadru GAN este antrenat pe 10,000 de imagini ale celebrităților (de exemplu), FID compară imaginile originale (reale) cu imaginile false produse de GAN. Cu cât scorul FID este mai mic, cu atât GAN s-a apropiat de imaginile „fotorealiste”, conform criteriilor FID.

Din lucrare, rezultatele unui GAN instruit pe FFHQ64, un subset al setului de date FFHQ foarte popular NVIDIA. Aici, deși scorul FID este minunat de scăzut de 5.38, rezultatele nu sunt plăcute sau convingătoare pentru omul obișnuit.

Din lucrare, rezultatele unui GAN instruit pe FFHQ64, un subset al NVIDIA foarte popular Setul de date FFHQ. Aici, deși scorul FID este minunat de scăzut de 5.38, rezultatele nu sunt plăcute sau convingătoare pentru omul obișnuit.

Problema, susțin autorii, este că Inception v3, ale cărui ipoteze determină Fréchet Inception Distance, nu caută în locurile potrivite – cel puțin, nu atunci când se ia în considerare sarcina în cauză.

Inception V3 este antrenat pe Provocare de recunoaștere a obiectelor ImageNet, o sarcină care, fără îndoială, este în contradicție cu modul în care au evoluat scopurile sintezei imaginilor în ultimii ani. IV3 provoacă robustețea unui model prin efectuarea de mărire a datelor: răstoarnă imaginile în mod aleatoriu, le decupează la o scară aleatorie între 8-100%, modifică raportul de aspect (într-un interval de la 3/4 la 4/3) și injectează aleatoriu. distorsiuni de culoare legate de luminozitate, saturație și contrast.

Cercetătorii din Germania au descoperit că IV3 are tendința de a favoriza extragerea marginilor și texturilor, mai degrabă decât informațiile de culoare și intensitate, care ar fi indici mai semnificativi de autenticitate pentru imaginile sintetice; și că scopul său inițial de detectare a obiectelor a fost, prin urmare, sechestrat în mod necorespunzător pentru o sarcină nepotrivită. Autorii declară*:

„[Inception v3] are o tendință de a extrage caracteristici bazate pe margini și texturi, mai degrabă decât pe informații despre culoare și intensitate. Acest lucru se aliniază cu conducta de creștere care introduce distorsiuni de culoare, dar păstrează intacte informațiile de înaltă frecvență (spre deosebire de, de exemplu, mărirea cu estompare Gaussiană).

„În consecință, FID moștenește această părtinire. Atunci când sunt utilizate ca măsurătoare de clasare, modelele generative care reproduc bine texturile ar putea fi preferate față de modelele care reproduc bine distribuțiile de culoare.'

Date și Metodă

Pentru a-și testa ipoteza, autorii au antrenat două arhitecturi GAN, DCGAN și SNGAN, pe NVIDIA Setul de date pentru chipul uman FFHQ, redusă la 642 rezoluția imaginii, cu setul de date derivat numit FFHQ64.

Au fost urmate trei proceduri de instruire GAN: GAN G+D, un standard bazate pe discriminatori reţea; GAN FID|G+D, unde FID funcționează ca un discriminator suplimentar; și GAN FID|G. unde GAN este alimentat în întregime de scorul FID rulant.

Din punct de vedere tehnic, notează autorii, pierderea FID ar trebui să stabilizeze antrenamentul și, eventual, chiar să poată face acest lucru înlocuitor complet discriminatorul (cum se întâmplă în #3, GAN FID|G), în timp ce produce rezultate plăcute pentru om.

În practică, rezultatele sunt destul de diferite, cu – presupun autorii – modelele asistate de FID „suprafitting” pe valori greșite. Cercetătorii notează:

„Presumăm ipoteza că generatorul învață să producă caracteristici nepotrivite pentru a se potrivi cu distribuția datelor de antrenament. Această observație devine mai severă în cazul [GAN FID|G] . Aici, observăm că discriminatorul lipsă duce la distribuții de caracteristici incoerente din punct de vedere spațial. De exemplu, [SNGAN FID|G] adaugă în mare parte ochi singuri și aliniază caracteristicile feței într-o manieră descurajantă.'

Exemple de chipuri produse de SNGAN FID|G.

Exemple de chipuri produse de SNGAN FID|G.

Autorii concluzionează*:

„În timp ce adnotatorii umani ar prefera cu siguranță imaginile produse de SNGAN D+G față de SNGAN FID|G (în cazurile în care fidelitatea datelor este preferată față de artă), vedem că acest lucru nu este reflectat de FID. Prin urmare, FID nu este aliniat cu percepția umană.

„Susținem că caracteristicile discriminatorii furnizate de rețelele de clasificare a imaginilor nu sunt suficiente pentru a oferi baza unei metrici semnificative”.

Fără alternative ușoare

Autorii au descoperit, de asemenea, că schimbarea Inception V3 cu un motor similar nu a atenuat problema. În înlocuirea IV3 cu „o gamă largă de rețele de clasificare diferite”, care au fost testate ImageNet-C (un subset de ImageNet conceput pentru a evalua corupțiile și perturbațiile generate în mod obișnuit în imaginile de ieșire din cadrele de sinteză a imaginilor), cercetătorii nu și-au putut îmbunătăți substanțial rezultatele:

"[Prejudecăți] prezente în Inception v3 sunt prezente pe scară largă și în alte rețele de clasificare. În plus, vedem că diferite rețele ar produce diferite clasamente între tipurile de corupție.

Autorii încheie lucrarea cu speranța că cercetările în curs vor dezvolta o „metrică aliniată uman și imparțial”, capabilă să permită un rang mai corect pentru arhitecturile generatoare de imagini.

 

* Sublinierea autorilor.


Publicat prima dată pe 2 decembrie 2021, ora 1:2 GMT+XNUMX.

Scriitor pe machine learning, specialist în domeniul sintezei imaginilor umane. Fost șef de conținut de cercetare la Metaphysic.ai.
Site personal: martinanderson.ai
Contact: [e-mail protejat]
Twitter: @manders_ai