škrbina Sektor sinteze slika usvojio je pogrešnu metriku, tvrde istraživanja - Unite.AI
Povežite se s nama

Umjetna inteligencija

Sektor sinteze slike usvojio je pogrešnu metriku, tvrdi istraživanje

mm
Ažurirano on

2021. bila je godina neviđenog napretka i bijesnog tempa objavljivanja u sektoru sinteze slike, nudeći niz novih inovacija i poboljšanja u tehnologijama koje su sposobne reproducirati ljudske osobnosti kroz neuralno iscrtavanje, deepfakes i mnoštvo novi pristupi.

Međutim, istraživači iz Njemačke sada tvrde da je standard koji se koristi za automatsku procjenu realizma sintetičkih slika fatalno pogrešan; i da stotine, čak i tisuće istraživača diljem svijeta koji se oslanjaju na njega kako bi smanjili troškove skupe procjene rezultata temeljene na ljudima, možda idu u slijepu ulicu.

Kako bi se pokazalo kako standard, Fréchet početna udaljenost (DIO JEDRA), ne zadovoljava ljudske standarde za procjenu slika, istraživači su postavili vlastite GAN-ove, optimizirane za FID (sada uobičajena metrika). Otkrili su da FID slijedi svoje vlastite opsesije, temeljene na osnovnom kodu s vrlo različitim djelokrugom od sinteze slike, te da rutinski ne uspijeva postići 'ljudski' standard razlučivanja:

FID rezultati (niži to bolji) za slike generirane različitim modelima koji koriste standardne skupove podataka i arhitekture. Istraživači novog rada postavljaju pitanje 'Biste li se složili s ovim rangiranjem?'. Izvor: https://openreview.net/pdf?id=mLG96UpmbYz

FID rezultati (niži to bolji) za slike generirane različitim modelima koji koriste standardne skupove podataka i arhitekture. Istraživači novog rada postavljaju pitanje 'Biste li se složili s ovim rangiranjem?'. Izvor: https://openreview.net/pdf?id=mLG96UpmbYz

Uz tvrdnju da FID nije prikladan za zadaću koju mu je namijenjena, dokument dalje sugerira da će 'očiti' lijekovi, kao što je isključivanje unutarnjeg motora za konkurentske motore, jednostavno zamijeniti jedan skup pristranosti drugim. Autori sugeriraju da je sada na novim istraživačkim inicijativama razviti bolju metriku za procjenu 'autentičnosti' u sintetički generiranim fotografijama.

Korištenje električnih romobila ističe papir naslovljen je Internalizirane pristranosti u Fréchetovoj početnoj udaljenosti, a dolazi od Steffena Junga s Instituta Max Planck za informatiku u Saarlandu i Margret Keuper, profesorice vizualnog računarstva na Sveučilištu u Siegenu.

Potraga za sustavom bodovanja za sintezu slike

Kao što navodi novo istraživanje, napredak u okvirima za sintezu slike, kao što su GAN-ovi i arhitekture kodera/dekodera, nadmašio je metode prema kojima se rezultati takvih sustava mogu ocjenjivati. Osim što je skupa i stoga teška za skaliranje, ljudska procjena rezultata ovih sustava ne nudi empirijsku i ponovljivu metodu procjene.

Stoga se pojavio niz metričkih okvira, uključujući Inception Score (IS), prikazan u 2016 papir Poboljšane tehnike za obuku GAN-ova, u koautorstvu GAN izumitelj, Ian Goodfellow.

Diskreditiranje IS rezultata kao široko primjenjive metrike za više GAN mreža u 2018 dovela je do širokog prihvaćanja FID-a u GAN zajednici za sintezu slika. Međutim, kao i Inception Score, FID se temelji na Googleovoj Inception v3 mreža za klasifikaciju slika (IV3).

Autori novog rada tvrde da Fréchet Inception Distance propagira štetne pristranosti u IV3, što dovodi do nepouzdane klasifikacije kvalitete slike.

Budući da se FID može ugraditi u okvir strojnog učenja kao diskriminator (ugrađeni 'sudac' koji odlučuje radi li GAN dobro ili treba 'pokušati ponovno'), on mora točno predstavljati standarde koje bi čovjek primijenio pri ocjenjivanju slike.

Fréchet početna udaljenost

FID uspoređuje kako su značajke raspoređene u skupu podataka za obuku koji se koristi za stvaranje modela GAN (ili slične funkcionalnosti) i rezultate tog sustava.

Stoga, ako se GAN okvir obučava na 10,000 XNUMX slika (na primjer) slavnih osoba, FID uspoređuje izvorne (prave) slike s lažnim slikama koje proizvodi GAN. Što je FID rezultat niži, to je GAN bio bliže 'fotorealističnim' slikama, prema kriterijima FID-a.

Iz članka, rezultati GAN-a treniranog na FFHQ64, podskupu NVIDIA-inog vrlo popularnog skupa podataka FFHQ. Ovdje, iako je FID rezultat nevjerojatno niskih 5.38, rezultati nisu ugodni ili uvjerljivi prosječnom čovjeku.

Iz članka, rezultati GAN-a treniranog na FFHQ64, podskupu NVIDIA-inog vrlo popularnog Skup podataka FFHQ. Ovdje, iako je FID rezultat nevjerojatno niskih 5.38, rezultati nisu ugodni ili uvjerljivi prosječnom čovjeku.

Problem je, tvrde autori, u tome što Inception v3, čije pretpostavke pokreću Fréchet Inception Distance, ne gleda na pravim mjestima – barem ne kada se razmatra zadatak koji je pred nama.

Inception V3 je obučen na ImageNet izazov prepoznavanja objekata, zadatak koji je vjerojatno u suprotnosti s načinom na koji su se ciljevi sinteze slike razvijali posljednjih godina. IV3 dovodi u pitanje robusnost modela izvođenjem povećanja podataka: nasumično okreće slike, izrezuje ih na nasumičnu ljestvicu između 8-100%, mijenja omjer slike (u rasponu od 3/4 do 4/3) i nasumično ubacuje distorzije boja koje se odnose na svjetlinu, zasićenost i kontrast.

Istraživači sa sjedištem u Njemačkoj otkrili su da IV3 ima tendenciju favorizirati izdvajanje rubova i tekstura, umjesto informacija o boji i intenzitetu, što bi bili značajniji pokazatelji autentičnosti za sintetičke slike; i da je njegova izvorna svrha otkrivanja objekata stoga neprikladno izdvojena za neprikladni zadatak. Autori navode*:

'[Inception v3] ima pristranost prema izdvajanju značajki na temelju rubova i tekstura, a ne informacija o boji i intenzitetu. To je u skladu s njegovim cjevovodom za povećanje koji uvodi izobličenja boja, ali zadržava informacije visoke frekvencije netaknutima (za razliku od, na primjer, povećanja s Gaussovim zamućenjem).

'Slijedom toga, FID nasljeđuje ovu pristranost. Kada se koriste kao metrika rangiranja, generativni modeli koji dobro reproduciraju teksture mogu imati prednost nad modelima koji dobro reproduciraju distribuciju boja.'

Podaci i metoda

Kako bi testirali svoju hipotezu, autori su trenirali dvije GAN arhitekture, DCGAN i SNGAN, na NVIDIA-i FFHQ skup podataka o ljudskom licu, smanjeno na 642 razlučivost slike, s izvedenim skupom podataka nazvanim FFHQ64.

Provedene su tri GAN procedure obuke: GAN G+D, standard na temelju diskriminatora mreža; GAN FID|G+D, gdje FID djeluje kao dodatni diskriminator; i GAN FID|G. gdje se GAN u potpunosti temelji na pokretnom FID rezultatu.

Tehnički gledano, primjećuju autori, gubitak FID-a trebao bi stabilizirati trening, a potencijalno bi to i mogao potpuno zamijeniti diskriminator (kao što to čini u #3, GAN FID|G), dok daje rezultate koji zadovoljavaju ljude.

U praksi, rezultati su prilično različiti, s – hipotezom autora – modelima potpomognutim FID-om, koji se 'prekomerno uklapaju' na pogrešne metrike. Istraživači primjećuju:

'Pretpostavljamo da generator uči proizvoditi neprikladne značajke koje odgovaraju distribuciji podataka za obuku. Ovo zapažanje postaje ozbiljnije u slučaju [GAN FID|G] . Ovdje primjećujemo da diskriminator koji nedostaje dovodi do prostorno nekoherentne distribucije značajki. Na primjer [SNGAN FID|G] dodaje uglavnom pojedinačne oči i poravnava karakteristike lica na zastrašujući način.'

Primjeri lica koje je izradio SNGAN FID|G.

Primjeri lica koje je izradio SNGAN FID|G.

Autori zaključuju*:

'Iako bi ljudski anotatori sigurno više voljeli slike koje je proizveo SNGAN D+G u odnosu na SNGAN FID|G (u slučajevima kada je vjernost podataka bolja od umjetnosti), vidimo da se to ne odražava u FID-u. Stoga FID nije usklađen s ljudskom percepcijom.

'Tvrdimo da diskriminirajuće značajke koje pružaju mreže za klasifikaciju slika nisu dovoljne za pružanje osnove značajne metrike.'

Nema lakih alternativa

Autori su također otkrili da zamjena Inceptiona V3 za sličan motor nije ublažila problem. U zamjeni IV3 s 'velikim izborom različitih klasifikacijskih mreža', koje su testirane ImageNet-C (podskup ImageNet-a dizajniran za usporedbu često generiranih oštećenja i poremećaja u izlaznim slikama iz okvira za sintezu slika), istraživači nisu mogli značajno poboljšati svoje rezultate:

'[Pristranosti] prisutni u Inception v3 također su široko prisutni u drugim klasifikacijskim mrežama. Osim toga, vidimo da bi različite mreže proizvele različito rangiranje između tipova korupcije.'

Autori zaključuju rad s nadom da će istraživanje koje je u tijeku razviti 'ljudski usklađenu i nepristranu metriku' koja može omogućiti pravedniji rang za arhitekture generatora slike.

 

* Naglasak autora.


Prvi put objavljeno 2. prosinca 2021., 1:2 GMT+XNUMX.