tynkä Kuvasynteesisektori on ottanut käyttöön virheellisen mittarin, tutkimus väittää - Unite.AI
Liity verkostomme!

Tekoäly

Kuvasynteesisektori on ottanut käyttöön virheellisen mittarin, tutkimus väittää

mm
Päivitetty on

Vuosi 2021 on ollut ennennäkemättömän edistyksen ja raivokkaan julkaisuvauhdin vuosi kuvasynteesialalla tarjoten virran uusia innovaatioita ja parannuksia teknologioihin, jotka pystyvät toistamaan ihmispersoonallisuuksia hermoston renderöinti, syväväärennöksiä ja monia uusia lähestymistapoja.

Saksalaiset tutkijat väittävät kuitenkin nyt, että synteettisten kuvien realistisuuden automaattiseen arvioimiseen käytetty standardi on kohtalokkaasti virheellinen; ja että sadat, jopa tuhannet tutkijat ympäri maailmaa, jotka luottavat siihen leikatakseen kalliiden ihmislähtöisten tulosten arvioinnin kustannuksia, saattavat olla menossa sokealle kujalle.

Osoittaakseen, kuinka standardi Fréchet aloitusetäisyys (FID), ei täytä ihmisstandardeja kuvien arvioinnissa, tutkijat ottivat käyttöön omia GAN-verkkoja, jotka on optimoitu FID:lle (nykyään yleinen mittari). He havaitsivat, että FID seuraa omia pakkomielteitään, jotka perustuvat taustalla olevaan koodiin, jolla on hyvin erilainen tehtävä kuin kuvasynteesillä, ja että se ei rutiininomaisesti saavuta "inhimillistä" erottelukykyä:

FID-pisteet (alempi on parempi) kuville, jotka on luotu eri malleilla käyttämällä vakiotietojoukkoja ja -arkkitehtuureja. Uuden artikkelin tutkijat esittävät kysymyksen "Oletko samaa mieltä näistä rankingeista?". Lähde: https://openreview.net/pdf?id=mLG96UpmbYz

FID-pisteet (alempi on parempi) kuville, jotka on luotu eri malleilla käyttämällä vakiotietojoukkoja ja -arkkitehtuureja. Uuden artikkelin tutkijat esittävät kysymyksen "Oletko samaa mieltä näistä rankingeista?". Lähde: https://openreview.net/pdf?id=mLG96UpmbYz

Sen lisäksi, että se väittää, että FID ei sovellu sille tarkoitettuun tehtäväänsä, asiakirjassa ehdotetaan lisäksi, että "ilmeiset" korjaustoimenpiteet, kuten sisäisen moottorin vaihtaminen kilpaileviin moottoreihin, yksinkertaisesti vaihtavat yhden harhajoukon toiseen. Kirjoittajat ehdottavat, että nyt uusien tutkimushankkeiden tehtävänä on kehittää parempia mittareita synteettisesti luotujen valokuvien "aitouden" arvioimiseksi.

- paperi on otsikko Sisäiset harhat Fréchet-alkuetäisyydellä, ja tulee Steffen Jungilta Saarlandin Max Planck Institute for Informaticsista ja Margret Keuperilta, visuaalisen laskennan professorilta Siegenin yliopistosta.

Pisteytysjärjestelmän etsiminen kuvan synteesiä varten

Kuten uusi tutkimus toteaa, edistys kuvasynteesikehysten, kuten GAN- ja enkooderi/dekooderi-arkkitehtuurien, osalta on ohittanut menetelmät, joilla tällaisten järjestelmien tuloksia voidaan arvioida. Sen lisäksi, että ihmisten suorittama näiden järjestelmien tuotoksen arviointi on kallista ja siksi vaikea skaalata, se ei tarjoa empiiristä ja toistettavaa arviointimenetelmää.

Siksi on syntynyt useita metrisiä kehyksiä, mukaan lukien Aloituspisteet (IS), esitelty vuonna 2016 paperi Parannetut GAN-koulutustekniikat, jonka on kirjoittanut GAN keksijä, Ian Goodfellow.

IS-pisteiden huonontaminen laajasti sovellettavana mittarina useille GAN-verkoille vuonna 2018 johti FID:n laajaan käyttöön GAN-kuvasynteesiyhteisössä. Kuitenkin, kuten aloituspisteet, FID perustuu Googlen arvoihin Inception v3 -kuvaluokitusverkko (IV3).

Uuden artikkelin kirjoittajat väittävät, että Fréchet Inception Distance levittää vahingollisia harhoja IV3:ssa, mikä johtaa epäluotettavaan kuvanlaadun luokitukseen.

Koska FID voidaan sisällyttää koneoppimiskehykseen erottelijana (sulautettu "tuomari", joka päättää, meneekö GAN hyvin vai pitäisikö sen "yrittää uudelleen"), sen on esitettävä tarkasti standardit, joita ihminen soveltaisi arvioidessaan. kuvat.

Fréchet aloitusetäisyys

FID vertailee ominaisuuksien jakautumista GAN-mallin (tai vastaavan toiminnallisuuden) luomiseen käytetyssä opetustietojoukossa ja järjestelmän tuloksia.

Siksi, jos GAN-kehystä opetetaan 10,000 XNUMX (esimerkiksi) julkkisten kuvalle, FID vertaa alkuperäisiä (oikeita) kuvia GANin tuottamiin väärennöksiin. Mitä pienempi FID-pistemäärä, sitä lähemmäksi GAN on päässyt "fotorealistisiin" kuviin FID:n kriteerien mukaan.

Paperista GAN:n tulokset, jotka on koulutettu FFHQ64:llä, joka on osa NVIDIAn erittäin suositusta FFHQ-tietojoukosta. Vaikka FID-pistemäärä on tässä hämmästyttävän alhainen 5.38, tulokset eivät ole keskimääräistä ihmistä miellyttäviä tai vakuuttavia.

Lehden tulokset GAN:sta, joka on koulutettu FFHQ64:llä, joka on osa NVIDIA:n erittäin suosittuja FFHQ-tietojoukko. Vaikka FID-pistemäärä on tässä hämmästyttävän alhainen 5.38, tulokset eivät ole keskimääräistä ihmistä miellyttäviä tai vakuuttavia.

Kirjoittajien mukaan ongelma on se, että Inception v3, jonka oletukset vaikuttavat Fréchet Inception Distance -etäisyydeltä, ei etsi oikeista paikoista – ainakaan käsillä olevaa tehtävää harkitessaan.

Inception V3 on koulutettu ImageNet-objektintunnistushaaste, tehtävä, joka on kiistatta ristiriidassa sen tavan kanssa, jolla kuvasynteesin tavoitteet ovat kehittyneet viime vuosina. IV3 haastaa mallin kestävyyden suorittamalla tietojen lisäystä: se kääntää kuvia satunnaisesti, rajaa ne satunnaiseen asteikkoon välillä 8-100%, muuttaa kuvasuhdetta (välillä 3/4 - 4/3) ja ruiskuttaa satunnaisesti kirkkauteen, kylläisyyteen ja kontrastiin liittyvät värivääristymät.

Saksalaiset tutkijat ovat havainneet, että IV3:lla on taipumus suosia reunojen ja tekstuurien poimimista väri- ja intensiteettitietojen sijaan, mikä olisi merkityksellisempiä synteettisten kuvien aitouden indeksejä; ja että sen alkuperäinen tarkoitus objektien havaitseminen on siksi epäasianmukaisesti sekvesteroitu sopimattomaan tehtävään. Kirjoittajat kertovat*:

"[Inception v3] pyrkii poimimaan ominaisuuksia, jotka perustuvat reunoihin ja tekstuureihin väri- ja intensiteettitietojen sijaan. Tämä on linjassa sen lisäysputken kanssa, joka aiheuttaa värivääristymiä, mutta pitää korkeataajuiset tiedot ennallaan (toisin kuin esimerkiksi Gaussin sumennuksen avulla tapahtuva lisäys).

Näin ollen FID perii tämän harhan. Kun niitä käytetään sijoitusmittarina, hyvin tekstuureja tuottavia generatiivisia malleja voidaan suosia mallien sijaan, jotka toistavat hyvin värijakaumia..'

Tiedot ja menetelmä

Hypoteesinsa testaamiseksi kirjoittajat kouluttivat kaksi GAN-arkkitehtuuria, DCGAN ja SNGAN, NVIDIA:ssa FFHQ ihmiskasvojen tietojoukko, näyte alennettu arvoon 642 kuvan resoluutio ja johdettu tietojoukko nimeltä FFHQ64.

Kolmea GAN-koulutusmenettelyä harjoitettiin: GAN G+D, standardi syrjintään perustuva verkkoon; GAN FID|G+D, jossa FID toimii ylimääräisenä erottelijana; ja GAN FID|G. jossa GAN saa virtansa kokonaan liikkuvasta FID-pisteestä.

Kirjoittajat huomauttavat teknisesti, että FID-häviön pitäisi vakauttaa harjoittelua ja mahdollisesti jopa pystyä siihen täysin korvaava erottaja (kuten se tekee numerossa 3, GAN FID|G) ja tuottaa ihmisille miellyttäviä tuloksia.

Käytännössä tulokset ovat melko erilaisia, ja – kirjoittajien oletuksena – FID-avusteiset mallit "sovittavat" vääriin mittareihin. Tutkijat huomauttavat:

"Oletamme, että generaattori oppii tuottamaan sopimattomia ominaisuuksia vastaamaan harjoitustietojakaumaa. Tämä havainto tulee vakavammaksi [GAN FID|G]:n tapauksessa. Tässä huomaamme, että puuttuva erottaja johtaa spatiaalisesti epäkoherenteihin ominaisuusjakaumiin. Esimerkiksi [SNGAN FID|G] lisää enimmäkseen yksittäisiä silmiä ja tasoittaa kasvojen piirteitä pelottavalla tavalla.

Esimerkkejä SNGAN FID|G:n tuottamista kasvoista.

Esimerkkejä SNGAN FID|G:n tuottamista kasvoista.

Kirjoittajat päättelevät*:

"Vaikka ihmisen annotaattorit suosivat varmasti SNGAN D+G:n tuottamia kuvia SNGAN FID|G:n sijaan (tapauksissa, joissa tiedon tarkkuus on parempi kuin taide), näemme, että FID ei heijasta tätä. Näin ollen FID ei ole linjassa ihmisen havainnon kanssa.

"Väite, että kuvien luokitteluverkostojen tarjoamat erottelevat ominaisuudet eivät riitä tarjoamaan mielekkään mittarin perustaa."

Ei helppoja vaihtoehtoja

Kirjoittajat havaitsivat myös, että Inception V3:n vaihtaminen samanlaiseen moottoriin ei helpottanut ongelmaa. Korvattaessa IV3 "laajalla valikoimalla erilaisia ​​luokitusverkkoja", joita vastaan ​​testattiin ImageNet-C (ImageNetin osajoukko, joka on suunniteltu vertailemaan yleisesti luotuja korruptioita ja häiriöitä kuvasynteesikehysten tulostuskuvissa), tutkijat eivät pystyneet parantamaan tuloksiaan merkittävästi:

"[Bases] Inception v3:ssa esiintyvät ovat laajalti myös muissa luokitusverkostoissa. Lisäksi näemme, että eri verkostot tuottaisivat erilaisia ​​sijoituksia korruptiotyyppien välillä.

Kirjoittajat päättävät artikkelin toivoen, että meneillään oleva tutkimus kehittää "ihmislähtöisen ja puolueettoman mittarin", joka pystyy mahdollistamaan oikeudenmukaisemman arvon kuvangeneraattoriarkkitehtuureille.

 

* Tekijän painotus.


Julkaistu ensimmäisen kerran 2, klo 2021 GMT+1.