stomp Beeldsintese-sektor het 'n gebrekkige maatstaf aangeneem, navorsingseise - Unite.AI
Verbinding met ons

Kunsmatige Intelligensie

Beeldsintese-sektor het 'n gebrekkige maatstaf aangeneem, navorsingseise

mm
Opgedateer on

2021 was 'n jaar van ongekende vooruitgang en 'n woedende pas van publikasie in die beeldsintese-sektor, wat 'n stroom nuwe innovasies en verbeterings in tegnologie bied wat in staat is om menslike persoonlikhede te reproduseer deur neurale weergawe, deepfakes, en 'n menigte van nuwe benaderings.

Navorsers van Duitsland beweer egter nou dat die standaard wat gebruik word om outomaties die realisme van sintetiese beelde te beoordeel, noodlottig gebrekkig is; en dat die honderde, selfs duisende navorsers regoor die wêreld wat daarop staatmaak om die koste van duur mensgebaseerde resultate-evaluering te besnoei, dalk in 'n doodloopstraat afstuur.

Om te demonstreer hoe die standaard, Fréchet Aanvangsafstand (FID), voldoen nie aan menslike standaarde vir die evaluering van beelde nie, het die navorsers hul eie GAN's ontplooi, geoptimaliseer vir FID (nou 'n algemene maatstaf). Hulle het bevind dat FID sy eie obsessies volg, gebaseer op onderliggende kode met 'n heel ander taak as dié van beeldsintese, en dat dit gereeld nie daarin slaag om 'n 'menslike' standaard van onderskeiding te bereik:

FID-tellings (laer is beter) vir beelde wat deur verskeie modelle gegenereer word deur gebruik te maak van standaarddatastelle en argitekture. Die navorsers van die nuwe referaat stel die vraag 'Sal jy saamstem met hierdie ranglys?'. Bron: https://openreview.net/pdf?id=mLG96UpmbYz

FID-tellings (laer is beter) vir beelde wat deur verskeie modelle gegenereer word deur gebruik te maak van standaarddatastelle en argitekture. Die navorsers van die nuwe referaat stel die vraag 'Sal jy saamstem met hierdie ranglys?'. Bron: https://openreview.net/pdf?id=mLG96UpmbYz

Benewens sy bewering dat FID nie geskik is vir sy voorgenome taak nie, stel die koerant verder voor dat 'vanselfsprekende' remedies, soos die uitskakeling van sy interne enjin vir mededingende enjins, eenvoudig een stel vooroordele vir 'n ander sal verruil. Die skrywers stel voor dat dit nou by nuwe navorsingsinisiatiewe val om beter maatstawwe te ontwikkel om 'egtheid' in sinteties-gegenereerde foto's te assesseer.

Die papier is getiteld Geïnternaliseerde vooroordele in Fréchet-aanvangsafstand, en kom van Steffen Jung by die Max Planck-instituut vir Informatika by Saarland, en Margret Keuper, Professor vir Visuele Rekenaarkunde aan die Universiteit van Siegen.

Die soektog na 'n puntestelsel vir beeldsintese

Soos die nuwe navorsing opmerk, het vordering in beeldsintese-raamwerke, soos GAN'e en enkodeerder/dekodeerder-argitekture, metodes oortref waardeur die resultate van sulke stelsels beoordeel kan word. Behalwe dat dit duur is en dus moeilik om te skaal, bied menslike evaluering van die uitset van hierdie stelsels nie 'n empiriese en reproduceerbare metode van assessering nie.

Daarom het 'n aantal metrieke raamwerke na vore gekom, insluitend Aanvang telling (IS), verskyn in die 2016 papier Verbeterde tegnieke vir die opleiding van GAN's, mede-geskryf deur GAN uitvinder, Ian Goodfellow.

Die diskreditering van die IS-telling as 'n breed toepaslike maatstaf vir veelvuldige GAN-netwerke in 2018 het gelei tot die wydverspreide aanvaarding van FID in die GAN-beeldsintese-gemeenskap. Soos Inception Score, is FID egter op Google s'n gebaseer Inception v3 beeld klassifikasie netwerk (IV3).

Die skrywers van die nuwe artikel voer aan dat Fréchet Inception Distance skadelike vooroordele in IV3 propageer, wat lei tot onbetroubare klassifikasie van beeldkwaliteit.

Aangesien FID in 'n masjienleerraamwerk geïnkorporeer kan word as 'n diskrimineerder ('n ingebedde 'beoordelaar' wat besluit of die GAN goed vaar, of moet 'weer probeer'), moet dit die standaarde wat 'n mens sal toepas wanneer hy evalueer akkuraat voorstel. die beelde.

Fréchet Aanvangsafstand

FID vergelyk hoe kenmerke versprei word oor die opleidingsdatastel wat gebruik word om 'n GAN (of soortgelyke funksionaliteit) model te skep, en die resultate van daardie stelsel.

Daarom, as 'n GAN-raamwerk opgelei word op 10,000 XNUMX beelde van (byvoorbeeld) bekendes, vergelyk FID die oorspronklike (regte) beelde met die vals beelde wat deur die GAN vervaardig word. Hoe laer die FID-telling, hoe nader het die GAN aan 'fotorealistiese' beelde gekom, volgens FID se kriteria.

Uit die vraestel, resultate van 'n GAN opgelei op FFHQ64, 'n subset van NVIDIA se baie gewilde FFHQ-datastel. Hier, hoewel die FID-telling 'n wonderlike lae 5.38 is, is die resultate nie aangenaam of oortuigend vir die gemiddelde mens nie.

Uit die koerant, resultate van 'n GAN opgelei op FFHQ64, 'n subset van NVIDIA se baie gewilde FFHQ datastel. Hier, hoewel die FID-telling 'n wonderlike lae 5.38 is, is die resultate nie aangenaam of oortuigend vir die gemiddelde mens nie.

Die probleem, meen die skrywers, is dat Inception v3, wie se aannames Fréchet Inception Distance aandryf, nie op die regte plekke soek nie – ten minste nie wanneer die taak op hande oorweeg word nie.

Inception V3 is opgelei op die ImageNet voorwerpherkenningsuitdaging, 'n taak wat waarskynlik in stryd is met die manier waarop die oogmerke van beeldsintese in onlangse jare ontwikkel het. IV3 daag die robuustheid van 'n model uit deur datavergroting uit te voer: dit draai beelde lukraak om, sny dit na 'n ewekansige skaal tussen 8-100%, verander die aspekverhouding (in 'n reeks van 3/4 tot 4/3), en spuit ewekansig in kleurvervormings wat verband hou met helderheid, versadiging en kontras.

Die Duitsland-gebaseerde navorsers het gevind dat IV3 'n neiging het om die onttrekking van rande en teksture te bevoordeel, eerder as kleur- en intensiteitinligting, wat meer betekenisvolle indekse van egtheid vir sintetiese beelde sou wees; en dat die oorspronklike doel van objekopsporing dus onvanpas gesekwestreer is vir 'n ongeskikte taak. Die skrywers sê*:

'[Inception v3] het 'n vooroordeel om kenmerke te onttrek gebaseer op rande en teksture eerder as kleur- en intensiteitinligting. Dit strook met sy aanvullingspyplyn wat kleurvervormings bekendstel, maar hoëfrekwensie-inligting ongeskonde hou (in teenstelling met, byvoorbeeld, aanvulling met Gaussiese vervaag).

'Gevolglik erf FID hierdie vooroordeel. Wanneer dit as rangorde-metriek gebruik word, kan generatiewe modelle wat teksture goed weergee verkies word bo modelle wat kleurverspreidings goed weergee.'

Data en metode

Om hul hipotese te toets, het die skrywers twee GAN-argitekture opgelei, DCGAN en SNGAN, op NVIDIA's FFHQ menslike gesig datastel, afgesteek na 642 beeldresolusie, met die afgeleide datastel genaamd FFHQ64.

Drie GAN-opleidingsprosedures is gevolg: GAN G+D, 'n standaard diskrimineerder gebaseer netwerk; GAN FID|G+D, waar FID optree as 'n bykomende diskrimineerder; en GAN FID|G. waar die GAN geheel en al deur die rollende FID-telling aangedryf word.

Tegnies, merk die skrywers op, moet FID-verlies die opleiding stabiliseer, en moontlik selfs kan heeltemal vervang die diskrimineerder (soos dit in #3, GAN FID|G doen), terwyl dit mens-aangename resultate lewer.

In die praktyk is die resultate nogal anders, met – die skrywers veronderstel – die FID-gesteunde modelle 'oorpas' op die verkeerde maatstawwe. Die navorsers merk op:

'Ons veronderstel dat die kragopwekker leer om ongeskikte kenmerke te produseer om by die verspreiding van opleidingsdata te pas. Hierdie waarneming word ernstiger in die geval van [GAN FID|G] . Hier merk ons ​​op dat die ontbrekende diskrimineerder tot ruimtelik onsamehangende kenmerkverspreidings lei. Byvoorbeeld [SNGAN FID|G] voeg meestal enkel-oë by en pas gesigseienskappe op 'n skrikwekkende manier in.'

Voorbeelde van gesigte vervaardig deur SNGAN FID|G.

Voorbeelde van gesigte vervaardig deur SNGAN FID|G.

Die skrywers sluit af*:

'Terwyl menslike annoteerders sekerlik beelde wat deur SNGAN D+G vervaardig word bo SNGAN FID|G sal verkies (in gevalle waar datagetrouheid bo kuns verkies word), sien ons dat dit nie deur FID weerspieël word nie. Gevolglik is FID nie in lyn met menslike persepsie nie.

"Ons argumenteer dat diskriminerende kenmerke wat deur beeldklassifikasienetwerke verskaf word, nie voldoende is om die basis van 'n betekenisvolle maatstaf te verskaf nie."

Geen maklike alternatiewe nie

Die skrywers het ook gevind dat die verruiling van Inception V3 vir 'n soortgelyke enjin nie die probleem verlig het nie. Deur IV3 te vervang met ''n uitgebreide keuse van verskillende klassifikasienetwerke', waarteen getoets is ImageNet-C ('n subset van ImageNet wat ontwerp is om algemeen-gegenereerde korrupsies en versteurings in uitsetbeelde van beeldsintese-raamwerke te meet), kon die navorsers nie hul resultate wesenlik verbeter nie:

"[Vooroordeel] teenwoordig in Inception v3 is ook wyd teenwoordig in ander klassifikasienetwerke. Daarbenewens sien ons dat verskillende netwerke verskillende rangorde tussen korrupsietipes sal produseer.'

Die skrywers sluit die referaat af met die hoop dat voortgesette navorsing 'n 'menslik-belynde en onbevooroordeelde metrieke' sal ontwikkel wat 'n regverdiger rangorde vir beeldgenerator-argitekture moontlik sal maak.

 

* Skrywers se klem.


Eerste gepubliseer 2 Desember 2021, 1:2 GMT+XNUMX.