Umělá inteligence

Sektor syntézy obrazu přijal chybný metrický standard, tvrdí výzkum

Published December 20, 2021

Updated April 28, 2026

Martin Anderson

Rok 2021 byl rokem bezprecedentního pokroku a zuřivé publikační činnosti v sektoru syntézy obrazu, nabízející proud nových inovací a zlepšení technologií, které jsou schopny reprodukovat lidské osobnosti prostřednictvím neuronového renderování, deepfakes a celé řady nových přístupů.

Nicméně, němečtí výzkumníci nyní tvrdí, že standard používaný k automatickému hodnocení realismu syntetických obrazů je fatálně chybný; a že stovky, ba tisíce výzkumníků po celém světě, kteří se na něj spoléhají, aby snížili náklady na drahá hodnocení založená na lidském posouzení, možná kráčí slepou uličkou.

Aby prokázali, jak metrický standard Fréchet Inception Distance (FID) nevyhovuje lidským standardům pro hodnocení obrazů, výzkumníci nasadili své vlastní GANy, optimalizované pro FID (nyní běžný metrický standard). Zjistili, že FID sleduje své vlastní posedlosti, založené na základním kódu s velmi odlišným úkolem než syntéza obrazu, a že pravidelně selhává při dosažení “lidského” standardu rozlišení:

FID skóre (nižší je lepší) pro obrazy generované různými modely pomocí standardních datových sad a architektur. Autoři nové studie klade otázku ‘Souhlasíte s těmito hodnoceními?’. Zdroj: https://openreview.net/pdf?id=mLG96UpmbYz

Kromě svého tvrzení, že FID není vhodný pro svůj zamýšlený úkol, studie dále naznačuje, že “zjevná” řešení, jako je výměna jeho interního motoru za konkurenční motory, budou pouze vyměňovat jednu sadu偏見 za jinou. Autoři navrhují, že nyní závisí na nových výzkumných iniciativách vyvinout lepší metriky pro hodnocení “autenticity” ve synteticky generovaných fotografiích.

Studie paper se jmenuje Internalizované偏見 ve Fréchet Inception Distance a pochází od Steffena Junga z Max Planck Institute for Informatics at Saarland a Margret Keuper, profesorky pro Visual Computing na University of Siegen.

Hledání skóringového systému pro syntézu obrazu

Jak nová studie poznamenává, pokrok v rámcích syntézy obrazu, jako jsou GANy a encoder/decoder architektury, překonal metody, kterými lze výsledky těchto systémů hodnotit. Kromě toho, že jsou drahé a proto obtížně škálovatelné, hodnocení založená na lidském posouzení výstupu těchto systémů nenabízejí empiricky a reprodukovatelnou metodu hodnocení.

Proto se objevila řada metrických rámců, včetně Inception Score (IS), uvedeného v roce 2016 paper Improved Techniques for Training GANs, který byl spoluvydán Ianem Goodfellowem, vynálezcem GAN.

Diskreditace IS skóre jako široce použitelného metriku pro multiple GAN sítě v roce 2018 vedla k širokému přijetí FID v komunitě GAN obrazové syntézy. Nicméně, stejně jako Inception Score, FID je založen na Google’s Inception v3 image classification network (IV3).

Autoři nové studie argumentují, že Fréchet Inception Distance šíří škodlivé偏見 v IV3, vedoucí k nespolehlivému hodnocení kvality obrazu.

Jelikož FID může být začleněn do rámce strojového učení jako diskriminátor (vestavěný “soudce”, který rozhoduje, zda GAN funguje dobře, nebo zda by měl “zkusit znovu”), musí přesně reprezentovat standardy, které by člověk aplikoval při hodnocení obrazů.

Fréchet Inception Distance

FID porovnává, jak jsou funkce rozloženy napříč trénovací datovou sadou použitou k vytvoření modelu GAN (nebo podobné funkcionality), a výsledky tohoto systému.

Proto, pokud je rámec GAN trénován na 10 000 obrazů (například) celebrit, FID porovnává původní (reálné) obrazy s falešnými obrazy vygenerovanými GAN. Čím nižší je FID skóre, tím blíže se GAN přiblížil k “fotorealistickým” obrazům, podle kritérií FID.

Z paperu, výsledky GAN trénovaného na FFHQ64, podmnožině velmi populární datové sady FFHQ od NVIDIA. Zde, i když je FID skóre krásně nízké 5,38, výsledky nejsou příjemné nebo přesvědčivé pro průměrného člověka.

Problém, který autoři tvrdí, spočívá v tom, že Inception v3, jehož předpoklady pohání Fréchet Inception Distance, nehledí na správná místa – alespoň ne, pokud jde o úkol, který je třeba řešit.

Inception V3 je trénován na ImageNet object recognition challenge, úkol, který je zřejmě v rozporu se způsobem, jakým se cíle syntézy obrazu vyvinuly v posledních letech. IV3 testuje robustnost modelu prováděním datového rozšíření: náhodně otočí obrazy, ořízne je na náhodném měřítku mezi 8-100%, změní poměr stran (v rozmezí od 3/4 do 4/3) a náhodně vloží barevné distorze související s jasností, sytostí a kontrastem.

Němečtí výzkumníci zjistili, že IV3 má tendenci upřednostňovat extrakci hran a textur, spíše než barevné a intenzitní informace, které by byly více smysluplnými indexy autenticity pro syntetické obrazy; a že jeho původní účel objektového rozpoznávání byl proto nevhodně využit pro nevhodný úkol. Autoři uvádějí*:

‘[Inception v3] má bias směrem k extrakci funkcí založených na hranách a texturách, spíše než barevných a intenzitních informacích. To odpovídá jeho rozšířenému potrubí, které zavádí barevné distorze, ale ponechává vysokofrekvenční informace neporušené (na rozdíl od, například, rozšíření s Gaussovským rozostřením).

‘Následkem toho FID dědí tento bias. Když se používá jako metrika hodnocení, generativní modely, které dobře reprodukují textury, mohou být preferovány před modely, které dobře reprodukují barevné distribuce.’

Data a metoda

Aby otestovali svou hypotézu, autoři trénovali dvě architektury GAN, DCGAN a SNGAN, na datové sadě NVIDIA FFHQ lidských tváří, downsamplované na 64² rozlišení obrazu, s odvozenou datovou sadou nazvanou FFHQ64.

Tři postupy trénování GAN byly provedeny: GAN G+D, standardní diskriminátor-založený síť; GAN FID|G+D, kde FID funguje jako další diskriminátor; a GAN FID|G, kde je GAN zcela poháněn FID skóre.

Technicky, autoři poznamenávají, že FID ztráta by měla stabilizovat trénování a potenciálně dokonce plně nahradit diskriminátor (jako v #3, GAN FID|G), zatímco vyrábí lidsky příjemné výsledky.

V praxi jsou výsledky spíše odlišné, s – autoři hypotézou – FID-pomocnými modely “přepínajícími” se na špatné metriky. Výzkumníci poznamenávají:

‘Hypotézujeme, že generátor se učí produkovat nevhodné funkce, aby odpovídal distribuci trénovací datové sady. Tento pozorování se stává ještě závažnějším v případě [GAN FID|G] . Zde jsme si všimli, že chybějící diskriminátor vede ke prostorově nekonzistentním distribucím funkcí. Například [SNGAN FID|G] přidává většinou pouze jedno oko a zarovnává obličejové rysy způsobem, který je děsivý.’

Příklady tváří vygenerovaných SNGAN FID|G.

Autoři uzavírají*:

‘Zatímco lidský anotátor by jistě preferoval obrazy vygenerované SNGAN D+G před SNGAN FID|G (v případech, kdy je preferována datová věrnost před uměním), vidíme, že to není odráženo FID. FID tedy není sladěn s lidským vnímáním.

‘Argumentujeme, že diskriminativní funkce poskytované image klasifikačními sítěmi nejsou dostatečné k poskytnutí základu pro smysluplnou metriku.’

Žádné snadné alternativy

Autoři také zjistili, že výměna Inception V3 za podobný motor nezlepšila problém. Při nahrazení IV3 “širokým výběrem různých klasifikačních sítí”, které byly testovány proti ImageNet-C (podmnožina ImageNet navržená pro benchmarking běžně generovaných korupcí a perturbací ve výstupech obrazů z rámce syntézy obrazu), výzkumníci nemohli podstatně zlepšit své výsledky:

‘[Bias] přítomné v Inception v3 jsou také široce přítomné v jiných klasifikačních sítích. Kromě toho vidíme, že různé sítě by produkovaly různé hodnocení mezi typy korupcí.’

Autoři uzavírají paper s nadějí, že probíhající výzkum vyvine “lidsky sladěnou a nezkreslenou metriku” schopnou umožnit spravedlivější hodnocení architektur generátorů obrazů.

* Autoři zdůrazňují.

Poprvé publikováno 20. prosince 2021, 13:00 GMT+2.

Martin Anderson

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai

Unite.AI

Sektor syntézy obrazu přijal chybný metrický standard, tvrdí výzkum

Hledání skóringového systému pro syntézu obrazu

Fréchet Inception Distance

Data a metoda

Žádné snadné alternativy

You may like