Umělá inteligence

Plastická chirurgie pro GAN-generované tváře

Published April 14, 2021

Updated April 5, 2026

Martin Anderson

Improvements in synthetically generated (GAN) images

Nová výzkum z Jižní Koreje slibuje zlepšit kvalitu syntetických dat tváří vytvořených Generative Adversarial Networks (GANs).

Systém je schopen identifikovat obrazové artefakty vytvořené procesy GAN a odstranit je, dokonce i nahradit vlasy, které byly zakryty čepicí, nahradit části obličeje, které zcela chyběly v originálu, a odstranit překážky, jako jsou ruce a sluneční brýle, a také funguje dobře na scénické a architektonické výstupy.

Vlevo pro každou sloupec, původní GAN výstup s defekty, následovaný dvěma dalšími přístupy k artefaktům a nakonec metodou použitou jihokorejskými výzkumníky. Zdroj: https://arxiv.org/pdf/2104.06118.pdf

Většina nedávných přístupů ke zlepšení kvality GAN-generovaných obrazů přijala postoj, že artefakty jsou profesionální riziko procesu, zacházející s metodologií jako s “přírodní silou” a více psychedelickými nebo aberracionálními výsledky, které může produkovat, jako s nevyhnutelným vedlejším produktem.

Místo toho jihokorejský výzkum navrhuje vlastně “opravit” poškozené obrázky způsobem, který nezasahuje do pokračující generativní řetězce, identifikováním aspektů, které způsobují artefakty, a snížením nebo odstraněním jejich vlivu v GAN síti na semi-dohledové úrovni, která překračuje a rozšiřuje původní samo-korekční mechanismy v GAN architektuře.

Pro projekt bylo nutné vytvořit široce aplikovatelnou ručně označenou sadu obrazů, které byly silně ovlivněny GAN artefakty. Zpočátku výzkumníci použili Frechet Inception Distance (FID), metriku, která hodnotí kvalitu GAN výstupu porovnáním funkcí v obrazech, jako kvalifikační jednotku. 10 000 obrazů s nejvyššími FID skóre mezi 200 000 obrazech bylo použito jako diskrétní “artefaktové jednotky”. Následně výzkumníci ručně označili 2 000 generovaných obrazů, klasifikujících každý jako “normální” nebo ovlivněný FID artefakty. Poté byl vytvořen model pro klasifikaci sady dat do artefaktů, normálních a náhodných reálných vzorků.

Po tomto, Gradient-weighted Class Activation Mapping (Grad-CAM) byl použit pro generování masek pro artefakt-ovlivněné oblasti, efektivní automatizaci označování defektů.

Na obrázku výše byly aplikovány Grad-CAM masky na výstup z LSUN-Church outdoor sady dat a CelebA-HQ sady dat.

Analýzou top 20 nejvíce postižených výsledků z běhu 20 000 obrazů jsou generovány segmentační masky, do kterých lze nahradit reprezentativní výsledky napříč generacemi (které jsou pravděpodobně přesnější nebo přesvědčivější než artefakty) snížením aktivity artefakt-vytvářejících jednotek v následujících generacích.

Hodnocení oprav lidskými hodnotiteli vedlo k tomu, že 53 % “opravených” obrazů bylo označeno jako “normální”, zatímco 97 % původních obrazů stále ukazuje významná zlepšení oproti originálům.

Výzkumníci tvrdí, že tato metoda, s některými menšími úpravami, může být také adaptována pro NVIDIA’s StyleGAN2.

Výhody syntetických dat

Primárně ve vztahu k datům tváří, obecný nedostatek reálných světových sad dat pro počítačové vidění je překážkou pro rozmanité výzkumy v důležitých výzkumných sektorech, jako je rozpoznávání tváří, rozpoznávání emocí, lékařský výzkum a studie o více podrobném rozdělení topologie obličeje, mezi mnoha dalšími oblastmi.

Aktuální zpětná vazba vůči volnému použití webových dat a ad hoc sběru reálných světových obrazů tváří pro zařazení do face databází je další překážkou pro výzkum, s rostoucím počtem států a národů krotících webového sběru, a přivlastňování sociálních médií obrazů pro tyto účely.

Za posledních deset let, omezený počet vysoce kurátorovaných face sad dat nabídl útočiště od této nejistoty, s různými každoročními veřejnými výzkumnými výzvami zaměřenými na ně. Nicméně, to zřejmě vedlo k výzkumným projektům, které naklánějí své metodologie specificky k těmto sadám dat, s konzistentními a srovnatelnými výsledky rok od roku, získanými za cenu nedostatku rozmanitosti ve zdrojovém materiálu – situace, která se zhoršuje každý rok, kdy nový výzkum omezuje sám sebe na tyto hranice.

Navíc, některé z těchto “tradičních” sad dat přišly pod kritiku za nedostatek rasové rozmanitosti, což naznačuje, že tyto benchmarkingové opory nemusí být považovány za vhodné zdroje v blízké budoucnosti.

To znamená potřebu vysoce kvalitních dat tváří, které jsou realistické, ale kde přispívající “reálné světové” obrazy byly transformovány daleko za rozpoznání. I když toto použití reálných dat tváří “na jedné straně” může samo o sobě nakonec vyvolat problémy nad původem GAN-generovaných tváří, je to překážka, která se nejspíše nevyskytne, dokud nebudou zavedeny právní a technické mechanismy pro sběr dat tohoto druhu; a pokud jde o možné změny právních rámců kolem této otázky, je to menší nebezpečí než použití obrazů skutečných lidí.

Další čtení:

Zlepšení realismu syntetických obrazů
Automatická korekce vnitřních jednotek v generativních neuronových sítích

Martin Anderson

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai

Unite.AI

Plastická chirurgie pro GAN-generované tváře

Výhody syntetických dat

Další čtení:

You may like