Umělá inteligence

Adobe Research rozšiřuje možnosti úpravy obličeje odděleného GAN

aktualizováno on 9. prosince 2022

Není těžké pochopit proč zapletení je problém v syntéze obrazu, protože je to často problém v jiných oblastech života; například odstranit kurkumu z kari je mnohem těžší, než vyhodit nálev z burgeru, a je prakticky nemožné odsladit šálek kávy. Některé věci prostě přijdou zabalené.

Stejně tak je zapletení kamenem úrazu pro architektury syntézy obrazu, které by v ideálním případě chtěly oddělit různé funkce a koncepty při používání strojového učení k vytváření nebo úpravě tváří (resp. psů, Lodě, nebo jakákoli jiná doména).

Pokud byste mohli oddělit prameny jako např stáří, rod, vlasy, odstín pleti, emoce, a tak dále, měli byste počátky skutečné instrumentality a flexibility v rámci, který by mohl vytvářet a upravovat obrázky obličejů na skutečně podrobné úrovni, aniž by do těchto konverzí vtahoval nežádoucí „pasažéry“.

Při maximálním zapletení (vlevo nahoře) můžete pouze změnit obraz naučené sítě GAN na obraz jiného člověka.

To efektivně využívá nejnovější technologii počítačového vidění AI k dosažení něčeho, co bylo vyřešeno jinými prostředky před více než třiceti lety.

S určitým stupněm oddělení ("Medium Separation" na předchozím obrázku výše) je možné provádět změny založené na stylu, jako je mimo jiné barva vlasů, výraz, kosmetická aplikace a omezená rotace hlavy.

Zdroj: FEAT: Face Editing with Attention, únor 2022, https://arxiv.org/pdf/2202.02713.pdf

Zdroj: FEAT: Úprava obličeje s pozorností, únor 2022, https://arxiv.org/pdf/2202.02713.pdf

V posledních dvou letech došlo k řadě pokusů vytvořit interaktivní prostředí pro úpravu obličeje, která uživateli umožňují měnit charakteristiky obličeje pomocí posuvníků a dalších tradičních interakcí uživatelského rozhraní, a přitom zachovat základní rysy cílového obličeje nedotčené při přidávání nebo změnách. To se však ukázalo jako výzva kvůli základnímu zapletení funkcí/stylů v latentním prostoru GAN.

Například, brýle vlastnost je často zapletena s starý vlastnost, což znamená, že přidání brýlí může také „stárnout“ obličej, zatímco stárnutí obličeje může přidat brýle, v závislosti na míře aplikovaného oddělení funkcí vysoké úrovně (příklady viz „Testování“ níže).

Nejpozoruhodnější je, že bylo téměř nemožné změnit barvu vlasů a další vlasové plošky, aniž by byly přepočítány prameny vlasů a jejich rozložení, což dává „šuštivý“, přechodný efekt.

Zdroj: InterFaceGAN Demo (CVPR 2020), https://www.youtube.com/watch?v=uoftpl3Bj6w

Latent-to-latent GAN Traversal

Nový papír vedený společností Adobe Zadáno pro WACV 2022 nabízí nový přístup k těmto základním problémům v a papír Nárok Latent to Latent: Naučený mapovač pro zachování identity úpravy více atributů obličeje v obrázcích generovaných StyleGAN.

Doplňkový materiál z článku Latent to Latent: A Learned Mapper for Identity Preserving Editing of Multiple Face Attributes in StyleGAN-generated Images. Zde vidíme, že základní charakteristiky v naučeném obličeji nejsou zataženy do nesouvisejících změn. Pro lepší detaily a rozlišení se podívejte na celé vložené video na konci článku. Zdroj: https://www.youtube.com/watch?v=rf_61llRH0Q

Doplňkový materiál z papíru Latent to Latent: Naučený mapovač pro zachování identity úpravy více atributů obličeje v obrázcích generovaných StyleGAN. Zde vidíme, že základní charakteristiky v naučeném obličeji nejsou zataženy do nesouvisejících změn. Pro lepší detaily a rozlišení se podívejte na celé vložené video na konci článku. Zdroj: https://www.youtube.com/watch?v=rf_61llRH0Q

Příspěvek vede Adobe Applied Scientist Siavash Khodadadeh spolu se čtyřmi dalšími výzkumníky Adobe a výzkumníkem z katedry informatiky na University of Central Florida.

Dílo je zajímavé částečně tím, že Adobe v tomto prostoru již nějakou dobu působí a je lákavé si představit, že tato funkcionalita vstoupí v příštích letech do projektu Creative Suite; ale hlavně proto, že architektura vytvořená pro projekt má jiný přístup k zachování vizuální integrity v editoru obličejů GAN, zatímco jsou aplikovány změny.

Autoři prohlašují:

'[Trénujeme] neuronovou síť, aby provedla latentní-latentní transformaci, která najde latentní kódování odpovídající obrázku se změněným atributem. Jelikož je technika jednorázová, nespoléhá se na lineární nebo nelineární trajektorii postupné změny atributů.

„Tréninkem sítě end-to-end přes celý výrobní kanál se systém může přizpůsobit skrytým prostorům standardních architektur generátorů. Ochranné vlastnosti, jako je zachování identity osoby, mohou být zakódovány ve formě tréninkových ztrát.

"Jakmile byla síť latent-to-latent trénována, může být znovu použita pro libovolné obrázky bez přetrénování."

Tato poslední část znamená, že navrhovaná architektura přichází s koncovým uživatelem v hotovém stavu. Stále potřebuje provozovat neuronovou síť na místních zdrojích, ale nové obrázky lze „vložit“ a být připraveny ke změnám téměř okamžitě, protože rámec je dostatečně oddělený, aby nepotřeboval další školení specifické pro obrázky.

Pohlaví a vousy se měnily, když posuvníky vykreslovaly náhodné a libovolné cesty latentním prostorem, nejen „drhnutí mezi koncovými body“. Viz video vložené na konci článku pro více transformací v lepším rozlišení.

Mezi hlavní úspěchy v práci patří schopnost sítě „zmrazit“ identity v latentním prostoru změnou pouze atributu v cílovém vektoru a poskytnutím „opravných termínů“, které zakonzervují transformované identity.

V podstatě je navrhovaná síť zasazena do širší architektury, která organizuje všechny zpracované prvky, které procházejí předem připravenými součástmi se zmrazenými váhami, které nevyvolají nežádoucí boční efekty na transformace.

Jelikož se tréninkový proces opírá o trojčata které lze vygenerovat buď seedovým obrázkem (pod GAN inverze) nebo existující počáteční latentní kódování, celý tréninkový proces je bez dozoru, s tichými akcemi obvyklé řady systémů označování a ošetřování v takových systémech účinně zapečených do architektury. Ve skutečnosti nový systém používá standardní regresory atributů:

„[Počet] atributů, které může naše síť nezávisle ovládat, je omezen pouze schopnostmi rozpoznávačů – pokud má pro atribut rozpoznávač, můžeme jej přidat k libovolným plochám. V našich experimentech jsme trénovali síť latent-to-latent, abychom umožnili úpravu 35 různých atributů obličeje, více než jakýkoli předchozí přístup.'

Systém obsahuje další ochranu proti nežádoucím transformacím „vedlejších efektů“: v případě nepřítomnosti požadavku na změnu atributu bude síť z latentního na latentní mapovat na sebe latentní vektor, což dále zvýší stabilní perzistenci cílové identity.

rozpoznání obličeje

Jedním opakujícím se problémem s GAN a editory obličejů založenými na kodéru/dekodéru v posledních několika letech bylo, že aplikované transformace mají tendenci zhoršovat podobnost. K boji proti tomu používá projekt Adobe vestavěnou síť pro rozpoznávání obličeje, tzv FaceNet jako diskriminátor.

Architektura projektu, zahrnutí FaceNetu viz vlevo dole. Zdroj: Latent to Latent: A Learned Mapper for Identity Preserving Editing of Multiple Face Attributes v obrázcích generovaných StyleGAN, OpenAccess.

Architektura projektu, zahrnutí FaceNetu viz vlevo dole. Zdroj: Latent to Latent: Naučený mapovač pro zachování identity úpravy více atributů obličeje v obrázcích generovaných StyleGAN, Otevřený přístup.

(Pokud jde o osobní poznámku, zdá se, že jde o povzbudivý krok směrem k integraci standardní identifikace obličeje a dokonce systémů rozpoznávání výrazů do generativních sítí, což je pravděpodobně nejlepší způsob, jak překonat slepý pixel>mapování pixelů která dominuje současným deepfake architekturám na úkor věrnosti výrazu a dalších důležitých domén v sektoru generování obličejů.)

Přístup do všech oblastí v Latentním prostoru

Další působivou vlastností frameworku je jeho schopnost libovolně cestovat mezi potenciálními transformacemi v latentním prostoru, podle rozmaru uživatele. Několik předchozích systémů, které poskytovaly průzkumná rozhraní, často nechalo uživatele v podstatě „drhnout“ mezi pevnými časovými osami transformace funkcí – působivý, ale často docela lineární nebo proskriptivní zážitek.

Od zlepšení rovnováhy GAN zvýšením prostorového povědomí: zde uživatel projde řadou potenciálních přechodových bodů mezi dvěma umístěními latentního prostoru, ale v rámci předem vytrénovaných míst v latentním prostoru. Pro použití jiných druhů transformací založených na stejném materiálu je nutná rekonfigurace a/nebo rekvalifikace. Zdroj: https://genforce.github.io/eqgan/

od Zlepšení GAN Equilibrium zvýšením prostorového povědomí: zde uživatel prochází řadou potenciálních přechodových bodů mezi dvěma umístěními latentního prostoru, ale v rámci předem připravených míst v latentním prostoru. Pro použití jiných druhů transformací založených na stejném materiálu je nutná rekonfigurace a/nebo rekvalifikace. Zdroj: https://genforce.github.io/eqgan/

Kromě toho, že je uživatel vnímavý ke zcela novým uživatelským obrázkům, může také ručně „zmrazit“ prvky, které chce během procesu transformace zachovat. Tímto způsobem může uživatel zajistit, aby se (například) pozadí neposouvalo nebo aby oči zůstaly otevřené nebo zavřené.

Data

Atributová regresní síť byla trénována na třech sítích: FFHQ, CelebAMask-HQa místní síť generovaná GAN získaná vzorkováním 400,000 XNUMX vektorů z prostoru Z StylGAN-V2.

Obrázky out-of-distribution (OOD) byly odfiltrovány a atributy extrahovány pomocí Microsoft's Face APIs výsledným obrazem rozděleným v poměru 90/10, takže k porovnání zůstalo 721,218 72,172 tréninkových obrázků a XNUMX XNUMX testovacích obrázků.

Testování

Přestože byla experimentální síť původně nakonfigurována tak, aby pojala 35 potenciálních transformací, tyto byly zeštíhleny na osm, aby bylo možné provést analogické testování proti srovnatelným rámcům. InterFaceGAN, GANSprostor, a StyleFlow.

Osm vybraných atributů bylo věk, Plešatost, Vousy, Výraz, Rod, Brýle, stoupání, a Yaw. Bylo nutné předělat konkurenční rámce pro některé z osmi atributů, které nebyly poskytovány v původní distribuci, jako je přidání plešatost a vousy na InterFaceGAN.

Jak se dalo očekávat, v konkurenčních architekturách došlo k většímu zapletení. Například v jednom testu InterFaceGAN a StyleFlow změnily pohlaví subjektu, když byly požádány o přihlášení. stáří:

Dva z konkurenčních frameworků zahrnuly změnu pohlaví do „věkové“ transformace a také změnily barvu vlasů bez přímé nabídky uživatele.

Dva ze soupeřů navíc zjistili, že brýle a věk jsou neoddělitelné aspekty:

Brýle a změna barvy vlasů bez příplatku!

Není to jednoznačné vítězství výzkumu: jak je vidět v doprovodném videu vloženém na konci článku, framework je nejméně účinný při pokusu extrapolovat různé úhly (yaw), zatímco GANSpace má lepší obecný výsledek pro stáří a uložení brýle. Rámec latent-to-latent svázaný s GANSpace a StyleFlow, pokud jde o přidání sklonu (úhel hlavy).