Umělá inteligence
Adobe Research rozšiřuje možnosti úpravy obličeje odděleného GAN
Není těžké pochopit proč zapletení je problém v syntéze obrazu, protože je to často problém v jiných oblastech života; například odstranit kurkumu z kari je mnohem těžší, než vyhodit nálev z burgeru, a je prakticky nemožné odsladit šálek kávy. Některé věci prostě přijdou zabalené.
Stejně tak je zapletení kamenem úrazu pro architektury syntézy obrazu, které by v ideálním případě chtěly oddělit různé funkce a koncepty při používání strojového učení k vytváření nebo úpravě tváří (resp. psů, Lodě, nebo jakákoli jiná doména).
Pokud byste mohli oddělit prameny jako např stáří, rod, vlasy, odstín pleti, emoce, a tak dále, měli byste počátky skutečné instrumentality a flexibility v rámci, který by mohl vytvářet a upravovat obrázky obličejů na skutečně podrobné úrovni, aniž by do těchto konverzí vtahoval nežádoucí „pasažéry“.
Při maximálním zapletení (vlevo nahoře) můžete pouze změnit obraz naučené sítě GAN na obraz jiného člověka.
To efektivně využívá nejnovější technologii počítačového vidění AI k dosažení něčeho, co bylo vyřešeno jinými prostředky před více než třiceti lety.
S určitým stupněm oddělení ("Medium Separation" na předchozím obrázku výše) je možné provádět změny založené na stylu, jako je mimo jiné barva vlasů, výraz, kosmetická aplikace a omezená rotace hlavy.
V posledních dvou letech došlo k řadě pokusů vytvořit interaktivní prostředí pro úpravu obličeje, která uživateli umožňují měnit charakteristiky obličeje pomocí posuvníků a dalších tradičních interakcí uživatelského rozhraní, a přitom zachovat základní rysy cílového obličeje nedotčené při přidávání nebo změnách. To se však ukázalo jako výzva kvůli základnímu zapletení funkcí/stylů v latentním prostoru GAN.
Například, brýle vlastnost je často zapletena s starý vlastnost, což znamená, že přidání brýlí může také „stárnout“ obličej, zatímco stárnutí obličeje může přidat brýle, v závislosti na míře aplikovaného oddělení funkcí vysoké úrovně (příklady viz „Testování“ níže).
Nejpozoruhodnější je, že bylo téměř nemožné změnit barvu vlasů a další vlasové plošky, aniž by byly přepočítány prameny vlasů a jejich rozložení, což dává „šuštivý“, přechodný efekt.
Latent-to-latent GAN Traversal
Nový papír vedený společností Adobe Zadáno pro WACV 2022 nabízí nový přístup k těmto základním problémům v a papír Nárok Latent to Latent: Naučený mapovač pro zachování identity úpravy více atributů obličeje v obrázcích generovaných StyleGAN.
Příspěvek vede Adobe Applied Scientist Siavash Khodadadeh spolu se čtyřmi dalšími výzkumníky Adobe a výzkumníkem z katedry informatiky na University of Central Florida.
Dílo je zajímavé částečně tím, že Adobe v tomto prostoru již nějakou dobu působí a je lákavé si představit, že tato funkcionalita vstoupí v příštích letech do projektu Creative Suite; ale hlavně proto, že architektura vytvořená pro projekt má jiný přístup k zachování vizuální integrity v editoru obličejů GAN, zatímco jsou aplikovány změny.
Autoři prohlašují:
'[Trénujeme] neuronovou síť, aby provedla latentní-latentní transformaci, která najde latentní kódování odpovídající obrázku se změněným atributem. Jelikož je technika jednorázová, nespoléhá se na lineární nebo nelineární trajektorii postupné změny atributů.
„Tréninkem sítě end-to-end přes celý výrobní kanál se systém může přizpůsobit skrytým prostorům standardních architektur generátorů. Ochranné vlastnosti, jako je zachování identity osoby, mohou být zakódovány ve formě tréninkových ztrát.
"Jakmile byla síť latent-to-latent trénována, může být znovu použita pro libovolné obrázky bez přetrénování."
Tato poslední část znamená, že navrhovaná architektura přichází s koncovým uživatelem v hotovém stavu. Stále potřebuje provozovat neuronovou síť na místních zdrojích, ale nové obrázky lze „vložit“ a být připraveny ke změnám téměř okamžitě, protože rámec je dostatečně oddělený, aby nepotřeboval další školení specifické pro obrázky.
Mezi hlavní úspěchy v práci patří schopnost sítě „zmrazit“ identity v latentním prostoru změnou pouze atributu v cílovém vektoru a poskytnutím „opravných termínů“, které zakonzervují transformované identity.
V podstatě je navrhovaná síť zasazena do širší architektury, která organizuje všechny zpracované prvky, které procházejí předem připravenými součástmi se zmrazenými váhami, které nevyvolají nežádoucí boční efekty na transformace.
Jelikož se tréninkový proces opírá o trojčata které lze vygenerovat buď seedovým obrázkem (pod GAN inverze) nebo existující počáteční latentní kódování, celý tréninkový proces je bez dozoru, s tichými akcemi obvyklé řady systémů označování a ošetřování v takových systémech účinně zapečených do architektury. Ve skutečnosti nový systém používá standardní regresory atributů:
„[Počet] atributů, které může naše síť nezávisle ovládat, je omezen pouze schopnostmi rozpoznávačů – pokud má pro atribut rozpoznávač, můžeme jej přidat k libovolným plochám. V našich experimentech jsme trénovali síť latent-to-latent, abychom umožnili úpravu 35 různých atributů obličeje, více než jakýkoli předchozí přístup.'
Systém obsahuje další ochranu proti nežádoucím transformacím „vedlejších efektů“: v případě nepřítomnosti požadavku na změnu atributu bude síť z latentního na latentní mapovat na sebe latentní vektor, což dále zvýší stabilní perzistenci cílové identity.
rozpoznání obličeje
Jedním opakujícím se problémem s GAN a editory obličejů založenými na kodéru/dekodéru v posledních několika letech bylo, že aplikované transformace mají tendenci zhoršovat podobnost. K boji proti tomu používá projekt Adobe vestavěnou síť pro rozpoznávání obličeje, tzv FaceNet jako diskriminátor.
(Pokud jde o osobní poznámku, zdá se, že jde o povzbudivý krok směrem k integraci standardní identifikace obličeje a dokonce systémů rozpoznávání výrazů do generativních sítí, což je pravděpodobně nejlepší způsob, jak překonat slepý pixel>mapování pixelů která dominuje současným deepfake architekturám na úkor věrnosti výrazu a dalších důležitých domén v sektoru generování obličejů.)
Přístup do všech oblastí v Latentním prostoru
Další působivou vlastností frameworku je jeho schopnost libovolně cestovat mezi potenciálními transformacemi v latentním prostoru, podle rozmaru uživatele. Několik předchozích systémů, které poskytovaly průzkumná rozhraní, často nechalo uživatele v podstatě „drhnout“ mezi pevnými časovými osami transformace funkcí – působivý, ale často docela lineární nebo proskriptivní zážitek.
Kromě toho, že je uživatel vnímavý ke zcela novým uživatelským obrázkům, může také ručně „zmrazit“ prvky, které chce během procesu transformace zachovat. Tímto způsobem může uživatel zajistit, aby se (například) pozadí neposouvalo nebo aby oči zůstaly otevřené nebo zavřené.
Data
Atributová regresní síť byla trénována na třech sítích: FFHQ, CelebAMask-HQa místní síť generovaná GAN získaná vzorkováním 400,000 XNUMX vektorů z prostoru Z StylGAN-V2.
Obrázky out-of-distribution (OOD) byly odfiltrovány a atributy extrahovány pomocí Microsoft's Face APIs výsledným obrazem rozděleným v poměru 90/10, takže k porovnání zůstalo 721,218 72,172 tréninkových obrázků a XNUMX XNUMX testovacích obrázků.
Testování
Přestože byla experimentální síť původně nakonfigurována tak, aby pojala 35 potenciálních transformací, tyto byly zeštíhleny na osm, aby bylo možné provést analogické testování proti srovnatelným rámcům. InterFaceGAN, GANSprostor, a StyleFlow.
Osm vybraných atributů bylo věk, Plešatost, Vousy, Výraz, Rod, Brýle, stoupání, a Yaw. Bylo nutné předělat konkurenční rámce pro některé z osmi atributů, které nebyly poskytovány v původní distribuci, jako je přidání plešatost a vousy na InterFaceGAN.
Jak se dalo očekávat, v konkurenčních architekturách došlo k většímu zapletení. Například v jednom testu InterFaceGAN a StyleFlow změnily pohlaví subjektu, když byly požádány o přihlášení. stáří:
Dva ze soupeřů navíc zjistili, že brýle a věk jsou neoddělitelné aspekty:
Není to jednoznačné vítězství výzkumu: jak je vidět v doprovodném videu vloženém na konci článku, framework je nejméně účinný při pokusu extrapolovat různé úhly (yaw), zatímco GANSpace má lepší obecný výsledek pro stáří a uložení brýle. Rámec latent-to-latent svázaný s GANSpace a StyleFlow, pokud jde o přidání sklonu (úhel hlavy).
Další podrobnosti a lepší rozlišení příkladů naleznete v doprovodném videu níže.
Poprvé publikováno 16. února 2022.