Umělá inteligence

Vytvoření vlastního generativního adversariálního sítě s náčrtky

Published August 6, 2021

Updated April 28, 2026

Martin Anderson

Vědci z Carnegie Mellon a MIT vyvinuli novou metodologii, která umožňuje uživateli vytvořit vlastní generativní adversariální síť (GAN) systémy pro vytváření obrazů jednoduchým náčrtkem indikativních náčrtků.

Systém tohoto typu by mohl umožnit koncovým uživatelům vytvářet systémy pro generování obrazů, které jsou schopny generovat velmi specifické obrazy, jako jsou například konkrétní zvířata, typy budov – a dokonce i jednotlivé osoby. V současné době většina systémů GAN generuje široké a poměrně náhodné výstupy, s omezenou možností specifikovat konkrétní charakteristiky, jako je plemeno zvířete, typy vlasů u lidí, styly architektury nebo skutečné obličeje.

Přístup, popsán v článku Nakreslete si svou vlastní GAN, využívá novou rozhraní pro náčrtky jako efektivní “vyhledávací” funkci pro nalezení funkcí a tříd v jinak přeplněných databázích obrazů, které mohou obsahovat tisíce typů objektů, včetně mnoha podtříd, které nejsou relevantní pro úmysl uživatele. GAN je poté trénován na tomto filtrovaném podmnožině obrazů.

Náčrtováním konkrétního typu objektu, se kterým uživatel chce kalibrovat GAN, se generativní schopnosti rámce specializují na tuto třídu. Například, pokud uživatel chce vytvořit rámec, který generuje konkrétní typ kočky (a not just any old cat, jako je tomu u This Cat Does Not Exist), jeho vstupní náčrtky slouží jako filtr pro vyloučení nerelevantních tříd koček.

Source: https://peterwang512.github.io/GANSketching/

Výzkum je veden Sheng Yu-Wangem z Carnegie Mellon University, společně s kolegou Jun-Yan Zhu a Davidem Bau z MIT’s Computer Science & Artificial Intelligence Laboratory.

Metoda sama je nazvaná ‘GAN sketching’, a používá vstupní náčrtky pro přímou změnu váhy ‘šablonového’ GAN modelu, aby specificky cítil na identifikovanou doménu nebo subdoménu prostřednictvím cross-domain adversarial loss.

Byly prozkoumány různé metody regularizace, aby se zajistilo, že výstup modelu je rozmanitý, zatímco se zachovává vysoká kvalita obrazu. Výzkumníci vytvořili ukázkové aplikace, které jsou schopny interpolovat latentní prostor a provádět procedury editace obrazu.

Tato [$class] neexistuje

Systémy GAN pro generování obrazů se staly módou, pokud ne memem, v posledních letech, s množstvím projektů, které jsou schopny generovat obrázky neexistujících věcí, včetně lidí, pronájmu bytů, snacků, nohou, koní, politiků a hmyzu, mezi mnoha jinými.

Systémy GAN pro syntézu obrazů jsou vytvořeny kompilací nebo kurací rozsáhlých datových sad obsahujících obrázky z cílové domény, jako jsou obličeje nebo koně; trénováním modelů, které generalizují řadu funkcí napříč obrázky v databázi; a implementací generátorových modulů, které mohou vyprodukovat náhodné příklady na základě naučených funkcí.

Výstup z náčrtků v DeepFacePencil, který umožňuje uživatelům vytvářet fotorealistické obličeje z náčrtků. Mnoho podobných projektů pro náčrtky na obrázky existuje. Source: https://arxiv.org/pdf/2008.13343.pdf

Vysokodimenzionální funkce jsou mezi prvními, které jsou konkrétně stanoveny během trénovacího procesu, a jsou ekvivalentní k malířovým prvním širokým tahům barvy na plátno. Tyto vysokodimenzionální charakteristiky budou nakonec korelovat s mnohem podrobnějšími funkcemi (tj. jiskra v oku a ostré vousy kočky, místo pouze generické béžové blobu reprezentující hlavu).

Vím, co myslíte…

Mapováním vztahu mezi těmito ranými seminárními tvary a konečnými podrobnými interpretacemi, které jsou získány mnohem později v trénovacím procesu, je možné odvodit vztahy mezi ‘nejasnými’ a ‘specifickými’ obrázky, což umožňuje uživatelům vytvářet komplexní a fotorealistické obrázky z hrubých náčrtků.

Nedávno NVIDIA vydala desktopovou verzi svého dlouhodobého výzkumu GauGAN do GAN-založené generace krajiny, který snadno demonstruje tento princip:

Approximate daubs jsou přeloženy do bohaté scenérie prostřednictvím NVIDIA’s GauGAN, a nyní NVIDIA Canvas aplikace. Source: https://rossdawson.com/futurist/implications-of-ai/future-of-ai-image-synthesis/

Podobně, mnoho systémů, jako je DeepFacePencil, použilo stejný princip pro vytvoření generátorů fotorealistických obrazů indukovaných náčrtky pro různé domény.

Architektura DeepFacePencil.

Zjednodušení Sketch-To-Image

Nový přístup GAN Sketching se snaží odstranit únavnou zátěž sběru a kurace dat, která je typicky zapojena do vývoje rámců GAN obrazů, pomocí vstupních náčrtků uživatele pro definici, která podmnožina obrazů by měla tvořit trénovací data.

Systém byl navržen tak, aby vyžadoval pouze malý počet vstupních náčrtků pro kalibraci rámce. Systém efektivně obrací funkčnost PhotoSketch, společného výzkumného projektu z roku 2019 od výzkumníků z Carnegie Mellon, Adobe, Uber ATG a Argo AI, který je začleněn do nové práce. PhotoSketch byl navržen pro vytvoření uměleckých náčrtků z obrazů a již obsahuje efektivní mapování vztahů mezi neurčitými a specifickými obrazovými tvary.

Pro generovací část procesu nová metoda pouze modifikuje váhy StyleGAN2. Protože obrazová data, která jsou použita, jsou pouze podmnožinou celkových dostupných dat, pouze modifikace mapovací sítě získá požadované výsledky.

Metoda byla vyhodnocena na několika populárních subdoménách, včetně jezdeckých, kostelů a koček.

Dataset Princeton University’s 2016 LSUN dataset byl použit jako základní materiál, ze kterého lze odvodit cílové subdomény. Pro stanovení systému mapování náčrtků, který je robustní vůči excentricitám reálných vstupních náčrtků uživatele, systém je trénován na obrazech z QuickDraw dataset vyvinutém Microsoftem mezi 2021-2016.

Ačkoli mapování náčrtků mezi PhotoSketch a QuickDraw jsou quite různé, výzkumníci zjistili, že jejich rámec úspěšně překonává je poměrně snadno na relativně jednoduchých pózách, zatímco složitější pózy (jako kočky ležící) jsou více výzvou, zatímco velmi abstraktní vstupní náčrtky (tj. příliš hrubé kresby) také zhoršují kvalitu výsledků.

Latentní prostor a editace obrazu

Výzkumníci vyvinuli dvě aplikace založené na základním díle: editaci latentního prostoru a editaci obrazu. Editace latentního prostoru nabízí interpretabilní uživatelské ovládání, které je facilitováno během trénování, a umožňuje širokou míru variace, zatímco zůstává věrná cílové doméně a příjemně konzistentní napříč variacemi.

Plynulá interpolace latentního prostoru s vlastními modely GAN Sketching.

Komponenta editace latentního prostoru byla poháněna projektem GANSpace z roku 2020, společným projektem Aalto University, Adobe a NVIDIA.

Jeden obraz může být také zadaný do přizpůsobeného modelu, umožňující přirozenou editaci obrazu. V této aplikaci je jeden obraz projektován do přizpůsobeného GAN, nejenže umožňuje přímou editaci, ale také zachovává vyšší úroveň editace latentního prostoru, pokud je tato také použita.

Zde byl použit reálný obraz jako vstup do GAN (model kočky), který edituje vstupní obraz, aby odpovídal zadaným náčrtkům. To umožňuje editaci obrazu pomocí náčrtků.

Ačkoli je konfigurovatelný, systém není navržen pro práci v reálném čase, alespoň z hlediska trénování a kalibrace. Současně GAN Sketching vyžaduje 30 000 trénovacích iterací. Systém také vyžaduje přístup k původním trénovacím datům pro původní model.

V případech, kdy je dataset otevřený a má licenci, která umožňuje lokální kopírování, toto by mohlo být akomodováno zahrnutím zdrojových dat do lokálně nainstalovaného balíčku, i když by to zabralo značné místo na disku; nebo přístupem nebo zpracováním dat na dálku, prostřednictvím cloudového přístupu, který zavádí síťové režie a (v případě zpracování, které skutečně probíhá v cloudu) možná výpočetní náklady.

Transformace z přizpůsobených modelů FFHQ trénovaných na pouze 4 lidské náčrtky.

Transformace z přizpůsobených FFHQ modelů trénovaných na pouze 4 lidské náčrtky.

Martin Anderson

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai

Unite.AI

Vytvoření vlastního generativního adversariálního sítě s náčrtky

Tato [$class] neexistuje

Vím, co myslíte…

Zjednodušení Sketch-To-Image

Latentní prostor a editace obrazu

You may like