tynkä SofGAN: GAN-kasvogeneraattori, joka tarjoaa paremman hallinnan - Unite.AI
Liity verkostomme!

Tekoäly

SofGAN: GAN-kasvogeneraattori, joka tarjoaa paremman hallinnan

mm
Päivitetty on

Shanghain ja Yhdysvaltojen tutkijat ovat kehittäneet GAN-pohjaisen muotokuvien luomisjärjestelmän, jonka avulla käyttäjät voivat luoda uusia kasvoja, joilla ei ole toistaiseksi saatavilla olevaa tasoa hallita yksittäisiä piirteitä, kuten hiuksia, silmiä, laseja, tekstuureja ja värejä.

Järjestelmän monipuolisuuden osoittamiseksi tekijät ovat tarjonneet Photoshop-tyyppisen käyttöliittymän, jossa käyttäjä voi piirtää suoraan semanttisia segmentointielementtejä, jotka tulkitaan uudelleen realistisiksi kuviksi ja jotka voidaan saada jopa piirtämällä suoraan olemassa olevien valokuvien päälle.

Alla olevassa esimerkissä näyttelijä Daniel Radcliffen kuvaa käytetään jäljitysmallina (eikä tavoitteena ole tuottaa hänen kaltaistaan, vaan pikemminkin yleisesti fotorealistinen kuva). Kun käyttäjä täyttää erilaisia ​​elementtejä, mukaan lukien erilliset puolet, kuten lasit, ne tunnistetaan ja tulkitaan tulosteen piirroskuvassa:

Yhden kuvan käyttäminen jäljitysmateriaalina SofGANin luomassa muotokuvassa. Lähde: https://www.youtube.com/watch?v=xig8ZA3DVZ8

Yhden kuvan käyttäminen jäljitysmateriaalina SofGANin luomassa muotokuvassa. Lähde: https://www.youtube.com/watch?v=xig8ZA3DVZ8

- paperi on oikeutettu SofGAN: Pystykuvageneraattori dynaamisella tyylillä, ja sitä johtavat Anpei Chen ja Ruiyang Liu sekä kaksi muuta tutkijaa ShanghaiTech-yliopistosta ja toinen Kalifornian yliopistosta San Diegosta.

Irrotettavat ominaisuudet

Teoksen ensisijainen panos ei ole niinkään käyttäjäystävällisen käyttökokemuksen tarjoaminen, vaan pikemminkin opittujen kasvonpiirteiden, kuten asennon ja tekstuurin "irrottaminen", mikä antaa SofGANille mahdollisuuden luoda myös kasvoja, jotka ovat epäsuorassa kulmassa kameran näkökulmasta.

Generative Adversarial Networks -verkkoihin perustuvien kasvogeneraattoreiden joukossa epätavallinen SofGAN voi muuttaa kuvakulmaa halutessaan harjoitustiedoissa olevien kulmien joukon rajoissa. Lähde: https://arxiv.org/pdf/2007.03780.pdf

Generative Adversarial Networks -verkkoihin perustuvien kasvogeneraattoreiden joukossa epätavallinen SofGAN voi muuttaa kuvakulmaa halutessaan harjoitustiedoissa olevien kulmien joukon rajoissa. Lähde: https://arxiv.org/pdf/2007.03780.pdf

Koska pintakuvioita on nyt erotettu geometriasta, kasvojen muotoa ja tekstuuria voidaan myös käsitellä erillisinä kokonaisuuksina. Käytännössä tämä mahdollistaa lähdepinnan rodun vaihtamisen, a skandaali käytäntö jolla on nyt mahdollisesti hyödyllinen sovellus luominen rodullisesti tasapainotetuista koneoppimistietojoukoista.

SofGAN tukee myös keinotekoista ikääntymistä ja attribuuttien mukaista tyylin säätöä rakeisella tasolla, jota ei ole nähty samanlaisissa segmentointi>kuvajärjestelmissä, kuten NVIDIA:ssa. GauGAN ja Intelin pelipohjainen hermotoisto järjestelmä.

SofGAN pystyy toteuttamaan ikääntymisen iteratiivisena tyylinä.

SofGAN pystyy toteuttamaan ikääntymisen iteratiivisena tyylinä.

Toinen läpimurto SofGANin metodologiassa on se, että koulutus ei vaadi parillista segmentointia/oikeita kuvia, vaan sitä voidaan harjoitella suoraan parittomilla tosimaailman kuvilla.

Tutkijat toteavat, että SofGANin "irrottava" arkkitehtuuri on saanut inspiraationsa perinteisistä kuvantoistojärjestelmistä, jotka hajottavat kuvan yksittäiset puolet. Visuaalisten tehosteiden työnkuluissa komposiitin elementit jaetaan rutiininomaisesti pienimpiin komponentteihin, ja jokaiselle komponentille on omistautunut asiantuntija.

Semantic Occupancy Field (SOF)

Tämän saavuttamiseksi koneoppimiskuvasynteesikehyksessä tutkijat kehittivät a semanttinen käyttöaste (SOF), perinteisen käyttöalueen laajennus, joka yksilöi kasvokuvien komponentit. SOF koulutettiin kalibroiduilla usean näkymän semanttisilla segmentointikartoilla, mutta ilman totuusvalvontaa.

Useita iteraatioita yhdestä segmentointikartasta (vasemmalla).

Useita iteraatioita yhdestä segmentointikartasta (vasemmalla).

Lisäksi 2D-segmentointikartat saadaan jäljittämällä SOF:n ulostulo ennen kuin ne teksturoidaan GAN-generaattorilla. "Synteettiset" semanttiset segmentointikartat koodataan myös pieniulotteiseen tilaan kolmikerroksisen kooderin kautta tulostuksen jatkuvuuden varmistamiseksi, kun näkökulmaa muutetaan.

Koulutusohjelma sekoittaa spatiaalisesti kaksi satunnaista tyyliä kullekin semanttiselle alueelle:

SofGANin arkkitehtuuri.

SofGANin arkkitehtuuri.

Tutkijat väittävät, että SofGAN saavuttaa pienemmän Frechet-alkuetäisyyden (IN(LPIPS) metrinen.

Aiempia StyleGAN-lähestymistapoja on usein estänyt piirteiden sotkeutuminen, jossa kuvan muodostavat elementit ovat peruuttamattomasti sidoksissa toisiinsa, jolloin halutun elementin rinnalle ilmestyy ei-toivottuja elementtejä (ts. korvakoruja saattaa ilmestyä, kun hahmonnetaan korvamuoto, joka ilmoitettiin harjoitusaikana kuvalla, jossa oli korvakorut).

Säteen marssimista käytetään semanttisten segmentointikarttojen määrän laskemiseen, mikä mahdollistaa useiden näkökulmien katsomisen.

Ray marssii käytetään semanttisten segmentointikarttojen määrän laskemiseen, mikä mahdollistaa useiden näkökulmien katselun.

Tietojoukot ja koulutus

SofGANin eri toteutusten kehittämisessä käytettiin kolmea tietojoukkoa: CelebAMask-HQ, 30,000 XNUMX korkean resoluution kuvan arkisto CelebA-HQ-tietojoukosta; NVIDIAn Flickr-Faces-HQ (FFHQ), joka sisältää 70,000 122 kuvaa, joissa tutkijat merkitsivät kuvat valmiiksi koulutetulla kasvojen jäsentimellä; ja itse tuotettu ryhmä XNUMX muotokuvaskannausta käsin merkittyjen semanttisten alueiden kanssa.

SOF koostuu kolmesta koulutettavasta alimoduulista – hyperverkosta, ray marcherista (katso kuva yllä) ja luokittelijasta. Projektin Semantic Instance Wised (SIW) StyleGAN-generaattori on tietyiltä osin konfiguroitu samalla tavalla kuin StyleGAN2. Tietojen lisäystä sovelletaan satunnaisen skaalauksen ja rajauksen avulla, ja koulutus sisältää polun säätelyn neljän vaiheen välein. Koko koulutusprosessi kesti 22 päivää, jotta saavutettiin 800,000 2080 iteraatiota neljällä RTX 10.1 Ti -grafiikkasuorittimella CUDA XNUMX:n kautta.

Paperi ei mainitse 2080-korttien konfiguraatiota, joille kukin mahtuu 11-22 Gt VRAM-muistia, mikä tarkoittaa, että kuukauden parhaan osan SofGANin harjoittamiseen käytetty VRAM-muisti on jossain 44-88 Gt.

Tutkijat havaitsevat, että hyväksyttäviä yleisiä korkean tason tuloksia alkoi ilmestyä melko varhaisessa koulutuksessa, 1500 iteraatiossa, kolmen päivän kuluttua harjoittelusta. Loput harjoituksesta otettiin ennustettavaan, hitaaseen ryömimiseen kohti hienojen yksityiskohtien, kuten hiusten ja silmien puolta, saamista.

SofGAN saavuttaa yleensä realistisempia tuloksia yhdellä segmentointikartalla kuin kilpailevat menetelmät, kuten NIVDIA:n LAPIO ja Pix2PixHDja SEAN.

Alla on tutkijoiden julkaisema video. Lisää itse isännöityjä videoita on saatavilla osoitteessa Hankkeen sivu.

[TOG 2021] SofGAN: Pystykuvageneraattori dynaamisella tyylillä