tynkä Mukautetun generatiivisen kontradiktorisen verkon luominen luonnosten avulla - Unite.AI
Liity verkostomme!

Tekoäly

Mukautetun generatiivisen kontradiktorisen verkon luominen luonnosten avulla

mm
Päivitetty on

Carnegie Mellonin ja MIT:n tutkijat ovat kehittäneet uuden menetelmän, jonka avulla käyttäjä voi luoda mukautettuja Generatiivinen kilpaileva verkosto (GAN) kuvanluontijärjestelmät yksinkertaisesti piirtämällä ohjeellisia doodle-piirroksia.

Tämän tyyppinen järjestelmä voisi antaa loppukäyttäjälle mahdollisuuden luoda kuvia luovia järjestelmiä, jotka pystyvät luomaan hyvin erityisiä kuvia, kuten tiettyjä eläimiä, rakennustyyppejä – ja jopa yksittäisiä ihmisiä. Tällä hetkellä useimmat GAN-sukupolven järjestelmät tuottavat laajaa ja melko satunnaista tulosta, ja niissä on rajoitettu mahdollisuus määrittää tiettyjä ominaisuuksia, kuten eläinrotu, ihmisten karvatyypit, arkkitehtuurityylejä tai todellisia kasvojen identiteettejä.

Lähestymistapa, joka on kuvattu asiakirjassa paperi Piirrä oma GAN, hyödyntää uutta luonnoskäyttöliittymää tehokkaana "haku"-toimintona löytääkseen ominaisuuksia ja luokkia muuten ylitäytetyistä kuvatietokannoista, jotka voivat sisältää tuhansia objektityyppejä, mukaan lukien monia alatyyppejä, jotka eivät liity käyttäjän tarkoitukseen. GAN koulutetaan sitten tähän suodatettuun kuvien osajoukkoon.

Piirtämällä tietyn objektityypin, jolla käyttäjä haluaa kalibroida GAN:n, kehyksen generatiiviset ominaisuudet erikoistuvat kyseiseen luokkaan. Jos käyttäjä esimerkiksi haluaa luoda kehyksen, joka luo tietyntyyppisen kissan (eikä vain minkä tahansa vanhan kissan, kuten voidaan saada Tätä kissaa ei ole olemassa), niiden syöttöluonnokset toimivat suodattimena, joka sulkee pois ei-olennaiset kissaluokat.

 

Lähde: https://peterwang512.github.io/GANSketching/

Lähde: https://peterwang512.github.io/GANSketching/

Tutkimusta johtavat Sheng Yu-Wang Carnegie Mellon -yliopistosta yhdessä kollega Jun-Yan Zhun ja David Baun kanssa MIT:n Computer Science & Artificial Intelligence Laboratorysta.

Itse menetelmää kutsutaan nimellä "GAN-sketching", ja se käyttää syöteluonnoksia muuttaakseen suoraan "mallipohjaisen" GAN-mallin painotuksia kohdistaakseen nimenomaisesti tunnistettuun verkkotunnukseen tai aliverkkotunnukseen. verkkotunnusten välinen kontradiktorinen tappio.

Erilaisia ​​regularisointimenetelmiä tutkittiin sen varmistamiseksi, että mallin tuotos on monipuolinen säilyttäen samalla korkean kuvanlaadun. Tutkijat loivat esimerkkisovelluksia, jotka pystyvät interpoloimaan piilevää tilaa ja suorittamaan kuvankäsittelyprosesseja.

Tätä [$class] ei ole olemassa

GAN-pohjaisista kuvanmuodostusjärjestelmistä on tullut muoti, ellei meemi, muutaman viime vuoden aikana nopea lisääntyminen projekteista, jotka pystyvät luomaan kuvia ei-olemattomista asioista, mukaan lukien ihmiset, vuokra-asunnot, välipalat, jalat, hevoset, poliitikot ja hyönteiset.

GAN-pohjaiset kuvasynteesijärjestelmät luodaan kokoamalla tai kuratoimalla laajoja tietojoukkoja, jotka sisältävät kuvia kohdealueelta, kuten kasvot tai hevoset; koulutusmallit, jotka yleistävät useita ominaisuuksia tietokannan kuvissa; ja toteuttaa generaattorimoduuleja, jotka voivat tuottaa satunnaisia ​​esimerkkejä opittujen ominaisuuksien perusteella.

Tulostus luonnoksista DeepFacePencilissä, jonka avulla käyttäjät voivat luoda luonnoksista fotorealistisia kasvoja. Vastaavia luonnos kuvaksi -projekteja on monia. Lähde: https://arxiv.org/pdf/2008.13343.pdf

Tulostus luonnoksista DeepFacePencilissä, jonka avulla käyttäjät voivat luoda luonnoksista fotorealistisia kasvoja. Vastaavia luonnos kuvaksi -projekteja on monia. Lähde: https://arxiv.org/pdf/2008.13343.pdf

Korkeatasoiset piirteet ovat ensimmäisten joukossa, jotka konkretisoituvat koulutusprosessin aikana, ja ne vastaavat taidemaalarin ensimmäisiä laajoja värimalleja kankaalle. Nämä korkean ulottuvuuden ominaisuudet korreloivat lopulta paljon yksityiskohtaisempien ominaisuuksien kanssa (eli kissan silmien kiilto ja terävät viikset, eikä vain päätä edustava yleinen beige läiskä).

Tiedän mitä tarkoitat…

Kartoittamalla näiden aikaisempien tärkeiden muotojen ja paljon myöhemmin koulutusprosessin aikana saatujen yksityiskohtaisten tulkintojen väliset suhteet, on mahdollista päätellä "epämääräisten" ja "spesifisten" kuvien välisiä suhteita, jolloin käyttäjät voivat luoda monimutkaisia ​​ja fotorealistisia kuvia karkeista pätkistä. .

Äskettäin NVIDIA julkaisi a työpöydän versio pitkän aikavälin GauGAN-tutkimuksestaan ​​GAN-pohjaisen maiseman luomiseksi, mikä osoittaa tämän periaatteen helposti:

Likimääräiset kuvat muunnetaan runsaiksi maisemakuvaksi NVIDIA:n GauGANin ja nyt NVIDIA Canvas -sovelluksen kautta. Lähde: https://rossdawson.com/futurist/implications-of-ai/future-of-ai-image-synthesis/

Likimääräiset kuvat muunnetaan runsaiksi maisemakuvaksi NVIDIA:n GauGANin ja nyt NVIDIA Canvas -sovelluksen kautta. Lähde: https://rossdawson.com/futurist/implications-of-ai/future-of-ai-image-synthesis/

Samoin useita järjestelmiä, kuten DeepFacePencil ovat käyttäneet samaa periaatetta luodessaan luonnos-indusoituja valokuvien generaattoreita eri aloille.

DeepFacePencilin arkkitehtuuri.

DeepFacePencilin arkkitehtuuri.

Yksinkertaistaa Sketch-to-Image

Uuden paperin GAN Sketching -lähestymistapa pyrkii poistamaan valtavan tiedonkeruun ja kuroinnin taakan, joka tyypillisesti liittyy GAN-kuvakehysten kehittämiseen, käyttämällä käyttäjän syötteitä määrittämään, minkä kuvien alajoukon tulisi muodostaa koulutusdata.

Järjestelmä on suunniteltu vaatimaan vain pienen määrän syöteluonnoksia rungon kalibroimiseksi. Järjestelmä kumoaa tehokkaasti toiminnan PhotoSketch, Carnegie Mellonin, Adoben, Uber ATG:n ja Argo AI:n tutkijoiden yhteinen tutkimusaloite vuodelta 2019, joka on sisällytetty uuteen työhön. PhotoSketch on suunniteltu luomaan kuvista taiteellisia luonnoksia, ja se sisältää jo tehokkaan kartoituksen epämääräisistä> erityisistä kuvien luontisuhteista.

Prosessin generointiosassa uusi menetelmä muuttaa vain painoja TyyliGAN2. Koska käytettävä kuvadata on vain osajoukko käytettävissä olevasta kokonaisdatasta, pelkkä kartoitusverkkoa muuttamalla saadaan toivottuja tuloksia.

Menetelmää arvioitiin useilla suosituilla aliverkkotunnuksilla, mukaan lukien hevosurheilu, kirkot ja kissat.

Princetonin yliopisto 2016 LSUN-tietojoukko käytettiin ydinmateriaalina, josta johdettiin kohdealialueet. Jotta luotaisiin luonnoskartoitusjärjestelmä, joka kestää todellisten käyttäjien syöttämien luonnosten epäkeskisyydet, järjestelmä on koulutettu käyttämään kuvia QuickDraw-tietojoukko Microsoftin kehittämä vuosina 2021-2016.

Vaikka PhotoSketchin ja QuickDraw'n luonnoskartoitukset ovat melko erilaisia, tutkijat havaitsivat, että niiden kehys onnistuu hyvin hajauttamaan niitä melko helposti suhteellisen yksinkertaisissa asennoissa, vaikka monimutkaisemmat asennot (kuten kissat makuulla) ovat enemmän haasteita, vaikkakin hyvin abstrakteja. myös käyttäjän syötteet (eli liian karkeat piirustukset) haittaavat tulosten laatua.

Piilevä tila ja luonnollinen kuvankäsittely

Tutkijat kehittivät ydintyöhön perustuen kaksi sovellusta: piilevän tilan muokkaus ja kuvankäsittely. Piilevä tilan muokkaus tarjoaa tulkittavia käyttäjäohjaimia, joita helpotetaan harjoittelun aikana ja jotka mahdollistavat laajan vaihtelun pysyen samalla uskollisena kohdealueelle ja miellyttävän johdonmukaisesti muunnelmien välillä.

Tasainen piilevän tilan interpolointi GAN Sketchingin mukautetuilla malleilla.

Tasainen piilevän tilan interpolointi GAN Sketchingin mukautetuilla malleilla.

Piilevä tilan muokkauskomponentti sai virtansa vuodelta 2020 GANSpace-projekti, Aalto-yliopiston, Adoben ja NVIDIAn yhteinen aloite.

Yksittäinen kuva voidaan syöttää myös räätälöityyn malliin, mikä helpottaa luonnollista kuvankäsittelyä. Tässä sovelluksessa ainoa kuva on ennustetaan mukautettuun GAN:iin, mikä ei mahdollista vain suoraa muokkausta, vaan myös säilyttää korkeamman tason piilevän tilan muokkauksen, jos sitä on myös käytetty.

Tässä todellista kuvaa on käytetty syötteenä GAN:iin (kissamalli), joka muokkaa syötteen vastaamaan lähetettyjä luonnoksia. Tämä mahdollistaa kuvien muokkaamisen luonnostelemalla.

Tässä todellista kuvaa on käytetty syötteenä GAN:iin (kissamalli), joka muokkaa syötteen vastaamaan lähetettyjä luonnoksia. Tämä mahdollistaa kuvien muokkaamisen luonnostelemalla.

Vaikka järjestelmää voidaan konfiguroida, sitä ei ole suunniteltu toimimaan reaaliajassa, ainakaan koulutuksen ja kalibroinnin suhteen. Tällä hetkellä GAN Sketching vaatii 30,000 XNUMX harjoitustoistoa. Järjestelmä vaatii myös pääsyn alkuperäisen mallin alkuperäisiin harjoitustietoihin.

Tapauksissa, joissa tietojoukko on avoimen lähdekoodin ja sillä on lisenssi, joka sallii paikallisen kopioinnin, tämä voidaan toteuttaa sisällyttämällä lähdetiedot paikallisesti asennettuun pakettiin, vaikka tämä vie huomattavasti levytilaa. tai käyttämällä tai käsittelemällä tietoja etänä, pilvipohjaisen lähestymistavan kautta, joka tuo mukanaan verkon ylimääräisiä kustannuksia ja (jos käsittely todella tapahtuu pilvessä) mahdollisesti laskea kustannusnäkökohtia.

Muunnoksia räätälöidyistä FFHQ-malleista, jotka on koulutettu vain neljään ihmisen luomaan luonnokseen.

Muutoksia räätälöidyistä FFHQ mallit, jotka on koulutettu vain ihmisen luomiin luonnoksiin.