Liity verkostomme!

Tekoäly

Plastiikkakirurgia GAN-generoiduille kasvoille

mm
Parannuksia synteettisesti luotuihin (GAN) kuviin

Uusi tutkimus Etelä-Koreasta tuleva lupaa parantaa Generative Adversarial Networksin (GAN) luoman synteettisen kasvodatan laatua.

Järjestelmä pystyy tunnistamaan GAN-prosessien tuottamat kuva-artefaktit ja korjaamaan niitä jopa siihen pisteeseen asti, että korvataan korkin peittämät hiukset, korvataan alkuperäisestä kokonaan puuttuvat kasvojen osat ja poistetaan tukkeumat, kuten kädet ja aurinkolasit. , ja se toimii hyvin myös maisema- ja arkkitehtonisissa tulosteissa.

GAN-korjaus

Jäljelle jää jokaiselle sarakkeelle alkuperäinen GAN-tulostus virheineen, sen jälkeen kaksi muuta lähestymistapaa esineisiin ja lopuksi eteläkorealaisten tutkijoiden käyttämä menetelmä. Lähde: https://arxiv.org/pdf/2104.06118.pdf

Useimmat viimeaikaiset lähestymistavat GAN-kuvien laadun parantamiseen ovat omaksuneet kannan, jonka mukaan artefaktit ovat prosessin ammatillinen vaara, ja kohdelleet menetelmää "luonnonvoimana" ja sen tuottamia psykedeelisempiä tai poikkeavampia tuloksia väistämättömänä sivutuotteena.

Sen sijaan eteläkorealainen tutkimus ehdottaa, että vaurioituneet kuvat korjataan tavalla, joka ei häiritse jatkuvaa generatiivista ketjua. Tutkimus pyrkii tunnistamaan artefakteja aiheuttavia puolia ja vähentämään tai poistamaan niiden vaikutuksen GAN-verkossa puolivalvotulla tasolla, joka ylittää ja laajentaa GAN-arkkitehtuurin natiiveja itsekorjausmekanismeja.

Projektia varten oli tarpeen luoda laajasti sovellettava käsin merkitty tietojoukko kuvista, joihin GAN-artefaktit vaikuttivat pahasti. Aluksi tutkijat käyttivät Frechet Inception Distance (IN), metrinen ...joka arvioi GAN-tulosteen laatua vertaamalla kuvien ominaisuuksia kelpoisuusyksikkönä. 10,000 200,000 kuvan joukosta 2,000 XNUMX kuvaa, joilla oli korkeimmat FID-pisteet, käytettiin erillisinä "artefaktiyksiköinä". Myöhemmin tutkijat merkitsivät käsin XNUMX XNUMX luotua kuvaa ja luokittelivat jokaisen "normaaliksi" tai FID-artefaktien vaikutuksen alaisena olevaksi. Sitten luotiin malli, joka luokitteli tietojoukon artefakti-, normaali- ja satunnaisiin reaalimaailman näytteisiin.

Tämän jälkeen gradienttipainotettu luokan aktivointikartoitus (Grad-CAM) käytettiin maskien luomiseen artefaktien aiheuttamille alueille, mikä automatisoi tehokkaasti vikojen merkitsemisen.

Grad-CAM maskit

Yllä olevassa kuvassa Grad-CAM-maskeja on käytetty tulostukseen LSUN-kirkko ulkona tietojoukko ja CelebA-HQ tietojoukko.

Analysoimalla 20 eniten vaivaavaa tulosta 20,000 XNUMX kuvan ajon aikana luodaan segmentointimaskeja, joihin voidaan korvata sukupolvien ajalta edustavat tulokset (jotka ovat todennäköisesti tarkempia tai vakuuttavampia kuin esineet) alentamalla artefakteja tuottavat yksiköt seuraavissa sukupolvissa.

Ihmisen suorittama korjausten arviointi johti siihen, että 53 % korjatuista kuvista merkittiin normaaleiksi, kun taas 97 % alkuperäisistä kuvista osoittaa edelleen merkittäviä parannuksia alkuperäisiin verrattuna.

Tutkijat väittävät, että tätä menetelmää voidaan pienillä muutoksilla soveltaa myös NVIDIAn menetelmiin. TyyliGAN2.

GAN-lasien poisto

Synteettisen datan edut

Ensisijaisesti kasvodatan osalta tietokonenäön reaalimaailman tietojoukkojen yleinen niukkuus on esteenä monimuotoiselle tutkimukselle tärkeillä tutkimussektoreilla, kuten kasvojentunnistuksessa, tunteidentunnistuksessa, lääketieteellisessä tutkimuksessa ja tutkimuksessa, joka koskee näön topologian tarkempaa segmentointia. kasvot monien muiden alojen joukossa.

Nykyinen vastareaktio kohti verkkoon suuntautuvien tietojen vapaata käyttöä ja ad hoc -kokoelma todellisten kasvokuvien lisääminen kasvotietokantoihin on lisäeste tutkimukselle, sillä yhä useammat osavaltiot ja kansat halkeaminen on verkon kaapiminenja sosiaalisen median kuvien ottaminen näihin tarkoituksiin.

Viimeisten kymmenen vuoden aikana rajoitettu määrä erittäin kuratoituja kasvotietojoukot ovat tarjonneet turvaa tämän kaltaiselle epävarmuudelle, ja niiden ympärille on keskittynyt vuosittain useita julkisia tutkimushaasteita. Tämä on kuitenkin väitetysti johtanut tutkimushankkeisiin, jotka vääristävät menetelmiään nimenomaan näihin tietokokonaisuuksiin, jolloin johdonmukaisia ​​ja vertailukelpoisia vuosittaisia ​​tuloksia on saatu korkealla hinnalla lähdemateriaalin monimuotoisuuden puutteesta – tilanne, joka pahenee joka vuosi. uusi tutkimus rajoittuu näihin rajoihin.

Lisäksi jotkin näistä "perinteisistä" tietojoukoista ovat tulleet kritiikin alla rodun monimuotoisuuden puutteen vuoksi, mikä viittaa siihen, että näitä benchmarking-miehiä ei ehkä pidetä sopivina resursseina lähitulevaisuudessa.

Tämä merkitsee korkealaatuisen, realistisen kasvodatan tarvetta, jossa mukana olevat "todellisen maailman" kuvat ovat muuttuneet paljon tunnistamattomiksi. Vaikka todellisten kasvodatan käyttö "yhdellä otolla" saattaakin lopulta aiheuttaa ongelmia alkuperä GANin luomien kasvojen osalta se on kompastuskivi, joka ei todennäköisesti ilmene ennen kuin tällaisen tiedonkeruun oikeudelliset ja tekniset mekanismit ovat vakiintuneet; ja mahdollisten lainsäädäntömuutosten osalta se on silti pienempi riski kuin oikeiden ihmisten kuvien käyttö.

Lue lisää:

Synteettisten kuvien realistisuuden parantaminen
Sisäisten yksiköiden automaattinen korjaus generatiivisissa hermoverkoissa

Koneoppimisen kirjoittaja, ihmiskuvan synteesin asiantuntija. Entinen tutkimussisällön johtaja Metaphysic.ai:ssa.
Henkilökohtainen sivusto: martinanderson.ai
Ottaa yhteyttä: [sähköposti suojattu]
Twitter: @manders_ai