Artificiell intelligens
SofGAN: En GAN Face Generator som ger bättre kontroll
Forskare i Shanghai och USA har utvecklat ett GAN-baserat porträttgenereringssystem som tillåter användare att skapa nya ansikten med en hittills otillgänglig nivå av kontroll över individuella aspekter som hår, ögon, glasögon, texturer och färg.
För att visa systemets mångsidighet har skaparna tillhandahållit ett gränssnitt i Photoshop-stil där en användare direkt kan rita semantiska segmenteringselement som kommer att omtolkas till realistiska bilder, och som till och med kan erhållas genom att rita direkt över befintliga fotografier.
I exemplet nedan används en bild av skådespelaren Daniel Radcliffe som en spårningsmall (och syftet är inte att skapa en likhet med honom, utan snarare en allmänt fotorealistisk bild). När användaren fyller i olika element, inklusive diskreta aspekter som glasögon, identifieras och tolkas de i den utgående ritningsbilden:
Smakämnen papper har rätt SofGAN: En porträttbildgenerator med dynamisk styling, och leds av Anpei Chen och Ruiyang Liu, tillsammans med två andra forskare från ShanghaiTech University och en annan från University of California i San Diego.
Avskiljande funktioner
Det primära bidraget från arbetet är inte så mycket i att tillhandahålla ett användarvänligt användarvänligt användarvänligt användarnamn, utan snarare i att "lösgöra" egenskaper hos inlärda ansiktsdrag, såsom pose och textur, vilket gör att SofGAN också kan generera ansikten som är i indirekta vinklar mot kamera synvinkel.
Eftersom texturer nu lösgörs från geometrin, kan ansiktsform och textur också manipuleras som separata enheter. I själva verket tillåter detta rasbyte av en källas ansikte, en skandalös praxis som nu har en potentiellt användbar applikation för skapande av rasbalanserade datauppsättningar för maskininlärning.
SofGAN stöder också artificiellt åldrande och attributkonsistent stiljustering på en granulär nivå som inte syns i liknande segmentering>bildsystem som NVIDIAs GauGAN och Intels spelbaserade neurala rendering system.
Ett annat genombrott för SofGANs metodik är att utbildningen inte kräver parad segmentering/riktiga bilder, utan snarare kan tränas direkt på oparade verkliga bilder.
Forskarna konstaterar att SofGAN:s "lösgörande" arkitektur var inspirerad av traditionella bildåtergivningssystem, som bryter ner de individuella aspekterna av en bild. I arbetsflöden för visuella effekter bryts elementen för en komposit rutinmässigt ner till de minsta komponenterna, med specialister dedikerade till varje komponent.
Semantic Occupancy Field (SOF)
För att uppnå detta i ett ramverk för maskininlärning av bildsyntes utvecklade forskarna en semantiskt beläggningsfält (SOF), en förlängning av det traditionella beläggningsfältet som individualiserar beståndsdelarna i ansiktsporträtt. SOF:en tränades på kalibrerade semantiska segmenteringskartor med flera vyer, men utan någon grundsanningsövervakning.
Dessutom erhålls 2D-segmenteringskartor genom att strålspåra utsignalen från SOF innan de textureras av en GAN-generator. De "syntetiska" semantiska segmenteringskartorna är också kodade i ett lågdimensionellt utrymme via en trelagerskodare för att säkerställa kontinuitet i utdata när synvinkeln ändras.
Träningsschemat blandar rumsligt två slumpmässiga stilar för varje semantisk region:
Forskarna hävdar att SofGAN uppnår en lägre Frechet Inception Distance (FID) än den nuvarande alternativa teknikens (SOTA) tillvägagångssätt, samt en högre Learned Perceptual Image Patch Similarity (LPIPS) metrisk.
Tidigare StyleGAN-tillvägagångssätt har ofta hindrats av särdrag, där elementen som komponerar en bild är oåterkalleligt förbundna med varandra, vilket gör att oönskade element dyker upp bredvid ett önskat element (dvs. örhängen kan dyka upp när en öronform återges som var informeras vid träningstillfället av en bild med örhängen).
Datauppsättningar och utbildning
Tre datauppsättningar användes i utvecklingen av olika implementeringar av SofGAN: CelebAMask-HQ, ett arkiv med 30,000 XNUMX högupplösta bilder tagna från CelebA-HQ-datauppsättningen; NVIDIAs Flickr-Faces-HQ (FFHQ), som innehåller 70,000 122 bilder, där forskarna märkte bilderna med en förtränad ansiktstolkare; och en egenproducerad grupp av XNUMX porträttskanningar med manuellt märkta semantiska regioner.
SOF består av tre träningsbara undermoduler – hypernätet, en ray marcher (se bilden ovan) och en klassificerare. Projektets Semantic Instance Wised (SIW) StyleGAN-generator är konfigurerad på samma sätt som StyleGAN2 i vissa aspekter. Dataökning tillämpas genom slumpmässig skalning och beskärning, och utbildningen har banreglering vart fjärde steg. Hela utbildningsproceduren tog 22 dagar för att nå 800,000 2080 iterationer på fyra RTX 10.1 Ti GPU:er över CUDA XNUMX.
Tidningen nämner inte konfigurationen av 2080-korten, som kan rymma mellan 11gb-22gb VRAM vardera, vilket betyder att den totala VRAM som används under den bästa delen av en månad för att träna SofGAN är någonstans mellan 44Gb och 88Gb.
Forskarna observerar att acceptabla generaliserade resultat på hög nivå började dyka upp ganska tidigt i träningen, vid 1500 iterationer, tre dagar in i träningen. Resten av träningen togs upp med den förutsägbara, långsamma krypningen mot att erhålla fina detaljer som hår- och ögonaspekter.
SofGAN uppnår generellt sett mer realistiska resultat från en enda segmenteringskarta än rivaliserande metoder som NIVDIA:s SVÄRD och Pix2PixHDoch SEAN.
Nedan är videon som släppts av forskarna. Ytterligare videor med egen värd finns tillgängliga på projektsida.