Connect with us

Kunstig intelligens

Redigering af en GAN’s latente rum med ‘blobs’

mm

Nyt forskning fra UC Berkeley og Adobe tilbyder en måde at redigere hyperrealistisk indhold, der kan oprettes af en Generative Adversarial Network (GAN), men som normalt ikke kan kontrolleres, animeres eller manipuleres frit på en måde, der er velkendt for Photoshop-brugere og CGI-praktikere.

Titled BlobGAN, metoden indebærer at oprette et grid af ‘blobs’ – matematiske konstruktioner, der kortlægger direkte til indhold inden for GAN’s latente rum.

Ved at flytte blobs, kan du flytte ‘objekter’ i en scenerepræsentation, på en intuitiv måde, der er tættere på CGI- og CAD-metoder end mange af de nuværende forsøg på at kortlægge og kontrollere GAN’s latente rum:

Scenemanipulation med BlobGAN: når 'blobs' flyttes af brugeren, ændres dispositionen af latente objekter og stilarter i GAN entsprechende. For flere eksempler, se papirets tilhørende video, indlejret i slutningen af denne artikel, eller på https://www.youtube.com/watch?v=KpUv82VsU5k

Scenemanipulation med BlobGAN: når ‘blobs’ flyttes af brugeren, ændres dispositionen af latente objekter og stilarter i GAN entsprechende. For flere eksempler, se papirets tilhørende video, indlejret i slutningen af denne artikel, eller på https://www.youtube.com/watch?v=KpUv82VsU5k

Da blobs svarer til ‘objekter’ i scenen, der er kortlagt i GAN’s latente rum, er alle objekterne afkoblet a priori, hvilket gør det muligt at ændre dem individuelt:

Objekter kan ændres i størrelse, formindskes, kloneres og fjernes, blandt andre operationer.

Objekter kan ændres i størrelse, formindskes, kloneres og fjernes, blandt andre operationer.

Som med ethvert objekt i fotoeditingssoftware (eller endda teksteditingssoftware), kan en blob duplikeres og herefter manipuleres:

Blobs kan duplikeres i grænsefladen, og deres tilhørende latente repræsentationer vil også blive 'kopieret og indsættet'. Kilde: https://dave.ml/blobgan/#results

Blobs kan duplikeres i grænsefladen, og deres tilhørende latente repræsentationer vil også blive ‘kopieret og indsættet’. Kilde: https://dave.ml/blobgan/#results

BlobGAN kan også parse nye, bruger-valgte billeder ind i dets latente rum:

Med BlobGAN behøver du ikke at inkorporere billeder, du ønsker at manipulere, direkte i træningsdata og derefter lede efter deres latente koder, men kan indsætte valgte billeder efter behov og manipulere dem. Billederne, der ændres her, er efterfølgende brugerinput. Kilde: https://dave.ml/blobgan/#results

Med BlobGAN behøver du ikke at inkorporere billeder, du ønsker at manipulere, direkte i træningsdata og derefter lede efter deres latente koder, men kan indsætte valgte billeder efter behov og manipulere dem. Kilde: https://dave.ml/blobgan/#results

Der kan ses flere resultater her, og i den tilhørende YouTube-video (indlejret i slutningen af denne artikel). Der er også en interaktiv Colab demo*, og en GitHub repo**.

Dette niveau af instrumentering og omfang kan synes naivt i den post-Photoshop æra, og parametrisk softwarepakker som Cinema4D og Blender har i årtier tilladt brugere at oprette og tilpasse 3D-verdener; men det repræsenterer en lovende tilgang til at temme de excentriske og arcane aspekter af det latente rum i en Generative Adversarial Network, ved brug af proxy-entiteter, der er kortlagt til latente koder.

Forfatterne hævder:

‘På en udfordrende multi-kategori-datasæt af indendørs scener, overgår BlobGAN Style-GAN2 i billedkvalitet, målt med FID.’

Papiret er titlen BlobGAN: Spatially Disentangled Scene Representations, og er skrevet af to forskere fra UC Berkeley, sammen med tre fra Adobe Research.

Middle-man

BlobGAN bringer en ny paradigme til GAN-billedsynthese. Tidligere tilgange til at adresse diskrete enheder i det latente rum, påpeger den nye artikel, har enten været ‘top-down’ eller ‘bottom up’.

En top-down-metode i en GAN eller billedklassifikator behandler billeder af scener som klasser, såsom ‘soveværelse’, ‘kirke’, ‘ansigt’ osv. Denne type tekst/billede-parering giver kraft til en ny generation af multimodale billedsyntheserammer, såsom den seneste DALL-E 2 fra OpenAI.

Bottom-up-tilgange, i stedet, kortlægger hvert pixel i et billede til en klasse, mærke eller kategori. Sådanne tilgange bruger diverse teknikker, selvom semantisk segmentering er en populær nuværende forskningsstrang.

Forfatter til maskinlæring, domæne-specialist i menneskesynthese af billeder. Tidligere leder af forskningsindhold på Metaphysic.ai.