Kunstig intelligens
Redigering av en GANs latente rom med ‘blobs’

Ny forskning fra UC Berkeley og Adobe tilbyr en måte å redigere hyperrealistisk innhold som kan skapes av en Generative Adversarial Network (GAN), men som vanligvis ikke kan kontrolleres, animeres eller manipuleres fritt på en måte som er kjent for Photoshop-brukere og CGI-utøvere.
Tittelen BlobGAN omfatter en metode som innebærer å lage en grid av ‘blobs’ – matematiske konstruksjoner som kartlegger direkte til innhold i GANs latente rom.
Ved å flytte blobs, kan du flytte ‘objekter’ i en scenerepresentasjon, på en måte som er nærmere CGI og CAD-metoder enn mange av de nåværende forsøkene på å kartlegge og kontrollere GANs latente rom:

Scene-manipulering med BlobGAN: når ‘blobs’ flyttes av brukeren, endres latent objekter og stiler i GAN korresponderende. For flere eksempler, se papirets vedlagte video, innlemmet i slutten av denne artikkelen, eller på https://www.youtube.com/watch?v=KpUv82VsU5k
Siden blobs korresponderer til ‘objekter’ i scenen som er kartlagt i GANs latente rom, er alle objekter disentangled a priori, og det er mulig å endre dem individuelt:

Objekter kan endres i størrelse, krympes, kloners og fjernes, blant andre operasjoner.
Som med alle objekter i bilde-redigeringsprogramvare (eller tekst-redigeringsprogramvare), kan en blob dupliseres og deretter manipuleres:

Blobs kan dupliseres i grensesnittet, og deres korresponderende latente representasjoner vil også bli ‘kopiert og limt’. Kilde: https://dave.ml/blobgan/#results
BlobGAN kan også parse nye, bruker-valgte bilder inn i sitt latente rom:

Med BlobGAN, trenger du ikke å inkorporere bilder som du ønsker å manipulere direkte i treningsdataene og deretter lete etter deres latente koder, men kan inputte valgte bilder når som helst og manipulere dem. Kilde: https://dave.ml/blobgan/#results
Flere resultater kan ses her, og i den vedlagte YouTube-videoen (innlemmet i slutten av denne artikkelen). Det finnes også en interaktiv Colab demo*, og en GitHub repo**.
Dette slag av instrumentering og omfang kan synes naivt i post-Photoshop-alderen, og parametrisk programvare-pakker som Cinema4D og Blender har tillatt brukerne å skape og tilpasse 3D-verdener i årevis; men det representerer en løftende tilnærming til å temme de eksentriske og arkane naturer i det latente rommet i en Generative Adversarial Network, ved å bruke proxy-entiteter som er kartlagt til latente koder.












