Kunstig intelligens

Redigering av en GANs latente rom med ‘blobs’

Published May 8, 2022

Updated April 5, 2026

Martin Anderson

Ny forskning fra UC Berkeley og Adobe tilbyr en måte å redigere hyperrealistisk innhold som kan skapes av en Generative Adversarial Network (GAN), men som vanligvis ikke kan kontrolleres, animeres eller manipuleres fritt på en måte som er kjent for Photoshop-brukere og CGI-utøvere.

Tittelen BlobGAN omfatter en metode som innebærer å lage en grid av ‘blobs’ – matematiske konstruksjoner som kartlegger direkte til innhold i GANs latente rom.

Ved å flytte blobs, kan du flytte ‘objekter’ i en scenerepresentasjon, på en måte som er nærmere CGI og CAD-metoder enn mange av de nåværende forsøkene på å kartlegge og kontrollere GANs latente rom:

Scene-manipulering med BlobGAN: når ‘blobs’ flyttes av brukeren, endres latent objekter og stiler i GAN korresponderende. For flere eksempler, se papirets vedlagte video, innlemmet i slutten av denne artikkelen, eller på https://www.youtube.com/watch?v=KpUv82VsU5k

Siden blobs korresponderer til ‘objekter’ i scenen som er kartlagt i GANs latente rom, er alle objekter disentangled a priori, og det er mulig å endre dem individuelt:

Objekter kan endres i størrelse, krympes, kloners og fjernes, blant andre operasjoner.

Som med alle objekter i bilde-redigeringsprogramvare (eller tekst-redigeringsprogramvare), kan en blob dupliseres og deretter manipuleres:

Blobs kan dupliseres i grensesnittet, og deres korresponderende latente representasjoner vil også bli ‘kopiert og limt’. Kilde: https://dave.ml/blobgan/#results

BlobGAN kan også parse nye, bruker-valgte bilder inn i sitt latente rom:

Med BlobGAN, trenger du ikke å inkorporere bilder som du ønsker å manipulere direkte i treningsdataene og deretter lete etter deres latente koder, men kan inputte valgte bilder når som helst og manipulere dem. Kilde: https://dave.ml/blobgan/#results

Flere resultater kan ses her, og i den vedlagte YouTube-videoen (innlemmet i slutten av denne artikkelen). Det finnes også en interaktiv Colab demo*, og en GitHub repo**.

Dette slag av instrumentering og omfang kan synes naivt i post-Photoshop-alderen, og parametrisk programvare-pakker som Cinema4D og Blender har tillatt brukerne å skape og tilpasse 3D-verdener i årevis; men det representerer en løftende tilnærming til å temme de eksentriske og arkane naturer i det latente rommet i en Generative Adversarial Network, ved å bruke proxy-entiteter som er kartlagt til latente koder.

Martin Anderson

Forfatter på maskinlæring, domeneekspert på menneskesynthese. Tidligere leder for forskningsinnhold på Metaphysic.ai.

Unite.AI

Redigering av en GANs latente rom med ‘blobs’

You may like