Kunstig intelligens

Redigering af et GAN's latente rum med 'Blobs'

Udgivet Maj 8, 2022

Opdateret 9. December, 2022

Martin Anderson

Ny forskning fra UC Berkeley og Adobe tilbyder en måde til direkte at redigere hyperrealt indhold, der kan skabes af et Generative Adversarial Network (GAN), men som normalt ikke kan kontrolleres, animeres eller frit manipuleres på en måde, der længe har været velkendt for Photoshop-brugere og CGI-udøvere.

Med titlen BlobGAN, involverer metoden oprettelse af et gitter af 'blobs' – matematiske konstruktioner, der kortlægges direkte til indhold inden for GAN'ets latente rum.

Ved at flytte klatterne kan du flytte 'objekterne' i en scenerepræsentation på en intuitiv måde, der er tættere på CGI- og CAD-metoder end mange af de nuværende forsøg på at kortlægge og kontrollere GAN's latente rum:

Scenemanipulation med BlobGAN: efterhånden som 'blobs' flyttes af brugeren, ændres placeringen af latente objekter og stilarter i GAN tilsvarende. For flere eksempler, se avisens medfølgende video, indlejret i slutningen af denne artikel, eller på https://www.youtube.com/watch?v=KpUv82VsU5k

Scenemanipulation med BlobGAN: Når 'blobs' flyttes af brugeren, ændres placeringen af latente objekter og stilarter i GAN'et tilsvarende. For flere eksempler, se den ledsagende video til artiklen, som er indlejret i slutningen af denne artikel, eller på https://www.youtube.com/watch?v=KpUv82VsU5k

Da blobs svarer til 'objekter' i den scene, der er kortlagt i GAN'erne latent rum, er alle genstande adskilt a priori, hvilket gør det muligt at ændre dem individuelt:

Objekter kan ændres størrelse, formindskes, klones og fjernes, blandt andre operationer.

Som med ethvert objekt i software til billedredigering (eller endda tekstredigering), kan en klat duplikeres og efterfølgende manipuleres:

Blobs kan duplikeres i grænsefladen, og deres tilsvarende latente repræsentationer vil også blive 'kopieret og indsat'. Kilde: https://dave.ml/blobgan/#results

Blobs kan duplikeres i brugergrænsefladen, og deres tilsvarende latente repræsentationer vil også blive 'kopieret og indsat'. Kilde: https://dave.ml/blobgan/#results

BlobGAN kan også parse nye, brugervalgte billeder ind i dets latente rum:

Med BlobGAN behøver du ikke at inkorporere billeder, som du ønsker at manipulere direkte i træningsdataene og derefter jage deres latente koder, men kan indtaste udvalgte billeder efter behag og manipulere dem. De billeder, der ændres her, er post-facto brugerinput. Kilde: https://dave.ml/blobgan/#results

Med BlobGAN behøver du ikke at indarbejde billeder, du ønsker at manipulere, direkte i træningsdataene og derefter finde deres latente koder, men kan indtaste udvalgte billeder efter behov og manipulere dem. De billeder, der ændres her, er brugerinput efter behov. Kilde: https://dave.ml/blobgan/#results

Flere resultater kan ses link., og i den medfølgende YouTube video (indlejret i slutningen af denne artikel). Der er også en interaktiv Colab demo* og en GitHub repo,

Denne form for instrumentalitet og omfang kan virke naiv i post-Photoshop-alderen, og parametriske softwarepakker som Cinema4D og Blender har givet brugerne mulighed for at skabe og tilpasse 3D-verdener i årtier; men det repræsenterer en lovende tilgang til at tæmme excentriskiteterne og den mystiske natur af det latente rum i et generativt modstridende netværk ved at bruge proxy-entiteter, der er kortlagt til latente koder.

Forfatterne hævder:

"På et udfordrende datasæt med flere kategorier af indendørsscener overgår BlobGAN Style-GAN2 i billedkvalitet målt ved FID."

papir er titlen BlobGAN: Rumligt disentangled scenerepræsentationer, og er skrevet af to forskere fra UC Berkeley, sammen med tre fra Adobe Research.

Mellemmand

BlobGAN bringer et nyt paradigme til GAN-billedsyntese. Tidligere tilgange til at adressere diskrete enheder i det latente rum, påpeger den nye artikel, har enten været 'top-down' eller 'bottom-up'.

En top-down-metode i et GAN eller en billedklassifikator behandler billeder af scener som klasser, såsom 'soveværelse', 'kirke', 'ansigt' osv. Denne form for tekst/billed-parring driver en ny generation af multimodale billedsyntese-frameworks, såsom den nylige DALL-E 2 fra OpenAI.

Bottom-up-tilgange kortlægger i stedet hver pixel i et billede til en klasse, etiket eller kategori. Sådanne tilgange bruger forskellige teknikker, selvom semantisk segmentering er en populær aktuel forskningsstreng.

Forfatterne kommenterer:

"Begge veje virker utilfredsstillende, fordi ingen af dem kan give nemme måder at ræsonnere om dele af scenen som enheder. Scenedelene er enten indbygget i en enkelt sammenfiltret latent vektor (top-down) eller skal grupperes sammen fra individuelle pixelmærker (bottom-up)."

BlobGAN tilbyder snarere en uovervåget repræsentation på mellemniveau, eller proxy-ramme for generative modeller.

Layoutnetværket kortlægger lokale (og kontrollerbare) 'blob'-enheder til latente koder. De farvede cirkler i midten udgør et 'blob-kort'. Kilde: https://arxiv.org/pdf/2205.02837.pdf

De Gaussiske (dvs. støjbaserede) klatter er dybdeordnede og repræsenterer en flaskehals i arkitekturen, der tildeler en mapping til hver enhed, hvilket løser den største forhindring, der er for GAN-indholdsmanipulation: disentanglement (også et problem (for autoencoder-baserede arkitekturer). Det resulterende 'blob map' bruges til at manipulere BlobGAN's dekoder.

Forfatterne bemærker med en vis overraskelse, at systemet lærer at dekomponere scener i layouts og enheder gennem en off-the-shelf diskriminator, som ikke bruger eksplicitte etiketter.

Arkitektur og data

Enheder i blob-kortet konverteres til billeder via en revideret StyleGAN2-afledt netværk, i en tilgang, der tager inspiration fra tidligere NVIDIA-forskning.

Et revideret StyleGAN 2-derivat fra NVIDIA Research. Nogle af principperne i dette arbejde blev vedtaget eller tilpasset til BlobGAN. Kilde: https://arxiv.org/pdf/1912.04958.pdf

StyleGAN 2 er modificeret i BlobGAN til at acceptere input fra blob-kortet i stedet for en enkelt global vektor, som det normalt er tilfældet.

En række manipulationer muliggjort af BlobGAN, herunder 'autofuldførelse' af en soveværelsesscene og ændring af størrelse og flytning af elementerne i rummet. I rækken nedenfor ser vi den brugertilgængelige instrumentalitet, der muliggør dette – klatkortet.

En række manipulationer muliggjort af BlobGAN, herunder 'autofuldførelse' af en tom soveværelsesscene og ændring af størrelse og flytning af elementerne i rummet. I rækken nedenfor ser vi det brugertilgængelige instrument, der muliggør dette – blob-kortet.

I analogi, i stedet for at bringe en enorm og kompleks bygning (det latente rum) til på én gang, og derefter skulle udforske dens endeløse veje, sender BlobGAN komponentblokkene i starten og ved altid, hvor de er. Denne adskillelse af indhold og placering er værkets største nyskabelse.

BlobGAN: Rumligt disentangled scenerepræsentationer

BlobGAN: Spatially Disentangled Scene Representations

Watch this video on YouTube

* Ikke funktionel i skrivende stund
** Koden endnu ikke offentliggjort i skrivende stund

Først udgivet 8. maj 2022.

Martin Anderson

Forfatter på maskinlæring, domænespecialist i menneskelig billedsyntese. Tidligere leder af forskningsindhold hos Metaphysic.ai.
Personlig side: martinanderson.ai
Kontakt: [e-mail beskyttet]
Twitter: @manders_ai

Unite.AI

Redigering af et GAN's latente rum med 'Blobs'

Mellemmand

Arkitektur og data

Du kan godt lide