Artificiell intelligens

Skapa en anpassad Generative Adversarial Network med skisser

Published August 6, 2021

Updated April 28, 2026

Martin Anderson

Forskare från Carnegie Mellon och MIT har utvecklat en ny metodik som tillåter en användare att skapa anpassade Generative Adversarial Network (GAN) bildskapande system genom att skissa indicativa skisser.

Ett system av detta slag skulle kunna tillåta en slutanvändare att skapa bildgenererande system som kan generera mycket specifika bilder, såsom särskilda djur, typer av byggnader – och till och med enskilda personer. För närvarande producerar de flesta GAN-genereringssystem breda och ganska slumpmässiga utdata, med begränsad möjlighet att specificera särskilda egenskaper, såsom djurras, hårtyp hos människor, arkitekturstilar eller faktiska ansiktsidentiteter.

Tillvägagångssättet, som beskrivs i artikeln Skittra din egen GAN, använder en ny skissgränssnitt som en effektiv “sökfunktion” för att hitta funktioner och klasser i överbelastade bild databaser som kan innehålla tusentals typer av objekt, inklusive många underklasser som inte är relevanta för användarens avsikt. GAN utbildas sedan på denna filtrerade undermängd av bilder.

Genom att skissa den specifika objektypen som användaren vill kalibrera GAN, blir ramverkets genererande förmågor specialiserade för den klassen. Till exempel, om en användare vill skapa ett ramverk som genererar en specifik typ av katt (snarare än bara någon gammal katt, som kan erhållas med This Cat Does Not Exist), fungerar deras inmatningsskisser som en filter för att utesluta icke-relevanta klasser av katter.

Källa: https://peterwang512.github.io/GANSketching/

Forskningen leds av Sheng Yu-Wang från Carnegie Mellon University, tillsammans med kollegan Jun-Yan Zhu, och David Bau från MIT:s Computer Science & Artificial Intelligence Laboratory.

Metoden i sig kallas ‘GAN-skissning’, och använder inmatningsskisser för att direkt ändra vikterna i en ‘mall’ GAN-modell för att specifikt rikta sig mot den identifierade domänen eller underdomänen genom cross-domain adversarial loss.

Olika regleringsmetoder undersöktes för att säkerställa att modellens utdata är diversifierad, samtidigt som den upprätthåller en hög bildkvalitet. Forskarna skapade exempelapplikationer som kan interpolera latent utrymme och utföra bildredigeringsförfaranden.

Den här [$class] existerar inte

GAN-baserade bildgenereringssystem har blivit en trend, om inte en meme, under de senaste åren, med en utbredning av projekt som kan generera bilder av icke-existerande saker, inklusive människor, hyreslägenheter, snacks, fötter, hästar, politiker och insekter, bland många andra.

GAN-baserade bildsynthes system skapas genom att sammanställa eller kurera omfattande datamängder som innehåller bilder från måldomänen, såsom ansikten eller hästar; utbilda modeller som generaliserar en mängd funktioner över bilderna i databasen; och implementera generator-moduler som kan producera slumpmässiga exempel baserat på de inlärda funktionerna.

Utdata från skisser i DeepFacePencil, som tillåter användare att skapa fotorealistiska ansikten från skisser. Många liknande skiss-till-bild-projekt existerar. Källa: https://arxiv.org/pdf/2008.13343.pdf

Högdimensionella funktioner är bland de första som konkretiseras under utbildningsprocessen, och är ekvivalenta med en målares första breda penseldrag på en duk. Dessa högdimensionella egenskaper kommer så småningom att korrelera till mycket mer detaljerade funktioner (t.ex. ögonblick och skarpa mustascher på en katt, snarare än bara en generisk beige blob som representerar huvudet).

Jag vet vad du menar…

Genom att mappa relationen mellan dessa tidiga semantiska former och de slutliga detaljerade tolkningarna som erhålls mycket senare i utbildningsprocessen, är det möjligt att härleda relationer mellan ‘vaga’ och ‘specifika’ bilder, vilket tillåter användare att skapa komplexa och fotorealistiska bilder från grova skisser.

Nyligen släppte NVIDIA en skrivbordsversion av sin långsiktiga GauGAN-forskning om GAN-baserad landskapsgenerering, som enkelt demonstrerar denna princip:

Approximativa skisser översätts till rika sceniska bilder genom NVIDIA’s GauGAN, och nu NVIDIA Canvas-applikationen. Källa: https://rossdawson.com/futurist/implications-of-ai/future-of-ai-image-synthesis/

Likaså har flera system, såsom DeepFacePencil, använt samma princip för att skapa skissinducerade fotorealistiska bildgenererare för olika domäner.

Arkitekturen för DeepFacePencil.

Förenkla skiss-till-bild

Den nya artikeln GAN Sketching-tillvägagångssätt syftar till att ta bort den betydande bördan av datainsamling och kurering som vanligtvis är involverad i utvecklingen av GAN-bildramverk, genom att använda användarindata för att definiera vilken undermängd av bilder som ska utgöra utbildningsdata.

Systemet har utformats för att endast kräva ett fåtal inmatningsskisser för att kalibrera ramverket. Systemet fungerar i princip som en omvänd funktion av PhotoSketch, ett gemensamt forskningsinitiativ från 2019 av forskare från Carnegie Mellon, Adobe, Uber ATG och Argo AI, som är inkorporerat i det nya arbetet. PhotoSketch var utformat för att skapa konstnärliga skisser från bilder, och innehåller redan den effektiva mappningen av vagt>specifik bildskapande relationer.

För genereringsdelen av processen modifierar den nya metoden endast vikterna i StyleGAN2. Eftersom bilddata som används endast är en undermängd av den totala tillgängliga data, modifierar endast mappningsnätverket önskade resultat.

Metoden utvärderades på ett antal populära underdomäner, inklusive hästar, kyrkor och katter.

Princeton Universitys 2016 LSUN-dataset användes som kärnmaterialet från vilket att härleda mål-underdomäner. För att etablera ett skissmappningssystem som är robust mot de egenskaper som finns i verkliga användarindata, utbildas systemet på bilder från QuickDraw-dataset som utvecklats av Microsoft mellan 2021-2016.

Även om skissmappningen mellan PhotoSketch och QuickDraw är ganska olika, fann forskarna att deras ramverk lyckas väl med att sträcka sig över dem ganska enkelt på relativt enkla poser, även om mer komplicerade poser (såsom katter som ligger ner) visar sig vara en större utmaning, medan mycket abstrakt användarindata (t.ex. alltför grova teckningar) också hindrar kvaliteten på resultaten.

Latent utrymme och naturlig bildredigering

Forskarna utvecklade två applikationer baserade på det grundläggande arbetet: latent utrymmesredigering och bildredigering. Latent utrymmesredigering erbjuder tolkningsbara användarkontroller som underlättas vid utbildningstid, och tillåter en stor variation medan de förblir trogna mot måldomänen, och angenämt konsekventa över variationer.

Jämn latent utrymmesinterpolation med de anpassade modellerna av GAN Sketching.

Den latent utrymmesredigeringskomponenten drevs av 2020 GANSpace-projektet, ett gemensamt initiativ från Aalto University, Adobe och NVIDIA.

En enda bild kan också matas in i den anpassade modellen, vilket möjliggör naturlig bildredigering. I denna applikation projiceras en enskild bild till den anpassade GAN, inte bara möjliggör direkt redigering, utan också bevarar högre nivå latent utrymmesredigering, om detta också har använts.

Här har en verklig bild använts som indata till GAN (kattmodell), som redigerar indata för att matcha inskickade skisser. Detta möjliggör bildredigering via skissning.

Även om det är konfigurerbart, är systemet inte utformat för att fungera i realtid, åtminstone inte i termer av utbildning och kalibrering. För närvarande kräver GAN Sketching 30 000 utbildningsiterationer. Systemet kräver också tillgång till den ursprungliga utbildningsdata för den ursprungliga modellen.

I fall där dataset är öppen källkod, och har en licens som tillåter lokal kopia, kan detta åstadkommas genom att inkludera källdata i ett lokalt installerat paket, även om detta skulle ta upp betydande diskutrymme; eller genom att komma åt eller bearbeta data på distans, via en molnbaserad tillvägagångssätt, som introducerar nätverksöverhuvuden och (i fallet med bearbetning som faktiskt sker på molnet) möjligtvis beräkningskostnadsöverväganden.