Kunstig intelligens

Opprettelse av et tilpasset generativt adversarialt nettverk med skisser

Published August 6, 2021

Updated April 28, 2026

Martin Anderson

Forskere fra Carnegie Mellon og MIT har utviklet en ny metode som gjør det mulig for en bruker å opprette et tilpasset Generative Adversarial Network (GAN) bilde-oppsettssystemer bare ved å skisse indikative skisser.

Et system av denne typen kunne tillate en sluttbruker å opprette bilde-genereringsystemer som kan generere svært spesifikke bilder, som bestemte dyr, bygningstyper – og til og med enkeltpersoner. For tiden produserer de fleste GAN-genereringssystemer brede og ganske tilfeldige utdata, med begrensede muligheter til å spesifisere bestemte egenskaper, som dyrearter, hårtyper hos mennesker, arkitekturstiler eller faktiske ansiktsidentiteter.

Tilnærmingen, som er beskrevet i paperet Sketch Your Own GAN, bruker en ny skissegrensesnitt som en effektiv ‘søkefunksjon’ for å finne funksjoner og klasser i ellers overfylte bildebaser som kan inneholde tusenvis av objekter, inkludert mange underkategorier som ikke er relevante for brukerens intensjoner. GAN blir deretter trent på denne filtrerte undermengden av bilder.

Ved å skisse den spesifikke objektypen som brukeren ønsker å kalibrere GAN med, blir rammeverkets generative evner spesialisert til denne klassen. For eksempel, hvis en bruker ønsker å opprette et rammeverk som genererer en bestemt type katt (i stedet for bare noen gamle katt, som kan fås med This Cat Does Not Exist), tjener deres innskjenningsskisser som en filter for å uteslutter irrelevante klasser av katt.

Kilde: https://peterwang512.github.io/GANSketching/

Forskningen ledes av Sheng Yu-Wang fra Carnegie Mellon University, sammen med kollega Jun-Yan Zhu, og David Bau fra MIT’s Computer Science & Artificial Intelligence Laboratory.

Metoden selv kalles ‘GAN-skiss’, og bruker innskjenningsskissene til å endre vektene i en ‘mal’ GAN-modell for å spesifikt målrette den identifiserte domenet eller underdomenet gjennom cross-domain adversarial loss.

Forskjellige reguleringsteknikker ble utforsket for å sikre at modellens utdata er variert, samtidig som den opprettholder en høy bildekvalitet. Forskerne opprettet prøveapplikasjoner som kan interpolere latent rom og utføre bilde-redigeringsprosedyrer.

Dette [$class] eksisterer ikke

GAN-baserte bilde-genereringssystemer har blitt en fad, hvis ikke en meme, de siste årene, med en utbredelse av prosjekter som kan generere bilder av ikke-eksisterende ting, inkludert mennesker, leieboliger, snacks, føtter, hester, politikere og insekter, blant mange andre.

GAN-baserte bilde-syntesystemer opprettes ved å samle eller kurere omfattende datasamlinger som inneholder bilder fra måldomenet, som ansikter eller hester; trene modeller som generaliserer et utvalg av funksjoner over bildene i databasen; og implementere generator-moduler som kan utgi tilfeldige eksempler basert på de lært funksjonene.

Utdata fra skisser i DeepFacePencil, som tillater brukere å opprette fotorealistiske ansikter fra skisser. Mange lignende skisse-til-bilde-prosjekter eksisterer. Kilde: https://arxiv.org/pdf/2008.13343.pdf

Høydimensjonale funksjoner er blant de første som konkreteres under treningsprosessen, og er ekvivalent med en malers første brede penselstrøk på en canvas. Disse høydimensjonale egenskapene vil til slutt korrelere med mye mer detaljerte funksjoner (dvs. øyeglint og skarpe vibrer på en katt, i stedet for bare en generisk beige klump som representerer hodet).

Jeg vet hva du mener…

Ved å kartlegge forholdet mellom disse tidlige seminale formene og de til slutt detaljerte tolkningene som oppnås mye senere i treningsprosessen, er det mulig å slutte seg til forhold mellom ‘vage’ og ‘spesifikke’ bilder, som gjør det mulig for brukere å opprette komplekse og fotorealistiske bilder fra grove skisser.

Nylig lanserte NVIDIA en skrivebordsversjon av sin langvarige GauGAN-forskning i GAN-basert landskaps-generering, som lett demonstrerer dette prinsippet:

Omtrentlige skisser blir oversatt til rike sceniske bilder gjennom NVIDIA’s GauGAN, og nå NVIDIA Canvas-applikasjonen. Kilde: https://rossdawson.com/futurist/implications-of-ai/future-of-ai-image-synthesis/

Liksom, flere systemer som DeepFacePencil har brukt samme prinsipp til å opprette skisse-induserte fotorealistiske bilde-genereringssystemer for forskjellige domener.

Arkitekturen til DeepFacePencil.

Forenkle skisse-til-bilde

Den nye papirens GAN-skiss-tilnærming søker å fjerne den formidable byrden av datainnsamling og kurering som vanligvis er involvert i utviklingen av GAN-bilde-rammeverk, ved å bruke bruker-innskjenning til å definere hvilken undermengde av bilder som skal utgjøre treningsdataene.

Systemet er designet til å kreve bare et lite antall innskjenningsskisser for å kalibrere rammeverket. Systemet reverserer effektivt funksjonaliteten til PhotoSketch, et felles forskningsinitiativ fra 2019 av forskere fra Carnegie Mellon, Adobe, Uber ATG og Argo AI, som er inkorporert i det nye arbeidet. PhotoSketch var designet til å opprette kunstneriske skisser fra bilder, og inneholder allerede den effektive kartleggingen av vagt>spesifikke bilde-oppsettforhold.

For genereringsdelen av prosessen, modifiserer den nye metoden bare vektene til StyleGAN2. Ettersom bilde-dataene som brukes bare er en undermengde av den totale tilgjengelige dataen, får man ønskede resultater ved å modifisere kartleggingsnettet.

Metoden ble evaluert på et antall populære underdomener, inkludert hest, kirker og katter.

Princeton Universitys 2016 LSUN-datasett ble brukt som kjerne-materiale fra hvilket å avlede mål-underdomener. For å etablere et skisse-kartleggingssystem som er robust mot eksentrisiteten til virkelige bruker-innskjenninger, ble systemet trent på bilder fra QuickDraw-datasettet utviklet av Microsoft mellom 2021-2016.

Selv om skisse-kartleggingen mellom PhotoSketch og QuickDraw er ganske forskjellig, fant forskerne at deres rammeverk lykkes godt i å straddle dem ganske enkelt på relativt enkle posisjoner, selv om mer kompliserte posisjoner (som katter som ligger ned) viser seg å være en større utfordring, mens meget abstrakt bruker-innskjenning (dvs. for grove tegninger) også hindrer kvaliteten på resultater.

Latent rom og naturlig bilde-redigering

Forskerne utviklet to applikasjoner basert på det grunnleggende arbeidet: latent rom-redigering, og bilde-redigering. Latent rom-redigering tilbyr tolkbare bruker-kontroller som er fasilitert på trenings-tid, og tillater en stor grad av variasjon samtidig som den forblir tro mot måldomenet, og behagelig konsistent over variasjoner.

Glatt latent rom-interpolering med de tilpassede modellene til GAN-skiss.

Den latente rom-redigerings-komponenten ble drevet av 2020 GANSpace-prosjektet, et felles initiativ fra Aalto University, Adobe og NVIDIA.

En enkelt bilde kan også bli matet inn i det tilpassede modellen, og muliggjør naturlig bilde-redigering. I denne applikasjonen blir et enkelt bilde prosjektert til det tilpassede GAN, ikke bare muliggjør direkte redigering, men også opprettholder høyere nivå latent rom-redigering, hvis dette også har blitt brukt.

Her er et ekte bilde blitt brukt som inndata til GAN (katt-modellen), som redigerer inndata til å matche innskjenningsskisser. Dette tillater bilde-redigering via skiss.

Selv om det er konfigurerbart, er systemet ikke designet til å fungere i sanntid, i alle fall når det gjelder trening og kalibrering. For tiden krever GAN-skiss 30 000 trenings-iterasjoner. Systemet krever også tilgang til den opprinnelige treningsdataen for den opprinnelige modellen.

I tilfeller hvor datasettet er åpen kilde, og har en lisens som tillater lokal kopiering, kunne dette være akseptert ved å inkludere kilde-dataene i en lokal installert pakke, selv om dette ville ta opp betydelig disk-plass; eller ved å få tilgang til eller prosessere data fjernhet, via en sky-basert tilnærming, som introduserer nettverks-overhead og (i tilfelle hvor prosessering faktisk skjer på skyen) kanskje beregningskostnads-considerasjoner.