Kunstig intelligens

Orkestrering af ansigtssyntese med semantisk segmentering

Udgivet 7. December, 2021

Opdateret 9. December, 2022

Martin Anderson

Problemet med at opfinde menneskelige ansigter med en Generativt kontradiktorisk netværk (GAN) er, at de virkelige data, der driver de falske billeder, kommer med uvelkomne og uadskillelige tilbehør, såsom hår på hovedet (og/eller ansigtet), baggrunde og forskellige slags ansigtsmøbler, såsom briller, hatte, og øreringe; og at disse perifere aspekter af personligheden uundgåeligt bliver bundet sammen i en 'sammensmeltet' identitet.

Under de mest almindelige GAN-arkitekturer er disse elementer ikke adresserbare i deres eget dedikerede rum, men er snarere tæt forbundet med ansigtet i (eller omkring), som de er indlejret.

Det er normalt heller ikke muligt at diktere eller påvirke udseendet af underafsnit af et ansigt skabt af en GAN, såsom at indsnævre øjnene, forlænge næsen eller ændre hårfarve på den måde, som en politiskitser kunne.

Billedsynteseforskningssektoren arbejder dog på det:

Ny forskning i GAN-baseret ansigtsgenerering har adskilt de forskellige sektioner af et ansigt i adskilte områder, hver med deres egen 'generator', der arbejder sammen med andre generatorer til billedet. I den midterste række ser vi det orkestrerende 'funktionskort' opbygge yderligere områder af ansigtet. Kilde: https://arxiv.org/pdf/2112.02236.pdf

I en ny papir, har forskere fra den amerikanske arm af den kinesiske multinationale teknologigigant ByteDance brugt semantisk segmentering til at opdele ansigtets bestanddele i diskrete sektioner, som hver får tildelt sin egen generator, så det er muligt at opnå en større grad af adskillelse. Eller i det mindste, perceptuelle adskillelse.

papir er titlen SemanticStyleGAN: Læring af kompositoriske generative forudsætninger for kontrollerbar billedsyntese og redigering, og er ledsaget af en medie-rig projektsiden med flere eksempler på de forskellige finkornede transformationer, der kan opnås, når ansigts- og hovedelementer isoleres på denne måde.

Ansigtstekstur, hårstil og farve, øjenform og farve og mange andre aspekter af engang uopløselige GAN-genererede funktioner kan nu skilles ad, selvom kvaliteten af adskillelse og niveauet af instrumentalitet sandsynligvis vil variere på tværs af tilfælde. Kilde: https://semanticstylegan.github.io/

Ansigtstekstur, hårstil og farve, øjenform og farve og mange andre aspekter af engang uopløselige GAN-genererede funktioner kan nu de facto afviklet, selvom kvaliteten af adskillelsen og niveauet af instrumentalitet sandsynligvis vil variere på tværs af sager. Kilde: https://semanticstylegan.github.io/

Det ustyrlige latente rum

Et generativt modstandsnetværk, der er uddannet til at generere ansigter – såsom StyleGan2 generator, der driver det populære websted thispersondoesnotexist.com – danner komplekse indbyrdes forhold mellem 'funktionerne' (ikke i ansigtsforstand), at det stammer fra at analysere tusindvis af ansigter fra den virkelige verden for at lære at lave realistiske menneskeansigter selv.

Disse hemmelige processer er 'latente koder', samlet set latent rum. De er svære at analysere, og derfor svære at instrumentalisere.

I sidste uge dukkede et nyt nyt billedsynteseprojekt op, der forsøger at 'kortlægge' dette nærmest okkulte rum under selve træningsprocessen, og derefter bruge disse kort til interaktivt at navigere i det, og forskellige andre løsninger er blevet foreslået for at få dybere kontrol over GAN-syntetiseret indhold.

Der er gjort nogle fremskridt med et mangfoldigt udbud af GAN-arkitekturer, der forsøger at 'nå ind i' det latente rum på en eller anden måde og kontrollere ansigtsgenerationerne derfra. Sådanne bestræbelser omfatter bl.a InterFaceGAN, StyleFlow, GANSspaceog StyleRig, blandt andre tilbud i en konstant produktiv strøm af nye papirer.

Fælles for dem alle er begrænsede grader af sammenfiltring; de geniale GUI-skydere til forskellige facetter (såsom 'hår' eller 'udtryk') har en tendens til at trække baggrunden og/eller andre elementer ind i transformationsprocessen, og ingen af dem (inklusive det her omtalte papir) har løst problemet med tidsmæssig neuralt hår.

Opdeling og erobring af det latente rum

Under alle omstændigheder tager ByteDance-forskningen en anden tilgang: I stedet for at forsøge at gennemskue mysterierne ved et enkelt GAN, der opererer over et helt genereret ansigtsbillede, formulerer SemanticStyleGAN en layout-baseret tilgang, hvor ansigter 'komponeres' af separate generatorprocesser.

For at opnå denne sondring af (ansigts)træk, bruger SemanticStyleGAN Fourier træk at generere et semantisk segmenteringskort (groft farvede forskelle af ansigtstopografi, vist nederst til højre på billedet nedenfor) for at isolere de ansigtsområder, som vil modtage individuel, dedikeret opmærksomhed.

Arkitektur af den nye tilgang, som pålægger ansigtet et interstitielt lag af semantisk segmentering, hvilket effektivt gør rammen til en orkestrator af flere generatorer til forskellige facetter af et billede.

Segmenteringskortene genereres for de falske billeder, der systematisk præsenteres for GAN's diskriminator til evaluering efterhånden som modellen forbedres, og for de (ikke-falske) kildebilleder, der bruges til træning.

Ved starten af processen, a Multi-Layer Perceptron (MLP) kortlægger indledningsvis tilfældigt udvalgte latente koder, som derefter vil blive brugt til at styre vægten af de adskillige generatorer, der hver vil tage kontrol over en del af ansigtsbilledet, der skal produceres.

Hver generator opretter et funktionskort og et simuleret dybdekort ud fra Fourier-elementerne, der tilføres den opstrøms. Dette output er grundlaget for segmenteringsmaskerne.

Nedstrøms render-netværket er kun betinget af de tidligere feature maps og ved nu, hvordan man genererer en højere opløsnings segmenteringsmaske, hvilket letter den endelige produktion af billedet.

Endelig overvåger en todelt diskriminator den sammenkædede distribution af både RGB-billederne (som for os er det endelige resultat) og segmenteringsmaskerne, der har gjort det muligt at adskille dem.

Med SemanticStyleGAN er der ingen uvelkomne visuelle forstyrrelser, når ansigtstræk ændres, fordi hvert ansigtstræk er blevet trænet separat inden for orkestreringsrammen.

Erstatning af baggrunde

Fordi intentionen med projektet er at få større kontrol over det genererede miljø, inkluderer gengivelses-/kompositionsprocessen en baggrundsgenerator trænet på rigtige billeder.

En overbevisende grund til, at baggrunde ikke bliver trukket ind i ansigtsmanipulationer i SemanticStyleGAN, er, at de sidder på et mere fjernt lag og er komplette, hvis de delvist er skjult af de overlejrede ansigter.

Da segmenteringskortene vil resultere i ansigter uden baggrunde, giver disse 'drop-in'-baggrunde ikke kun kontekst, men er også konfigureret til at være passende med hensyn til belysning for de overlejrede ansigter.

Træning og data

De 'realistiske' modeller blev trænet på de indledende 28,000 billeder CelebAMask-HQ, ændret størrelse til 256×256 pixels for at rumme træningspladsen (dvs. den tilgængelige VRAM, som dikterer en maksimal batchstørrelse pr. iteration).

En række modeller blev trænet, og forskellige værktøjer, datasæt og arkitekturer blev eksperimenteret med under udviklingsprocessen og forskellige ablationstest. Projektets største produktive model indeholdt 512×512 opløsning, trænet over 2.5 dage på otte NVIDIA Tesla V100 GPU'er. Efter træning tager generering af et enkelt billede 0.137s på en lob-GPU uden parallelisering.

De flere tegneserie-/anime-stil-eksperimenter, der er demonstreret i de mange videoer på projektets side (se link ovenfor) er afledt af forskellige populære ansigtsbaserede datasæt, bl.a. Toonify, MetFacesog Bitmoji.

En stopklods løsning?

Forfatterne hævder, at der ikke er nogen grund til, at SemanticStyleGAN ikke kunne anvendes på andre domæner, såsom landskaber, biler, kirker og alle de andre 'standard' testdomæner, som nye arkitekturer rutinemæssigt udsættes for tidligt i deres karriere.

Avisen indrømmer dog, at når antallet af klasser stiger for et domæne (f.eks 'bil', 'gadelampe', 'fodgænger', 'bygning', 'bil' osv.), kan denne stykkevise tilgang blive ubrugelig på en række måder uden yderligere arbejde med optimering. CityScapes bydatasæt har f.eks 30 klasser fordelt på 8 kategorier.

Det er svært at sige, om den nuværende interesse i at erobre det latente rum mere direkte er lige så dømt som alkymi; eller om latente koder i sidste ende vil kunne dechifreres og kontrolleres – en udvikling, der kan gøre denne mere 'eksternt komplekse' type tilgang overflødig.

Næste

Menneskelig billedsyntese fra reflekterede radiobølger

Gå ikke glip af

AI-system identificerer COVID-19-patienter, der har behov for intensivafdeling

Martin Anderson

Forfatter på maskinlæring, domænespecialist i menneskelig billedsyntese. Tidligere leder af forskningsindhold hos Metaphysic.ai.
Personlig side: martinanderson.ai
Kontakt: [e-mail beskyttet]
Twitter: @manders_ai