Kunstmatige intelligentie

De onbedoelde voordelen van het in kaart brengen van de latentie ruimte van een GAN

Published December 3, 2021

Updated April 28, 2026

Martin Anderson

Terwijl ze probeerden de kwaliteit en geloofwaardigheid van door AI gegenereerde afbeeldingen te verbeteren, ontdekten een groep onderzoekers uit China en Australië onbedoeld een methode om de latentie ruimte van een Generatief Adversatief Netwerk (GAN) interactief te controleren – de mysterieuze berekeningsmatrix achter de nieuwe golf van beeldsynthesetechnieken die films, games, sociale media en vele andere sectoren in entertainment en onderzoek gaan revolutioneren.

Hun ontdekking, een bijproduct van het centrale doel van het project, stelt een gebruiker in staat om de latentie ruimte van een GAN willekeurig en interactief te verkennen met een muis, alsof hij door een video scrubt of door een boek bladert.

Een uitsnede uit de begeleidende video van de onderzoekers (zie embed aan het einde van het artikel). Let op dat de gebruiker de transformaties manipuleert met een 'grijp' cursor (boven links). Bron: https://www.youtube.com/watch?v=k7sG4XY5rIc

Een uitsnede uit de begeleidende video van de onderzoekers (zie embed aan het einde van het artikel voor veel meer voorbeelden). Let op dat de gebruiker de transformaties manipuleert met een ‘grijp’ cursor (boven links). Bron: https://www.youtube.com/watch?v=k7sG4XY5rIc

De methode gebruikt ‘hittekaarten’ om aan te geven welke delen van een afbeelding verbeterd moeten worden terwijl de GAN dezelfde dataset duizenden (of honderdduizenden) keren doorloopt. De hittekaarten zijn bedoeld om de beeldkwaliteit te verbeteren door de GAN te vertellen waar het fout gaat, zodat de volgende poging beter zal zijn; maar toevallig biedt dit ook een ‘kaart’ van de hele latentie ruimte die kan worden doorzocht door een muis te bewegen.

Ruimtelijke visuele aandacht benadrukt via GradCAM, die aandacht nodig heeft door felle kleuren op te leggen. Deze voorbeelden zijn gegenereerd in het project van de onderzoekers met een standaardimplementatie van StyleGan2. Bron: https://arxiv.org/pdf/2112.00718.pdf

Ruimtelijke visuele aandacht benadrukt via GradCAM, die aandacht nodig heeft door felle kleuren op te leggen. Bron: https://arxiv.org/pdf/2112.00718.pdf

Het artikel heet Verbetering van GAN-evenwicht door ruimtelijk bewustzijn te vergroten, en komt van onderzoekers aan de Chinese Universiteit van Hong Kong en de Australische Nationale Universiteit. Naast het artikel, video en ander materiaal kan worden gevonden op de projectpagina.

Het werk is nog in de kinderschoenen, en momenteel beperkt tot lage resolutiebeelden (256×256), maar het is een bewijs van concept dat belooft de ‘black box’ van de latentie ruimte te openen, en komt op een moment dat meerdere onderzoeksprojecten aan die deur rammen om meer controle over beeldsynthese te krijgen.

Hoewel dergelijke beelden boeiend zijn (en u er meer van kunt zien, in betere resolutie, in de video die aan het einde van dit artikel is ingebed), is wat misschien nog belangrijker dat het project een manier heeft gevonden om de beeldkwaliteit te verbeteren, en potentieel sneller te doen, door de GAN specifiek te vertellen waar het fout gaat tijdens de training.

Maar, zoals Adversatief aangeeft, is een GAN geen enkele entiteit, maar eerder een ongelijke strijd tussen autoriteit en arbeid. Om te begrijpen welke verbeteringen de onderzoekers hebben gemaakt in dit opzicht, laten we kijken hoe deze oorlog tot nu toe is gekarakteriseerd.

De ellendige toestand van de Generator

Als u ooit door de gedachte is achtervolgd dat een geweldig nieuw kledingstuk dat u kocht in een sweatshop in een uitgebuit land is gemaakt, of een baas of klant had die u bleef vertellen om ‘Het opnieuw te doen!’ zonder ooit te vertellen wat er mis was met uw laatste poging, spaar dan een beetje medelijden voor de Generator onderdeel van een Generatief Adversatief Netwerk.

De Generator is het werkpaard dat u de afgelopen vijf jaar heeft vermaakt door GAN’s te helpen fotorealistische mensen te creëren die niet bestaan, oude videospellen op te schalen naar 4k-resolutie, en eeuwenoude beelden om te zetten in volledige kleuren HD-uitvoer bij 60fps, onder andere wonderen van AI-nieuwigheden.

Van het creëren van fotorealistische gezichten van niet-bestaande mensen tot het herstellen van oude beelden en het herleven van archief videospellen, GAN is de afgelopen jaren druk bezig geweest.

De Generator loopt door alle trainingsdata heen, één voor één (zoals foto’s van gezichten, om een GAN te maken die foto’s van willekeurige, niet-bestaande mensen kan maken), voor dagen, of zelfs weken, totdat het in staat is om beelden te maken die even overtuigend zijn als de echte foto’s die het heeft bestudeerd.

Hoe weet de Generator dat het enige vooruitgang boekt, elke keer dat het probeert een beeld te maken dat beter is dan zijn vorige poging?

De Generator heeft een baas van de hel.

De meedogenloze ondoorzichtigheid van de Discriminator

De taak van de Discriminator is om de Generator te vertellen dat het niet goed genoeg heeft gedaan in het maken van een beeld dat authentiek is voor de oorspronkelijke data, en om Het opnieuw te doen. De Discriminator vertelt de Generator niet wat er mis was met de laatste poging van de Generator; het neemt een privéblik op het beeld, vergelijkt het gegenereerde beeld met de bronbeelden (opnieuw privé), en wijst het beeld een score toe.

De score is nooit goed genoeg. De Discriminator zal niet stoppen met zeggen ‘Het opnieuw te doen’ tot de onderzoeks wetenschappers het uitschakelen (wanneer ze oordelen dat verdere training de uitvoer niet verder zal verbeteren).

Op deze manier, zonder enige constructieve kritiek, en gewapend met een score waarvan de meting een mysterie is, moet de Generator willekeurig raden welke delen of aspecten van het beeld een hogere score veroorzaakten dan voorheen. Dit zal het op veel meer onbevredigende routes brengen voordat het iets positiefs verandert om een hogere score te krijgen.

De Discriminator als leraar en mentor

De innovatie die door het nieuwe onderzoek wordt geboden, is essentieel dat de Discriminator nu aan de Generator aangeeft welke delen van het beeld onbevredigend waren, zodat de Generator zich op die gebieden kan concentreren in zijn volgende iteratie, en niet de delen weggooit die een hogere score kregen. De aard van de relatie is veranderd van strijd naar samenwerking.

Om het verschil in inzicht tussen de Discriminator en de Generator te verhelpen, gebruikten de onderzoekers GradCAM als een mechanisme dat in staat is om de inzichten van de Discriminator om te zetten in een visuele feedbackhulp voor de volgende poging van de Generator.

De nieuwe ‘evenwicht’ trainingsmethode heet EqGAN. Voor maximale reproduceerbaarheid hebben de onderzoekers bestaande technieken en methoden op standaardinstellingen geïmplementeerd, waaronder het gebruik van de StyleGan2 architectuur.

De architectuur van EqGAN. De ruimtelijke codering van de Generator is uitgelijnd met de ruimtelijke bewustzijn van de Discriminator, met willekeurige voorbeelden van ruimtelijke hittekaarten (zie eerder beeld) gecodeerd terug naar de generator via de ruimtelijke coderingslaag (SEL). GradCAM is het mechanisme waarmee de aandachtskaarten van de Discriminator beschikbaar worden gemaakt voor de generator.

GradCAM produceert hittekaarten (zie bovenstaande afbeeldingen) die de kritiek van de Discriminator op de laatste iteratie weerspiegelen, en maakt deze beschikbaar voor de Generator.

Zodra het model is getraind, blijft de kaart bestaan als een artifact van dit samenwerkingsproces, maar kan ook worden gebruikt om de finale latentie code op een interactieve manier te verkennen, zoals wordt gedemonstreerd in de projectvideo van de onderzoekers (zie onder).

EqGAN

Het project gebruikte een aantal populaire datasets, waaronder de LSUN Cat en Churches datasets, evenals de FFHQ dataset. De video hieronder bevat ook voorbeelden van faciale en feline manipulatie met EqGAN.

Alle afbeeldingen werden omgerekend naar 256×256 voordat EqGAN werd getraind op de officiële implementatie van StyleGAN2. Het model werd getraind met een batchgrootte van 64 op 8 GPU’s totdat de Discriminator meer dan 25 miljoen afbeeldingen had gezien.

Het testen van de resultaten van het systeem over geselecteerde voorbeelden met Frechet Inception Distance (FID), stelden de auteurs een meting genaamd Disequilibrium Indicator (DI) vast – de mate waarin de Discriminator zijn kennisvoorsprong op de Generator behoudt, met als doel om die kloof te verkleinen.

Over de drie getrainde datasets toonde de nieuwe meting een nuttige daling na het coderen van ruimtelijk bewustzijn in de Generator, met verbeterd evenwicht aangetoond door zowel FID als DI.

De onderzoekers concluderen:

‘We hopen dat dit werk meer onderzoek kan inspireren om het GAN-evenwicht te herzien en meer nieuwe methoden te ontwikkelen om de beeldsynthesekwaliteit te verbeteren door het GAN-evenwicht te manipuleren. We zullen ook meer theoretisch onderzoek naar dit onderwerp doen in toekomstig werk.’

En vervolgen:

‘Kwalitatieve resultaten laten zien dat onze methode succesvol is in het [concentreren van de Generator] op specifieke regio’s. Experimenten op verschillende datasets valideren dat onze methode de disbalans in GAN-training vermindert en de algehele beeldsynthesekwaliteit aanzienlijk verbetert. Het resulterende model met ruimtelijk bewustzijn maakt ook interactieve manipulatie van de uitvoerafbeelding mogelijk.’

Kijk naar de video hieronder voor meer details over het project, en verdere voorbeelden van dynamische en interactieve verkenning van de latentie ruimte in een GAN.