Artificial Intelligence

Het onbedoelde voordeel van het in kaart brengen van de latente ruimte van een GAN

Bijgewerkt on 9 december 2022

Terwijl ze probeerden de kwaliteit en getrouwheid van door AI gegenereerde afbeeldingen te verbeteren, hebben een groep onderzoekers uit China en Australië onbedoeld een methode ontdekt om interactief de latente ruimte van een Generative Adversarial Network (GAN) – de mysterieuze berekeningsmatrix achter de nieuwe golf van beeldsynthesetechnieken die een revolutie teweeg zullen brengen in films, gaming en sociale media, en vele andere sectoren in entertainment en onderzoek.

Hun ontdekking, een bijproduct van het centrale doel van het project, stelt een gebruiker in staat om willekeurig en interactief de latente ruimte van een GAN te verkennen met een muis, alsof hij door een video bladert of door een boek bladert.

Een fragment uit de begeleidende video van de onderzoekers (zie inbedding aan het einde van het artikel). Merk op dat de gebruiker de transformaties manipuleert met een 'grab'-cursor (linksboven). Bron: https://www.youtube.com/watch?v=k7sG4XY5rIc

Een fragment uit de begeleidende video van de onderzoekers (zie insluiting aan het einde van het artikel voor nog veel meer voorbeelden). Merk op dat de gebruiker de transformaties manipuleert met een 'grab'-cursor (linksboven). Bron: https://www.youtube.com/watch?v=k7sG4XY5rIc

De methode gebruikt 'heatmaps' om aan te geven welke delen van een afbeelding verbeterd moeten worden, aangezien de GAN duizenden (of honderdduizenden) keren dezelfde dataset doorloopt. De heatmaps zijn bedoeld om de beeldkwaliteit te verbeteren door de GAN te vertellen waar het fout gaat, zodat de volgende poging beter zal zijn; maar toevallig levert dit ook een 'plattegrond' op van de hele latente ruimte die kan worden doorbladerd door een muis te bewegen.

Ruimtelijke visuele aandacht benadrukt via GradCAM, dat gebieden die aandacht nodig hebben aangeeft door felle kleuren op te leggen. Deze voorbeelden worden gegenereerd in het project van de onderzoekers met een standaardimplementatie van StyleGan2. Bron: https://arxiv.org/pdf/2112.00718.pdf

Ruimtelijke visuele aandacht benadrukt via GradCAM, dat aandachtsgebieden aangeeft door felle kleuren op te leggen. Bron: https://arxiv.org/pdf/2112.00718.pdf

De papier wordt genoemd GAN-evenwicht verbeteren door ruimtelijk bewustzijn te vergroten, en is afkomstig van onderzoekers van de Chinese University of Hong Kong en de Australian National University. Naast het paper is video en ander materiaal te vinden op de projectpagina.

Het werk is in wording en beperkt zich momenteel tot beelden met een lage resolutie (256×256), maar is een proof of concept dat belooft de 'zwarte doos' van de latente ruimte open te breken, en komt op een moment dat meerdere onderzoeksprojecten aan het hameren zijn. bij die deur op zoek naar meer controle over de beeldsynthese.

Hoewel dergelijke afbeeldingen boeiend zijn (en je kunt er meer zien, in een betere resolutie, in de video die aan het einde van dit artikel is ingesloten), is misschien nog belangrijker dat het project een manier heeft gevonden om een verbeterde beeldkwaliteit te creëren, en mogelijk om het sneller te doen, door de GAN specifiek te vertellen waar het fout gaat tijdens de training.

Maar, zoals adversarial geeft aan dat een GAN geen enkele entiteit is, maar in plaats daarvan een ongelijk conflict tussen autoriteit en sleur. Om te begrijpen welke verbeteringen de onderzoekers in dit opzicht hebben aangebracht, laten we eens kijken hoe deze oorlog tot nu toe werd gekenmerkt.

De erbarmelijke toestand van de generator

Als je ooit bent achtervolgd door de gedachte dat een geweldig nieuw kledingstuk dat je hebt gekocht, is geproduceerd in een sweatshop in een uitgebuit land, of een baas of klant had die je bleef zeggen 'Doe het nog een keer!' zonder je ooit te vertellen wat er mis was met je laatste poging, spaar een greintje medelijden met de Generator onderdeel van een Generative Adversarial Network.

De Generator is het werkpaard dat u de afgelopen vijf jaar heeft vermaakt door GAN's te helpen creëren fotorealistische mensen die niet bestaan, luxe oude videogames naar 4k resolutieen draai eeuwenoude beelden in full-color HD-uitvoer met 60 fps, naast andere wonderbaarlijke AI-nieuwigheden.

Van het maken van fotorealistische gezichten van onwerkelijke mensen tot het herstellen van oude beelden en het nieuw leven inblazen van videogames uit het archief, GAN is de afgelopen jaren druk bezig geweest.

De generator doorloopt alle trainingsgegevens keer op keer (zoals foto's van gezichten, om een GAN te maken die foto's kan maken van willekeurige, niet-bestaande mensen), foto voor foto, dagen of zelfs weken lang. totdat het in staat is om afbeeldingen te maken die net zo overtuigend zijn als de echte foto's die het heeft bestudeerd.

Dus hoe weet de generator dat hij enige vooruitgang boekt, elke keer dat hij probeert een beeld te creëren dat beter is dan zijn vorige poging?

De Generator heeft een baas uit de hel.

De meedogenloze ondoorzichtigheid van de discriminator

Het werk van de discriminator is om de generator te vertellen dat hij het niet goed genoeg heeft gedaan bij het maken van een afbeelding die authentiek is voor de originele gegevens, en om Doe het opnieuw. De discriminator vertelt het niet aan de generator wat was fout met de laatste poging van de Generator; het kijkt er gewoon privé naar, vergelijkt de gegenereerde afbeelding met de bronafbeeldingen (wederom privé) en kent de afbeelding een score toe.

De score is nooit goed genoeg. De Discriminator zal niet stoppen met zeggen 'Doe het opnieuw' totdat de onderzoekswetenschappers het uitschakelen (wanneer ze oordelen dat de aanvullende training de output niet verder zal verbeteren).

Op deze manier, zonder enige opbouwende kritiek, en alleen gewapend met een score waarvan de metriek een mysterie is, moet de Generator willekeurig raden welke delen of aspecten van het beeld een hogere score veroorzaakten dan voorheen. Dit zal het naar vele andere onbevredigende routes leiden voordat het iets positief genoeg verandert om een hogere score te krijgen.

De discriminator als leermeester en mentor

De innovatie die door het nieuwe onderzoek wordt geboden, is in wezen dat de discriminator nu aangeeft aan de generator welke delen van de afbeelding niet goed waren, zodat de generator zich in de volgende iteratie op die gebieden kan concentreren en niet de secties met een hogere beoordeling weggooit. De aard van de relatie is veranderd van strijdbaar naar samenwerkend.

Om de ongelijkheid van inzicht tussen de Discriminator en de Generator te verhelpen, gebruikten de onderzoekers GradCAM als een mechanisme dat in staat is om de inzichten van de Discriminator om te zetten in een visueel feedbackhulpmiddel voor de volgende poging van de Generator.

De nieuwe trainingsmethode 'evenwicht' heet EqGAN. Voor maximale reproduceerbaarheid gebruikten de onderzoekers bestaande technieken en methoden bij standaardinstellingen, inclusief het gebruik van de StijlGan2 architectuur.

De architectuur van EqGAN. De ruimtelijke codering van de generator is afgestemd op het ruimtelijke bewustzijn van de discriminator, met willekeurige monsters van ruimtelijke heatmaps (zie eerdere afbeelding) die via de ruimtelijke coderingslaag (SEL) terug in de generator worden gecodeerd. GradCAM is het mechanisme waarmee de aandachtskaarten van de Discriminator beschikbaar worden gesteld aan de generator.

GradCAM produceert heatmaps (zie bovenstaande afbeeldingen) die de kritiek van de Discriminator op de nieuwste iteratie weergeven en deze beschikbaar stellen aan de Generator.

Als het model eenmaal is getraind, blijft de mapping een artefact van dit coöperatieve proces, maar kan het ook worden gebruikt om de uiteindelijke latente code te verkennen op de interactieve manier die wordt gedemonstreerd in de projectvideo van de onderzoekers (zie hieronder).

EqGAN

Het project maakte gebruik van een aantal populaire datasets, waaronder de LSUN Cat- en Churches-datasets, evenals de FFHQ gegevensset. De onderstaande video bevat ook voorbeelden van gezichts- en kattenmanipulatie met behulp van EqGAN.

Alle afbeeldingen werden verkleind naar 256×256 voordat EqGAN werd getraind op de officiële implementatie van StyleGAN2. Het model werd getraind met een batchgrootte van 64 over 8 GPU's totdat de Discriminator was blootgesteld aan meer dan 25 miljoen afbeeldingen.

Testen van de resultaten van het systeem over geselecteerde monsters met Frechet Inception Distance (FID), hebben de auteurs een meeteenheid opgesteld met de naam Disequilibrium Indicator (DI) - de mate waarin de discriminator zijn kennisvoordeel ten opzichte van de generator behoudt, met als doel die kloof te verkleinen.

Over de drie getrainde datasets vertoonde de nieuwe metriek een bruikbare daling na het coderen van ruimtelijk bewustzijn in de generator, met verbeterd evenwicht aangetoond door zowel FID als DI.

De onderzoekers concluderen:

'We hopen dat dit werk meer werken kan inspireren om het GAN-evenwicht opnieuw te bekijken en meer nieuwe methoden te ontwikkelen om de beeldsynthesekwaliteit te verbeteren door het GAN-evenwicht te manoeuvreren. We zullen in de toekomst ook meer theoretisch onderzoek doen naar dit onderwerp.'

En doorgaan:

'Kwalitatieve resultaten laten zien dat onze methode succesvol is [dwingt de Generator] om zich te concentreren op specifieke regio's. Experimenten op verschillende datasets valideren dat onze methode de onevenwichtigheid in GAN-training vermindert en de algehele beeldsynthesekwaliteit aanzienlijk verbetert. Het resulterende model met ruimtelijk inzicht maakt ook de interactieve manipulatie van het uitvoerbeeld mogelijk.'

Bekijk onderstaande video voor meer details over het project en meer voorbeelden van dynamische en interactieve verkenning van de latente ruimte in een GAN.

GAN-evenwicht verbeteren door ruimtelijk bewustzijn te vergroten

Improving GAN Equilibrium by Raising Spatial Awareness

Watch this video on YouTube

11:12 uur 4 december 2021 – Gecorrigeerde URL voor GradCAM en opgeruimde omringende referentie.

Nieuwe machine learning-benadering kan het ontwerp van geneesmiddelen versnellen

Mis het niet

Emoties in videobeelden veranderen met AI

Martin Anderson

Schrijver over machine learning, kunstmatige intelligentie en big data.
Persoonlijke site: martinanderson.ai
Contact: [e-mail beveiligd]
Twitter: @manders_ai