Künstliche Intelligenz

Der ungewollte Vorteil der Kartierung des Latenten Raums eines GAN

Published December 3, 2021

Updated April 28, 2026

Martin Anderson

Während sie versuchten, die Qualität und Treue von künstlich generierten Bildern zu verbessern, entdeckten eine Gruppe von Forschern aus China und Australien ungewollt eine Methode, um den Latenten Raum eines Generative Adversarial Network (GAN) interaktiv zu steuern – die geheimnisvolle berechnende Matrix hinter den neuen Techniken der Bildsynthese, die bereit sind, die Film-, Gaming- und Social-Media-Industrie sowie viele andere Sektoren in Unterhaltung und Forschung zu revolutionieren.

Ihre Entdeckung, ein Nebenprodukt des zentralen Ziels des Projekts, ermöglicht es einem Benutzer, den Latenten Raum eines GAN willkürlich und interaktiv mit der Maus zu erkunden, als ob er durch ein Video oder ein Buch blättert.

Ein Auszug aus dem begleitenden Video der Forscher (siehe Einbettung am Ende des Artikels). Beachten Sie, dass der Benutzer die Transformationen mit einem 'Grab'-Cursor (oben links) manipuliert.

Ein Auszug aus dem begleitenden Video der Forscher (siehe Einbettung am Ende des Artikels für viele weitere Beispiele). Quelle: https://www.youtube.com/watch?v=k7sG4XY5rIc

Die Methode verwendet ‘Hitzekarten’, um anzuzeigen, welche Bereiche eines Bildes verbessert werden sollten, während der GAN dieselben Daten tausend- oder hunderttausendmal durchläuft. Die Hitzekarten sollen die Bildqualität verbessern, indem sie dem GAN mitteilen, wo es falsch liegt, damit sein nächster Versuch besser wird; aber sie liefern auch eine ‘Karte’ des gesamten Latenten Raums, die durch Bewegen der Maus durchsucht werden kann.

Räumliche visuelle Aufmerksamkeit betont durch GradCAM, die Bereiche anzeigt, die Aufmerksamkeit benötigen, indem sie helle Farben aufdrückt.

Räumliche visuelle Aufmerksamkeit betont durch GradCAM, die Bereiche anzeigt, die Aufmerksamkeit benötigen. Quelle: https://arxiv.org/pdf/2112.00718.pdf

Das Papier heißt Verbesserung des GAN-Gleichgewichts durch Erhöhung des räumlichen Bewusstseins und stammt von Forschern der Chinesischen Universität von Hongkong und der Australischen Nationaluniversität. Neben dem Papier können auf der Projektseite auch Videos und andere Materialien gefunden werden.

Die Arbeit ist noch im Anfangsstadium und derzeit auf Bildern mit niedriger Auflösung (256×256) beschränkt, aber sie ist ein Beweis des Konzepts, das das ‘schwarze Loch’ des Latenten Raums aufbrechen und zu einer Zeit kommen soll, in der mehrere Forschungsprojekte an dieser Tür klopfen, um eine bessere Kontrolle über die Bildsynthese zu erlangen.

Obwohl solche Bilder ansprechend sind (und Sie mehr davon in besserer Auflösung im Video am Ende dieses Artikels sehen können), ist vielleicht noch bedeutsamer, dass das Projekt eine Möglichkeit gefunden hat, die Bildqualität zu verbessern und möglicherweise schneller zu machen, indem es dem GAN genau sagt, wo es falsch liegt, während des Trainings.

Aber, wie Adversarial anzeigt, ist ein GAN keine einzelne Entität, sondern ein ungleicher Konflikt zwischen Autorität und Plackerei. Um zu verstehen, welche Verbesserungen die Forscher in dieser Hinsicht gemacht haben, sollten wir uns ansehen, wie dieser Krieg bisher charakterisiert wurde.

Das jämmerliche Schicksal des Generators

Wenn Sie jemals von dem Gedanken heimgesucht wurden, dass ein großartiges neues Kleidungsstück, das Sie gekauft haben, in einer Ausbeuterfabrik in einem unterdrückten Land hergestellt wurde oder einen Chef oder Kunden hatten, der Ihnen sagte, ‘Machen Sie es noch einmal!’ ohne Ihnen jemals zu sagen, was mit Ihrem letzten Versuch falsch war, dann sollten Sie dem Generator-Teil eines Generative Adversarial Network ein bisschen Mitleid schenken.

Der Generator ist das Arbeitstier, das Ihnen in den letzten fünf Jahren geholfen hat, GANs zu erstellen, die photorealistische Menschen, die nicht existieren, alte Videospiele auf 4K-Auflösung und jahrhundertealte Aufnahmen in Farbe und HD bei 60 Bildern pro Sekunde erstellen, unter anderem.

Von der Erstellung photorealistischer Gesichter von nicht existierenden Menschen bis zur Wiederherstellung alter Aufnahmen und der Wiederbelebung von Archiv-Videospielen war GAN in den letzten Jahren sehr beschäftigt.

Der Generator läuft durch alle Trainingsdaten wieder und wieder (wie Bilder von Gesichtern, um ein GAN zu erstellen, das Fotos von zufälligen, nicht existierenden Menschen erstellen kann), ein Bild nach dem anderen, für Tage oder sogar Wochen, bis er in der Lage ist, Bilder zu erstellen, die so überzeugend sind wie die echten Fotos, die er studiert hat.

Wie weiß also der Generator, dass er Fortschritte macht, jedes Mal, wenn er versucht, ein besseres Bild als sein vorheriger Versuch zu erstellen?

Der Generator hat einen Chef aus der Hölle.

Die gnadenlose Undurchsichtigkeit des Diskriminators

Die Aufgabe des Diskriminators ist es, dem Generator zu sagen, dass er nicht gut genug war, um ein authentisches Bild im Vergleich zu den Originaldaten zu erstellen, und ihm zu sagen, Es noch einmal zu machen. Der Diskriminator sagt dem Generator nicht, was mit dem letzten Versuch des Generators falsch war; er nimmt nur einen privaten Blick darauf, vergleicht das generierte Bild mit den Quellbildern (wieder privat) und weist dem Bild eine Punktzahl zu.

Die Punktzahl ist nicht gut genug. Der Diskriminator hört nicht auf, ‘Es noch einmal zu machen’ zu sagen, bis die Forscher ihn abschalten (wenn sie feststellen, dass weitere Trainings nicht zu einer Verbesserung der Ausgabe führen werden).

Auf diese Weise, ohne konstruktive Kritik und nur mit einer Punktzahl, deren Metrik ein Mysterium ist, muss der Generator zufällig erraten, welche Teile oder Aspekte des Bildes eine höhere Punktzahl als zuvor verursacht haben. Dies führt ihn auf viele weitere unzureichende Wege, bevor er etwas positiv genug ändert, um eine höhere Punktzahl zu erhalten.

Der Diskriminator als Tutor und Mentor

Die Innovation, die durch die neue Forschung bereitgestellt wird, besteht im Wesentlichen darin, dass der Diskriminator dem Generator anzeigt, welche Teile des Bildes unzureichend waren, damit der Generator sich auf diese Bereiche in seinem nächsten Versuch konzentrieren kann und nicht die Abschnitte wegwirft, die höher bewertet wurden. Die Natur der Beziehung hat sich von konfliktreich zu kooperativ verändert.

Um die Ungleichheit der Erkenntnisse zwischen dem Diskriminator und dem Generator zu beheben, verwendeten die Forscher GradCAM als Mechanismus, der in der Lage ist, die Erkenntnisse des Diskriminators in eine visuelle Rückmeldung für den nächsten Versuch des Generators umzuwandeln.

Die neue ‘Gleichgewicht’-Trainingsmethode heißt EqGAN. Für maximale Reproduzierbarkeit integrierten die Forscher bestehende Techniken und Methoden mit Standard-Einstellungen, einschließlich der Verwendung der StyleGan2-Architektur.

Die Architektur von EqGAN. Die räumliche Kodierung des Generators ist auf die räumliche Wahrnehmung des Diskriminators ausgerichtet, mit zufälligen Proben von räumlichen Hitzekarten (siehe vorheriges Bild), die über die räumliche Kodierungsschicht (SEL) in den Generator kodiert werden.

GradCAM erzeugt Hitzekarten (siehe oben), die die Kritik des Diskriminators an dem letzten Versuch widerspiegeln und diese dem Generator zur Verfügung stellen.

Sobald das Modell trainiert ist, bleibt die Kartierung als Artefakt dieses kooperativen Prozesses bestehen, kann aber auch verwendet werden, um den endgültigen Latent-Code auf interaktive Weise zu erkunden, wie es im Video der Forscher demonstriert wird (siehe unten).

EqGAN

Das Projekt verwendete eine Reihe von beliebten Datensätzen, einschließlich der LSUN-Katzen- und Kirchen-Datensätze sowie des FFHQ-Datensatzes. Das Video unten zeigt auch Beispiele für die Manipulation von Gesichtern und Katzen mit EqGAN.

Alle Bilder wurden vor dem Training von EqGAN auf der offiziellen Implementierung von StyleGAN2 auf 256×256 verkleinert. Das Modell wurde mit einer Batch-Größe von 64 über 8 GPUs trainiert, bis der Diskriminator über 25 Millionen Bilder gesehen hatte.

Durch Testen der Ergebnisse des Systems auf ausgewählten Proben mit der Frechet-Inception-Distanz (FID) stellten die Autoren einen Metrik namens Disequilibrium-Indikator (DI) fest – den Grad, in dem der Diskriminator seine Wissensüberlegenheit über den Generator beibehält, mit dem Ziel, diese Lücke zu schließen.

Über die drei trainierten Datensätze zeigte die neue Metrik einen nützlichen Rückgang nach der Kodierung der räumlichen Wahrnehmung in den Generator, mit verbessertem Gleichgewicht, das sowohl durch FID als auch durch DI demonstriert wurde.

Die Forscher kommen zu dem Schluss:

‘Wir hoffen, dass diese Arbeit weitere Arbeiten inspirieren kann, das GAN-Gleichgewicht zu überdenken und neue Methoden zu entwickeln, um die Bildsynthese-Qualität durch Manipulation des GAN-Gleichgewichts zu verbessern. Wir werden auch weitere theoretische Untersuchungen zu diesem Thema in zukünftigen Arbeiten durchführen.’

Und fahren fort:

‘Qualitative Ergebnisse zeigen, dass unsere Methode erfolgreich [den Generator] dazu bringt, sich auf bestimmte Regionen zu konzentrieren. Experimente auf verschiedenen Datensätzen bestätigen, dass unsere Methode die Ungleichheit im GAN-Training mildert und die Gesamtbildsynthese-Qualität erheblich verbessert. Das resultierende Modell mit räumlicher Wahrnehmung ermöglicht auch die interaktive Manipulation des Ausgabebildes.’

Schauen Sie sich das Video unten an, um mehr über das Projekt zu erfahren und weitere Beispiele für die dynamische und interaktive Erkundung des Latenten Raums in einem GAN zu sehen.