Stummel Der unbeabsichtigte Vorteil der Kartierung des latenten Raums eines GAN – Unite.AI
Vernetzen Sie sich mit uns

Künstliche Intelligenz

Der unbeabsichtigte Vorteil der Kartierung des latenten Raums eines GAN

mm
Aktualisiert on

Bei dem Versuch, die Qualität und Genauigkeit von KI-generierten Bildern zu verbessern, hat eine Gruppe von Forschern aus China und Australien versehentlich eine Methode entdeckt, um den latenten Raum eines Bildes interaktiv zu steuern Generative Adversarial Network (GAN) – die mysteriöse Berechnungsmatrix hinter der neuen Welle von Bildsynthesetechniken, die Filme, Spiele, soziale Medien und viele andere Bereiche der Unterhaltung und Forschung revolutionieren werden.

Ihre Entdeckung, ein Nebenprodukt des zentralen Ziels des Projekts, ermöglicht es einem Benutzer, den latenten Raum eines GAN willkürlich und interaktiv mit einer Maus zu erkunden, als würde er durch ein Video scrollen oder in einem Buch blättern.

Ein Auszug aus dem Begleitvideo der Forscher (siehe Einbettung am Ende des Artikels). Beachten Sie, dass der Benutzer die Transformationen mit einem Greif-Cursor (oben links) manipuliert. Quelle: https://www.youtube.com/watch?v=k7sG4XY5rIc

Ein Auszug aus dem Begleitvideo der Forscher (viele weitere Beispiele siehe Einbettung am Ende des Artikels). Beachten Sie, dass der Benutzer die Transformationen mit einem Greif-Cursor (oben links) manipuliert. Quelle: https://www.youtube.com/watch?v=k7sG4XY5rIc

Die Methode verwendet „Heatmaps“, um anzugeben, welche Bereiche eines Bildes verbessert werden sollten, wenn das GAN denselben Datensatz Tausende (oder Hunderttausende) Male durchläuft. Die Heatmaps sollen die Bildqualität verbessern, indem sie dem GAN mitteilen, wo der Fehler liegt, sodass der nächste Versuch besser wird. aber zufälligerweise ergibt sich dadurch auch eine „Karte“ des gesamten latenten Raums, die durch Bewegen einer Maus durchsucht werden kann.

Räumliche visuelle Aufmerksamkeit wird durch GradCAM betont, das durch die Auferlegung leuchtender Farben Bereiche anzeigt, die Aufmerksamkeit erfordern. Diese Beispiele werden im Projekt der Forscher mit einer Standardimplementierung von StyleGan2 generiert. Quelle: https://arxiv.org/pdf/2112.00718.pdf

Räumliche visuelle Aufmerksamkeit wird durch GradCAM betont, das durch die Auferlegung leuchtender Farben Bereiche anzeigt, die Aufmerksamkeit erfordern. Quelle: https://arxiv.org/pdf/2112.00718.pdf

Das Krepppapier wird genannt Verbesserung des GAN-Gleichgewichts durch Steigerung des räumlichen Bewusstseins, und stammt von Forschern der Chinese University of Hong Kong und der Australian National University. Zusätzlich zum Papier finden Sie Videos und anderes Material auf der Projektseite.

Die Arbeit steckt noch in den Kinderschuhen und ist derzeit auf Bilder mit niedriger Auflösung (256×256) beschränkt. Sie ist jedoch ein Proof of Concept, der verspricht, die „Black Box“ des latenten Raums aufzubrechen, und kommt zu einer Zeit, in der mehrere Forschungsprojekte in Arbeit sind an dieser Tür, um mehr Kontrolle über die Bildsynthese zu erlangen.

Obwohl solche Bilder ansprechend sind (und Sie können mehr davon in besserer Auflösung in dem am Ende dieses Artikels eingebetteten Video sehen), ist es vielleicht noch wichtiger, dass das Projekt einen Weg gefunden hat, die Bildqualität zu verbessern, und zwar möglicherweise um es schneller zu machen, indem man dem GAN während des Trainings genau mitteilt, wo etwas schief läuft.

Aber, wie Widersacher weist darauf hin, dass ein GAN keine einzelne Einheit ist, sondern ein ungleicher Konflikt zwischen Autorität und Plackerei. Um zu verstehen, welche Verbesserungen die Forscher in dieser Hinsicht erzielt haben, schauen wir uns an, wie dieser Krieg bisher charakterisiert wurde.

Die erbärmliche Lage des Generators

Wenn Sie jemals von dem Gedanken heimgesucht wurden, dass ein großartiges neues Kleidungsstück, das Sie gekauft haben, in einem Ausbeutungsbetrieb in einem ausgebeuteten Land hergestellt wurde oder dass ein Chef oder Kunde Ihnen immer wieder sagte: „Mach es noch einmal!“ ohne Ihnen jemals zu sagen, was bei Ihrem letzten Versuch falsch gelaufen ist, ersparen Sie sich ein bisschen Mitleid dafür Stromerzeuger Teil eines Generative Adversarial Network.

Der Generator ist das Arbeitstier, das Sie seit etwa fünf Jahren begeistert, indem es GANs bei der Erstellung unterstützt fotorealistische Menschen, die nicht existieren, hochwertige alte Videospiele auf 4k-Auflösung, und drehen Sie jahrhundertealtes Filmmaterial in eine vollfarbige HD-Ausgabe mit 60 Bildern pro Sekunde, neben anderen wundersamen KI-Neuheiten.

Von der Erstellung fotorealistischer Gesichter unwirklicher Menschen über die Restaurierung antiken Filmmaterials bis hin zur Wiederbelebung von Archivvideospielen war GAN in den letzten Jahren fleißig.

Von der Erstellung fotorealistischer Gesichter unwirklicher Menschen über die Restaurierung antiken Filmmaterials bis hin zur Wiederbelebung von Archivvideospielen war GAN in den letzten Jahren fleißig.

Der Generator durchläuft alle Trainingsdaten immer wieder (z. B. Bilder von Gesichtern, um ein GAN zu erstellen, das Fotos von zufälligen, nicht existierenden Personen erstellen kann), ein Foto nach dem anderen, über Tage oder sogar Wochen hinweg. bis es in der Lage ist, Bilder zu erstellen, die genauso überzeugend sind wie die Originalfotos, die es studiert hat.

Woher weiß der Generator also, dass er Fortschritte macht, jedes Mal, wenn er versucht, ein Bild zu erstellen, das besser ist als sein vorheriger Versuch?

Der Generator hat einen Boss aus der Hölle.

Die gnadenlose Undurchsichtigkeit des Diskriminators

Die Arbeit der Diskriminator besteht darin, dem Generator mitzuteilen, dass es bei der Erstellung eines Bildes, das den Originaldaten entspricht, nicht gut genug gelungen ist Mach es nochmal. Der Diskriminator teilt es dem Generator nicht mit was war beim letzten Versuch des Generators falsch; Es wirft nur einen privaten Blick darauf, vergleicht das generierte Bild mit den Quellbildern (wieder privat) und weist dem Bild eine Bewertung zu.

Die Punktzahl ist hört niemals gut genug. Der Diskriminator wird nicht aufhören zu sagen 'Mach es nochmal' bis die Forscher es ausschalten (wenn sie zu dem Schluss kommen, dass das zusätzliche Training die Leistung nicht weiter verbessern wird).

Auf diese Weise muss der Generator, ohne jegliche konstruktive Kritik und nur mit einer Bewertung ausgestattet, deren Metrik ein Rätsel ist, zufällig erraten, welche Teile oder Aspekte des Bildes eine höhere Bewertung als zuvor verursacht haben. Dies wird viele weitere unbefriedigende Wege nach sich ziehen, bevor sich etwas so positiv verändert, dass eine höhere Punktzahl erreicht wird.

Der Diskriminator als Tutor und Mentor

Die durch die neue Forschung bereitgestellte Innovation besteht im Wesentlichen darin, dass der Diskriminator nun dem Generator Hinweise gibt welche Teile des Bildes unbefriedigend waren, damit sich der Generator in seiner nächsten Iteration auf diese Bereiche konzentrieren kann und die höher bewerteten Abschnitte nicht wegwirft. Die Art der Beziehung hat sich von kämpferisch zu kollaborativ gewandelt.

Um die Ungleichheit der Erkenntnisse zwischen dem Diskriminator und dem Generator zu beheben, verwendeten die Forscher GradCAM als Mechanismus, der in der Lage ist, die Einsichten des Diskriminators in eine visuelle Rückmeldungshilfe für den nächsten Versuch des Generators zu formulieren.

Die neue „Gleichgewichts“-Trainingsmethode heißt EqGAN. Für maximale Reproduzierbarkeit haben die Forscher vorhandene Techniken und Methoden mit Standardeinstellungen integriert, einschließlich der Verwendung von StyleGan2 die Architektur.

Die Architektur von EqGAN. Die räumliche Kodierung des Generators ist auf das räumliche Bewusstsein des Diskriminators ausgerichtet, wobei zufällige Stichproben räumlicher Heatmaps (siehe vorheriges Bild) über die räumliche Kodierungsschicht (SEL) zurück in den Generator kodiert werden. GradCAM ist der Mechanismus, mit dem die Aufmerksamkeitskarten des Diskriminators dem Generator zur Verfügung gestellt werden.

Die Architektur von EqGAN. Die räumliche Kodierung des Generators ist auf das räumliche Bewusstsein des Diskriminators ausgerichtet, wobei zufällige Stichproben räumlicher Heatmaps (siehe vorheriges Bild) über die räumliche Kodierungsschicht (SEL) zurück in den Generator kodiert werden. GradCAM ist der Mechanismus, mit dem die Aufmerksamkeitskarten des Diskriminators dem Generator zur Verfügung gestellt werden.

GradCAM erstellt Heatmaps (siehe Bilder oben), die die Kritik des Diskriminators an der neuesten Iteration widerspiegeln, und stellt diese dem Generator zur Verfügung.

Sobald das Modell trainiert ist, bleibt die Zuordnung ein Artefakt dieses kooperativen Prozesses, kann aber auch verwendet werden, um den endgültigen latenten Code auf interaktive Weise zu erkunden, wie im Projektvideo der Forscher gezeigt (siehe unten).

EqGAN

Das Projekt verwendete eine Reihe beliebter Datensätze, darunter die LSUN-Datensätze Cat und Churches sowie die FFHQ Datensatz. Das Video unten zeigt auch Beispiele für Gesichts- und Katzenmanipulationen mit EqGAN.

Die Größe aller Bilder wurde auf 256×256 geändert, bevor EqGAN auf die offizielle Implementierung von StyleGAN2 trainiert wurde. Das Modell wurde mit einer Stapelgröße von 64 über 8 GPUs trainiert, bis der Diskriminator über 25 Millionen Bildern ausgesetzt war.

Testen der Ergebnisse des Systems an ausgewählten Stichproben mit Frechet Inception Distance (FID) haben die Autoren eine Metrik namens Disequilibrium Indicator (DI) erstellt – den Grad, in dem der Diskriminator seinen Wissensvorsprung gegenüber dem Generator behält, mit dem Ziel, diese Lücke zu schließen.

Bei den drei trainierten Datensätzen zeigte die neue Metrik nach der Kodierung des räumlichen Bewusstseins in den Generator einen nützlichen Rückgang, wobei sich sowohl bei FID als auch bei DI ein verbessertes Gleichgewicht zeigte.

Die Forscher kommen zu dem Schluss:

„Wir hoffen, dass diese Arbeit weitere Arbeiten zur Neubetrachtung des GAN-Gleichgewichts inspirieren und weitere neuartige Methoden entwickeln kann, um die Bildsynthesequalität durch Manövrieren des GAN-Gleichgewichts zu verbessern.“ „Wir werden in der zukünftigen Arbeit auch weitere theoretische Untersuchungen zu diesem Thema durchführen.“

Und fortsetzen:

„Qualitative Ergebnisse zeigen, dass unsere Methode den Generator erfolgreich dazu zwingt, sich auf bestimmte Regionen zu konzentrieren.“ Experimente mit verschiedenen Datensätzen bestätigen, dass unsere Methode das Ungleichgewicht im GAN-Training abmildert und die Gesamtqualität der Bildsynthese erheblich verbessert. Das resultierende Modell mit räumlichem Bewusstsein ermöglicht auch die interaktive Manipulation des Ausgabebildes.“

Schauen Sie sich das Video unten an, um weitere Details zum Projekt und weitere Beispiele für die dynamische und interaktive Erkundung des latenten Raums in einem GAN zu erfahren.

Verbesserung des GAN-Gleichgewichts durch Steigerung des räumlichen Bewusstseins

 

 

11:12 Uhr, 4. Dezember 2021 – URL für GradCAM korrigiert und umliegende Referenz aufgeräumt.