Connect with us

Erstellen einer benutzerdefinierten Generative Adversarial Network mit Skizzen

Künstliche Intelligenz

Erstellen einer benutzerdefinierten Generative Adversarial Network mit Skizzen

mm

Forscher von der Carnegie Mellon und dem MIT haben eine neue Methodik entwickelt, die es einem Benutzer ermöglicht, ein benutzerdefiniertes Generative Adversarial Network (GAN)-Bilderschaffungssystem einfach durch das Zeichnen von aussagekräftigen Skizzen zu erstellen.

Ein System dieser Art könnte es einem Endbenutzer ermöglichen, Bildgenerierungssysteme zu erstellen, die in der Lage sind, sehr spezifische Bilder zu generieren, wie beispielsweise bestimmte Tiere, Arten von Gebäuden – und sogar einzelne Personen. Derzeit produzieren die meisten GAN-Generierungssysteme breite und ziemlich zufällige Ausgaben, mit begrenzter Möglichkeit, bestimmte Merkmale wie Tierarten, Haartypen bei Menschen, Architekturstile oder tatsächliche Gesichtsidentitäten zu spezifizieren.

Der Ansatz, der in dem Paper Sketch Your Own GAN beschrieben wird, nutzt eine neuartige Skizzieroberfläche als effektive “Suchfunktion”, um Merkmale und Klassen in ansonsten überfüllten Bildatenbanken zu finden, die Tausende von Objekttypen enthalten können, einschließlich vieler Subtypen, die für die Absicht des Benutzers nicht relevant sind. Das GAN wird dann auf diesem gefilterten Teil der Bilder trainiert.

Indem der Benutzer den spezifischen Objekttyp skizziert, mit dem er das GAN kalibrieren möchte, werden die generativen Fähigkeiten des Frameworks auf diese Klasse spezialisiert. Zum Beispiel, wenn ein Benutzer ein Framework erstellen möchte, das eine bestimmte Art von Katze generiert (und nicht einfach nur eine beliebige Katze, wie sie mit This Cat Does Not Exist erhalten werden kann), dienen die Eingabeskizzen als Filter, um nicht relevante Klassen von Katzen auszuschließen.

 

Quelle: https://peterwang512.github.io/GANSketching/

Quelle: https://peterwang512.github.io/GANSketching/

Die Forschung wird von Sheng Yu-Wang der Carnegie Mellon University geleitet, zusammen mit Kollegen Jun-Yan Zhu und David Bau von dem Computer Science & Artificial Intelligence Laboratory des MIT.

Die Methode selbst wird als ‘GAN-Skizzieren’ bezeichnet und verwendet die Eingabeskizzen, um die Gewichte eines ‘Vorlagen’-GAN-Modells direkt zu ändern, um das identifizierte Domäne oder Subdomäne durch cross-domain-adversarial-Loss zu zielen.

Verschiedene Regularisierungsmethoden wurden erforscht, um sicherzustellen, dass die Ausgabe des Modells vielfältig ist, während die Bildqualität hoch bleibt. Die Forscher erstellten Beispielanwendungen, die in der Lage sind, den latenten Raum zu interpolieren und Bildbearbeitungsverfahren durchzuführen.

Dies [$class] existiert nicht

GAN-basierte Bildgenerierungssysteme sind in den letzten Jahren zu einem Trend, wenn nicht sogar zu einem Meme, geworden, mit einer Verbreitung von Projekten, die in der Lage sind, Bilder von nicht existierenden Dingen zu generieren, einschließlich Menschen, Mietwohnungen, Snacks, Füßen, Pferden, Politikern und Insekten, um nur einige zu nennen.

GAN-basierte Bildsynthesesysteme werden durch die Kompilierung oder Kuratierung umfangreicher Datensätze erstellt, die Bilder aus der Ziel-domäne enthalten, wie Gesichter oder Pferde; durch das Trainieren von Modellen, die eine Reihe von Merkmalen über die Bilder in der Datenbank verallgemeinern; und durch die Implementierung von Generator-Modulen, die zufällige Beispiele basierend auf den erlernten Merkmalen ausgeben können.

Ausgabe aus Skizzen in DeepFacePencil, das es Benutzern ermöglicht, photorealistische Gesichter aus Skizzen zu erstellen. Viele ähnliche Skizze-zu-Bild-Projekte existieren. Quelle: https://arxiv.org/pdf/2008.13343.pdf

Ausgabe aus Skizzen in DeepFacePencil, das es Benutzern ermöglicht, photorealistische Gesichter aus Skizzen zu erstellen. Viele ähnliche Skizze-zu-Bild-Projekte existieren. Quelle: https://arxiv.org/pdf/2008.13343.pdf

Hochdimensionale Merkmale sind unter den ersten, die während des Trainingsprozesses konkreter werden, und sind äquivalent zu den ersten breiten Pinselstrichen eines Malers auf einer Leinwand. Diese hochdimensionalen Merkmale werden letztendlich mit detaillierteren Merkmalen korrelieren (z. B. dem Glanz im Auge und den scharfen Schnurrhaaren einer Katze, anstatt nur einem generischen beige Farbklecks, der den Kopf darstellt).

Ich weiß, was du meinst…

Indem die Beziehung zwischen diesen frühen seminalen Formen und den letztendlich detaillierten Interpretationen, die viel später im Trainingsprozess erhalten werden, abgebildet wird, ist es möglich, Beziehungen zwischen ‘vagen’ und ‘spezifischen’ Bildern abzuleiten, was es Benutzern ermöglicht, komplexe und photorealistische Bilder aus groben Skizzen zu erstellen.

Kürzlich veröffentlichte NVIDIA eine Desktop-Version seiner langfristigen GauGAN-Forschung zur GAN-basierten Landschaftsgenerierung, die diese Prinzip leicht demonstriert:

Approximative Skizzen werden in reiche Landschaftsbilder durch NVIDIA's GauGAN und jetzt die NVIDIA Canvas-Anwendung übersetzt. Quelle: https://rossdawson.com/futurist/implications-of-ai/future-of-ai-image-synthesis/

Approximative Skizzen werden in reiche Landschaftsbilder durch NVIDIA’s GauGAN und jetzt die NVIDIA Canvas-Anwendung übersetzt. Quelle: https://rossdawson.com/futurist/implications-of-ai/future-of-ai-image-synthesis/

Ebenso haben mehrere Systeme wie DeepFacePencil das gleiche Prinzip verwendet, um skizzeninduzierte photorealistische Bildgeneratoren für verschiedene Domänen zu erstellen.

Die Architektur von DeepFacePencil.

Die Architektur von DeepFacePencil.

Vereinfachung von Skizze-zu-Bild

Der GAN-Skizzieransatz des neuen Papiers zielt darauf ab, die enorme Belastung durch Datensammlung und -kuratierung zu entfernen, die normalerweise bei der Entwicklung von GAN-Bildframeworks involviert ist, indem Benutzereingaben verwendet werden, um zu definieren, welche Teilmenge von Bildern die Trainingsdaten ausmachen sollte.

Das System wurde so konzipiert, dass es nur eine kleine Anzahl von Eingabeskizzen benötigt, um das Framework zu kalibrieren. Das System kehrt effektiv die Funktionalität von PhotoSketch um, einer gemeinsamen Forschungsinitiative von 2019 von Forschern von der Carnegie Mellon, Adobe, Uber ATG und Argo AI, die in die neue Arbeit eingebunden ist. PhotoSketch wurde entwickelt, um künstlerische Skizzen aus Bildern zu erstellen und enthält bereits die effektive Abbildung von vagen>spezifischen Bildschaffungsbeziehungen.

Für den Generierungsteil des Prozesses modifiziert die neue Methode nur die Gewichte von StyleGAN2. Da die verwendeten Bilddaten nur eine Teilmenge der gesamten verfügbaren Daten sind, reicht es aus, nur das Mapping-Netz zu modifizieren, um wünschenswerte Ergebnisse zu erhalten.

Die Methode wurde auf einer Reihe von beliebten Subdomänen getestet, einschließlich Pferden, Kirchen und Katzen.

Der LSUN-Datensatz von der Princeton University aus dem Jahr 2016 wurde als Kernmaterial verwendet, um die Ziel-Subdomänen abzuleiten. Um ein Skizzier-System zu erstellen, das robust gegenüber den Eigenheiten von Eingabeskizzen von Benutzern ist, wurde das System auf Bildern aus dem QuickDraw-Datensatz trainiert, der von Microsoft zwischen 2021-2016 entwickelt wurde.

Obwohl die Skizzier-Abbildungen zwischen PhotoSketch und QuickDraw unterschiedlich sind, fanden die Forscher heraus, dass ihr Framework gut darin ist, sie auf relativ einfachen Posen leicht zu überbrücken, während kompliziertere Posen (wie Katzen, die sich hinlegen) eine größere Herausforderung darstellen, während sehr abstrakte Benutzereingaben (z. B. übermäßig grobe Zeichnungen) auch die Qualität der Ergebnisse beeinträchtigen.

Latenter Raum und natürliche Bildbearbeitung

Die Forscher entwickelten zwei Anwendungen auf der Grundlage der Kernarbeit: latente Raumeditierung und Bildbearbeitung. Die latente Raumeditierung bietet interpretierbare Benutzersteuerungen, die während des Trainings ermöglicht werden und eine weite Variation ermöglichen, während sie dem Zielbereich treu bleiben und angenehm konsistent über Variationen hinweg sind.

Glatte latente Rauminterpolation mit den benutzerdefinierten Modellen von GAN-Skizzieren.

Glatte latente Rauminterpolation mit den benutzerdefinierten Modellen von GAN-Skizzieren.

Der latente Raumeditierungsbestandteil wurde durch das 2020 GANSpace-Projekt angetrieben, eine gemeinsame Initiative von der Aalto-Universität, Adobe und NVIDIA.

Ein einzelnes Bild kann auch an das benutzerdefinierte Modell gefüttert werden, wodurch natürliche Bildbearbeitung ermöglicht wird. In dieser Anwendung wird ein einzelnes Bild projiziert auf das benutzerdefinierte GAN, was nicht nur direkte Bearbeitung ermöglicht, sondern auch die Erhaltung höherer latenter Raumeditierung, wenn diese auch verwendet wird.

Hier wurde ein reales Bild als Eingabe für das GAN (Katzenmodell) verwendet, das die Eingabe bearbeitet, um den eingereichten Skizzen zu entsprechen. Dies ermöglicht Bildbearbeitung durch Skizzieren.

Hier wurde ein reales Bild als Eingabe für das GAN (Katzenmodell) verwendet, das die Eingabe bearbeitet, um den eingereichten Skizzen zu entsprechen. Dies ermöglicht Bildbearbeitung durch Skizzieren.

Obwohl konfigurierbar, ist das System nicht dafür ausgelegt, in Echtzeit zu funktionieren, zumindest nicht in Bezug auf Training und Kalibrierung. Derzeit benötigt GAN-Skizzieren 30.000 Trainingsiterationen. Das System erfordert auch Zugriff auf die ursprünglichen Trainingsdaten für das ursprüngliche Modell.

In Fällen, in denen die Datenmenge Open-Source ist und eine Lizenz hat, die das lokale Kopieren erlaubt, kann dies durch die Aufnahme der Quelldaten in ein lokal installiertes Paket ermöglicht werden, was jedoch erheblichen Festplattenspeicherplatz erfordern würde; oder durch den Zugriff auf oder die Verarbeitung von Daten remote, über einen Cloud-basierten Ansatz, was Netzwerkoverhead und (im Falle der tatsächlichen Verarbeitung in der Cloud) möglicherweise Rechenkostenaspekte einführt.

Transformationen von benutzerdefinierten FFHQ-Modellen, die nur mit 4 von Menschen erstellten Skizzen trainiert wurden.

Transformationen von benutzerdefinierten FFHQ-Modellen, die nur mit 4 von Menschen erstellten Skizzen trainiert wurden.

Autor über maschinelles Lernen, Domänen-Spezialist in der menschlichen Bildsynthese. Ehemaliger Leiter der Forschungsinhalte bei Metaphysic.ai.