Künstliche Intelligenz

Hochpräzise semantische Bildbearbeitung mit EditGAN

Published September 4, 2023

Updated April 4, 2026

Kunal Kejriwal

A person holding on the globe in his hands while standing in fields.

Generative Adversarial Networks oder GANs haben in den letzten Monaten neue Anwendungen in der Bildbearbeitungsindustrie gefunden. EditGAN gewinnt in der AI/ML-Industrie an Popularität, da es eine neuartige Methode für hochpräzise und hochwertige semantische Bildbearbeitung ist.

Wir werden uns mit dem EditGAN-Modell im Detail befassen und Ihnen erklären, warum es ein Meilenstein in der semantischen Bildbearbeitungsindustrie sein könnte.

Lassen Sie uns beginnen. Bevor wir jedoch herausfinden, was EditGAN ist, ist es wichtig, die Bedeutung von EditGAN und warum es ein wichtiger Schritt nach vorne ist, zu verstehen.

Warum EditGAN?

Obwohl traditionelle GAN-Architekturen der AI-basierten Bildbearbeitungsindustrie erheblich geholfen haben, gibt es einige große Herausforderungen bei der Erstellung einer GAN-Architektur von Grund auf.

Während der Trainingsphase benötigt eine GAN-Architektur eine große Menge an beschrifteten Daten mit semantischen Segmentierungsanmerkungen.
Sie sind nur in der Lage, eine hohe Kontrolle zu bieten.
Und oft interpolieren sie nur zwischen Bildern hin und her.

Es kann beobachtet werden, dass traditionelle GAN-Architekturen die Arbeit erledigen, aber nicht effektiv für eine breite Einsatz sind. Die unterdurchschnittliche Effizienz traditioneller GAN-Architekturen ist der Grund, warum EditGAN von NVIDIA im Jahr 2022 eingeführt wurde.

EditGAN soll eine effektive Methode für hochpräzise und hochwertige semantische Bildbearbeitung sein, die es Benutzern ermöglicht, Bilder durch Ändern ihrer detaillierten Segmentierungsmasken zu bearbeiten. Einer der Gründe, warum EditGAN eine skalierbare Methode für Bildbearbeitungsaufgaben ist, liegt in ihrer Architektur.

Das EditGAN-Modell basiert auf einem GAN-Rahmenwerk, das Bilder und ihre semantischen Segmentierungen gemeinsam modelliert und nur eine Handvoll beschrifteter oder annotierter Trainingsdaten benötigt. Die Entwickler von EditGAN haben versucht, ein Bild in den latenten Raum von GAN einzubetten, um das Bild effektiv durch konditionale latente Code-Optimierung gemäß der Segmentierungsbearbeitung zu ändern. Darüber hinaus versucht das Modell, “Bearbeitungsvektoren” im latenten Raum zu finden, die die Bearbeitungen realisieren.

Die Architektur des EditGAN-Rahmenwerks ermöglicht es dem Modell, eine beliebige Anzahl von Bearbeitungsvektoren zu erlernen, die dann direkt auf andere Bilder mit hoher Geschwindigkeit und Effizienz angewendet werden können. Darüber hinaus deuten experimentelle Ergebnisse darauf hin, dass EditGAN Bilder mit einer noch nie dagewesenen Detailgenauigkeit bearbeiten kann, während die Bildqualität maximal erhalten bleibt.

Um zusammenzufassen, warum wir EditGAN benötigen, ist es das erste GAN-basierte Bildbearbeitungsframework, das

Sehr hochpräzise Bearbeitung bietet.
Mit einer Handvoll beschrifteter Daten arbeiten kann.
Effektiv in Echtzeit-Szenarien eingesetzt werden kann.
Komposition für mehrere Bearbeitungen gleichzeitig ermöglicht.
Auf GAN-generierte, reale eingebettete und sogar außerhalb des Bereichs liegende Bilder funktioniert.

Hochpräzise semantische Bildbearbeitung mit EditGAN

StyleGAN2, ein State-of-the-Art-GAN-Rahmenwerk für Bildsynthese, ist die primäre Bildgenerierungskomponente von EditGAN. Das StyleGAN2-Rahmenwerk ordnet latente Codes zu, die aus einer Menge multivariater Normalverteilung gezogen werden, und ordnet sie in realistische Bilder ein.

StyleGAN2 ist ein tiefes generatives Modell, das trainiert wurde, um Bilder der höchsten Qualität möglich zu synthetisieren und gleichzeitig ein semantisches Verständnis der modellierten Bilder zu erwerben.

Segmentierungstraining und -inferenz

Das EditGAN-Modell bettet ein Bild in den latenten Raum von GAN ein, indem es Optimierung und einen Encoder verwendet, um eine Segmentierung auf einem neuen Bild durchzuführen und die Segmentierungsverzweigung zu trainieren. Das EditGAN-Rahmenwerk baut auf früheren Arbeiten auf und trainiert einen Encoder, um die Bilder im latenten Raum einzubetten. Das primäre Ziel hier ist, den Encoder mit Standard-Pixel-Weise-L2- und LPIPS-Konstruktionsverlusten unter Verwendung von GAN- und Echtzeit-Trainingsdaten zu trainieren.

Infolgedessen bettet das Modell die annotierten Bilder aus dem Dataset, die mit semantischer Segmentierung beschriftet sind, in den latenten Raum ein und verwendet Kreuzentropieverlust, um die Segmentierungsverzweigung des Generators zu trainieren.

Verwendung von Segmentierungsbearbeitung, um Semantik im latenten Raum zu finden

Der primäre Zweck von EditGAN ist es, die gemeinsame Verteilung von semantischen Segmentierungen und Bildern für hochpräzise Bildbearbeitung zu nutzen. Nehmen wir an, wir haben ein Bild x, das bearbeitet werden muss, so bettet das Modell das Bild in den latenten Raum von EditGAN ein oder verwendet die Beispielpictures des Modells selbst. Die Segmentierungsverzweigung generiert dann y oder die entsprechende Segmentierung, da sowohl RGB-Bilder als auch Segmentierungen die gleichen latenten Codes w teilen. Entwickler können dann beliebige Markierungs- oder Digitalmalktools verwenden, um die Segmentierung zu ändern und sie manuell gemäß ihren Anforderungen zu bearbeiten.

Unterschiedliche Arten von Bearbeitung während der Inferenz

Die im latenten Raum durch Optimierung erzielten Bearbeitungsvektoren können als semantisch bedeutsam beschrieben werden und sind oft entangled mit verschiedenen Attributen. Daher kann das Modell, um ein neues Bild zu bearbeiten, das Bild direkt in den latenten Raum einbetten und direkt die gleichen Bearbeitungsvorgänge durchführen, die das Modell zuvor gelernt hat, ohne die Optimierung von vorne herein zu wiederholen. Es wäre sicher zu sagen, dass die Bearbeitungsvektoren, die das Modell lernt, die Optimierung amortisieren, die ursprünglich erforderlich war, um das Bild zu bearbeiten.

Es ist erwähnenswert, dass Entwickler die Entangled-Verfahren noch nicht perfektioniert haben und Bearbeitungsvektoren oft nicht die besten Ergebnisse liefern, wenn sie auf andere Bilder angewendet werden. Dieses Problem kann jedoch durch Entfernen von Bearbeitungsartefakten aus anderen Teilen des Bildes durch Durchführen einiger zusätzlicher Optimierungsschritte während der Testzeit überwunden werden.

Basierend auf unseren aktuellen Erkenntnissen kann das EditGAN-Rahmenwerk auf drei verschiedene Arten verwendet werden, um Bilder zu bearbeiten.

Echtzeit-Bearbeitung mit Bearbeitungsvektoren

Für Bilder, die lokalisiert und entangled sind, bearbeitet das Modell die Bilder, indem es Bearbeitungsvektoren mit verschiedenen Skalen anwendet und die Bilder mit interaktiven Raten manipuliert.

Verwendung von Selbstüberwachter-Verfeinerung für vektorbasierte Bearbeitung

Für die Bearbeitung von lokalisierten Bildern, die nicht perfekt entangled mit anderen Teilen des Bildes sind, initialisiert das Modell die Bildbearbeitung unter Verwendung von zuvor gelernten Bearbeitungsvektoren und entfernt Bearbeitungsartefakte durch Durchführen einiger zusätzlicher Optimierungsschritte während der Testzeit.

Optimierungs-basierte Bearbeitung

Um große und bildspezifische Bearbeitungen durchzuführen, führt das Modell die Optimierung von vorne herein durch, da Bearbeitungsvektoren nicht verwendet werden können, um diese Arten von Übertragungen auf andere Bilder durchzuführen.

Implementierung

Das EditGAN-Rahmenwerk wird auf Bildern aus vier verschiedenen Kategorien ausgewertet: Autos, Vögel, Katzen und Gesichter. Die Segmentierungsverzweigung des Modells wird trainiert, indem Bild-Masken-Paare von 16, 30, 30, 16 als beschriftete Trainingsdaten für Autos, Vögel, Katzen und Gesichter verwendet werden. Wenn das Bild rein durch Optimierung oder wenn das Modell versucht, die Bearbeitungsvektoren zu erlernen, führt das Modell 100 Optimierungsschritte mit dem Adam-Optimizer durch.

Für die Katzen-, Auto- und Gesichtsdatensätze verwendet das Modell reale Bilder aus dem DatasetGAN-Testset, die nicht zum Trainieren des GAN-Rahmenwerks verwendet wurden, um die Bearbeitungsfunktion durchzuführen. Diese Bilder werden direkt in den latenten Raum von EditGAN eingebettet, indem Optimierung und Kodierung verwendet werden. Für die Vogelkategorie wird die Bearbeitung auf GAN-generierten Bildern gezeigt.

Ergebnisse

Qualitative Ergebnisse

In-Domain-Ergebnisse

Das obige Bild zeigt die Leistung des EditGAN-Rahmenwerks, wenn es die zuvor gelernten Bearbeitungsvektoren auf neue Bilder anwendet und die Bilder unter Verwendung von 30 Optimierungsschritten verfeinert. Diese Bearbeitungsvorgänge, die vom EditGAN-Rahmenwerk durchgeführt werden, sind für alle Klassen entangled und bewahren die Gesamtbildqualität.

Was erstaunlich ist, ist, dass das EditGAN-Rahmenwerk extrem hochpräzise Bearbeitungen wie die Dilatation der Pupillen oder die Bearbeitung der Radspeichen in den Reifen eines Autos durchführen kann. Darüber hinaus kann EditGAN auch verwendet werden, um semantische Teile von Objekten zu bearbeiten, die nur wenige Pixel haben, oder um große Änderungen an einem Bild vorzunehmen.

Außerhalb des Bereichs liegende Ergebnisse

Um die Leistung von EditGAN außerhalb des Bereichs zu bewerten, wurde das Rahmenwerk auf dem MetFaces-Datensatz getestet. Das EditGAN-Modell verwendet In-Domain-Echtgesichter, um Bearbeitungsvektoren zu erstellen. Das Modell bettet dann MetFaces-Porträts, die außerhalb des Bereichs liegen, unter Verwendung eines 100-Schritt-Optimierungsprozesses ein und wendet die Bearbeitungsvektoren unter Verwendung eines 30-Schritt-Selbstüberwachungs-Verfeinerungsprozesses an.

Quantitative Ergebnisse

Um die Bildbearbeitungsfähigkeiten von EditGAN quantitativ zu messen, verwendet das Modell einen Lächel-Bearbeitungs-Benchmark, der ursprünglich von MaskGAN eingeführt wurde. Gesichter mit neutraler Ausdrucksweise werden durch lächelnde Gesichter ersetzt und die Leistung wird über drei Parameter gemessen.

Semantische Korrektheit

Das Modell verwendet einen vorgefertigten Lächel-Attribut-Klassifizierer, um zu messen, ob die Gesichter in den Bildern nach der Bearbeitung lächelnde Ausdrucksweise zeigen.

Bildqualität auf Verteilungsebene

Kernel-Inception-Distanz oder KID und Frechet-Inception-Distanz oder FID werden zwischen dem CelebA-Testdatensatz und 400 bearbeiteten Testbildern berechnet.

Identitätsbewahrung

Die Fähigkeit des Modells, die Identität der Subjekte zu bewahren, wenn das Bild bearbeitet wird, wird unter Verwendung eines vorgefertigten ArcFace-Feature-Extraktionsnetzwerks gemessen.

Die obige Tabelle vergleicht die Leistung des EditGAN-Rahmenwerks mit anderen Basismodellen im Lächel-Bearbeitungs-Benchmark. Die Methode, die vom EditGAN-Rahmenwerk zur Erzielung solcher hohen Ergebnisse verfolgt wird, wird mit drei verschiedenen Basismodellen verglichen:

MaskGAN

MaskGAN verwendet nicht lächelnde Bilder zusammen mit ihren Segmentierungsanmerkungen und einer Ziel-Lächel-Segmentierungsanmerkung als Eingabe. Es ist erwähnenswert, dass das MaskGAN-Rahmenwerk im Vergleich zu EditGAN eine große Menge an annotierten Daten erfordert.

Lokale Bearbeitung

EditGAN vergleicht auch seine Leistung mit lokaler Bearbeitung, einer Methode, die verwendet wird, um GAN-Features zu clustern, um lokale Bearbeitung durchzuführen, und die von Referenzbildern abhängt.

InterFaceGAN

Ähnlich wie EditGAN versucht auch InterFaceGAN, Bearbeitungsvektoren im latenten Raum des Modells zu finden. Im Gegensatz zu EditGAN verwendet das InterFaceGAN-Modell jedoch eine große Menge an annotierten Daten, Hilfsattribut-Klassifizierer und hat keine feine Bearbeitungspräzision.

StyleGAN2Destillation

Diese Methode schafft einen alternativen Ansatz, der keine echten Bild-Einbettungen erfordert, sondern stattdessen ein Bearbeitungs-Vektor-Modell verwendet, um ein Trainingsdatensatz zu erstellen.

Beschränkungen

Da EditGAN auf dem GAN-Rahmenwerk basiert, hat es die gleichen Beschränkungen wie jedes andere GAN-Modell: Es kann nur mit Bildern funktionieren, die von GAN modelliert werden können. Die Beschränkung von EditGAN, nur mit GAN-modellierten Bildern zu funktionieren, ist der Hauptgrund, warum es schwierig ist, EditGAN in verschiedenen Szenarien umzusetzen.

Schlussfolgerung

Einer der Hauptgründe, warum GAN nicht der Industriestandard im Bereich der Bildbearbeitung ist, liegt in seiner begrenzten Praktikabilität. GAN-Rahmenwerke erfordern in der Regel eine große Menge an annotierten Trainingsdaten und liefern oft keine hohe Effizienz und Genauigkeit.

EditGAN zielt darauf ab, die Probleme, die durch konventionelle GAN-Rahmenwerke aufgeworfen werden, zu lösen, und versucht, eine effektive Methode für hochwertige und hochpräzise semantische Bildbearbeitung zu sein. Die Ergebnisse deuten bisher darauf hin, dass EditGAN tatsächlich das bietet, was es verspricht, und bereits besser als einige der aktuellen Industriestandards und -modelle funktioniert.

Kunal Kejriwal

Ein Ingenieur von Beruf, ein Schriftsteller von Herzen. Kunal ist ein technischer Schriftsteller mit einer tiefen Liebe und einem tiefen Verständnis für KI und ML, der sich der Aufgabe widmet, komplexe Konzepte in diesen Bereichen durch seine ansprechenden und informativen Dokumentationen zu vereinfachen.