Künstliche Intelligenz

NVIDIA’s eDiffi-Diffusionsmodell ermöglicht ‘Malen mit Worten’ und mehr

Published November 3, 2022

Updated April 28, 2026

Martin Anderson

Das Erstellen präziser Kompositionen mit latenten Diffusions-Generierungsmodellen für Bilder, wie z.B. Stable Diffusion, kann wie das Herden von Katzen sein; die gleichen imaginativen und interpretativen Kräfte, die es dem System ermöglichen, außergewöhnliche Details zu erstellen und außergewöhnliche Bilder aus relativ einfachen Text-Prompts zu erzeugen, sind auch schwierig zu deaktivieren, wenn Sie nach Photoshop-Ähnlicher Kontrolle über die Bildgenerierung suchen.

Jetzt ermöglicht ein neuer Ansatz von NVIDIA-Forschung, betitelt Ensemble-Diffusion für Bilder (eDiffi), durch die Verwendung einer Mischung aus mehreren Einbettungs- und interpretativen Methoden (anstatt der gleichen Methode auf dem gesamten Pipeline), eine weit größere Kontrolle über den generierten Inhalt. Im folgenden Beispiel sehen wir einen Benutzer, der Elemente malt, wobei jede Farbe ein einzelnes Wort aus einem Text-Prompt darstellt:

‘Malen mit Worten’ ist eine der beiden neuen Fähigkeiten in NVIDIA’s eDiffi-Diffusionsmodell. Jede aufgetragene Farbe repräsentiert ein Wort aus dem Prompt (siehe sie während der Generierung auf der linken Seite), und die aufgetragene Farbe besteht nur aus diesem Element. Siehe Quelle (offizielles) Video für mehr Beispielen und besserer Auflösung bei https://www.youtube.com/watch?v=k6cOx9YjHJc

Effektiv ist dies ‘Malen mit Masken’, und kehrt das Inpainting-Paradigma in Stable Diffusion um, das auf der Grundlage von fehlerhaften oder unzufriedenstellenden Bildern basiert, oder auf Bildern, die als gewünschte Größe zu Beginn hätten sein können.

Hier jedoch repräsentieren die Ränder der gemalten Farbe die erlaubten ungefähren Grenzen eines einzigen einzigartigen Elements aus einem einzelnen Konzept, was es dem Benutzer ermöglicht, die endgültige Größe des Canvas von Anfang an festzulegen und dann diskret Elemente hinzufügen.

Beispiele aus dem neuen Paper. Quelle: https://arxiv.org/pdf/2211.01324.pdf

Die vielfältigen Methoden, die in eDiffi eingesetzt werden, bedeuten auch, dass das System eine viel bessere Arbeit leistet, wenn es darum geht, jedes Element in langen und detaillierten Prompts einzubeziehen, während Stable Diffusion und OpenAI’s DALL-E 2 bestimmte Teile des Prompts priorisieren, je nachdem, wie früh die Zielwörter im Prompt erscheinen oder aufgrund anderer Faktoren, wie der potenziellen Schwierigkeit, die verschiedenen Elemente notwendig für eine vollständige, aber umfassende (im Hinblick auf den Text-Prompt) Komposition zu trennen:

Aus dem Paper: eDiffi ist in der Lage, gründlicher durch den Prompt zu iterieren, bis die maximale mögliche Anzahl von Elementen gerendert wurde. Obwohl die verbesserten Ergebnisse für eDiffi (rechte Spalte) ausgewählt sind, sind auch die Vergleichsbilder von Stable Diffusion und DALL-E 2 ausgewählt.

Zusätzlich ermöglicht die Verwendung eines dedizierten T5-Text-zu-Text-Encoders, dass eDiffi in der Lage ist, verständlichen englischen Text zu rendern, entweder abstrakt aus einem Prompt angefordert (d.h. Bild enthält einige Texte von [x]) oder explizit angefordert (d.h. Das T-Shirt sagt ‘Nvidia Rocks’):

Dedizierter Text-zu-Text-Verarbeitung in eDiffi bedeutet, dass Text wörtlich in Bildern gerendert werden kann, anstatt nur durch eine Text-zu-Bild-Interpretationsebene, die die Ausgabe verfälscht.

Ein weiterer Vorteil des neuen Frameworks ist, dass es auch möglich ist, ein einzelnes Bild als Stil-Prompt bereitzustellen, anstatt ein DreamBooth-Modell oder eine textuelle Einbettung auf mehrere Beispiele eines Genres oder Stils trainieren zu müssen.

Stil-Transfer kann von einem Referenzbild auf einen Text-zu-Bild-Prompt oder sogar einen Bild-zu-Bild-Prompt angewendet werden.

Das neue Paper ist betitelt eDiffi: Text-zu-Bild-Diffusionsmodelle mit einem Ensemble von Experten-Desnoisern, und

Der T5-Text-Encoder

Die Verwendung von Google’s Text-zu-Text-Transfer-Transformer (T5) ist das entscheidende Element in den verbesserten Ergebnissen, die in eDiffi demonstriert werden. Die durchschnittliche latente Diffusions-Pipeline konzentriert sich auf die Assoziation zwischen trainierten Bildern und den Begleittexten, die sie begleiteten, als sie aus dem Internet gesammelt oder manuell später angepasst wurden (obwohl dies ein teurer und daher seltener Eingriff ist).

Aus dem Juli 2020-Paper für T5 – textbasierte Transformationen, die den generativen Bild-Workflow in eDiffi (und potenziell anderen latenten Diffusionsmodellen) unterstützen können. Quelle: https://arxiv.org/pdf/1910.10683.pdf

Durch die Umformulierung des Quelltextes und das Ausführen des T5-Moduls können genauere Assoziationen und Darstellungen erhalten werden als ursprünglich im Modell trainiert, fast ähnlich wie post facto manuelle Markierung, mit größerer Spezifität und Anwendbarkeit auf die Vorgaben des angeforderten Text-Prompts.

Die Autoren erklären:

‘In den meisten bestehenden Arbeiten zu Diffusionsmodellen wird das Desnoisierungsmodell über alle Rauschstufen gemeinsam genutzt, und die zeitliche Dynamik wird durch eine einfache Zeit-Einbettung dargestellt, die dem Desnoisierungsmodell über ein MLP-Netzwerk zugeführt wird. Wir argumentieren, dass die komplexen zeitlichen Dynamiken der Desnoisierungs-Diffusion möglicherweise nicht effektiv aus Daten gelernt werden können, indem ein gemeinsames Modell mit begrenzter Kapazität verwendet wird.

‘Stattdessen schlagen wir vor, die Kapazität des Desnoisierungsmodells durch die Einführung eines Ensembles von Experten-Desnoisern zu erhöhen; jeder Experte-Desnoiser ist ein Desnoisierungsmodell, das für einen bestimmten Bereich von Rauschstufen spezialisiert ist. Auf diese Weise können wir die Modellkapazität erhöhen, ohne die Stichprobenentnahme zu verlangsamen, da die Rechenkomplexität der Auswertung [des verarbeiteten Elements] bei jedem Rauschstufe gleich bleibt.’

Konzeptioneller Workflow für eDiffi.

Die bestehenden CLIP-Codiermodule, die in DALL-E 2 und Stable Diffusion enthalten sind, sind auch in der Lage, alternative Bildinterpretationen für Texte in Bezug auf Benutzereingaben zu finden. Sie sind jedoch auf ähnliche Informationen wie das ursprüngliche Modell trainiert und werden nicht als separate Interpretationsebene in der gleichen Weise wie T5 in eDiffi verwendet.

Die Autoren stellen fest, dass eDiffi das erste Mal ist, dass sowohl ein T5- als auch ein CLIP-Encoder in eine einzelne Pipeline integriert wurden:

’Da diese beiden Encoder mit unterschiedlichen Zielen trainiert wurden, bevorzugen ihre Einbettungen die Bildung unterschiedlicher Bilder mit dem gleichen Eingabetext. Während CLIP-Text-Einbettungen helfen, das globale Aussehen der generierten Bilder zu bestimmen, neigen die Ausgaben dazu, die feinen Details im Text zu verpassen.

‘Im Gegensatz dazu spiegeln Bilder, die mit T5-Text-Einbettungen allein generiert werden, die einzelnen Objekte, die im Text beschrieben werden, besser wider, aber ihr globales Aussehen ist weniger genau. Die gemeinsame Verwendung beider ergibt die besten Bildgenerierungs-Ergebnisse in unserem Modell.’

Unterbrechen und Ergänzen des Diffusionsprozesses

Das Paper bemerkt, dass ein typisches latentes Diffusionsmodell den Weg von reinem Rauschen zu einem Bild beginnt, indem es sich ausschließlich auf Text im frühen Stadium der Generierung verlässt.

Wenn das Rauschen in eine Art grobe Layout aufgelöst wird, das die Beschreibung im Text-Prompt darstellt, fällt die textgeführte Facette des Prozesses im Wesentlichen weg, und der Rest des Prozesses konzentriert sich auf die Ergänzung der visuellen Merkmale.

Dies bedeutet, dass jedes Element, das nicht im naszenten Stadium der textgeführten Rauschinterpretation aufgelöst wurde, schwierig in das Bild später injiziert werden kann, da die beiden Prozesse (Text-zu-Layout und Layout-zu-Bild) relativ wenig Überschneidung haben und das grundlegende Layout ziemlich verflochten ist, wenn es zum Bild-Ergänzungsprozess gelangt.

Aus dem Paper: die Aufmerksamkeitskarten verschiedener Teile der Pipeline, während der Rauschen-Bild-Prozess heranreift. Wir können den steilen Abfall der CLIP-Einflussnahme des Bildes in der unteren Zeile sehen, während T5 den Bildprozess weiterhin beeinflusst.

Professionelles Potenzial

Die Beispiele auf der Projektseite und dem YouTube-Video konzentrieren sich auf PR-freundliche Generierung von meme-tastischen niedlichen Bildern. Wie üblich spielt NVIDIA-Forschung die potenzielle Bedeutung ihrer neuesten Innovation herunter, um photorealistische oder VFX-Workflows zu verbessern, sowie ihre potenzielle Verbesserung von Deepfake-Bildern und -Videos.

In den Beispielen skizziert ein Anfänger oder ein Amateur-Benutzer grobe Umrisse der Platzierung für das spezifische Element, während in einem systematischeren VFX-Workflow es möglich sein könnte, eDiffi zu verwenden, um mehrere Frames eines Video-Elements mithilfe von Text-zu-Bild zu interpretieren, wobei die Umrisse sehr präzise sind und aufgrund von, zum Beispiel, Figuren basieren, bei denen der Hintergrund durch Green-Screen oder algorithmische Methoden entfernt wurde.

Runway ML bietet bereits AI-basiertes Rotoskopieren. In diesem Beispiel repräsentiert der ‘Green Screen’ um das Thema herum die Alpha-Schicht, während die Extraktion durch maschinelles Lernen und nicht durch algorithmische Entfernung eines realen Green-Screen-Hintergrunds erfolgt ist. Quelle: https://twitter.com/runwayml/status/1330978385028374529

Mit einem trainierten DreamBooth-Charakter und einer Bild-zu-Bild-Pipeline mit eDiffi könnte es potenziell möglich sein, eines der Hauptprobleme jedes latenten Diffusionsmodells zu lösen: temporale Stabilität. In einem solchen Fall wären sowohl die Ränder des aufgetragenen Bildes als auch der Inhalt des Bildes ‘vorab gegen den Benutzer-Canvas gefloatet’, mit temporaler Kontinuität des gerenderten Inhalts (d.h. die Umwandlung eines realen Tai-Chi-Praktikers in einen Roboter) durch die Verwendung eines gesperrten DreamBooth-Modells, das seine Trainingsdaten ‘memorisiert’ hat – schlecht für Interpretierbarkeit, großartig für Reproduzierbarkeit, Treue und Kontinuität.

Methode, Daten und Tests

Das Paper besagt, dass das eDiffi-Modell auf ‘einer Sammlung von öffentlichen und proprietären Datensätzen’ trainiert wurde, stark gefiltert durch ein vortrainiertes CLIP-Modell, um Bilder zu entfernen, die wahrscheinlich den allgemeinen ästhetischen Score der Ausgabe senken. Die endgültige gefilterte Bildmenge umfasst ‘etwa eine Milliarde’ Text-Bild-Paare. Die Größe der trainierten Bilder wird als ‘mit der kürzeren Seite größer als 64 Pixel’ beschrieben.

Eine Reihe von Modellen wurde für den Prozess trainiert, wobei sowohl das Basis- als auch das Super-Auflösungsmodell mit dem AdamW-Optimizer bei einer Lernrate von 0,0001, mit einem Gewichtsverfall von 0,01 und bei einer beeindruckenden Batch-Größe von 2048 trainiert wurden.

Das Basis-Modell wurde auf 256 NVIDIA A100-GPUs trainiert, und die beiden Super-Auflösungsmodelle auf 128 NVIDIA A100-GPUs für jedes Modell.

Das System basierte auf NVIDIA’s eigener Imaginaire-PyTorch-Bibliothek. COCO– und Visual-Genome-Datensätze wurden für die Bewertung verwendet, obwohl sie nicht in den endgültigen Modellen enthalten waren, wobei MS-COCO die spezifische Variante für die Tests war. Rivalisierende Systeme, die getestet wurden, waren GLIDE, Make-A-Scene, DALL-E 2, Stable Diffusion, und Google’s zwei Bildsynthese-Systeme, Imagen und Parti.

In Übereinstimmung mit ähnlichen früheren Arbeiten, wurde Zero-Shot-FID-30K als Bewertungsmetrik verwendet. Unter FID-30K wurden 30.000 Kapitel aus dem COCO-Validierungs-Set (d.h. nicht die Bilder oder Texte, die zum Training verwendet wurden) zufällig extrahiert, die dann als Text-Prompts für die Synthese von Bildern verwendet wurden.

Die Frechet-Inception-Distanz (FID) zwischen den generierten und den Grundwahrheitsbildern wurde dann berechnet, zusätzlich zu den aufgezeichneten CLIP-Scores für die generierten Bilder.

Ergebnisse aus den Zero-Shot-FID-Tests gegen aktuelle State-of-the-Art-Ansätze auf dem COCO-2014-Validierungs-Datensatz, wobei niedrigere Ergebnisse besser sind.

In den Ergebnissen konnte eDiffi den niedrigsten (besten) Score bei Zero-Shot-FID erzielen, sogar gegen Systeme mit einer viel höheren Anzahl von Parametern, wie die 20 Milliarden Parameter von Parti, im Vergleich zu den 9,1 Milliarden Parametern im höchstspezifizierten eDiffi-Modell, das für die Tests trainiert wurde.

Schlussfolgerung

NVIDIA’s eDiffi stellt eine willkommene Alternative dar, anstatt einfach größere und größere Mengen an Daten und Komplexität zu bestehenden Systemen hinzuzufügen, sondern stattdessen einen intelligenten und geschichteten Ansatz für einige der schwierigsten Hindernisse in Bezug auf Verflechtung und Nicht-Editierbarkeit in latenten Diffusions-Generierungs-Systemen für Bilder zu verwenden.

Es gibt bereits Diskussionen in den Stable-Diffusion-Subreddits und -Discords, entweder direkt den Code zu übernehmen, der für eDiffi verfügbar gemacht wird, oder die Prinzipien hinter ihm in einer separaten Implementierung umzusetzen. Die neue Pipeline ist jedoch so radikal anders, dass sie eine gesamte Versionsnummer der Änderung für SD darstellen würde, einige Rückwärtskompatibilität aufgeben, aber die Möglichkeit bieten würde, die Kontrolle über die finalen synthetisierten Bilder erheblich zu verbessern, ohne die faszinierenden imaginativen Kräfte der latenten Diffusion zu opfern.

Erstveröffentlicht am 3. November 2022.