Stummel Das eDiffi-Diffusionsmodell von NVIDIA ermöglicht „Malen mit Worten“ und mehr – Unite.AI
Vernetzen Sie sich mit uns

Künstliche Intelligenz

Das eDiffi-Diffusionsmodell von NVIDIA ermöglicht „Malen mit Worten“ und mehr

mm
Aktualisiert on

Der Versuch, präzise Kompositionen mit generativen Bildmodellen mit latenter Diffusion zu erstellen, wie z Stable Diffusion kann wie das Hüten von Katzen sein; Es verfügt auch über dieselben Vorstellungs- und Interpretationsfähigkeiten, die es dem System ermöglichen, aus relativ einfachen Textaufforderungen außergewöhnliche Details zu erzeugen und außergewöhnliche Bilder hervorzurufen schwer auszuschalten wenn Sie die Kontrolle über eine Bildgenerierung auf Photoshop-Niveau suchen.

Nun ein neuer Ansatz aus der NVIDIA-Forschung mit dem Titel Ensemble-Diffusion für Bilder (eDiffi) verwendet eine Mischung aus mehreren Einbettungs- und Interpretationsmethoden (anstelle derselben Methode in der gesamten Pipeline), um ein weitaus höheres Maß an Kontrolle über den generierten Inhalt zu ermöglichen. Im folgenden Beispiel sehen wir, wie ein Benutzer Elemente malt, wobei jede Farbe ein einzelnes Wort aus einer Textaufforderung darstellt:

„Malen mit Worten“ ist eine der beiden neuartigen Funktionen im eDiffi-Diffusionsmodell von NVIDIA. Jede getupfte Farbe stellt ein Wort aus der Eingabeaufforderung dar (sehen Sie, wie sie während der Generierung links angezeigt werden), und die angewendete Bereichsfarbe besteht nur aus diesem Element. Am Ende des Artikels finden Sie ein eingebettetes offizielles Video mit weiteren Beispielen und besserer Auflösung. Quelle: https://www.youtube.com/watch?v=k6cOx9YjHJc

„Malen mit Worten“ ist eine der beiden neuartigen Funktionen im eDiffi-Diffusionsmodell von NVIDIA. Jede getupfte Farbe stellt ein Wort aus der Eingabeaufforderung dar (sehen Sie, wie sie während der Generierung links angezeigt werden), und die angewendete Bereichsfarbe besteht nur aus diesem Element. Weitere Beispiele und eine bessere Auflösung finden Sie im (offiziellen) Quellvideo unter https://www.youtube.com/watch?v=k6cOx9YjHJc

Tatsächlich ist dies „Malen mit Masken“ und kehrt das i umnMalerei-Paradigma Bei Stable Diffusion geht es darum, defekte oder unbefriedigende Bilder zu reparieren oder Bilder zu erweitern, die auch von vornherein die gewünschte Größe hätten haben können.

Hier stellen die Ränder des gemalten Flecks stattdessen die zulässigen ungefähren Grenzen nur eines einzelnen Elements aus einem einzelnen Konzept dar, sodass der Benutzer von Anfang an die endgültige Leinwandgröße festlegen und dann diskret Elemente hinzufügen kann.

Beispiele aus dem neuen Papier. Quelle: https://arxiv.org/pdf/2211.01324.pdf

Beispiele aus dem neuen Papier. Quelle: https://arxiv.org/pdf/2211.01324.pdf

Die vielfältigen Methoden, die in eDiffi eingesetzt werden, bedeuten auch, dass das System jedes Element weitaus besser in lange und detaillierte Eingabeaufforderungen einbinden kann, während Stable Diffusion und DALL-E 2 von OpenAI dazu neigen, bestimmte Teile der Eingabeaufforderung zu priorisieren, je nachdem, wie früh die Eingabeaufforderung ist Zielwörter erscheinen in der Aufforderung oder auf anderen Faktoren, wie etwa der potenziellen Schwierigkeit, die verschiedenen Elemente zu entwirren, die für eine vollständige, aber umfassende (in Bezug auf die Textaufforderung) Komposition erforderlich sind:

Aus dem Artikel: eDiffi ist in der Lage, die Eingabeaufforderung gründlicher zu durchlaufen, bis die maximal mögliche Anzahl von Elementen gerendert wurde. Obwohl die verbesserten Ergebnisse für eDiffi (Spalte ganz rechts) Rosinenpickerei sind, gilt dies auch für die Vergleichsbilder von Stable Diffusion und DALL-E 2.

Aus dem Artikel: eDiffi ist in der Lage, die Eingabeaufforderung gründlicher zu durchlaufen, bis die maximal mögliche Anzahl von Elementen gerendert wurde. Obwohl die verbesserten Ergebnisse für eDiffi (Spalte ganz rechts) Rosinenpickerei sind, gilt dies auch für die Vergleichsbilder von Stable Diffusion und DALL-E 2.

Darüber hinaus ist die Verwendung eines dedizierten T5 Text-zu-Text-Encoder bedeutet, dass eDiffi in der Lage ist, verständlichen englischen Text wiederzugeben, der entweder abstrakt über eine Eingabeaufforderung angefordert wird (d. h Bild enthält Text von [x]) oder ausdrücklich angefordert (d. h Auf dem T-Shirt steht „Nvidia Rocks“.):

Die spezielle Text-zu-Text-Verarbeitung in eDiffi bedeutet, dass Text wörtlich in Bildern wiedergegeben werden kann, anstatt nur durch eine Text-zu-Bild-Interpretationsebene geleitet zu werden, die die Ausgabe verstümmelt.

Die spezielle Text-zu-Text-Verarbeitung in eDiffi bedeutet, dass Text wörtlich in Bildern wiedergegeben werden kann, anstatt nur durch eine Text-zu-Bild-Interpretationsebene geleitet zu werden, die die Ausgabe verstümmelt.

Ein weiterer Vorteil des neuen Frameworks besteht darin, dass es möglich ist, auch ein einzelnes Bild als Stilaufforderung bereitzustellen, anstatt ein DreamBooth-Modell oder eine Texteinbettung auf mehreren Beispielen eines Genres trainieren zu müssen Stil.

Die Stilübertragung kann von einem Referenzbild auf eine Text-zu-Bild-Eingabeaufforderung oder sogar eine Bild-zu-Bild-Eingabeaufforderung angewendet werden.

Die Stilübertragung kann von einem Referenzbild auf eine Text-zu-Bild-Eingabeaufforderung oder sogar eine Bild-zu-Bild-Eingabeaufforderung angewendet werden.

Das neues Papier ist betitelt eDiffi: Text-zu-Bild-Diffusionsmodelle mit einem Ensemble erfahrener Denoiser und

Der T5-Textkodierer

Die Verwendung von Googles TExt-to-Text Transfer Transformer (T5) ist das entscheidende Element für die verbesserten Ergebnisse, die in eDiffi gezeigt wurden. Die durchschnittliche latente Diffusionspipeline konzentriert sich auf die Assoziation zwischen trainierten Bildern und den Bildunterschriften, die sie begleiteten, als sie aus dem Internet entfernt wurden (oder später manuell angepasst wurden, obwohl dies ein teurer und daher seltener Eingriff ist).

Aus dem Artikel vom Juli 2020 für T5 – textbasierte Transformationen, die den generativen Bildworkflow in eDiffi (und möglicherweise auch anderen latenten Diffusionsmodellen) unterstützen können. Quelle: https://arxiv.org/pdf/1910.10683.pdf

Aus dem Artikel vom Juli 2020 für T5 – textbasierte Transformationen, die den generativen Bildworkflow in eDiffi (und möglicherweise auch anderen latenten Diffusionsmodellen) unterstützen können. Quelle: https://arxiv.org/pdf/1910.10683.pdf

Durch Umformulieren des Quelltextes und Ausführen des T5-Moduls können genauere Assoziationen und Darstellungen erhalten werden, als sie ursprünglich in das Modell eingelernt wurden, fast vergleichbar mit Post facto manuelle Beschriftung, mit größerer Spezifität und Anwendbarkeit auf die Vorgaben der angeforderten Textaufforderung.

Die Autoren erklären:

„In den meisten existierenden Arbeiten zu Diffusionsmodellen wird das Entrauschungsmodell für alle Geräuschpegel gemeinsam genutzt und die zeitliche Dynamik wird durch eine einfache zeitliche Einbettung dargestellt, die über ein MLP-Netzwerk in das Entrauschungsmodell eingespeist wird.“ Wir argumentieren, dass die komplexe zeitliche Dynamik der Entrauschungsdiffusion unter Verwendung eines gemeinsamen Modells mit begrenzter Kapazität möglicherweise nicht effektiv aus Daten gelernt werden kann.

„Stattdessen schlagen wir vor, die Kapazität des Denoising-Modells durch die Einführung eines Ensembles von Experten-Denoising-Modellen zu erweitern; Jeder Experten-Denoiser ist ein Entrauschungsmodell, das auf einen bestimmten Bereich von Geräuschpegeln spezialisiert ist. Auf diese Weise können wir die Modellkapazität erhöhen, ohne die Abtastung zu verlangsamen, da die rechnerische Komplexität der Bewertung [des verarbeiteten Elements] bei jedem Rauschpegel gleich bleibt.“

Konzeptioneller Workflow für eDiffi.

Konzeptioneller Workflow für eDiffi.

Die bestehende CLIP Die in DALL-E 2 und Stable Diffusion enthaltenen Kodierungsmodule sind auch in der Lage, alternative Bildinterpretationen für Text im Zusammenhang mit Benutzereingaben zu finden. Sie basieren jedoch auf ähnlichen Informationen wie das Originalmodell und werden nicht wie T5 in eDiffi als separate Interpretationsebene verwendet.

Die Autoren geben an, dass eDiffi das erste Mal ist, dass sowohl ein T5- als auch ein CLIP-Encoder in eine einzige Pipeline integriert wurden:

„Da diese beiden Encoder mit unterschiedlichen Zielen trainiert werden, begünstigen ihre Einbettungen die Bildung unterschiedlicher Bilder mit demselben Eingabetext.“ Während CLIP-Texteinbettungen dabei helfen, das globale Erscheinungsbild der generierten Bilder zu bestimmen, fehlen in den Ausgaben häufig die feinkörnigen Details im Text.

„Im Gegensatz dazu spiegeln Bilder, die allein mit T5-Texteinbettungen generiert wurden, die einzelnen im Text beschriebenen Objekte besser wider, ihr Gesamtbild ist jedoch weniger genau.“ Wenn wir sie gemeinsam nutzen, erzielen wir in unserem Modell die besten Ergebnisse bei der Bilderzeugung.“

Den Diffusionsprozess unterbrechen und verstärken

In dem Artikel wird darauf hingewiesen, dass ein typisches latentes Diffusionsmodell den Weg vom reinen Rauschen zum Bild beginnt, indem es sich in den frühen Stadien der Generation ausschließlich auf Text verlässt.

Wenn sich das Rauschen in eine Art grobes Layout auflöst, das die Beschreibung in der Textaufforderung darstellt, verschwindet der textgesteuerte Aspekt des Prozesses im Wesentlichen, und der Rest des Prozesses verlagert sich auf die Erweiterung der visuellen Funktionen.

Dies bedeutet, dass jedes Element, das in der Anfangsphase der textgesteuerten Rauschinterpretation nicht gelöst wurde, später nur schwer in das Bild eingefügt werden kann, da die beiden Prozesse (Text-zu-Layout und Layout-zu-Bild) relativ wenig Überlappung aufweisen , und das Grundlayout ist ziemlich kompliziert, wenn es zum Bildvergrößerungsprozess kommt.

Aus dem Artikel: Die Aufmerksamkeitskarten verschiedener Teile der Pipeline, während der Noise-Image-Prozess ausgereift ist. Wir können den starken Abfall des CLIP-Einflusses des Bildes in der unteren Reihe erkennen, während T5 das Bild noch viel weiter im Renderprozess beeinflusst.

Aus dem Artikel: Die Aufmerksamkeitskarten verschiedener Teile der Pipeline, während der Noise-Image-Prozess ausgereift ist. Wir können den starken Abfall des CLIP-Einflusses des Bildes in der unteren Reihe erkennen, während T5 das Bild noch viel weiter im Renderprozess beeinflusst.

Berufliches Potenzial

Die Beispiele auf der Projektseite und im YouTube-Video konzentrieren sich auf die PR-freundliche Generierung von niedlichen Meme-Bildern. Wie üblich spielt die NVIDIA-Forschung das Potenzial ihrer neuesten Innovation zur Verbesserung fotorealistischer oder VFX-Workflows sowie ihr Potenzial zur Verbesserung von Deepfake-Bildern und -Videos herunter.

In den Beispielen kritzelt ein Anfänger oder Amateurbenutzer grobe Umrisse der Platzierung für das spezifische Element, während es in einem systematischeren VFX-Workflow möglich sein könnte, eDiffi zu verwenden, um mehrere Frames eines Videoelements mithilfe von Text-zu-Bild zu interpretieren, wobei Die Umrisse sind sehr präzise und basieren beispielsweise auf Figuren, bei denen der Hintergrund per Greenscreen oder algorithmischen Methoden ausgeblendet wurde.

Runway ML bietet bereits KI-basiertes Rotoskopieren. In diesem Beispiel stellt der „Greenscreen“ um das Motiv die Alpha-Ebene dar, während die Extraktion durch maschinelles Lernen und nicht durch algorithmische Entfernung eines realen Greenscreen-Hintergrunds erfolgt. Quelle: https://twitter.com/runwayml/status/1330978385028374529

Runway ML bietet bereits KI-basiertes Rotoskopieren. In diesem Beispiel stellt der „Greenscreen“ um das Motiv die Alpha-Ebene dar, während die Extraktion durch maschinelles Lernen und nicht durch algorithmische Entfernung eines realen Greenscreen-Hintergrunds erfolgt. Quelle: https://twitter.com/runwayml/status/1330978385028374529

Mit einem geschulten Traumkabine Charakter und eine Bild-zu-Bild-Pipeline mit eDiffi, ist es möglicherweise möglich, eines der Schreckgespenster von aufzuspüren jedem Modell der latenten Diffusion: zeitliche Stabilität. In einem solchen Fall würden sowohl die Ränder des auferlegten Bildes als auch der Inhalt des Bildes vorab auf der Leinwand des Benutzers „schweben“, mit zeitlicher Kontinuität des gerenderten Inhalts (d. h. die Umwandlung eines echten Tai-Chi-Praktizierenden in einen Roboter). ) bereitgestellt durch die Verwendung eines gesperrten DreamBooth-Modells, das seine Trainingsdaten „gespeichert“ hat – schlecht für die Interpretierbarkeit, großartig für Reproduzierbarkeit, Wiedergabetreue und Kontinuität.

Methode, Daten und Tests

In dem Papier heißt es, dass das eDiffi-Modell auf „einer Sammlung öffentlicher und proprietärer Datensätze“ trainiert und durch ein vorab trainiertes CLIP-Modell stark gefiltert wurde, um Bilder zu entfernen, die die allgemeine ästhetische Bewertung der Ausgabe beeinträchtigen könnten. Der endgültige gefilterte Bildsatz umfasst „ungefähr eine Milliarde“ Text-Bild-Paare. Die Größe der trainierten Bilder wird als „kürzeste Seite größer als 64 Pixel“ beschrieben.

Für den Prozess wurde eine Reihe von Modellen trainiert, wobei sowohl das Basismodell als auch das Superauflösungsmodell trainiert wurden AdamW Optimierer mit einer Lernrate von 0.0001, einem Gewichtsabfall von 0.01 und einer beeindruckenden Stapelgröße von 2048.

Das Basismodell wurde auf 256 NVIDIA A100-GPUs trainiert, die beiden Super-Resolution-Modelle auf 128 NVIDIA A100 GPUs für jedes Modell.

Das System basierte auf NVIDIAs eigenem System Imaginär PyTorch-Bibliothek. KOKOSNUSS und Visual Genome-Datensätze wurden zur Auswertung verwendet, waren jedoch nicht in den endgültigen Modellen enthalten MS-COCO die spezifische Variante, die zum Testen verwendet wird. Es wurden Konkurrenzsysteme getestet GLEITEN, Make-A-Scene, , DALL-E2, Stable Diffusion und die beiden Bildsynthesesysteme von Google, Imagen, machen Parts.

In Übereinstimmung mit ähnlich vor Arbeit, Nullschuss-FID-30K wurde als Bewertungsmaßstab verwendet. Unter FID-30K werden 30,000 Bildunterschriften zufällig aus dem COCO-Validierungssatz extrahiert (d. h. nicht die im Training verwendeten Bilder oder Texte), die dann als Textaufforderungen für die Synthese von Bildern verwendet wurden.

Die Frechet-Anfangsdistanz (FID) zwischen den generierten und den Ground-Truth-Bildern wurde dann berechnet und zusätzlich der CLIP-Score für die generierten Bilder aufgezeichnet.

Ergebnisse der Zero-Shot-FID-Tests im Vergleich zu aktuellen State-of-the-Art-Ansätzen im COCO 2014-Validierungsdatensatz, wobei niedrigere Ergebnisse besser sind.

Ergebnisse der Zero-Shot-FID-Tests im Vergleich zu aktuellen State-of-the-Art-Ansätzen im COCO 2014-Validierungsdatensatz, wobei niedrigere Ergebnisse besser sind.

In den Ergebnissen konnte eDiffi die niedrigste (beste) Punktzahl für Zero-Shot-FID erzielen, selbst gegen Systeme mit einer weitaus höheren Anzahl von Parametern, wie den 20 Milliarden Parametern von Parti, verglichen mit den 9.1 Milliarden Parametern im höchsten Punkt. Spezielles eDiffi-Modell, das für die Tests trainiert wurde.

Zusammenfassung

NVIDIAs eDiffi stellt eine willkommene Alternative dazu dar, einfach immer größere Datenmengen und Komplexität zu bestehenden Systemen hinzuzufügen und stattdessen einen intelligenteren und vielschichtigeren Ansatz für einige der heikelsten Hindernisse im Zusammenhang mit der Verschränkung und Nichtbearbeitbarkeit in Systemen zur Generierung latenter Diffusionsbilder zu verwenden.

In den Stable Diffusion-Subreddits und Discords wird bereits darüber diskutiert, entweder jeglichen Code, der möglicherweise für eDiffi zur Verfügung gestellt wird, direkt zu integrieren oder die Prinzipien dahinter in einer separaten Implementierung neu zu inszenieren. Die neue Pipeline ist jedoch so radikal anders, dass sie eine ganze Versionsänderung für SD bedeuten würde, wodurch ein Teil der Abwärtskompatibilität über Bord geworfen würde, obwohl die Möglichkeit einer deutlich verbesserten Kontrolle über die endgültigen synthetisierten Bilder geboten würde, ohne dass das Faszinierende verloren ginge Vorstellungskraft der latenten Diffusion.

 

Erstveröffentlichung am 3. November 2022.