Künstliche Intelligenz
Das eDiffi-Diffusionsmodell von NVIDIA ermöglicht „Malen mit Worten“ und mehr
Der Versuch, präzise Kompositionen mit generativen Bildmodellen mit latenter Diffusion zu erstellen, wie z Stable Diffusion kann wie das Hüten von Katzen sein; Es verfügt auch über dieselben Vorstellungs- und Interpretationsfähigkeiten, die es dem System ermöglichen, aus relativ einfachen Textaufforderungen außergewöhnliche Details zu erzeugen und außergewöhnliche Bilder hervorzurufen schwer auszuschalten wenn Sie die Kontrolle über eine Bildgenerierung auf Photoshop-Niveau suchen.
Nun ein neuer Ansatz aus der NVIDIA-Forschung mit dem Titel Ensemble-Diffusion für Bilder (eDiffi) verwendet eine Mischung aus mehreren Einbettungs- und Interpretationsmethoden (anstelle derselben Methode in der gesamten Pipeline), um ein weitaus höheres Maß an Kontrolle über den generierten Inhalt zu ermöglichen. Im folgenden Beispiel sehen wir, wie ein Benutzer Elemente malt, wobei jede Farbe ein einzelnes Wort aus einer Textaufforderung darstellt:
Tatsächlich ist dies „Malen mit Masken“ und kehrt das i umnMalerei-Paradigma Bei Stable Diffusion geht es darum, defekte oder unbefriedigende Bilder zu reparieren oder Bilder zu erweitern, die auch von vornherein die gewünschte Größe hätten haben können.
Hier stellen die Ränder des gemalten Flecks stattdessen die zulässigen ungefähren Grenzen nur eines einzelnen Elements aus einem einzelnen Konzept dar, sodass der Benutzer von Anfang an die endgültige Leinwandgröße festlegen und dann diskret Elemente hinzufügen kann.
Die vielfältigen Methoden, die in eDiffi eingesetzt werden, bedeuten auch, dass das System jedes Element weitaus besser in lange und detaillierte Eingabeaufforderungen einbinden kann, während Stable Diffusion und DALL-E 2 von OpenAI dazu neigen, bestimmte Teile der Eingabeaufforderung zu priorisieren, je nachdem, wie früh die Eingabeaufforderung ist Zielwörter erscheinen in der Aufforderung oder auf anderen Faktoren, wie etwa der potenziellen Schwierigkeit, die verschiedenen Elemente zu entwirren, die für eine vollständige, aber umfassende (in Bezug auf die Textaufforderung) Komposition erforderlich sind:
Darüber hinaus ist die Verwendung eines dedizierten T5 Text-zu-Text-Encoder bedeutet, dass eDiffi in der Lage ist, verständlichen englischen Text wiederzugeben, der entweder abstrakt über eine Eingabeaufforderung angefordert wird (d. h Bild enthält Text von [x]) oder ausdrücklich angefordert (d. h Auf dem T-Shirt steht „Nvidia Rocks“.):
Ein weiterer Vorteil des neuen Frameworks besteht darin, dass es möglich ist, auch ein einzelnes Bild als Stilaufforderung bereitzustellen, anstatt ein DreamBooth-Modell oder eine Texteinbettung auf mehreren Beispielen eines Genres trainieren zu müssen Stil.
Das neues Papier ist betitelt eDiffi: Text-zu-Bild-Diffusionsmodelle mit einem Ensemble erfahrener Denoiser und
Der T5-Textkodierer
Die Verwendung von Googles TExt-to-Text Transfer Transformer (T5) ist das entscheidende Element für die verbesserten Ergebnisse, die in eDiffi gezeigt wurden. Die durchschnittliche latente Diffusionspipeline konzentriert sich auf die Assoziation zwischen trainierten Bildern und den Bildunterschriften, die sie begleiteten, als sie aus dem Internet entfernt wurden (oder später manuell angepasst wurden, obwohl dies ein teurer und daher seltener Eingriff ist).
Durch Umformulieren des Quelltextes und Ausführen des T5-Moduls können genauere Assoziationen und Darstellungen erhalten werden, als sie ursprünglich in das Modell eingelernt wurden, fast vergleichbar mit Post facto manuelle Beschriftung, mit größerer Spezifität und Anwendbarkeit auf die Vorgaben der angeforderten Textaufforderung.
Die Autoren erklären:
„In den meisten existierenden Arbeiten zu Diffusionsmodellen wird das Entrauschungsmodell für alle Geräuschpegel gemeinsam genutzt und die zeitliche Dynamik wird durch eine einfache zeitliche Einbettung dargestellt, die über ein MLP-Netzwerk in das Entrauschungsmodell eingespeist wird.“ Wir argumentieren, dass die komplexe zeitliche Dynamik der Entrauschungsdiffusion unter Verwendung eines gemeinsamen Modells mit begrenzter Kapazität möglicherweise nicht effektiv aus Daten gelernt werden kann.
„Stattdessen schlagen wir vor, die Kapazität des Denoising-Modells durch die Einführung eines Ensembles von Experten-Denoising-Modellen zu erweitern; Jeder Experten-Denoiser ist ein Entrauschungsmodell, das auf einen bestimmten Bereich von Geräuschpegeln spezialisiert ist. Auf diese Weise können wir die Modellkapazität erhöhen, ohne die Abtastung zu verlangsamen, da die rechnerische Komplexität der Bewertung [des verarbeiteten Elements] bei jedem Rauschpegel gleich bleibt.“
Die bestehende CLIP Die in DALL-E 2 und Stable Diffusion enthaltenen Kodierungsmodule sind auch in der Lage, alternative Bildinterpretationen für Text im Zusammenhang mit Benutzereingaben zu finden. Sie basieren jedoch auf ähnlichen Informationen wie das Originalmodell und werden nicht wie T5 in eDiffi als separate Interpretationsebene verwendet.
Die Autoren geben an, dass eDiffi das erste Mal ist, dass sowohl ein T5- als auch ein CLIP-Encoder in eine einzige Pipeline integriert wurden:
„Da diese beiden Encoder mit unterschiedlichen Zielen trainiert werden, begünstigen ihre Einbettungen die Bildung unterschiedlicher Bilder mit demselben Eingabetext.“ Während CLIP-Texteinbettungen dabei helfen, das globale Erscheinungsbild der generierten Bilder zu bestimmen, fehlen in den Ausgaben häufig die feinkörnigen Details im Text.
„Im Gegensatz dazu spiegeln Bilder, die allein mit T5-Texteinbettungen generiert wurden, die einzelnen im Text beschriebenen Objekte besser wider, ihr Gesamtbild ist jedoch weniger genau.“ Wenn wir sie gemeinsam nutzen, erzielen wir in unserem Modell die besten Ergebnisse bei der Bilderzeugung.“
Den Diffusionsprozess unterbrechen und verstärken
In dem Artikel wird darauf hingewiesen, dass ein typisches latentes Diffusionsmodell den Weg vom reinen Rauschen zum Bild beginnt, indem es sich in den frühen Stadien der Generation ausschließlich auf Text verlässt.
Wenn sich das Rauschen in eine Art grobes Layout auflöst, das die Beschreibung in der Textaufforderung darstellt, verschwindet der textgesteuerte Aspekt des Prozesses im Wesentlichen, und der Rest des Prozesses verlagert sich auf die Erweiterung der visuellen Funktionen.
Dies bedeutet, dass jedes Element, das in der Anfangsphase der textgesteuerten Rauschinterpretation nicht gelöst wurde, später nur schwer in das Bild eingefügt werden kann, da die beiden Prozesse (Text-zu-Layout und Layout-zu-Bild) relativ wenig Überlappung aufweisen , und das Grundlayout ist ziemlich kompliziert, wenn es zum Bildvergrößerungsprozess kommt.
Berufliches Potenzial
Die Beispiele auf der Projektseite und im YouTube-Video konzentrieren sich auf die PR-freundliche Generierung von niedlichen Meme-Bildern. Wie üblich spielt die NVIDIA-Forschung das Potenzial ihrer neuesten Innovation zur Verbesserung fotorealistischer oder VFX-Workflows sowie ihr Potenzial zur Verbesserung von Deepfake-Bildern und -Videos herunter.
In den Beispielen kritzelt ein Anfänger oder Amateurbenutzer grobe Umrisse der Platzierung für das spezifische Element, während es in einem systematischeren VFX-Workflow möglich sein könnte, eDiffi zu verwenden, um mehrere Frames eines Videoelements mithilfe von Text-zu-Bild zu interpretieren, wobei Die Umrisse sind sehr präzise und basieren beispielsweise auf Figuren, bei denen der Hintergrund per Greenscreen oder algorithmischen Methoden ausgeblendet wurde.
Mit einem geschulten Traumkabine Charakter und eine Bild-zu-Bild-Pipeline mit eDiffi, ist es möglicherweise möglich, eines der Schreckgespenster von aufzuspüren jedem Modell der latenten Diffusion: zeitliche Stabilität. In einem solchen Fall würden sowohl die Ränder des auferlegten Bildes als auch der Inhalt des Bildes vorab auf der Leinwand des Benutzers „schweben“, mit zeitlicher Kontinuität des gerenderten Inhalts (d. h. die Umwandlung eines echten Tai-Chi-Praktizierenden in einen Roboter). ) bereitgestellt durch die Verwendung eines gesperrten DreamBooth-Modells, das seine Trainingsdaten „gespeichert“ hat – schlecht für die Interpretierbarkeit, großartig für Reproduzierbarkeit, Wiedergabetreue und Kontinuität.
Methode, Daten und Tests
In dem Papier heißt es, dass das eDiffi-Modell auf „einer Sammlung öffentlicher und proprietärer Datensätze“ trainiert und durch ein vorab trainiertes CLIP-Modell stark gefiltert wurde, um Bilder zu entfernen, die die allgemeine ästhetische Bewertung der Ausgabe beeinträchtigen könnten. Der endgültige gefilterte Bildsatz umfasst „ungefähr eine Milliarde“ Text-Bild-Paare. Die Größe der trainierten Bilder wird als „kürzeste Seite größer als 64 Pixel“ beschrieben.
Für den Prozess wurde eine Reihe von Modellen trainiert, wobei sowohl das Basismodell als auch das Superauflösungsmodell trainiert wurden AdamW Optimierer mit einer Lernrate von 0.0001, einem Gewichtsabfall von 0.01 und einer beeindruckenden Stapelgröße von 2048.
Das Basismodell wurde auf 256 NVIDIA A100-GPUs trainiert, die beiden Super-Resolution-Modelle auf 128 NVIDIA A100 GPUs für jedes Modell.
Das System basierte auf NVIDIAs eigenem System Imaginär PyTorch-Bibliothek. KOKOSNUSS und Visual Genome-Datensätze wurden zur Auswertung verwendet, waren jedoch nicht in den endgültigen Modellen enthalten MS-COCO die spezifische Variante, die zum Testen verwendet wird. Es wurden Konkurrenzsysteme getestet GLEITEN, Make-A-Scene, , DALL-E2, Stable Diffusion und die beiden Bildsynthesesysteme von Google, Imagen, machen Parts.
In Übereinstimmung mit ähnlich vor Arbeit, Nullschuss-FID-30K wurde als Bewertungsmaßstab verwendet. Unter FID-30K werden 30,000 Bildunterschriften zufällig aus dem COCO-Validierungssatz extrahiert (d. h. nicht die im Training verwendeten Bilder oder Texte), die dann als Textaufforderungen für die Synthese von Bildern verwendet wurden.
Die Frechet-Anfangsdistanz (FID) zwischen den generierten und den Ground-Truth-Bildern wurde dann berechnet und zusätzlich der CLIP-Score für die generierten Bilder aufgezeichnet.
In den Ergebnissen konnte eDiffi die niedrigste (beste) Punktzahl für Zero-Shot-FID erzielen, selbst gegen Systeme mit einer weitaus höheren Anzahl von Parametern, wie den 20 Milliarden Parametern von Parti, verglichen mit den 9.1 Milliarden Parametern im höchsten Punkt. Spezielles eDiffi-Modell, das für die Tests trainiert wurde.
Zusammenfassung
NVIDIAs eDiffi stellt eine willkommene Alternative dazu dar, einfach immer größere Datenmengen und Komplexität zu bestehenden Systemen hinzuzufügen und stattdessen einen intelligenteren und vielschichtigeren Ansatz für einige der heikelsten Hindernisse im Zusammenhang mit der Verschränkung und Nichtbearbeitbarkeit in Systemen zur Generierung latenter Diffusionsbilder zu verwenden.
In den Stable Diffusion-Subreddits und Discords wird bereits darüber diskutiert, entweder jeglichen Code, der möglicherweise für eDiffi zur Verfügung gestellt wird, direkt zu integrieren oder die Prinzipien dahinter in einer separaten Implementierung neu zu inszenieren. Die neue Pipeline ist jedoch so radikal anders, dass sie eine ganze Versionsänderung für SD bedeuten würde, wodurch ein Teil der Abwärtskompatibilität über Bord geworfen würde, obwohl die Möglichkeit einer deutlich verbesserten Kontrolle über die endgültigen synthetisierten Bilder geboten würde, ohne dass das Faszinierende verloren ginge Vorstellungskraft der latenten Diffusion.
Erstveröffentlichung am 3. November 2022.