Künstliche Intelligenz

Selbst-Aufmerksamkeits-Guidance: Verbesserung der Stichprobenqualität von Diffusionsmodellen

mm
Self-Attention Guidance : Improving Sample Quality of Diffusion Models

Diffusionsmodellierung ist ein generatives KI-Framework, das Bilder aus Rauschen durch einen iterativen Entrauschungsprozess synthetisiert. Es wird für seine außergewöhnlichen Bildgenerierungs-Fähigkeiten und Vielfalt gefeiert, die größtenteils auf text- oder klassenbedingte Leitmethoden zurückzuführen sind, einschließlich Klassifikationsleitungen und klassenfreier Leitungen. Diese Modelle haben sich als besonders erfolgreich bei der Erstellung vielfältiger, hochwertiger Bilder erwiesen. Jüngste Studien haben gezeigt, dass Leitmethoden wie Klassencaptions und -etiketten eine entscheidende Rolle bei der Verbesserung der Qualität der von diesen Modellen generierten Bilder spielen.

Diffusionsmodelle und Leitmethoden stehen jedoch unter bestimmten externen Bedingungen vor Einschränkungen. Die Methode der klassenfreien Leitung (CFG), die Label-Dropping verwendet, fügt der Trainingsphase Komplexität hinzu, während die Klassifikationsleitmethode (CG) zusätzliche Klassifikator-Trainings erfordert. Beide Methoden sind in ihrer Abhängigkeit von harten, externen Bedingungen eingeschränkt, was ihre Potenziale einschränkt und sie auf bedingte Einstellungen beschränkt.

Um diese Einschränkungen zu überwinden, haben Entwickler einen allgemeineren Ansatz für Diffusionsleitungen entwickelt, bekannt als Selbst-Aufmerksamkeits-Guidance (SAG). Diese Methode nutzt Informationen aus Zwischenstichproben von Diffusionsmodellen, um Bilder zu generieren. Wir werden SAG in diesem Artikel untersuchen, indem wir seine Funktionsweise, Methodik und Ergebnisse im Vergleich zu aktuellen State-of-the-Art-Frameworks und -Pipelines diskutieren.

Selbst-Aufmerksamkeits-Guidance: Verbesserung der Stichprobenqualität von Diffusionsmodellen

Diffusionsmodelle (DDMs) haben aufgrund ihrer Fähigkeit, Bilder aus Rauschen durch einen iterativen Entrauschungsprozess zu erstellen, an Popularität gewonnen. Die Bildsynthese-Fähigkeiten dieser Modelle sind größtenteils auf die eingesetzten Diffusionsleitmethoden zurückzuführen. Trotz ihrer Stärken stehen Diffusionsmodelle und leitbasierte Methoden vor Herausforderungen wie zusätzlicher Komplexität und erhöhten Rechenkosten.

Um die aktuellen Einschränkungen zu überwinden, haben Entwickler die Selbst-Aufmerksamkeits-Guidance-Methode eingeführt, eine allgemeinere Formulierung der Diffusionsleitmethode, die nicht auf externe Informationen von Diffusionsleitungen angewiesen ist, sondern einen bedingungsfreien und flexiblen Ansatz zur Leitung von Diffusionsframeworks ermöglicht. Der Ansatz der Selbst-Aufmerksamkeits-Guidance hilft letztendlich dabei, die Anwendbarkeit traditioneller Diffusionsleitmethoden auf Fälle mit oder ohne externe Anforderungen zu verbessern.

Die Selbst-Aufmerksamkeits-Guidance basiert auf dem einfachen Prinzip der allgemeinen Formulierung und der Annahme, dass interne Informationen, die in Zwischenstichproben enthalten sind, ebenfalls als Leitung dienen können. Auf der Grundlage dieses Prinzips führt die SAG-Methode zunächst die Blur-Guidance ein, eine einfache und direkte Lösung, um die Stichprobenqualität zu verbessern. Die Blur-Guidance zielt darauf ab, die benignen Eigenschaften des Gauß’schen Verschmierens auszunutzen, um feine Details auf natürliche Weise durch die Leitung von Zwischenstichproben mit den eliminierten Informationen als Ergebnis des Gauß’schen Verschmierens zu entfernen. Obwohl die Blur-Guidance-Methode die Stichprobenqualität mit einem moderaten Leitmaßstab verbessert, kann sie die Ergebnisse auf einem großen Leitmaßstab nicht replizieren, da sie oft strukturelle Mehrdeutigkeit in ganzen Bereichen einführt. Als Ergebnis hat die Blur-Guidance-Methode Schwierigkeiten, die ursprüngliche Eingabe mit der Vorhersage der verschlechterten Eingabe auszurichten. Um die Stabilität und Effektivität der Blur-Guidance-Methode auf einem größeren Leitmaßstab zu verbessern, versucht die Selbst-Aufmerksamkeits-Guidance, die Selbst-Aufmerksamkeitsmechanismen der Diffusionsmodelle auszunutzen, da moderne Diffusionsmodelle bereits einen Selbst-Aufmerksamkeitsmechanismus in ihrer Architektur enthalten.

Mit der Annahme, dass Selbst-Aufmerksamkeit essentiell ist, um saliente Informationen zu erfassen, verwendet die Selbst-Aufmerksamkeits-Guidance-Methode die Selbst-Aufmerksamkeitskarten der Diffusionsmodelle, um die Bereiche mit salienten Informationen zu verschmieren und dabei die Diffusionsmodelle mit den erforderlichen Restinformationen zu leiten. Die Methode nutzt dann die Aufmerksamkeitskarten während des Umkehrprozesses der Diffusionsmodelle, um die Qualität der Bilder zu verbessern und verwendet Selbst-Konditionierung, um Artefakte ohne zusätzliche Schulung oder externe Informationen zu reduzieren.

Zusammenfassend lässt sich sagen, dass die Selbst-Aufmerksamkeits-Guidance-Methode

  1. Ein neuer Ansatz ist, der interne Selbst-Aufmerksamkeitskarten von Diffusionsframeworks verwendet, um die generierte Stichprobenbildqualität ohne zusätzliche Schulung oder externe Bedingungen zu verbessern.
  2. Die SAG-Methode versucht, bedingte Leitmethoden in eine bedingungsfreie Methode umzuwandeln, die in jedes Diffusionsmodell integriert werden kann, ohne zusätzliche Ressourcen oder externe Bedingungen zu erfordern, und damit die Anwendbarkeit leitbasierter Frameworks zu verbessern.
  3. Die SAG-Methode versucht auch, ihre orthogonale Fähigkeit zu bestehenden bedingten Methoden und Frameworks zu demonstrieren, und ermöglicht damit eine Leistungssteigerung durch flexible Integration mit anderen Methoden und Modellen.

Weiter geht die Selbst-Aufmerksamkeits-Guidance-Methode von den Erkenntnissen verwandter Frameworks wie Diffusionsmodellen, Sampling-Guidance, generativer KI-Selbst-Aufmerksamkeitsmethoden und internen Repräsentationen von Diffusionsmodellen aus. Im Kern implementiert die Selbst-Aufmerksamkeits-Guidance-Methode jedoch die Erkenntnisse aus DDPM oder Denoising-Diffusions-Probabilistischen-Modellen, Klassifikationsleitungen, klassenfreien Leitungen und Selbst-Aufmerksamkeit in Diffusionsframeworks. Wir werden diese in den nächsten Abschnitten ausführlicher besprechen.

Selbst-Aufmerksamkeits-Guidance: Grundlagen, Methodik und Architektur

Denoising-Diffusions-Probabilistisches-Modell oder DDPM

DDPM oder Denoising-Diffusions-Probabilistisches-Modell ist ein Modell, das einen iterativen Entrauschungsprozess verwendet, um ein Bild aus weißem Rauschen zu rekonstruieren. Traditionell erhält ein DDPM-Modell ein Eingabebild und einen Varianzplan zu einem Zeitpunkt, um das Bild mithilfe eines Vorwärtsprozesses, bekannt als Markov-Prozess, zu erhalten.

Klassifikator und klassenfreie Leitung mit GAN-Implementierung

GAN oder Generative Adversarial Networks besitzen einzigartige Handelsvielfalt für Treue, und um diese Fähigkeit von GAN-Frameworks auf Diffusionsmodelle zu übertragen, schlägt die Selbst-Aufmerksamkeits-Guidance-Framework vor, eine Klassifikationsleitmethode zu verwenden, die einen zusätzlichen Klassifikator verwendet. Umgekehrt kann auch eine klassenfreie Leitmethode ohne den Einsatz eines zusätzlichen Klassifikators implementiert werden, um dieselben Ergebnisse zu erzielen. Obwohl die Methode die gewünschten Ergebnisse liefert, ist sie noch nicht rechnerisch tragbar, da sie zusätzliche Labels erfordert und das Framework auf bedingte Diffusionsmodelle beschränkt, die zusätzliche Bedingungen wie Text oder Klasse sowie zusätzliche Trainingsdetails erfordern, was die Komplexität des Modells erhöht.

Verallgemeinern der Diffusionsleitungen

Obwohl Klassifikations- und klassenfreie Leitmethoden die gewünschten Ergebnisse liefern und bei der bedingten Generierung in Diffusionsmodellen helfen, sind sie von zusätzlichen Eingaben abhängig. Für jeden gegebenen Zeitpunkt besteht die Eingabe für ein Diffusionsmodell aus einer verallgemeinerten Bedingung und einer gestörten Stichprobe ohne die verallgemeinerte Bedingung. Darüber hinaus umfasst die verallgemeinerte Bedingung interne Informationen innerhalb der gestörten Stichprobe oder eine externe Bedingung oder beides. Die resultierende Leitung wird mit der Verwendung eines imaginären Regressors unter der Annahme formuliert, dass es die verallgemeinerte Bedingung vorhersagen kann.

Verbesserung der Bildqualität mithilfe von Selbst-Aufmerksamkeitskarten

Die verallgemeinerte Diffusionsleitmethode impliziert, dass es möglich ist, den Umkehrprozess von Diffusionsmodellen durch die Extraktion salienter Informationen in der verallgemeinerten Bedingung, die in der gestörten Stichprobe enthalten ist, zu leiten. Aufbauend auf diesem Prinzip erfasst die Selbst-Aufmerksamkeits-Guidance-Methode die salienten Informationen für Umkehrprozesse effektiv, während sie die Risiken, die durch außerhalb der Verteilung liegende Probleme in vorgebildeten Diffusionsmodellen entstehen, begrenzt.

Blur-Guidance

Die Blur-Guidance in der Selbst-Aufmerksamkeits-Guidance basiert auf dem Gauß’schen Verschmieren, einer linearen Filtermethode, bei der das Eingabesignal mit einem Gauß-Filter konvolviert wird, um ein Ausgangssignal zu erzeugen. Mit einer Zunahme der Standardabweichung reduziert das Gauß’sche Verschmieren die feinen Details innerhalb der Eingabesignale und führt zu lokal nicht unterscheidbaren Eingabesignalen, indem es sie auf einen konstanten Wert glättet. Darüber hinaus haben Experimente eine Informationsungleichheit zwischen dem Eingabesignal und dem Gauß’schen Verschmierausgangssignal gezeigt, bei der das Ausgangssignal mehr feine Details enthält.

Auf der Grundlage dieser Erkenntnis führt die Selbst-Aufmerksamkeits-Guidance-Framework die Blur-Guidance ein, eine Technik, die absichtlich die Informationen aus Zwischenrekonstruktionen während des Diffusionsprozesses ausschließt und stattdessen diese Informationen verwendet, um ihre Vorhersagen in Richtung einer Erhöhung der Relevanz der Bilder für die Eingabinformationen zu leiten. Die Blur-Guidance-Methode verursacht letztendlich, dass die ursprüngliche Vorhersage mehr von der verschmierten Eingabevorhersage abweicht. Darüber hinaus verhindert die benignen Eigenschaft des Gauß’schen Verschmierens, dass die Ausgangssignale sich erheblich von dem ursprünglichen Signal unterscheiden, mit einer moderaten Abweichung. In einfachen Worten tritt das Verschmieren in den Bildern auf natürliche Weise auf, was das Gauß’sche Verschmieren zu einer geeigneteren Methode für vorgebildete Diffusionsmodelle macht.

Im Selbst-Aufmerksamkeits-Guidance-Pipeline wird das Eingabesignal zunächst mithilfe eines Gauß-Filters verschmiert und dann mit zusätzlichem Rauschen diffundiert, um das Ausgangssignal zu erzeugen. Durch diese Methode mildert die SAG-Pipeline die Nebenwirkung des resultierenden Verschmierens, das den Gauß-Rausch reduziert, und macht die Leitung von der Inhaltsinformation abhängig, anstatt von zufälligem Rauschen. Obwohl die Blur-Guidance-Methode auf Frameworks mit moderatem Leitmaßstab zufriedenstellende Ergebnisse liefert, kann sie die Ergebnisse auf bestehenden Modellen mit großem Leitmaßstab nicht replizieren, da sie anfällig für die Erzeugung von rauschigen Ergebnissen ist, wie in der folgenden Abbildung gezeigt.

Diese Ergebnisse können auf die strukturelle Mehrdeutigkeit zurückzuführen sein, die durch das globale Verschmieren in das Framework eingeführt wird, was es der SAG-Pipeline schwer macht, die Vorhersagen der ursprünglichen Eingabe mit der verschlechterten Eingabe auszurichten, was zu rauschigen Ausgaben führt.

Selbst-Aufmerksamkeits-Mechanismus

Wie bereits erwähnt, enthalten Diffusionsmodelle normalerweise einen integrierten Selbst-Aufmerksamkeits-Mechanismus, der ein wesentlicher Bestandteil eines Diffusionsmodell-Frameworks ist. Der Selbst-Aufmerksamkeits-Mechanismus wird im Kern der Diffusionsmodelle implementiert und ermöglicht es dem Modell, während des generativen Prozesses auf die salienten Teile der Eingabe zu achten, wie in der folgenden Abbildung mit High-Frequency-Masken in der oberen Reihe und Selbst-Aufmerksamkeits-Masken in der unteren Reihe der endgültig generierten Bilder gezeigt.

Die vorgeschlagene Selbst-Aufmerksamkeits-Guidance-Methode basiert auf dem gleichen Prinzip und nutzt die Fähigkeiten der Selbst-Aufmerksamkeitskarten in Diffusionsmodellen. Insgesamt verschmiert die Selbst-Aufmerksamkeits-Guidance-Methode die selbst-aufmerksamkeits-Patches in der Eingabe oder verschleiert die Informationen der Patches, die von den Diffusionsmodellen aufmerksamkeitsgetrieben werden. Darüber hinaus enthalten die Ausgangssignale in der Selbst-Aufmerksamkeits-Guidance intakte Regionen der Eingabesignale, was bedeutet, dass sie keine strukturelle Mehrdeutigkeit der Eingaben verursacht und das Problem des globalen Verschmierens löst. Die Pipeline erhält dann die aggregierten Selbst-Aufmerksamkeitskarten, indem sie eine globale Durchschnittspooling durchführt, um die Selbst-Aufmerksamkeitskarten auf die Dimension zu aggregieren, und den nächsten Nachbarn aufprobiert, um die Auflösung des Eingabesignals zu erreichen.

Selbst-Aufmerksamkeits-Guidance: Experimente und Ergebnisse

Um ihre Leistung zu bewerten, wird die Selbst-Aufmerksamkeits-Guidance-Pipeline mit 8 Nvidia GeForce RTX 3090-GPUs abgetastet und auf vorgebildeten IDDPM-, ADM- und Stable-Diffusions-Frameworks aufgebaut.

Unbedingte Generierung mit Selbst-Aufmerksamkeits-Guidance

Um die Effektivität der SAG-Pipeline auf unbedingten Modellen zu messen und ihre bedingungsfreie Eigenschaft zu demonstrieren, die nicht von Klassifikationsleitungen und klassenfreien Leitmethoden besessen wird, wird die SAG-Pipeline auf unbedingt vorgebildeten Frameworks mit 50.000 Stichproben durchgeführt.

Wie zu sehen ist, verbessert die Implementierung der SAG-Pipeline die FID-, sFID- und IS-Metriken der unbedingten Eingabe, während sie gleichzeitig den Recall-Wert senkt. Darüber hinaus sind die qualitativen Verbesserungen durch die Implementierung der SAG-Pipeline in den folgenden Bildern erkennbar, in denen die Bilder oben Ergebnisse von ADM- und Stable-Diffusions-Frameworks sind, während die Bilder unten Ergebnisse von ADM- und Stable-Diffusions-Frameworks mit der SAG-Pipeline sind.

Bedingte Generierung mit SAG

Die Integration der SAG-Pipeline in bestehende Frameworks liefert außergewöhnliche Ergebnisse bei der unbedingten Generierung, und die SAG-Pipeline ist in der Lage, bedingungsagnostisch zu sein, was es ermöglicht, die SAG-Pipeline für bedingte Generierung zu implementieren.

Stable Diffusion mit Selbst-Aufmerksamkeits-Guidance

Obwohl das ursprüngliche Stable-Diffusions-Framework hochwertige Bilder generiert, kann die Integration des Stable-Diffusions-Frameworks mit der Selbst-Aufmerksamkeits-Guidance-Pipeline die Ergebnisse erheblich verbessern. Um ihre Wirkung zu bewerten, verwenden Entwickler leere Prompts für Stable Diffusion mit zufälligem Seed für jedes Bildpaar und verwenden menschliche Bewertung auf 500 Bildpaaren mit und ohne Selbst-Aufmerksamkeits-Guidance. Die Ergebnisse sind in der folgenden Abbildung dargestellt.

Darüber hinaus kann die Implementierung der SAG die Fähigkeiten des Stable-Diffusions-Frameworks verbessern, da die Kombination von klassenfreier Leitung und Selbst-Aufmerksamkeits-Guidance den Bereich der Stable-Diffusions-Modelle auf Text-Bild-Synthese erweitern kann. Darüber hinaus sind die von dem Stable-Diffusions-Modell mit Selbst-Aufmerksamkeits-Guidance generierten Bilder von höherer Qualität mit weniger Artefakten dank der Selbst-Konditionierungseffekts der SAG-Pipeline, wie in der folgenden Abbildung gezeigt.

Aktuelle Einschränkungen

Obwohl die Implementierung der Selbst-Aufmerksamkeits-Guidance-Pipeline die Qualität der generierten Bilder erheblich verbessern kann, gibt es einige Einschränkungen.

Eine der größten Einschränkungen ist die Orthogonalität mit Klassifikationsleitungen und klassenfreien Leitmethoden. Wie in der folgenden Abbildung zu sehen ist, verbessert die Implementierung der SAG die FID-Score und Vorhersage-Score, was bedeutet, dass die SAG-Pipeline einen orthogonalen Bestandteil enthält, der gleichzeitig mit traditionellen Leitmethoden verwendet werden kann.

Allerdings erfordert sie, dass die Diffusionsmodelle auf eine bestimmte Weise trainiert werden, was die Komplexität und Rechenkosten erhöht.

Darüber hinaus erfordert die Implementierung der Selbst-Aufmerksamkeits-Guidance keine Erhöhung des Speicher- oder Zeitverbrauchs, was darauf hindeutet, dass der Overhead, der durch Operationen wie Maskierung und Verschmieren in der SAG entsteht, vernachlässigbar ist. Allerdings erhöht sie die Rechenkosten, da sie einen zusätzlichen Schritt im Vergleich zu Ansätzen ohne Leitung beinhaltet.

Schlussgedanken

In diesem Artikel haben wir über die Selbst-Aufmerksamkeits-Guidance gesprochen, einer neuen und allgemeinen Formulierung der Leitmethode, die interne Informationen innerhalb der Diffusionsmodelle zur Generierung hochwertiger Bilder nutzt. Die Selbst-Aufmerksamkeits-Guidance basiert auf dem einfachen Prinzip der allgemeinen Formulierung und der Annahme, dass interne Informationen, die in Zwischenstichproben enthalten sind, ebenfalls als Leitung dienen können. Die Selbst-Aufmerksamkeits-Guidance-Pipeline ist ein bedingungsfreier und schulungsfreier Ansatz, der in verschiedenen Diffusionsmodellen implementiert werden kann und Selbst-Konditionierung verwendet, um Artefakte in den generierten Bildern zu reduzieren und die Gesamtqualität zu verbessern.

Ein Ingenieur von Beruf, ein Schriftsteller von Herzen. Kunal ist ein technischer Schriftsteller mit einer tiefen Liebe und einem tiefen Verständnis für KI und ML, der sich der Aufgabe widmet, komplexe Konzepte in diesen Bereichen durch seine ansprechenden und informativen Dokumentationen zu vereinfachen.