Künstliche Intelligenz

Visuelles AutoRegressives Modellieren: Skalierbare Bildgenerierung via Next-Scale-Prediction

Veröffentlicht am 10. April 2024

Aktualisiert am 22. Mai 2026

Von

Kunal Kejriwal

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

Die Einführung von GPT-Modellen und anderen autoregressiven oder AR-großen Sprachmodellen hat eine neue Ära im Bereich des maschinellen Lernens und der künstlichen Intelligenz eingeläutet. GPT- und autoregressive Modelle zeigen oft allgemeine Intelligenz und Vielseitigkeit, die als bedeutender Schritt in Richtung allgemeiner künstlicher Intelligenz oder AGI angesehen werden, trotz einiger Probleme wie Halluzinationen. Das verwirrende Problem mit diesen großen Modellen ist jedoch eine selbstüberwachte Lernstrategie, die es dem Modell ermöglicht, das nächste Token in einer Sequenz vorherzusagen, eine einfache, aber effektive Strategie. Aktuelle Arbeiten haben den Erfolg dieser großen autoregressiven Modelle demonstriert und ihre Generalisierbarkeit und Skalierbarkeit hervorgehoben. Skalierbarkeit ist ein typisches Beispiel für die bestehenden Skalierungsgesetze, die es Forschern ermöglichen, die Leistung eines großen Modells aus der Leistung kleinerer Modelle vorherzusagen, was zu einer besseren Ressourcenverteilung führt. Andererseits wird die Generalisierbarkeit oft durch Lernstrategien wie Zero-Shot-, One-Shot- und Few-Shot-Lernen belegt, die die Fähigkeit unsupervisierter, aber trainierter Modelle zur Anpassung an verschiedene und unbekannte Aufgaben hervorheben. Zusammen zeigen Generalisierbarkeit und Skalierbarkeit das Potenzial autoregressiver Modelle, aus einer großen Menge unbeschrifteter Daten zu lernen.

Basierend auf diesen Erkenntnissen werden wir in diesem Artikel über das Visuelle AutoRegressive- oder VAR-Modell sprechen, einem neuen Muster, das das autoregressive Lernen auf Bildern als grob-feine “Next-Scale-Prediction” oder “Next-Resolution-Prediction” umdefiniert. Obwohl einfach, ist der Ansatz effektiv und ermöglicht es autoregressiven Transformern, visuelle Verteilungen besser zu lernen, und verbessert die Generalisierbarkeit. Darüber hinaus ermöglicht das Visuelle AutoRegressive-Modell GPT-ähnlichen autoregressiven Modellen, Diffusionsübertragungen bei der Bildgenerierung zum ersten Mal zu überbieten. Experimente zeigen auch, dass das VAR-Modell die autoregressiven Basismodelle erheblich verbessert und das Diffusions-Transformer- oder DiT-Modell in mehreren Dimensionen, einschließlich DatenEffizienz, Bildqualität, Skalierbarkeit und Inferenzgeschwindigkeit, übertrifft. Darüber hinaus zeigt die Skalierung der Visuellen AutoRegressiven-Modelle Skalierungsgesetze, die denen großer Sprachmodelle ähneln, und zeigt auch die Fähigkeit zur Zero-Shot-Generalisierung in Downstream-Aufgaben wie Bearbeitung, In-Painting und Out-Painting.

Dieser Artikel zielt darauf ab, das Visuelle AutoRegressive-Modell in der Tiefe abzudecken und wir erkunden den Mechanismus, die Methodik, die Architektur des Modells sowie seinen Vergleich mit State-of-the-Art-Modellen. Wir werden auch darüber sprechen, wie das Visuelle AutoRegressive-Modell zwei wichtige Eigenschaften von LLMs demonstriert: Skalierungsgesetze und Zero-Shot-Generalisierung. Also los geht’s.

Visuelles AutoRegressives Modellieren: Skalierbare Bildgenerierung

Ein häufiges Muster unter den aktuellen großen Sprachmodellen ist die Implementierung einer selbstüberwachten Lernstrategie, ein einfacher, aber effektiver Ansatz, der das nächste Token in der Sequenz vorhersagt. Dank diesem Ansatz haben autoregressive und große Sprachmodelle heute bemerkenswerte Skalierbarkeit und Generalisierbarkeit demonstriert, Eigenschaften, die das Potenzial autoregressiver Modelle zeigen, aus einer großen Menge unbeschrifteter Daten zu lernen, und damit die Essenz der allgemeinen künstlichen Intelligenz zusammenfassen. Darüber hinaus haben Forscher auf dem Gebiet der Computer-Vision parallel daran gearbeitet, große autoregressive oder Weltmodelle zu entwickeln, um ihre beeindruckende Skalierbarkeit und Generalisierbarkeit zu erreichen oder zu überbieten, mit Modellen wie DALL-E und VQGAN, die bereits das Potenzial autoregressiver Modelle im Bereich der Bildgenerierung demonstriert haben. Diese Modelle implementieren oft einen visuellen Tokenizer, der kontinuierliche Bilder in eine 2D-Token-Grid approximiert, das dann in eine 1D-Sequenz für autoregressives Lernen flatten wird, und damit den sequenziellen Sprachmodellierungsprozess spiegelt.

Allerdings haben Forscher noch nicht die Skalierungsgesetze dieser Modelle erforscht, und was noch frustrierender ist, ist die Tatsache, dass die Leistung dieser Modelle oft hinter Diffusionsmodellen zurückbleibt, wie in dem folgenden Bild demonstriert wird. Die Leistungsunterschiede zeigen, dass die Fähigkeiten autoregressiver Modelle im Bereich der Computer-Vision noch nicht ausreichend erforscht sind.

Einerseits erfordern traditionelle autoregressive Modelle eine definierte Reihenfolge der Daten, während das Visuelle AutoRegressive- oder VAR-Modell die Reihenfolge eines Bildes neu bewertet, und dies ist es, was das VAR von bestehenden AR-Methoden unterscheidet. Typischerweise erstellen Menschen ein Bild in einer hierarchischen Weise, indem sie die globale Struktur gefolgt von den lokalen Details erfassen, ein multi-skaliertes, grob-feines Vorgehen, das eine natürliche Reihenfolge für das Bild suggeriert. Darüber hinaus zieht das VAR-Modell Inspiration aus multi-skalierten Designs und definiert das autoregressive Lernen für Bilder als Next-Scale-Prediction im Gegensatz zu herkömmlichen Ansätzen, die das Lernen als Next-Token-Prediction definieren. Der Ansatz, der vom VAR-Modell implementiert wird, beginnt mit der Kodierung eines Bildes in multi-skalierte Token-Karten. Das Modell beginnt dann den autoregressiven Prozess mit der 1×1-Token-Karte und erweitert sich progressiv in der Auflösung. Bei jedem Schritt predicts der Transformer die nächste höhere Auflösung der Token-Karte, bedingt auf allen vorherigen, eine Methodik, die das VAR-Modell als VAR-Modellierung bezeichnet.

Das VAR-Modell versucht, die Transformer-Architektur von GPT-2 für visuelles autoregressives Lernen zu nutzen, und die Ergebnisse sind auf dem ImageNet-Benchmark sichtbar, wo das VAR-Modell seine AR-Basismodelle erheblich verbessert, ein FID von 1,80 und einen Inception-Score von 356 erreicht, sowie eine 20-fache Verbesserung der Inferenzgeschwindigkeit. Was noch interessanter ist, ist, dass das VAR-Modell die Leistung des DiT- oder Diffusions-Transformer-Modells in Bezug auf FID- und IS-Scores, Skalierbarkeit, Inferenzgeschwindigkeit und DatenEffizienz übertrifft. Darüber hinaus zeigt das Visuelle AutoRegressive-Modell starke Skalierungsgesetze, ähnlich wie die, die in großen Sprachmodellen beobachtet werden.

Zusammenfassend versucht das VAR-Modell die folgenden Beiträge zu leisten.

Es schlägt ein neues visuelles generatives Modell vor, das einen multi-skalierten autoregressiven Ansatz mit Next-Scale-Prediction verwendet, im Gegensatz zur herkömmlichen Next-Token-Prediction, was zur Entwicklung des autoregressiven Algorithmus für Computer-Vision-Aufgaben führt.
Es versucht, Skalierungsgesetze für autoregressive Modelle zu validieren, sowie die Zero-Shot-Generalisierung, die die ansprechenden Eigenschaften von LLMs emuliert.
Es bietet einen Durchbruch in der Leistung visueller autoregressiver Modelle, indem es GPT-ähnlichen autoregressiven Modellen ermöglicht, bestehende Diffusionsmodelle in Bildsynthese-Aufgaben zum ersten Mal zu überbieten.

Darüber hinaus ist es auch wichtig, die bestehenden Skalierungsgesetze zu diskutieren, die die Beziehung zwischen Datensätzen, Modellparametern, Leistungsverbesserungen und Rechenressourcen von maschinellen Lernmodellen mathematisch beschreiben. Erstens ermöglichen diese Skalierungsgesetze die Anwendung der Leistung eines größeren Modells durch Skalierung des Modellgrößens, des Rechenaufwands und der Datengröße, was zu einer besseren Ressourcenverteilung führt. Zweitens haben Skalierungsgesetze eine konsistente und nicht-sättigende Leistungssteigerung gezeigt. Wenn wir mit den Prinzipien der Skalierungsgesetze in neuronalen Sprachmodellen fortfahren, verkörpern mehrere LLMs das Prinzip, dass die Erhöhung der Modellgröße zu verbesserten Leistungsresultaten führt. Zero-Shot-Generalisierung bezieht sich auf die Fähigkeit eines Modells, insbesondere eines LLM, Aufgaben auszuführen, die es nicht explizit trainiert hat. Im Bereich der Computer-Vision besteht Interesse daran, Zero-Shot- und In-Context-Lernfähigkeiten von Grundmodellen aufzubauen.

Sprachmodelle verlassen sich auf WordPiece-Algorithmen oder Byte-Pair-Encoding-Ansätze für die Texttokenisierung. Visuelle Generationsmodelle, die auf Sprachmodellen basieren, verlassen sich auch stark auf die Kodierung von 2D-Bildern in 1D-Token-Sequenzen. Frühe Arbeiten wie VQVAE demonstrierten die Fähigkeit, Bilder als diskrete Token mit moderater Rekonstruktionsqualität darzustellen. Der Nachfolger von VQVAE, das VQGAN-Modell, integrierte perzeptuelle und adversarische Verluste, um die Bildtreue zu verbessern, und verwendete auch einen Decoder-Only-Transformer, um Bildtoken in Standard-Raster-Scan-Autoregressionsweise zu generieren. Diffusionsmodelle werden seit langem als Front-runner für visuelle Synthese-Aufgaben angesehen, dank ihrer Vielfalt und überlegenen Generierungsqualität. Die Weiterentwicklung von Diffusionsmodellen konzentrierte sich auf die Verbesserung von Sampling-Techniken, architektonischen Verbesserungen und schnellerem Sampling. Latente Diffusionsmodelle wenden Diffusion im latenten Raum an, was die TrainingsEffizienz und Inferenz verbessert. Diffusions-Transformer-Modelle ersetzen die traditionelle U-Net-Architektur durch eine Transformer-basierte Architektur und wurden in aktuellen Bild- oder Video-Synthese-Modellen wie SORA und Stable Diffusion eingesetzt.

Visuelles AutoRegressives: Methodik und Architektur

Im Kern hat das VAR-Modell zwei diskrete Trainingsphasen. In der ersten Phase kodiert ein multi-skaliertes quantisiertes Autoencoder oder VQVAE ein Bild in Token-Karten, und ein zusammengesetzter Rekonstruktionsverlust wird für Trainingszwecke implementiert. Im obigen Bild ist die Einbettung ein Begriff, der die Umwandlung diskreter Token in kontinuierliche Einbettungsvektoren definiert. In der zweiten Phase wird der Transformer im VAR-Modell trainiert, indem entweder der Kreuzentropieverlust minimiert oder die Wahrscheinlichkeit durch die Next-Scale-Prediction-Approach maximiert wird. Das trainierte VQVAE produziert dann die Token-Karten-Grundwahrheit für das VAR-Modell.

Autoregressives Modellieren via Next-Token-Prediction

Für eine gegebene Sequenz diskreter Token, wobei jedes Token eine Ganzzahl aus einem Vokabular der Größe V ist, geht das next-Token-autoregressive Modell davon aus, dass die Wahrscheinlichkeit, das aktuelle Token zu beobachten, nur von seinem Präfix abhängt. Wenn man die unidirektionale Token-Abhängigkeit annimmt, kann das VAR-Modell die Chancen der Sequenz in das Produkt der bedingten Wahrscheinlichkeiten zerlegen. Das Trainieren eines autoregressiven Modells beinhaltet die Optimierung des Modells über ein Dataset, und dieser Optimierungsprozess wird als Next-Token-Prediction bezeichnet, und ermöglicht es dem trainierten Modell, neue Sequenzen zu generieren. Darüber hinaus sind Bilder 2D-kontinuierliche Signale von Natur aus, und um den autoregressiven Modellierungsansatz auf Bilder via Next-Token-Prediction anzuwenden, gibt es einige Voraussetzungen. Erstens muss das Bild in diskrete Token tokenisiert werden. Üblicherweise wird ein quantifizierter Autoencoder implementiert, um das Bildmerkmal in diskrete Token umzuwandeln. Zweitens muss eine 1D-Reihenfolge der Token definiert werden, um unidirektionales autoregressives Lernen zu ermöglichen.

Die Bildtoken in diskreten Token werden in einem 2D-Grid angeordnet, und im Gegensatz zu natürlichen Sprachsentenzen, die von Natur aus eine linke-rechte Reihenfolge haben, muss die Reihenfolge der Bildtoken explizit für unidirektionales autoregressives Lernen definiert werden. Frühere autoregressive Ansätze haben das 2D-Grid der diskreten Token in eine 1D-Sequenz mithilfe von Methoden wie Zeilen-weiser Raster-Scan, Z-Kurve oder Spiral-Reihenfolge flatten. Sobald die diskreten Token flatten waren, extrahierten die AR-Modelle eine Menge von Sequenzen aus dem Dataset und trainierten dann ein autoregressives Modell, um die Wahrscheinlichkeit in das Produkt der T bedingten Wahrscheinlichkeiten mithilfe der Next-Token-Prediction zu maximieren.

Visuelles AutoRegressives Modellieren via Next-Scale-Prediction

Das VAR-Modell rekonzeptualisiert das autoregressive Modellieren auf Bildern, indem es von der Next-Token-Prediction zur Next-Scale-Prediction-Approach wechselt, ein Prozess, bei dem anstelle eines einzelnen Tokens die autoregressive Einheit eine gesamte Token-Karte ist. Das Modell quantisiert zunächst die Merkmalskarte in multi-skalierte Token-Karten, jede mit einer höheren Auflösung als die vorherige, und endet mit der Auflösung der ursprünglichen Merkmalskarten. Darüber hinaus entwickelt das VAR-Modell einen neuen multi-skalierten Quantisierungs-Encoder, um ein Bild in multi-skalierte diskrete Token-Karten zu kodieren, notwendig für das VAR-Lernen. Das VAR-Modell verwendet die gleiche Architektur wie VQGAN, aber mit einer modifizierten multi-skalierten Quantisierungsschicht, mit den Algorithmen, die im folgenden Bild demonstriert werden.

Visuelles AutoRegressives: Ergebnisse und Experimente

Das VAR-Modell verwendet die Vanilla-VQVAE-Architektur mit einem multi-skalierten Quantisierungsschema mit K extra Konvolution und verwendet einen gemeinsamen Codebook für alle Skalen und eine latente Dimension von 32. Der primäre Fokus liegt auf dem VAR-Algorithmus, weshalb die Modellarchitektur-Design einfach, aber effektiv gehalten wird. Das Modell adoptiert die Architektur eines Standard-Decoder-Only-Transformers, ähnlich wie bei GPT-2-Modellen, mit der einzigen Modifikation, dass die traditionelle Layer-Normalisierung durch adaptive Normalisierung oder AdaLN ersetzt wird. Für klassenbedingte Synthese implementiert das VAR-Modell die Klassen-Embeddings als Start-Token und auch die Bedingung der adaptiven Normalisierungsschicht.

State-of-the-Art-Bildgenerierungs-Ergebnisse

Wenn es mit bestehenden generativen Modellen wie GANs oder Generativen Adversarial-Netzwerken, BERT-ähnlichen maskierten Vorhersagemodellen, Diffusionsmodellen und GPT-ähnlichen autoregressiven Modellen verglichen wird, zeigt das Visuelle AutoRegressive-Modell vielversprechende Ergebnisse, die in der folgenden Tabelle zusammengefasst sind.

Wie zu sehen ist, ist das Visuelle AutoRegressive-Modell nicht nur in der Lage, die besten FID- und IS-Scores zu erzielen, sondern zeigt auch bemerkenswerte Bildgenerierungs-Geschwindigkeit, vergleichbar mit State-of-the-Art-Modellen. Darüber hinaus zeigt das VAR-Modell auch zufriedenstellende Präzisions- und Recall-Scores, was seine semantische Konsistenz bestätigt. Aber die wahre Überraschung ist die bemerkenswerte Leistung, die das VAR-Modell bei traditionellen AR-Fähigkeits-Aufgaben liefert, was es zum ersten autoregressiven Modell macht, das ein Diffusions-Transformer-Modell überbietet, wie in der folgenden Tabelle demonstriert wird.

Zero-Shot-Aufgaben-Generalisierungs-Ergebnis

Für In- und Out-Painting-Aufgaben zwingt das VAR-Modell die Grundwahrheitstoken außerhalb der Maske und lässt das Modell nur die Token innerhalb der Maske generieren, ohne dass Klassen-Label-Informationen in das Modell injiziert werden. Die Ergebnisse werden im folgenden Bild demonstriert, und wie zu sehen ist, erreicht das VAR-Modell akzeptable Ergebnisse bei Downstream-Aufgaben, ohne dass Parameter angepasst oder die Netzwerkarchitektur modifiziert werden müssen, was die Generalisierbarkeit des VAR-Modells demonstriert.

Abschließende Gedanken

In diesem Artikel haben wir über ein neues visuelles generatives Modell namens Visuelles AutoRegressives-Modell (VAR) gesprochen, das 1) theoretisch einige Probleme, die in Standard-Image-AR-Modellen bestehen, anspricht, und 2) Sprachmodell-basierte AR-Modelle ermöglicht, Diffusionsmodelle in Bezug auf Bildqualität, Vielfalt, DatenEffizienz und Inferenzgeschwindigkeit zu überbieten. Einerseits erfordern traditionelle autoregressive Modelle eine definierte Reihenfolge der Daten, während das Visuelle AutoRegressive- oder VAR-Modell die Reihenfolge eines Bildes neu bewertet, und dies ist es, was das VAR von bestehenden AR-Methoden unterscheidet. Bei der Skalierung des VAR-Modells auf 2 Milliarden Parameter beobachteten die Entwickler des VAR-Modells eine klare Potenz-Beziehung zwischen Testleistung und Modellparametern oder Trainings-Compute, mit Pearson-Koeffizienten, die −0,998 näheren, was auf ein robustes Framework für Leistungsprognosen hinweist. Diese Skalierungsgesetze und die Möglichkeit der Zero-Shot-Generalisierung, als Merkmale von LLMs, wurden nun erstmals in unseren VAR-Transformer-Modellen bestätigt.