Connect with us

Künstliche Intelligenz

Visuelles Auto-Regressives Modellieren: Skalierbare Bildgenerierung via Next-Scale-Vorhersage

mm
Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

Die Einführung von GPT-Modellen und anderen autoregressiven oder AR-großen Sprachmodellen hat eine neue Ära im Bereich des maschinellen Lernens und der künstlichen Intelligenz eingeleitet. GPT- und autoregressive Modelle zeigen oft allgemeine Intelligenz und Vielseitigkeit, die als bedeutender Schritt in Richtung allgemeiner künstlicher Intelligenz oder AGI angesehen werden, trotz einiger Probleme wie Halluzinationen. Das verwirrende Problem mit diesen großen Modellen ist jedoch eine selbstüberwachte Lernstrategie, die es dem Modell ermöglicht, das nächste Token in einer Sequenz vorherzusagen, eine einfache, aber effektive Strategie. Jüngste Arbeiten haben den Erfolg dieser großen autoregressiven Modelle demonstriert und ihre Generalisierbarkeit und Skalierbarkeit hervorgehoben. Skalierbarkeit ist ein typisches Beispiel für die bestehenden Skalierungsgesetze, die es Forschern ermöglichen, die Leistung des großen Modells aus der Leistung kleinerer Modelle vorherzusagen, was zu einer besseren Ressourcenverteilung führt. Andererseits wird die Generalisierbarkeit oft durch Lernstrategien wie Zero-Shot-, One-Shot- und Few-Shot-Lernen belegt, die die Fähigkeit unsupervisierter, aber trainierter Modelle zur Anpassung an verschiedene und unbekannte Aufgaben unterstreichen. Zusammen zeigen Generalisierbarkeit und Skalierbarkeit das Potenzial autoregressiver Modelle, aus einer großen Menge unbeschrifteter Daten zu lernen.

Basierend auf demselben Prinzip werden wir in diesem Artikel über das Visuelle Auto-Regressive- oder VAR-Modell sprechen, ein neues Generierungsmuster, das das autoregressive Lernen auf Bildern als grob-feine “Next-Scale-Vorhersage” oder “Next-Resolution-Vorhersage” neu definiert. Obwohl es einfach ist, ist der Ansatz effektiv und ermöglicht es autoregressiven Transformern, visuelle Verteilungen besser zu lernen und die Generalisierbarkeit zu verbessern. Darüber hinaus ermöglichen die Visuellen Auto-Regressiven Modelle GPT-ähnlichen autoregressiven Modellen, Diffusions-Übertragungen bei der Bildgenerierung zum ersten Mal zu übertreffen. Experimente zeigen auch, dass das VAR-Modell die autoregressiven Basismodelle erheblich verbessert und das Diffusions-Transformer- oder DiT-Modell in mehreren Dimensionen wie DatenEffizienz, Bildqualität, Skalierbarkeit und Inferenzgeschwindigkeit übertrifft. Darüber hinaus zeigt die Skalierung der Visuellen Auto-Regressiven Modelle Skalierungsgesetze ähnlich wie diejenigen, die bei großen Sprachmodellen beobachtet werden, und zeigt auch eine Null-Shot-Generalisierungsfähigkeit bei Downstream-Aufgaben wie Bearbeitung, In-Painting und Out-Painting.

… (rest of the translation remains the same, following the exact structure and format as the original)

Ein Ingenieur von Beruf, ein Schriftsteller von Herzen. Kunal ist ein technischer Schriftsteller mit einer tiefen Liebe und einem tiefen Verständnis für KI und ML, der sich der Aufgabe widmet, komplexe Konzepte in diesen Bereichen durch seine ansprechenden und informativen Dokumentationen zu vereinfachen.