Künstliche Intelligenz

SHOW-O: Ein einziger Transformator, der multimodales Verständnis und Erzeugung vereint

Veröffentlicht October 11, 2024

Kunal Kejriwal

Bedeutende Fortschritte bei großen Sprachmodellen (LLMs) haben die Entwicklung multimodaler großer Sprachmodelle (MLLMs) inspiriert. Frühe MLLM-Bemühungen wie LLaVA, MiniGPT-4 und InstructBLIP weisen bemerkenswerte multimodale Verständnisfähigkeiten auf. Um LLMs in multimodale Domänen zu integrieren, untersuchten diese Studien die Projektion von Merkmalen aus einem vorab trainierten modalitätsspezifischen Encoder wie CLIP in den Eingaberaum von LLMs, um multimodales Verständnis und Schlussfolgerung innerhalb des Transformer-Backbones zu ermöglichen. Obwohl es verschiedene Designoptionen für MLLMs gibt, wie z. B. Vision-Encoder, Feature-Alignment-Adapter und Datensätze, folgt das Training für die meisten dieser Modelle dem Paradigma der autoregressiven Generierung, das sich für die Textgenerierung in LLMs als effektiv erwiesen hat. Trotz ihrer starken multimodalen Verständnisfähigkeiten konzentrieren sich diese Modelle hauptsächlich auf die visuelle Wahrnehmung und sind nicht in der Lage, multimodale Ausgaben über Text hinaus zu generieren.

Transformer-Modelle haben sich bei der autoregressiven Modellierung in der Verarbeitung natürlicher Sprache als sehr erfolgreich erwiesen. Inspiriert von diesen Fortschritten haben frühere Studien die gleiche autoregressive Modellierung direkt angewendet, um die Abhängigkeit von Bildpixeln bei der Bild- und Videogenerierung zu untersuchen. Beispielsweise verwendet VideoPoet eine Transformer-Architektur nur mit Decoder, um qualitativ hochwertige Videos aus multimodalen Eingaben zu synthetisieren. Vor kurzem hat LlamaGen gezeigt, dass eine große Sprachmodellarchitektur wie Llama Bildtoken autoregressiv modellieren kann und eine ordentliche Leistung bei der klassenbedingten Bildgenerierung erzielt.

In diesem Artikel besprechen wir Show-O, einen vereinheitlichten Transformator, der multimodales Verständnis und Generierung integriert. Im Gegensatz zu vollständig autoregressiven Modellen vereinheitlicht Show-O autoregressive und diskrete Diffusionsmodellierung, um Ein- und Ausgaben verschiedener und gemischter Modalitäten adaptiv zu handhaben. Das vereinheitlichte Modell unterstützt flexibel eine breite Palette von Vision-Language-Aufgaben, darunter visuelle Fragenbeantwortung, Text-zu-Bild-Generierung, textgeführtes Inpainting/Extrapolation und Generierung gemischter Modalitäten. In verschiedenen Benchmarks zeigt Show-O eine vergleichbare oder bessere Leistung als bestehende Einzelmodelle mit einer gleichwertigen oder größeren Anzahl von Parametern und unterstreicht damit sein Potenzial als Basismodell der nächsten Generation.

In diesem Rahmen hat das Modell die Aufgabe, das den kontinuierlichen latenten Darstellungen hinzugefügte gaußsche Rauschen vorherzusagen. Im Gegensatz dazu verwenden andere Modelle wie D3PM, Mask-predict, ARDM und MaskGIT einen diskreten Korruptionsprozess als Alternative zur gaußschen Diffusion. Genauer gesagt wird ein Bild mithilfe von Bildtokenisierern als Folge diskreter Token dargestellt, wobei jedem Token eine kategorische Bezeichnung zugeordnet ist. Die tokenweise Verteilung wird durch einen stochastischen Sampling-Prozess in eine gleichmäßige Verteilung umgewandelt. Während des Trainings wird ein Teil dieser Token zufällig maskiert und das Modell wird trainiert, um die ursprünglichen Werte der maskierten Token vorherzusagen. In dieser Arbeit verwendet Show-O diskrete Diffusionsmodellierung zur visuellen Generierung.

SHOW-O: Multimodales Verständnis und Generierung vereinen

In den letzten Jahren wurden in den beiden Hauptpfeilern der multimodalen Intelligenz bedeutende Fortschritte erzielt: Verständnis und Generierung. Für das multimodale Verständnis Multimodale große Sprachmodelle (MLLMs)) wie LLaVA haben außergewöhnliche Fähigkeiten bei Vision-Language-Aufgaben wie Visual Question-Answering (VQA) bewiesen. Bei der visuellen Generierung haben Denoising Diffusion Probabilistic Models (DDPMs) traditionelle generative Paradigmen revolutioniert und eine beispiellose Leistung bei der Text-zu-Bild/Video-Generierung erreicht.

Angesichts dieser Erfolge in den einzelnen Bereichen ist es naheliegend, das Potenzial ihrer Verbindung zu untersuchen. In neueren Arbeiten wurde versucht, Expertenmodelle aus diesen beiden unterschiedlichen Bereichen zu einem einheitlichen System zusammenzuführen, das sowohl multimodales Verständnis als auch Generierung bewältigen kann. Bestehende Ansätze beinhalten jedoch häufig separate Modelle für Verständnis und Generierung. Beispielsweise verwendet NExT-GPT ein Basissprachenmodell für multimodales Verständnis, erfordert jedoch ein zusätzliches vorab trainiertes Diffusionsmodell für die Bildgenerierung. Dies wirft die Frage auf: Kann ein einziger Transformator sowohl multimodales Verständnis als auch Generierung bewältigen?

Chameleon hat kürzlich gezeigt, dass dies möglich ist. Insbesondere ermöglicht Chameleon die Fusion verschiedener Modalitäten, um sowohl Text- als auch Bild-Token durch autoregressive Modellierung zu generieren. Während es sinnvoll ist, Text-Token autoregressiv zu modellieren, ist es weniger klar, ob die Modellierung von Bildpatches oder Pixeln auf die gleiche Weise optimal ist. Ein wesentlicher Engpass bei der autoregressiven Vorhersage eines Bildes ist die große Anzahl der erforderlichen Sampling-Schritte, insbesondere bei Bildern mit höherer Auflösung. Kontinuierliche Diffusionsmodelle haben bei der visuellen Generierung eine bessere Leistung gezeigt als autoregressive Modelle.

Dies führt uns zu der Frage, ob ein einziger Transformator sowohl autoregressive als auch Diffusionsmodellierung integrieren kann. Show-O stellt sich ein neues Paradigma vor, bei dem Text als diskrete Token dargestellt und autoregressiv modelliert wird, während kontinuierliche Bildpixel mithilfe von Rauschunterdrückung durch Diffusion modelliert werden. Die Integration dieser beiden unterschiedlichen Techniken in ein einziges Netzwerk ist jedoch aufgrund der Unterschiede zwischen diskreten Texttoken und kontinuierlichen Bilddarstellungen nicht trivial. Darüber hinaus basieren Diffusionsmodelle normalerweise auf zwei unterschiedlichen Modellen: einem Textcodierer und einem Rauschunterdrückungsnetzwerk.

Um dieses Problem zu lösen, führt Show-O ein neuartiges einheitliches Modell ein, das sowohl multimodale Verständnis- als auch Generierungsaufgaben mithilfe gemischter autoregressiver und Diffusionsmodellierung bewältigen kann. Show-O basiert auf einem vorab trainierten LLM und nutzt dessen autoregressive Modellierungsfunktionen für textbasiertes Denken. Inspiriert von anderen Arbeiten verwendet Show-O diskrete Denoising-Diffusion, um Bild-Tokens anstelle kontinuierlicher Darstellungen zu modellieren. Darüber hinaus kodiert Show-O inhärent textbedingte Informationen, wodurch zusätzliche Textkodierer überflüssig werden. Durch die Verwendung von Text- und Bild-Tokenisierern kann Show-O verschiedene Eingabedaten und Aufgaben verarbeiten, autoregressiv Antworten für Vision-Language-Aufgaben liefern und Bilder mithilfe diskreter Denoising-Diffusion generieren.

Show-O zeigt in verschiedenen Benchmarks eine vergleichbare und in manchen Fällen bessere Leistung als einzelne Modelle mit einer gleichwertigen oder größeren Anzahl von Parametern. Im Gegensatz zur autoregressiven Bildgenerierung erfordert das Show-O-Framework etwa 20-mal weniger Sampling-Schritte und ist daher von Natur aus schneller. Darüber hinaus unterstützt das Show-O-Framework nachgelagerte Anwendungen wie textgesteuertes Inpainting und Extrapolation, ohne dass eine Feinabstimmung erforderlich ist, wie im folgenden Bild gezeigt.

Show-O bietet außerdem Potenzial für die Generierung gemischter Modalitäten, wie beispielsweise die Generierung verschachtelter Video-Keyframes mit Textbeschreibungen, was für die Generierung von Langformat-Videos vielversprechend ist. Darüber hinaus untersucht das Show-O-Framework die Auswirkungen diskreter und kontinuierlicher Bilddarstellungen auf das multimodale Verständnis und bietet Erkenntnisse für zukünftige einheitliche Modelldesigns.

Die folgende Abbildung zeigt einen Vergleich der Modelleigenschaften zwischen dem Show-O-Framework und vorhandenen Methoden in verschiedenen Bereichen. Show-O zeichnet sich als einheitliches Modell aus, das fortschrittliche Techniken sowohl für multimodales Verständnis als auch für multimodale Generierung integriert.

Zusammenfassend sind die wichtigsten Beiträge dieses Papiers wie folgt:

Show-O ist ein einheitliches Modell das multimodales Verständnis und Generierung mithilfe eines einzigen Transformators integriert.
Show-O vereinheitlicht autoregressive und diskrete Diffusionsmodellierung innerhalb eines Transformators, der sowohl Text als auch Bilder effektiv verarbeitet.
Das Show-O-Framework übertrifft einzelne Basismodelle oder entspricht ihnen mit gleichwertigen oder größeren Parametern über multimodale Verständnis- und Generations-Benchmarks hinweg.
Show-O unterstützt nachgelagerte Anwendungen wie textbasiertes Inpainting und Extrapolation ohne Feinabstimmung und zeigt Potenzial für die Generierung gemischter Modalitäten.
Show-O untersucht die Auswirkungen verschiedener Darstellungsartenund liefert wertvolle Erkenntnisse zur Verbesserung des multimodalen Verständnisses in einheitlichen Modellen.

In den letzten Jahren konzentrierten sich immer mehr Studien auf einheitliche multimodale Sprachmodelle, die sowohl verstehen als auch generieren können. Einige Ansätze verwenden kontinuierliche Darstellungen, die mit Texttokens für die autoregressive Modellierung verschachtelt sind, um Bilder zu generieren. SEED-X schlägt ein einheitliches und vielseitiges Basissystem vor, das sowohl multimodale Verständnis- als auch Generierungsaufgaben bewältigen kann. Bei diesem Ansatz werden kontinuierliche Bilddarstellungen aus dem CLIP ViT-Encoder mit Texttokens kombiniert und in ein großes Sprachmodell (LLM) eingespeist, um die Vorhersage des nächsten Wortes und die Regression der Bilddarstellung durchzuführen. Chameleon führt eine Familie tokenbasierter gemischtmodaler Modelle ein, die sowohl verstehen als auch Bilder generieren können. Dieser Ansatz stellt alle Modalitäten als diskrete Tokens dar, verwendet eine einheitliche transformatorbasierte Architektur und trainiert das Modell von Grund auf durchgängig. Im Vergleich dazu verwendet Show-O ebenfalls diskrete Tokens, um alle Modalitäten darzustellen, verwendet jedoch einen diskreten Diffusionsprozess anstelle einer autoregressiven Modellierung zur visuellen Generierung.

SHOW-O: Methodik und Architektur

Das Hauptziel des Show-O-Frameworks ist die Entwicklung eines einheitlichen Modells, das autoregressive und Diffusionsmodellierung für ein gemeinsames multimodales Verständnis und eine gemeinsame multimodale Generierung integriert. Die Entwicklung eines solchen einheitlichen Modells ist mit erheblichen Herausforderungen verbunden. Die Kernprobleme drehen sich um: i) die Definition des Eingabe-/Ausgabebereichs des Modells; ii) die Vereinheitlichung verschiedener Arten von Eingabedaten aus unterschiedlichen Modalitäten; iii) die Integration sowohl der autoregressiven als auch der Diffusionsmodellierung in einen einzigen Transformator; und iv) das effektive Trainieren eines solchen einheitlichen Modells.

Show-O begegnet diesen Herausforderungen mit den folgenden Lösungen:

Show-O konstruiert den Eingabe-/Ausgabebereich, indem Text- und Bilddaten in diskrete Token aufgeteilt werden.
Show-O stellt seine Standardarchitektur und eine einheitliche Eingabeaufforderungsstrategie zur Strukturierung von Eingabedaten und Modalitäten vor.
Show-O zeigt, wie sowohl autoregressive als auch Diffusionsmodellierung in einem einzigen Transformator integriert werden können.
Show-O präsentiert eine dreistufige Trainingspipeline, um das einheitliche Modell effektiv zu trainieren.

Tokenisierung

Da die vorgeschlagene Show-O auf vorab trainierte LLMsist es naheliegend, einheitliches Lernen im diskreten Raum durchzuführen. Durch die Beibehaltung eines einheitlichen Vokabulars, das diskrete Text- und Bild-Token umfasst, wird Show-O mit demselben Lernziel beauftragt: der Vorhersage diskreter Token.

Text-Tokenisierung

Show-O basiert auf einem vortrainierten LLM und derselbe Tokenizer wird ohne Änderungen für die Tokenisierung von Textdaten verwendet.

Bild-Tokenisierung

Nach MAGVIT-v2 trainiert Show-O einen nachschlagefreien Quantisierer mit rund 35 Millionen Bilddaten. Der Quantisierer verwaltet ein Codebuch mit einer Größe von 8,192 und kodiert Bilder mit einer Auflösung von 256×256 in 16×16 diskrete Token. MAGVIT-v2 wurde aufgrund seiner einfachen Feinabstimmung ausgewählt, wodurch es sich als Video-Tokenisierer mit zeitlicher Komprimierungsfunktion eignet, ein Aspekt, den Show-O in Zukunft untersuchen möchte. Ein alternativer Ansatz besteht darin, unterschiedliche Tokenisierer für das Verständnis bzw. die Generierung zu verwenden. Inspiriert von bestehenden Studien extrahiert Show-O auch kontinuierliche Bilddarstellungen aus dem vorab trainierten MAGVIT-v2- und CLIP-ViT-Encoder, um Verbesserungen bei den multimodalen Verständnisfunktionen zu untersuchen. In den folgenden Abschnitten verwendet das Standard-Show-O diskrete Bildtoken als Eingabe sowohl für das multimodale Verständnis als auch für die Generierung. Der Einfachheit halber werden in den Abschnitten zur Methodik nur das Standard-Show-O erläutert.

Architektur

Show-O übernimmt die Architektur von bestehende LLMs ohne jegliche Architekturänderungen, außer dass jeder Aufmerksamkeitsschicht eine QK-Norm-Operation vorangestellt wird. Show-O wird mit den Gewichten eines vorab trainierten LLM initialisiert und erweitert die Größe der Einbettungsschicht durch die Einbindung von 8,192 neuen lernbaren Einbettungen für diskrete Bildtoken. Anders als moderne Diffusionsmodelle, die einen zusätzlichen Textcodierer erfordern, codiert Show-O von Natur aus textbedingte Informationen für die Text-zu-Bild-Generierung.

Einheitliche Eingabeaufforderung

Um ein einheitliches Lernen für multimodales Verständnis und Generierung durchzuführen, verwendet Show-O eine einheitliche Eingabestrategie, um verschiedene Arten von Eingabedaten zu formatieren. Ein gegebenes Bild-Text-Paar (x, y) wird zuerst von den Bild- und Text-Tokenisierern in M Bild-Tokens und N Text-Tokens tokenisiert. Die Tokens werden dann je nach Aufgabentyp zu einer Eingabesequenz geformt, wie in der folgenden Abbildung dargestellt.

Durch den Einsatz dieses Prompt-Designs kann Show-O verschiedene Eingabedaten für multimodales Verständnis, Text-zu-Bild-Generierung und gemischte Modalitätsgenerierung effektiv als sequenzielle Daten kodieren. Dieses Setup ermöglicht ein einheitliches Lernen, das nahtlos über Sequenzen hinweg für diese verschiedenen Aufgaben funktioniert. Nach dem Training kann Show-O aufgefordert werden, eine breite Palette von visuellen Sprachaufgaben zu bewältigen, darunter visuelles Beantworten von Fragen und Text-zu-Bild-Generierung.

Omni-Attention-Mechanismus

Im Gegensatz zu bestehenden Arbeiten, die Sequenzen nur autoregressiv modellieren, führt Show-O einen Omni-Attention-Mechanismus ein, der es ermöglicht, verschiedene Signaltypen auf unterschiedliche Weise zu modellieren. Dieser umfassende Aufmerksamkeitsmechanismus wechselt adaptiv zwischen kausaler und voller Aufmerksamkeit, basierend auf dem Format der Eingabesequenz. Die folgende Abbildung zeigt Beispiele für Omni-Attention für verschiedene Eingabesequenzen.

Insbesondere verarbeitet Show-O Texttoken innerhalb der Sequenz mittels kausaler Aufmerksamkeit, während Bildtoken mit voller Aufmerksamkeit behandelt werden, sodass jedes Token umfassend mit allen anderen interagieren kann. Beim multimodalen Verständnis können Texttoken allen vorherigen Bildtoken Aufmerksamkeit schenken, während Bildtoken bei der Text-zu-Bild-Generierung mit allen vorhergehenden Texttoken interagieren können. Omni-Attention behält das Textschlussfolgerungswissen des vorab trainierten LLM bei und verbessert die Effizienz der Bildgenerierung durch Reduzierung der Sampling-Schritte. Darüber hinaus unterstützt es verschiedene nachgelagerte Anwendungen wie Inpainting und Extrapolation, ohne dass eine Feinabstimmung erforderlich ist. Wenn nur Texttoken gegeben werden, greift der Mechanismus standardmäßig auf kausale Aufmerksamkeit zurück.

SHOW-O: Experimente und Ergebnisse

Die folgende Tabelle zeigt die multimodale Verständnisfähigkeit von Show-O anhand öffentlicher Benchmarks, wie etwa Bildbeschriftungen und visuellen Frage-Antwort-Aufgaben.

Die aktuelle Version von Show-O basiert auf Phi-1.5. Daher dient das reine Verständnis-Gegenstück von Show-O, LLaVA-v1.5-Phi-1.5, als direkte Basis. Show-O zeigt in allen Bewertungsmetriken eine vergleichbare Leistung wie die Basisversion LLaVA-v1.5-Phi-1.5, die ausschließlich dem multimodalen Verständnis gewidmet ist. Dies zeigt das große Potenzial des Show-O-Frameworks, multimodales Verständnis und Generierung in einem einzigen Transformator zu vereinen. Im Vergleich zu reinen Verständnismodellen wie InstructBLIP, Qwen-VL-Chat und mPLUG-Owl2 erreicht Show-O trotz einer viel kleineren Modellgröße eine konkurrenzfähige Leistung bei den Benchmarks POPE, MME, Flickr30k und VQAv2 und schneidet beim GQA-Benchmark besser ab. Im Vergleich zu vereinheitlichten Modellen mit deutlich mehr Parametern, wie NExT-GPT-13B und Chameleon-34B, erreicht Show-O auch beim Flickr30k-Benchmark eine starke Leistung und schneidet beim VQAv2-Benchmark deutlich besser ab.

Angesichts dieser vielversprechenden Ergebnisse wird Show-O als potenzielles Basismodell der nächsten Generation zur Vereinheitlichung von Verständnis und Generierung angesehen. Diese Ergebnisse zeigen auch das Potenzial der Skalierung von Show-O, um eine hochmoderne Leistung zu erzielen.

Qualitative Vergleiche

Wir präsentieren qualitative Vergleiche mit diffusionsbasierten Modellen wie SDv1.5, SDXL und dem autoregressiven Modell LlamaGen neben vereinheitlichten Modellen wie LWM und SEED-X, wie in der folgenden Abbildung dargestellt.

Show-O zeigt die Fähigkeit, realistische Bilder mit konsistentem Inhalt zu generieren, der sowohl in kurzen als auch in langen Textaufforderungen beschrieben wird. Im Vergleich zu SDv1.5 und LlamaGen weist Show-O eine bessere visuelle Qualität und eine stärkere Bild-Text-Ausrichtung auf. In der zweiten Spalte können beispielsweise weder SDv1.5 noch LlamaGen die Textaufforderung vollständig verstehen und Attribute wie „Sonnenuntergang“ und „blaue Kuppeln“ in den generierten Bildern übersehen. Im Vergleich zu SDXL bietet Show-O eine vergleichbare visuelle Qualität und Ausrichtung, wie Beispiele wie „ein Rallye-Autorennen“ und „atemberaubender Kontrast zum leuchtenden Sonnenuntergang“ zeigen.

Textgeführtes Inpainting und Extrapolation

Show-O unterstützt natürlich textbasiertes Inpainting und Extrapolation, ohne dass eine Feinabstimmung erforderlich ist. Die folgende Abbildung zeigt mehrere Beispiele.

Oben in der Abbildung kann Show-O anhand eines Eingabebilds und einer Inpainting-Maske eine rote Straßenbahn in einen blauen Sportwagen mit glatten Kurven und getönten Fenstern verwandeln, basierend auf einer vom Benutzer bereitgestellten Texteingabeaufforderung. Show-O kann das Originalbild basierend auf der bereitgestellten Texteingabeaufforderung auch horizontal oder vertikal extrapolieren. In der zweiten Reihe beispielsweise extrapoliert Show-O ein Bild, indem es neue Objekte hinzufügt, wie „rote Wildblumen“. Die Pixel in den inpainting- und extrapolierten Bereichen bleiben mit dem Originalbild konsistent. Diese Beispiele demonstrieren deutlich die inhärenten Vorteile von Show-O gegenüber autoregressiven Modellen für nachgelagerte Anwendungen.

Abschließende Gedanken

In diesem Artikel haben wir über Show-O gesprochen, einen vereinheitlichten Transformator, der multimodales Verständnis und Generierung integriert. Im Gegensatz zu vollständig autoregressiven Modellen vereinheitlicht Show-O autoregressive und diskrete Diffusionsmodellierung, um Ein- und Ausgaben verschiedener und gemischter Modalitäten adaptiv zu handhaben. Das vereinheitlichte Modell unterstützt flexibel eine breite Palette von Vision-Language-Aufgaben, darunter visuelle Fragenbeantwortung, Text-zu-Bild-Generierung, textgeführtes Inpainting/Extrapolation und Generierung gemischter Modalitäten. In verschiedenen Benchmarks zeigt Show-O eine vergleichbare oder bessere Leistung als bestehende Einzelmodelle mit einer gleichwertigen oder größeren Anzahl von Parametern und unterstreicht damit sein Potenzial als Basismodell der nächsten Generation. In diesem Rahmen hat das Modell die Aufgabe, gaußsches Rauschen vorherzusagen, das den kontinuierlichen latenten Darstellungen hinzugefügt wird. Im Gegensatz dazu verwenden andere Modelle wie D3PM, Mask-predict, ARDM und MaskGIT einen diskreten Korruptionsprozess als Alternative zur gaußschen Diffusion. Show-O ist das erste Modell, das autoregressive und diskrete Diffusionsmodellierung vereint und so verschiedene Modalitäten auf unterschiedliche Weise verarbeiten kann. Umfangreiche experimentelle Ergebnisse zeigen, dass Show-O bei einer Vielzahl von Aufgaben im Bereich der Bildsprache mit einzelnen Expertenmodellen vergleichbar oder sogar besser ist. Dies unterstreicht sein Potenzial als Basismodell der nächsten Generation.

Verwandte Themen:LLaVA MLLM zeig-o Transformator

Als nächstes

Wie die Kombination von RAG mit Streaming-Datenbanken die Echtzeit-Dateninteraktion verändern kann

Verpassen Sie nicht

Ein Giftangriff gegen 3D-Gaußsches Splatting

Kunal Kejriwal

„Von Beruf Ingenieur, von Herzen Schriftsteller“. Kunal ist ein technischer Autor mit einer tiefen Liebe und einem tiefen Verständnis für KI und ML, der sich der Vereinfachung komplexer Konzepte in diesen Bereichen durch seine ansprechende und informative Dokumentation widmet.