Vernetzen Sie sich mit uns

KĂŒnstliche Intelligenz

SHOW-O: Ein einziger Transformator, der multimodales VerstÀndnis und Erzeugung vereint

mm

Bedeutende Fortschritte bei großen Sprachmodellen (LLMs) haben die Entwicklung multimodaler großer Sprachmodelle (MLLMs) inspiriert. FrĂŒhe MLLM-BemĂŒhungen wie LLaVA, MiniGPT-4 und InstructBLIP weisen bemerkenswerte multimodale VerstĂ€ndnisfĂ€higkeiten auf. Um LLMs in multimodale DomĂ€nen zu integrieren, untersuchten diese Studien die Projektion von Merkmalen aus einem vorab trainierten modalitĂ€tsspezifischen Encoder wie CLIP in den Eingaberaum von LLMs, um multimodales VerstĂ€ndnis und Schlussfolgerung innerhalb des Transformer-Backbones zu ermöglichen. Obwohl es verschiedene Designoptionen fĂŒr MLLMs gibt, wie z. B. Vision-Encoder, Feature-Alignment-Adapter und DatensĂ€tze, folgt das Training fĂŒr die meisten dieser Modelle dem Paradigma der autoregressiven Generierung, das sich fĂŒr die Textgenerierung in LLMs als effektiv erwiesen hat. Trotz ihrer starken multimodalen VerstĂ€ndnisfĂ€higkeiten konzentrieren sich diese Modelle hauptsĂ€chlich auf die visuelle Wahrnehmung und sind nicht in der Lage, multimodale Ausgaben ĂŒber Text hinaus zu generieren.

Transformer-Modelle haben sich bei der autoregressiven Modellierung in der Verarbeitung natĂŒrlicher Sprache als sehr erfolgreich erwiesen. Inspiriert von diesen Fortschritten haben frĂŒhere Studien die gleiche autoregressive Modellierung direkt angewendet, um die AbhĂ€ngigkeit von Bildpixeln bei der Bild- und Videogenerierung zu untersuchen. Beispielsweise verwendet VideoPoet eine Transformer-Architektur nur mit Decoder, um qualitativ hochwertige Videos aus multimodalen Eingaben zu synthetisieren. Vor kurzem hat LlamaGen gezeigt, dass eine große Sprachmodellarchitektur wie Llama Bildtoken autoregressiv modellieren kann und eine ordentliche Leistung bei der klassenbedingten Bildgenerierung erzielt.

In diesem Artikel besprechen wir Show-O, einen vereinheitlichten Transformator, der multimodales VerstĂ€ndnis und Generierung integriert. Im Gegensatz zu vollstĂ€ndig autoregressiven Modellen vereinheitlicht Show-O autoregressive und diskrete Diffusionsmodellierung, um Ein- und Ausgaben verschiedener und gemischter ModalitĂ€ten adaptiv zu handhaben. Das vereinheitlichte Modell unterstĂŒtzt flexibel eine breite Palette von Vision-Language-Aufgaben, darunter visuelle Fragenbeantwortung, Text-zu-Bild-Generierung, textgefĂŒhrtes Inpainting/Extrapolation und Generierung gemischter ModalitĂ€ten. In verschiedenen Benchmarks zeigt Show-O eine vergleichbare oder bessere Leistung als bestehende Einzelmodelle mit einer gleichwertigen oder grĂ¶ĂŸeren Anzahl von Parametern und unterstreicht damit sein Potenzial als Basismodell der nĂ€chsten Generation.

In diesem Rahmen hat das Modell die Aufgabe, das den kontinuierlichen latenten Darstellungen hinzugefĂŒgte gaußsche Rauschen vorherzusagen. Im Gegensatz dazu verwenden andere Modelle wie D3PM, Mask-predict, ARDM und MaskGIT einen diskreten Korruptionsprozess als Alternative zur gaußschen Diffusion. Genauer gesagt wird ein Bild mithilfe von Bildtokenisierern als Folge diskreter Token dargestellt, wobei jedem Token eine kategorische Bezeichnung zugeordnet ist. Die tokenweise Verteilung wird durch einen stochastischen Sampling-Prozess in eine gleichmĂ€ĂŸige Verteilung umgewandelt. WĂ€hrend des Trainings wird ein Teil dieser Token zufĂ€llig maskiert und das Modell wird trainiert, um die ursprĂŒnglichen Werte der maskierten Token vorherzusagen. In dieser Arbeit verwendet Show-O diskrete Diffusionsmodellierung zur visuellen Generierung.

SHOW-O: Multimodales VerstÀndnis und Generierung vereinen

In den letzten Jahren wurden in den beiden Hauptpfeilern der multimodalen Intelligenz bedeutende Fortschritte erzielt: VerstĂ€ndnis und Generierung. FĂŒr das multimodale VerstĂ€ndnis Multimodale große Sprachmodelle (MLLMs)) wie LLaVA haben außergewöhnliche FĂ€higkeiten bei Vision-Language-Aufgaben wie Visual Question-Answering (VQA) bewiesen. Bei der visuellen Generierung haben Denoising Diffusion Probabilistic Models (DDPMs) traditionelle generative Paradigmen revolutioniert und eine beispiellose Leistung bei der Text-zu-Bild/Video-Generierung erreicht.

Angesichts dieser Erfolge in den einzelnen Bereichen ist es naheliegend, das Potenzial ihrer Verbindung zu untersuchen. In neueren Arbeiten wurde versucht, Expertenmodelle aus diesen beiden unterschiedlichen Bereichen zu einem einheitlichen System zusammenzufĂŒhren, das sowohl multimodales VerstĂ€ndnis als auch Generierung bewĂ€ltigen kann. Bestehende AnsĂ€tze beinhalten jedoch hĂ€ufig separate Modelle fĂŒr VerstĂ€ndnis und Generierung. Beispielsweise verwendet NExT-GPT ein Basissprachenmodell fĂŒr multimodales VerstĂ€ndnis, erfordert jedoch ein zusĂ€tzliches vorab trainiertes Diffusionsmodell fĂŒr die Bildgenerierung. Dies wirft die Frage auf: Kann ein einziger Transformator sowohl multimodales VerstĂ€ndnis als auch Generierung bewĂ€ltigen?

Chameleon hat kĂŒrzlich gezeigt, dass dies möglich ist. Insbesondere ermöglicht Chameleon die Fusion verschiedener ModalitĂ€ten, um sowohl Text- als auch Bild-Token durch autoregressive Modellierung zu generieren. WĂ€hrend es sinnvoll ist, Text-Token autoregressiv zu modellieren, ist es weniger klar, ob die Modellierung von Bildpatches oder Pixeln auf die gleiche Weise optimal ist. Ein wesentlicher Engpass bei der autoregressiven Vorhersage eines Bildes ist die große Anzahl der erforderlichen Sampling-Schritte, insbesondere bei Bildern mit höherer Auflösung. Kontinuierliche Diffusionsmodelle haben bei der visuellen Generierung eine bessere Leistung gezeigt als autoregressive Modelle.

Dies fĂŒhrt uns zu der Frage, ob ein einziger Transformator sowohl autoregressive als auch Diffusionsmodellierung integrieren kann. Show-O stellt sich ein neues Paradigma vor, bei dem Text als diskrete Token dargestellt und autoregressiv modelliert wird, wĂ€hrend kontinuierliche Bildpixel mithilfe von RauschunterdrĂŒckung durch Diffusion modelliert werden. Die Integration dieser beiden unterschiedlichen Techniken in ein einziges Netzwerk ist jedoch aufgrund der Unterschiede zwischen diskreten Texttoken und kontinuierlichen Bilddarstellungen nicht trivial. DarĂŒber hinaus basieren Diffusionsmodelle normalerweise auf zwei unterschiedlichen Modellen: einem Textcodierer und einem RauschunterdrĂŒckungsnetzwerk.

Um dieses Problem zu lösen, fĂŒhrt Show-O ein neuartiges einheitliches Modell ein, das sowohl multimodale VerstĂ€ndnis- als auch Generierungsaufgaben mithilfe gemischter autoregressiver und Diffusionsmodellierung bewĂ€ltigen kann. Show-O basiert auf einem vorab trainierten LLM und nutzt dessen autoregressive Modellierungsfunktionen fĂŒr textbasiertes Denken. Inspiriert von anderen Arbeiten verwendet Show-O diskrete Denoising-Diffusion, um Bild-Tokens anstelle kontinuierlicher Darstellungen zu modellieren. DarĂŒber hinaus kodiert Show-O inhĂ€rent textbedingte Informationen, wodurch zusĂ€tzliche Textkodierer ĂŒberflĂŒssig werden. Durch die Verwendung von Text- und Bild-Tokenisierern kann Show-O verschiedene Eingabedaten und Aufgaben verarbeiten, autoregressiv Antworten fĂŒr Vision-Language-Aufgaben liefern und Bilder mithilfe diskreter Denoising-Diffusion generieren.

Show-O zeigt in verschiedenen Benchmarks eine vergleichbare und in manchen FĂ€llen bessere Leistung als einzelne Modelle mit einer gleichwertigen oder grĂ¶ĂŸeren Anzahl von Parametern. Im Gegensatz zur autoregressiven Bildgenerierung erfordert das Show-O-Framework etwa 20-mal weniger Sampling-Schritte und ist daher von Natur aus schneller. DarĂŒber hinaus unterstĂŒtzt das Show-O-Framework nachgelagerte Anwendungen wie textgesteuertes Inpainting und Extrapolation, ohne dass eine Feinabstimmung erforderlich ist, wie im folgenden Bild gezeigt. 

Show-O bietet außerdem Potenzial fĂŒr die Generierung gemischter ModalitĂ€ten, wie beispielsweise die Generierung verschachtelter Video-Keyframes mit Textbeschreibungen, was fĂŒr die Generierung von Langformat-Videos vielversprechend ist. DarĂŒber hinaus untersucht das Show-O-Framework die Auswirkungen diskreter und kontinuierlicher Bilddarstellungen auf das multimodale VerstĂ€ndnis und bietet Erkenntnisse fĂŒr zukĂŒnftige einheitliche Modelldesigns.

Die folgende Abbildung zeigt einen Vergleich der Modelleigenschaften zwischen dem Show-O-Framework und vorhandenen Methoden in verschiedenen Bereichen. Show-O zeichnet sich als einheitliches Modell aus, das fortschrittliche Techniken sowohl fĂŒr multimodales VerstĂ€ndnis als auch fĂŒr multimodale Generierung integriert. 

Zusammenfassend sind die wichtigsten BeitrÀge dieses Papiers wie folgt:

  • Show-O ist ein einheitliches Modell das multimodales VerstĂ€ndnis und Generierung mithilfe eines einzigen Transformators integriert.
  • Show-O vereinheitlicht autoregressive und diskrete Diffusionsmodellierung innerhalb eines Transformators, der sowohl Text als auch Bilder effektiv verarbeitet.
  • Das Show-O-Framework ĂŒbertrifft einzelne Basismodelle oder entspricht ihnen mit gleichwertigen oder grĂ¶ĂŸeren Parametern ĂŒber multimodale VerstĂ€ndnis- und Generations-Benchmarks hinweg.
  • Show-O unterstĂŒtzt nachgelagerte Anwendungen wie textbasiertes Inpainting und Extrapolation ohne Feinabstimmung und zeigt Potenzial fĂŒr die Generierung gemischter ModalitĂ€ten.
  • Show-O untersucht die Auswirkungen verschiedener Darstellungsartenund liefert wertvolle Erkenntnisse zur Verbesserung des multimodalen VerstĂ€ndnisses in einheitlichen Modellen.

In den letzten Jahren konzentrierten sich immer mehr Studien auf einheitliche multimodale Sprachmodelle, die sowohl verstehen als auch generieren können. Einige AnsĂ€tze verwenden kontinuierliche Darstellungen, die mit Texttokens fĂŒr die autoregressive Modellierung verschachtelt sind, um Bilder zu generieren. SEED-X schlĂ€gt ein einheitliches und vielseitiges Basissystem vor, das sowohl multimodale VerstĂ€ndnis- als auch Generierungsaufgaben bewĂ€ltigen kann. Bei diesem Ansatz werden kontinuierliche Bilddarstellungen aus dem CLIP ViT-Encoder mit Texttokens kombiniert und in ein großes Sprachmodell (LLM) eingespeist, um die Vorhersage des nĂ€chsten Wortes und die Regression der Bilddarstellung durchzufĂŒhren. Chameleon fĂŒhrt eine Familie tokenbasierter gemischtmodaler Modelle ein, die sowohl verstehen als auch Bilder generieren können. Dieser Ansatz stellt alle ModalitĂ€ten als diskrete Tokens dar, verwendet eine einheitliche transformatorbasierte Architektur und trainiert das Modell von Grund auf durchgĂ€ngig. Im Vergleich dazu verwendet Show-O ebenfalls diskrete Tokens, um alle ModalitĂ€ten darzustellen, verwendet jedoch einen diskreten Diffusionsprozess anstelle einer autoregressiven Modellierung zur visuellen Generierung.

SHOW-O: Methodik und Architektur

Das Hauptziel des Show-O-Frameworks ist die Entwicklung eines einheitlichen Modells, das autoregressive und Diffusionsmodellierung fĂŒr ein gemeinsames multimodales VerstĂ€ndnis und eine gemeinsame multimodale Generierung integriert. Die Entwicklung eines solchen einheitlichen Modells ist mit erheblichen Herausforderungen verbunden. Die Kernprobleme drehen sich um: i) die Definition des Eingabe-/Ausgabebereichs des Modells; ii) die Vereinheitlichung verschiedener Arten von Eingabedaten aus unterschiedlichen ModalitĂ€ten; iii) die Integration sowohl der autoregressiven als auch der Diffusionsmodellierung in einen einzigen Transformator; und iv) das effektive Trainieren eines solchen einheitlichen Modells.

Show-O begegnet diesen Herausforderungen mit den folgenden Lösungen:

  • Show-O konstruiert den Eingabe-/Ausgabebereich, indem Text- und Bilddaten in diskrete Token aufgeteilt werden.
  • Show-O stellt seine Standardarchitektur und eine einheitliche Eingabeaufforderungsstrategie zur Strukturierung von Eingabedaten und ModalitĂ€ten vor.
  • Show-O zeigt, wie sowohl autoregressive als auch Diffusionsmodellierung in einem einzigen Transformator integriert werden können.
  • Show-O prĂ€sentiert eine dreistufige Trainingspipeline, um das einheitliche Modell effektiv zu trainieren.

Tokenisierung

Da die vorgeschlagene Show-O auf vorab trainierte LLMsist es naheliegend, einheitliches Lernen im diskreten Raum durchzufĂŒhren. Durch die Beibehaltung eines einheitlichen Vokabulars, das diskrete Text- und Bild-Token umfasst, wird Show-O mit demselben Lernziel beauftragt: der Vorhersage diskreter Token.

Text-Tokenisierung

Show-O basiert auf einem vortrainierten LLM und derselbe Tokenizer wird ohne Änderungen fĂŒr die Tokenisierung von Textdaten verwendet.

Bild-Tokenisierung

Nach MAGVIT-v2 trainiert Show-O einen nachschlagefreien Quantisierer mit rund 35 Millionen Bilddaten. Der Quantisierer verwaltet ein Codebuch mit einer GrĂ¶ĂŸe von 8,192 und kodiert Bilder mit einer Auflösung von 256×256 in 16×16 diskrete Token. MAGVIT-v2 wurde aufgrund seiner einfachen Feinabstimmung ausgewĂ€hlt, wodurch es sich als Video-Tokenisierer mit zeitlicher Komprimierungsfunktion eignet, ein Aspekt, den Show-O in Zukunft untersuchen möchte. Ein alternativer Ansatz besteht darin, unterschiedliche Tokenisierer fĂŒr das VerstĂ€ndnis bzw. die Generierung zu verwenden. Inspiriert von bestehenden Studien extrahiert Show-O auch kontinuierliche Bilddarstellungen aus dem vorab trainierten MAGVIT-v2- und CLIP-ViT-Encoder, um Verbesserungen bei den multimodalen VerstĂ€ndnisfunktionen zu untersuchen. In den folgenden Abschnitten verwendet das Standard-Show-O diskrete Bildtoken als Eingabe sowohl fĂŒr das multimodale VerstĂ€ndnis als auch fĂŒr die Generierung. Der Einfachheit halber werden in den Abschnitten zur Methodik nur das Standard-Show-O erlĂ€utert.

Architektur

Show-O ĂŒbernimmt die Architektur von bestehende LLMs ohne jegliche ArchitekturĂ€nderungen, außer dass jeder Aufmerksamkeitsschicht eine QK-Norm-Operation vorangestellt wird. Show-O wird mit den Gewichten eines vorab trainierten LLM initialisiert und erweitert die GrĂ¶ĂŸe der Einbettungsschicht durch die Einbindung von 8,192 neuen lernbaren Einbettungen fĂŒr diskrete Bildtoken. Anders als moderne Diffusionsmodelle, die einen zusĂ€tzlichen Textcodierer erfordern, codiert Show-O von Natur aus textbedingte Informationen fĂŒr die Text-zu-Bild-Generierung.

Einheitliche Eingabeaufforderung 

Um ein einheitliches Lernen fĂŒr multimodales VerstĂ€ndnis und Generierung durchzufĂŒhren, verwendet Show-O eine einheitliche Eingabestrategie, um verschiedene Arten von Eingabedaten zu formatieren. Ein gegebenes Bild-Text-Paar (x, y) wird zuerst von den Bild- und Text-Tokenisierern in M ​​Bild-Tokens und N Text-Tokens tokenisiert. Die Tokens werden dann je nach Aufgabentyp zu einer Eingabesequenz geformt, wie in der folgenden Abbildung dargestellt. 

Durch den Einsatz dieses Prompt-Designs kann Show-O verschiedene Eingabedaten fĂŒr multimodales VerstĂ€ndnis, Text-zu-Bild-Generierung und gemischte ModalitĂ€tsgenerierung effektiv als sequenzielle Daten kodieren. Dieses Setup ermöglicht ein einheitliches Lernen, das nahtlos ĂŒber Sequenzen hinweg fĂŒr diese verschiedenen Aufgaben funktioniert. Nach dem Training kann Show-O aufgefordert werden, eine breite Palette von visuellen Sprachaufgaben zu bewĂ€ltigen, darunter visuelles Beantworten von Fragen und Text-zu-Bild-Generierung.

Omni-Attention-Mechanismus 

Im Gegensatz zu bestehenden Arbeiten, die Sequenzen nur autoregressiv modellieren, fĂŒhrt Show-O einen Omni-Attention-Mechanismus ein, der es ermöglicht, verschiedene Signaltypen auf unterschiedliche Weise zu modellieren. Dieser umfassende Aufmerksamkeitsmechanismus wechselt adaptiv zwischen kausaler und voller Aufmerksamkeit, basierend auf dem Format der Eingabesequenz. Die folgende Abbildung zeigt Beispiele fĂŒr Omni-Attention fĂŒr verschiedene Eingabesequenzen.

Insbesondere verarbeitet Show-O Texttoken innerhalb der Sequenz mittels kausaler Aufmerksamkeit, wĂ€hrend Bildtoken mit voller Aufmerksamkeit behandelt werden, sodass jedes Token umfassend mit allen anderen interagieren kann. Beim multimodalen VerstĂ€ndnis können Texttoken allen vorherigen Bildtoken Aufmerksamkeit schenken, wĂ€hrend Bildtoken bei der Text-zu-Bild-Generierung mit allen vorhergehenden Texttoken interagieren können. Omni-Attention behĂ€lt das Textschlussfolgerungswissen des vorab trainierten LLM bei und verbessert die Effizienz der Bildgenerierung durch Reduzierung der Sampling-Schritte. DarĂŒber hinaus unterstĂŒtzt es verschiedene nachgelagerte Anwendungen wie Inpainting und Extrapolation, ohne dass eine Feinabstimmung erforderlich ist. Wenn nur Texttoken gegeben werden, greift der Mechanismus standardmĂ€ĂŸig auf kausale Aufmerksamkeit zurĂŒck.

SHOW-O: Experimente und Ergebnisse

Die folgende Tabelle zeigt die multimodale VerstĂ€ndnisfĂ€higkeit von Show-O anhand öffentlicher Benchmarks, wie etwa Bildbeschriftungen und visuellen Frage-Antwort-Aufgaben. 

Die aktuelle Version von Show-O basiert auf Phi-1.5. Daher dient das reine VerstĂ€ndnis-GegenstĂŒck von Show-O, LLaVA-v1.5-Phi-1.5, als direkte Basis. Show-O zeigt in allen Bewertungsmetriken eine vergleichbare Leistung wie die Basisversion LLaVA-v1.5-Phi-1.5, die ausschließlich dem multimodalen VerstĂ€ndnis gewidmet ist. Dies zeigt das große Potenzial des Show-O-Frameworks, multimodales VerstĂ€ndnis und Generierung in einem einzigen Transformator zu vereinen. Im Vergleich zu reinen VerstĂ€ndnismodellen wie InstructBLIP, Qwen-VL-Chat und mPLUG-Owl2 erreicht Show-O trotz einer viel kleineren ModellgrĂ¶ĂŸe eine konkurrenzfĂ€hige Leistung bei den Benchmarks POPE, MME, Flickr30k und VQAv2 und schneidet beim GQA-Benchmark besser ab. Im Vergleich zu vereinheitlichten Modellen mit deutlich mehr Parametern, wie NExT-GPT-13B und Chameleon-34B, erreicht Show-O auch beim Flickr30k-Benchmark eine starke Leistung und schneidet beim VQAv2-Benchmark deutlich besser ab.

Angesichts dieser vielversprechenden Ergebnisse wird Show-O als potenzielles Basismodell der nÀchsten Generation zur Vereinheitlichung von VerstÀndnis und Generierung angesehen. Diese Ergebnisse zeigen auch das Potenzial der Skalierung von Show-O, um eine hochmoderne Leistung zu erzielen.

Qualitative Vergleiche

Wir prĂ€sentieren qualitative Vergleiche mit diffusionsbasierten Modellen wie SDv1.5, SDXL und dem autoregressiven Modell LlamaGen neben vereinheitlichten Modellen wie LWM und SEED-X, wie in der folgenden Abbildung dargestellt. 

Show-O zeigt die FĂ€higkeit, realistische Bilder mit konsistentem Inhalt zu generieren, der sowohl in kurzen als auch in langen Textaufforderungen beschrieben wird. Im Vergleich zu SDv1.5 und LlamaGen weist Show-O eine bessere visuelle QualitĂ€t und eine stĂ€rkere Bild-Text-Ausrichtung auf. In der zweiten Spalte können beispielsweise weder SDv1.5 noch LlamaGen die Textaufforderung vollstĂ€ndig verstehen und Attribute wie „Sonnenuntergang“ und „blaue Kuppeln“ in den generierten Bildern ĂŒbersehen. Im Vergleich zu SDXL bietet Show-O eine vergleichbare visuelle QualitĂ€t und Ausrichtung, wie Beispiele wie „ein Rallye-Autorennen“ und „atemberaubender Kontrast zum leuchtenden Sonnenuntergang“ zeigen. 

TextgefĂŒhrtes Inpainting und Extrapolation 

Show-O unterstĂŒtzt natĂŒrlich textbasiertes Inpainting und Extrapolation, ohne dass eine Feinabstimmung erforderlich ist. Die folgende Abbildung zeigt mehrere Beispiele. 

Oben in der Abbildung kann Show-O anhand eines Eingabebilds und einer Inpainting-Maske eine rote Straßenbahn in einen blauen Sportwagen mit glatten Kurven und getönten Fenstern verwandeln, basierend auf einer vom Benutzer bereitgestellten Texteingabeaufforderung. Show-O kann das Originalbild basierend auf der bereitgestellten Texteingabeaufforderung auch horizontal oder vertikal extrapolieren. In der zweiten Reihe beispielsweise extrapoliert Show-O ein Bild, indem es neue Objekte hinzufĂŒgt, wie „rote Wildblumen“. Die Pixel in den inpainting- und extrapolierten Bereichen bleiben mit dem Originalbild konsistent. Diese Beispiele demonstrieren deutlich die inhĂ€renten Vorteile von Show-O gegenĂŒber autoregressiven Modellen fĂŒr nachgelagerte Anwendungen.

Abschließende Gedanken

In diesem Artikel haben wir ĂŒber Show-O gesprochen, einen vereinheitlichten Transformator, der multimodales VerstĂ€ndnis und Generierung integriert. Im Gegensatz zu vollstĂ€ndig autoregressiven Modellen vereinheitlicht Show-O autoregressive und diskrete Diffusionsmodellierung, um Ein- und Ausgaben verschiedener und gemischter ModalitĂ€ten adaptiv zu handhaben. Das vereinheitlichte Modell unterstĂŒtzt flexibel eine breite Palette von Vision-Language-Aufgaben, darunter visuelle Fragenbeantwortung, Text-zu-Bild-Generierung, textgefĂŒhrtes Inpainting/Extrapolation und Generierung gemischter ModalitĂ€ten. In verschiedenen Benchmarks zeigt Show-O eine vergleichbare oder bessere Leistung als bestehende Einzelmodelle mit einer gleichwertigen oder grĂ¶ĂŸeren Anzahl von Parametern und unterstreicht damit sein Potenzial als Basismodell der nĂ€chsten Generation. In diesem Rahmen hat das Modell die Aufgabe, gaußsches Rauschen vorherzusagen, das den kontinuierlichen latenten Darstellungen hinzugefĂŒgt wird. Im Gegensatz dazu verwenden andere Modelle wie D3PM, Mask-predict, ARDM und MaskGIT einen diskreten Korruptionsprozess als Alternative zur gaußschen Diffusion. Show-O ist das erste Modell, das autoregressive und diskrete Diffusionsmodellierung vereint und so verschiedene ModalitĂ€ten auf unterschiedliche Weise verarbeiten kann. Umfangreiche experimentelle Ergebnisse zeigen, dass Show-O bei einer Vielzahl von Aufgaben im Bereich der Bildsprache mit einzelnen Expertenmodellen vergleichbar oder sogar besser ist. Dies unterstreicht sein Potenzial als Basismodell der nĂ€chsten Generation.

„Von Beruf Ingenieur, von Herzen Schriftsteller“. Kunal ist ein technischer Autor mit einer tiefen Liebe und einem tiefen VerstĂ€ndnis fĂŒr KI und ML, der sich der Vereinfachung komplexer Konzepte in diesen Bereichen durch seine ansprechende und informative Dokumentation widmet.