Connect with us

Künstliche Intelligenz

SHOW-O: Ein einzelner Transformer, der multimodales Verständnis und Generierung vereint

mm

Bedeutende Fortschritte in großen Sprachmodellen (LLMs) haben die Entwicklung multimodaler großer Sprachmodelle (MLLMs) inspiriert. Frühe MLLM-Bemühungen, wie LLaVA, MiniGPT-4 und InstructBLIP, demonstrieren bemerkenswerte multimodale Verständnisfähigkeiten. Um LLMs in multimodale Bereiche zu integrieren, erforschten diese Studien die Projektion von Merkmalen aus einem vorab trainierten modalspezifischen Encoder, wie CLIP, in den Eingaberaum von LLMs, wodurch multimodales Verständnis und Denken innerhalb des Transformer-Rückgrats ermöglicht wird. Obwohl es verschiedene Designentscheidungen für MLLMs gibt, wie z. B. Bildencoder, Feature-Alignment-Adapter und Datensätze, folgt die Ausbildung der meisten dieser Modelle dem autoregressiven Generierungsparadigma, das sich für die Textgenerierung in LLMs als effektiv erwiesen hat. Trotz ihrer starken multimodalen Verständnisfähigkeiten konzentrieren sich diese Modelle hauptsächlich auf visuelle Wahrnehmung und verfügen nicht über die Fähigkeit, multimodale Ausgaben jenseits von Text zu generieren.

Transformer-Modelle haben großen Erfolg in autoregressiver Modellierung in der natürlichen Sprachverarbeitung gezeigt. Inspiriert von solchen Fortschritten, haben vorherige Studien die gleiche autoregressive Modellierung direkt angewendet, um die Abhängigkeit von Bildpixeln für Bild- und Videogenerierung zu erlernen. Zum Beispiel verwendet VideoPoet eine Decoder-only-Transformer-Architektur, um hochwertige Videos aus multimodalen Eingaben zu synthetisieren. Kürzlich hat LlamaGen gezeigt, dass eine große Sprachmodell-Architektur wie Llama autoregressiv Bildtoken modellieren kann und dabei anständige Leistungen in klassenbedingter Bildgenerierung erzielt.

In diesem Artikel werden wir Show-O besprechen, einen vereinigten Transformer, der multimodales Verständnis und Generierung integriert. Im Gegensatz zu vollständig autoregressiven Modellen vereint Show-O autoregressive und diskrete Diffusionsmodellierung, um adaptiv mit Eingaben und Ausgaben verschiedener und gemischter Modalitäten umzugehen. Das vereinigte Modell unterstützt flexibel eine breite Palette von Bild-Sprach-Aufgaben, einschließlich visueller Fragebeantwortung, Text-Bild-Generierung, textgesteuerter Ausfüllung/Extrapolation und gemischter Modellgenerierung. In verschiedenen Benchmarks zeigt Show-O vergleichbare oder überlegene Leistungen im Vergleich zu bestehenden Einzelmodellen mit einer äquivalenten oder größeren Anzahl von Parametern, was sein Potenzial als nächste Generation von Grundmodellen unterstreicht.

In diesem Rahmen wird das Modell mit der Vorhersage von Gaußschem Rauschen beauftragt, das zu den kontinuierlichen latenten Repräsentationen hinzugefügt wird. Im Gegensatz dazu verwenden andere Modelle wie D3PM, Mask-predict, ARDM und MaskGIT einen diskreten Korruptionsprozess als Alternative zur Gauß-Diffusion. Insbesondere wird ein Bild als eine Folge von diskreten Tokenn mit Hilfe von Bildtokenisierern dargestellt, wobei jedem Token eine kategorische Bezeichnung zugeordnet ist. Die tokenweise Verteilung wird durch einen stochastischen Stichprobenprozess in eine einheitliche Verteilung umgewandelt. Während der Ausbildung wird ein Teil dieser Tokenn zufällig maskiert, und das Modell wird trainiert, die ursprünglichen Werte der maskierten Tokenn vorherzusagen. In dieser Arbeit verwendet Show-O diskrete Diffusionsmodellierung für visuelle Generierung.

… (rest of the translation remains the same, following the exact same structure and formatting as the original)

Ein Ingenieur von Beruf, ein Schriftsteller von Herzen. Kunal ist ein technischer Schriftsteller mit einer tiefen Liebe und einem tiefen Verständnis für KI und ML, der sich der Aufgabe widmet, komplexe Konzepte in diesen Bereichen durch seine ansprechenden und informativen Dokumentationen zu vereinfachen.