Künstliche Intelligenz

MiniGPT-5: Interleaved Vision-And-Language Generation via Generative Vokens

Veröffentlicht am 23. Oktober 2023

Aktualisiert am 28. April 2026

Von

Kunal Kejriwal

Im Laufe der letzten Jahre haben Large Language Models (LLMs) die Aufmerksamkeit von AI-Entwicklern auf der ganzen Welt aufgrund von Durchbrüchen in der Natural Language Processing (NLP) auf sich gezogen. Diese Modelle haben neue Benchmarks in der Textgenerierung und -verständnis gesetzt. Allerdings ist es trotz der Fortschritte in der Textgenerierung immer noch eine Herausforderung, Bilder zu erzeugen, die kohärent mit den textlichen Erzählungen übereinstimmen. Um dies zu lösen, haben Entwickler einen innovativen Ansatz für die Vision- und Sprachgenerierung auf der Grundlage von “generativen Vokens” vorgestellt, der die Lücke für harmonisierte Text-Bild-Ausgaben schließt.

Die Grundlage von MiniGPT-5 ist eine zweistufige Trainingsstrategie, die sich stark auf die beschreibungsfreie multimodale Datengenerierung konzentriert, bei der die Trainingsdaten keine umfassenden Bildbeschreibungen erfordern. Darüber hinaus umfasst das Modell, um die Integrität des Modells zu verbessern, ein klassifizierungsfreies Führungssystem, das die Wirksamkeit eines Vokens für die Bildgenerierung erhöht. In der initialen Phase hat das MiniGPT-5-Framework eine leistungsstarke Leistung und eine wesentliche Verbesserung gegenüber dem Baseline-Modell Divter gezeigt, das auf dem MMDialog-Datensatz trainiert wurde, und hat ständig seine Fähigkeit demonstriert, vergleichbare und sogar überlegene multimodale Ausgaben in den von Menschen durchgeführten Bewertungen auf dem VIST-Datensatz zu liefern, was seine Leistung und Effizienz in verschiedenen Benchmarks unterstreicht.

MiniGPT5 : Eine Einführung

Mit den jüngsten Entwicklungen der LLM-Frameworks und Anwendungen, die auf diesen LLM-Frameworks basieren, ist die Integration von Multimedia-Features ein Bereich, der an Popularität gewonnen hat, da sie auch eine wichtige Weiterentwicklung darstellt, die eine breite Palette von Anwendungen von state-of-the-art-Content-Erstellungstools bis hin zu cutting-edge-Multimodal-Dialogagenten antreibt. Mit kontinuierlicher Forschung und Entwicklung sind Sprach- und Bildmodelle an dem Punkt angelangt, an dem Arbeit geleistet wird, um sie in die Lage zu versetzen, sowohl Text als auch visuelle Daten nahtlos zu generieren. Die Fähigkeit von LLM, multimodale Daten nahtlos zu generieren, wird dazu beitragen, die Interaktionen in verschiedenen Bereichen wie E-Commerce, Medien und virtueller Realität zu verbessern.

Letztendlich besteht das Ziel darin, Modelle zu ermöglichen, konsistent und logisch mithilfe von textlichen und visuellen Modalitäten zu synthetisieren, zu erkennen und zu reagieren, und somit eine entscheidende Rolle bei der Harmonisierung des Informationsflusses und der Schaffung logischer und konsistenter Erzählungen zu spielen. Die Notwendigkeit, eine Kombination aus textlichen und visuellen Modalitäten zu erreichen, wird in erster Linie durch die Notwendigkeit flüssigerer, integrierter und interaktiverer multimodaler Interaktionen in LLMs angetrieben, und letztendlich die alternierende Sprach- und Bildgenerierung zu erreichen. Allerdings ist die Erreichung integrierter und interaktiver multimodaler Interaktionen in LLMs eine komplizierte Aufgabe, die mit zahlreichen Herausforderungen verbunden ist, darunter

Obwohl aktuelle LLMs extrem effizient und leistungsfähig sind, wenn es um die Textgenerierung und die Verarbeitung von Text-Bild-Paaren geht, liefern sie bei der Bildgenerierung keine zufriedenstellende Leistung.
Die Entwicklung dieser Vision- und Sprachmodelle hängt stark von themenfokussierten Daten ab, was es für Modelle schwierig macht, den generierten Text mit den entsprechenden Bildern abzustimmen.
Schließlich gibt es die Notwendigkeit, effektivere Strategien zu entwickeln, da mit der Erhöhung ihrer Fähigkeiten auch die Speicheranforderungen von LLMs steigen, insbesondere bei der Durchführung von Downstream-Aufgaben.

Das MiniGPT-5-Framework, ein verflochtener Sprach- und Bildgenerierungsalgorithmus, der das Konzept von “generativen Vokens” einführt, um die oben genannten Herausforderungen zu lösen. Das MiniGPT-5-Framework schlägt einen neuen Ansatz für die multimodale Datengenerierung vor, indem es Large Language Models mit Stable-Diffusion-Techniken verbindet, indem es spezielle visuelle Token verwendet. Der vorgeschlagene zweistufige Trainingsansatz, der vom MiniGPT-5-Framework verwendet wird, unterstreicht die Bedeutung einer grundlegenden Phase ohne Beschreibungen und bereitet das Modell darauf vor, auch in Szenarien mit begrenzten Daten effiziente Leistungen zu erbringen.

Aber was das MiniGPT-5-Modell von aktuellen Frameworks unterscheidet, ist, dass die generischen Stufen des MiniGPT-5-Frameworks keine domänen-spezifischen Anmerkungen enthalten. Darüber hinaus stellt das MiniGPT-5-Framework sicher, dass der generierte Text und die entsprechenden Bilder in Harmonie miteinander stehen, indem es eine Dual-Verlust-Strategie einsetzt, die den Ansatz des MiniGPT-5-Frameworks zur Verwendung von klassifizierungs-freier Führung und generativen Vokens weiter verbessert. Das MiniGPT-5-Framework optimiert die Trainings-Effizienz und löst die Speicher-Beschränkungen dank seiner parameter-effizienten Strategie zur Feinabstimmung des Modells.

Um Ihnen eine kurze Zusammenfassung zu geben, schlägt das MiniGPT-5-Framework

eine Methode vor, die multimodale Encoder verwendet, die eine neuartige und generische Methode darstellen, die sich historisch als effektiver als traditionelle LLMs erwiesen hat, und die generative Token in Kombination mit Stable-Diffusion-Techniken verwendet, um verflochtene Sprach- und Bild-Ausgaben zu generieren.
eine zweistufige Trainingsstrategie für die Generierung von beschreibungs-freien multimodalen Ausgaben und die Einbeziehung von klassifizierungs-freier Führung während der Trainingsphase, um die Qualität der generierten Daten weiter zu verfeinern.

Das MiniGPT-5-Modell wird stark von der vorherigen Forschung und Arbeit in den Bereichen

Text-zu-Bild-Generierung: um die Umwandlung von textlichen Beschreibungen in ihre entsprechenden visuellen Darstellungen und Text-zu-Bild-Modelle zu ermöglichen.

MLLMs oder Multimodale Large Language Modelle: um vorgefertigte LLM-Modelle zu verwenden, um ihre Anwendungen und Effektivität bei der Generierung von multimodalen Daten zu erkunden.
Multimodale Generierung mit Large Language Modellen: um die Fähigkeiten eines LLMs zu erweitern, um Sprache und Bild-Daten nahtlos zu integrieren.

MiniGPT-5 : Methode, Architektur und Framework

Um Large Language Modelle mit multimodalen Datengenerierungsfähigkeiten auszustatten, führt das MiniGPT-5-Modell ein Framework ein, das darauf abzielt, Text-zu-Bild-Generierungsmodelle und vorgefertigte multimodale Large Language Modelle zu integrieren. Das MiniGPT-5-Framework führt außerdem die “generativen Vokens” ein, spezielle visuelle Token, die es Entwicklern ermöglichen, die Diskrepanzen zu lösen, die in verschiedenen Domänen auftreten, indem sie direkt auf rohen Bildern trainiert werden können. Um die Qualität der multimodalen Daten, die von den LLMs generiert werden, weiter zu verbessern, führt das MiniGPT-5-Framework eine klassifizierungs-freie Strategie ein, kombiniert mit einem fortschrittlichen zweistufigen Trainingsansatz. Lassen Sie uns einen detaillierten Blick auf das MiniGPT-5-Framework werfen.

Multimodale Eingabestufe

Die Entwicklungen von LLMs in der jüngsten Vergangenheit haben die multimodale Verständnisfähigkeit von LLMs in den Vordergrund gerückt, indem sie die Verarbeitung von Bildern als sequenzielle Eingabe ermöglichen. Das MiniGPT-5-Framework verwendet speziell entwickelte generative Vokens, um visuelle Merkmale in der Ausgabe zu erzeugen, um die multimodale Verständnisfähigkeit von LLMs auf die multimodale Datengenerierung auszudehnen. Darüber hinaus verwendet das MiniGPT-5-Framework parameter-effiziente und fortschrittliche Feinabstimmungstechniken für das multimodale Ausgabenlernen mit dem LLM-Framework.

Multimodale Kodierung

Der vorgefertigte visuelle Encoder im MiniGPT-5-Framework transformiert jedes Eingabebild in ein Merkmal, und jedes Text-Token wird als Vektor eingebettet, und die Eingabe-Prompt-Merkmale werden erzeugt, wenn diese Einbettungen miteinander verkettet werden.

Hinzufügen von Vokens in Large Language Modelle

Traditionell besteht das Vokabular von Large Language Modellen nur aus textlichen Token, was der Grund dafür ist, dass die Entwickler, die an dem MiniGPT-5-Framework arbeiten, die Lücke zwischen den generativen und den traditionellen LLMs schließen mussten. Das MiniGPT-5-Framework führt eine Reihe von speziellen Token als generative Token in das Vokabular des LLMs ein. Das Framework nutzt dann den versteckten Ausgangszustand des LLMs für diese speziellen Vokens für die anschließende Bildgenerierung, und die Einsetzung von verflochtenen Bildern wird durch die Position der Vokens dargestellt.

PEFT oder Parameter-Effiziente Feinabstimmung

PEFT oder Parameter-Effiziente Feinabstimmung ist ein entscheidendes Konzept, das zur Trainierung von LLMs verwendet wird, und dennoch sind die Anwendungen von PEFT in multimodalen Umgebungen noch weitgehend unerforscht. Das MiniGPT-5-Framework verwendet die Parameter-Effiziente Feinabstimmung über den Encoder des MiniGPT-4-Frameworks, um das Modell zu trainieren, um Anweisungen oder Prompts besser zu verstehen, und sogar die Gesamtleistung des Modells in Zero-Shot- oder neuen Umgebungen zu verbessern.

Multimodale Ausgabengenerierung

Um das generative Modell mit den generativen Token genau abzustimmen, formuliert das MiniGPT-5-Framework ein kompaktes Mapping-Modul für die Abstimmung der Dimensionen und die Einbeziehung von Aufsichtsverlusten, einschließlich des latenten Diffusionsmodell-Verlusts und des Text-Raum-Verlusts. Der latente Diffusions-Aufsichtsverlust stimmt die entsprechenden visuellen Merkmale mit den Token direkt ab, während der Text-Raum-Verlust dem Modell hilft, die richtigen Positionen der Token zu lernen. Da die generativen Vokens im MiniGPT-5-Framework direkt von den Bildern geleitet werden, benötigt das MiniGPT-5-Framework keine umfassenden Bildbeschreibungen, was zu einer beschreibungs-freien Lernphase führt.

Text-Raum-Generierung

Das MiniGPT-5-Framework folgt der kausalen Sprachmodellierungsmethode, um sowohl Vokens als auch Texte im Text-Raum gemeinsam zu generieren, und während der Trainingsphase fügen die Entwickler die Vokens an die Position der Ground-Truth-Bilder hinzu und trainieren das Modell, um Vokens innerhalb der Textgenerierung vorherzusagen.

Abbildung von Voken-Merkmalen für die Bildgenerierung

Nach der Generierung des Text-Raums stimmt das Framework den versteckten Ausgangszustand mit dem text-konditionalen Merkmalsraum des Text-zu-Bild-Generierungsmodells ab. Das Framework unterstützt auch ein Feature-Mapper-Modul, das ein dual-schichtiges MLP-Modell, eine lernte Decoder-Feature-Sequenz und ein vier-schichtiges Encoder-Decoder-Transformer-Modell umfasst.

Bildgenerierung mit LDM oder Latentem Diffusionsmodell

Um die erforderlichen Bilder im Entstörungsprozess zu generieren, verwendet das Framework die abgebildeten Merkmale als bedingten Eingang. Das Framework verwendet auch ein LDM oder Latentes Diffusionsmodell für die Führung, da während der Trainingsphase das Ground-Truth-Bild zunächst in ein latentes Merkmal mithilfe eines vorgefertigten VAE umgewandelt wird, wonach die Entwickler das latente Rauschmerkmal durch Hinzufügen von Rauschen erhalten.

Das umfassende Vorgehen, das vom MiniGPT-5-Framework eingesetzt wird, ermöglicht es Entwicklern, ein kohärentes Verständnis und die Generierung von sowohl visuellen als auch textlichen Elementen zu haben, indem sie spezielle Token, die Fähigkeiten von vorgefertigten Modellen und innovative Trainingsmethoden nutzen.

MiniGPT-5 : Trainierung und Ergebnisse

Wenn die Entwickler an dem MiniGPT-5-Framework arbeiteten, stellten sie fest, dass das Training auf einem begrenzten verflochtenen Text- und Bild-Datensatz direkt zu Bildern mit verringerten Qualität und Fehlausrichtung führen kann, insbesondere aufgrund der erheblichen Domänenverschiebung zwischen den Bild- und Text-Domänen. Um dieses Problem zu lösen, wendeten die Entwickler zwei verschiedene Trainingsstrategien an,

die Einbeziehung von klassifizierungs-freien Führungs-Techniken, die die Wirksamkeit von generativen Token während des Diffusionsprozesses erhöhen.
die zweite Strategie ist weiter unterteilt in zwei Stufen
1. eine anfängliche Vorphase, die sich auf die Ausrichtung von groben Merkmalen konzentriert.
2. eine Feinabstimmungsphase, die das Merkmal-Lernen erleichtert.

CFG oder Klassifizierungs-freie Führung

Die Idee, CFG für die multimodale Generierung zu nutzen, entstand als Ergebnis eines Versuchs, die Konsistenz und Logik zwischen den generierten Bildern und Texten zu verbessern, und die CFG wird während des Text-zu-Bild-Diffusionsprozesses eingeführt. Diese Methode zeigt, dass durch das Training auf unbedingter und bedingter Generierung mit Konditions-Ausfall die generativen Modelle verbesserte bedingte Ergebnisse erzielen können.

Zweistufige Trainingsstrategie

Angesichts der erheblichen Domänenverschiebung zwischen der Text-Bild-Generierung und der reinen Textgenerierung verwendet das MiniGPT-5-Framework eine zweistufige Strategie für die Trainierung

Unimodale Ausrichtungsphase oder UAS,
Multimodale Lernphase oder MLS.

Zunächst stimmt das Framework die Bildgenerierungsmerkmale mit den Voken-Merkmalen in einzelnen Text-Bild-Paaren ab, bei denen jedes Datensample nur einen Text und nur ein Bild enthält, und der Text normalerweise die Bildbeschreibung ist. In dieser Phase ermöglicht das Framework dem LLM, Vokens zu generieren, indem es die Bildbeschreibungen als LLM-Eingaben verwendet.

Sobald die UAS erfolgreich abgeschlossen ist, kann das Modell Bilder für einzelne Textbeschreibungen generieren, aber es hat Schwierigkeiten mit der verflochtenen Sprach- und Bildgenerierung, einschließlich Text-Bild-Paaren, und kompliziertes Denken ist erforderlich, um Bild und Text zu generieren. Um diese Hürde zu überwinden, haben die Entwickler das MiniGPT-5-Framework weiter fein abgestimmt, indem sie die PEFT-Parameter mit verflochtenen Sicht- und Sprach-Datensätzen wie VIST verwendet haben. Während dieser Phase konstruiert das Framework drei verschiedene Aufgaben aus dem Datensatz

Nur-Text-Generierung: Generiert den relevanten Text, gegeben das nächste Bild.
Nur-Bild-Generierung: Generiert das relevante Bild, gegeben den nächsten Text.
Multimodale Generierung: Generiert Text-Bild-Paare unter Verwendung des gegebenen Kontexts.

MiniGPT-5 : Benchmarks und Ergebnisse

Um seine Leistung in der multimodalen Generierung umfassend zu bewerten, vergleicht das MiniGPT-5-Entwicklungsteam seine Leistung mit anderen prominenten Baseline-Modellen, einschließlich Divter, GILL und dem fein abgestimmten unimodalen Generierungsmodell, und der Vergleich wird in der folgenden Tabelle demonstriert.

Das MiniGPT-5-Framework ist sich bewusst, dass die multimodale Ausgabe sinnvoll sein kann, gemessen am Kontext, aber sie kann sich von der Realität unterscheiden, was der Hauptgrund dafür ist, dass das MiniGPT-5-Framework auch menschliche Eingaben einbezieht, um die Leistung des Modells zu bewerten und zu beurteilen. Insgesamt wird die Effektivität des MiniGPT-5-Frameworks für multimodale Aufgaben aus drei Perspektiven gemessen.

Sprachliche Kontinuität: ob die generierte Inhalte nahtlos mit dem bereitgestellten Kontext übereinstimmen.
Bildqualität: ob die generierten Bilder relevant und klar sind.
Multimodale Kohärenz: ob die kombinierte Text-Bild-Ausgabe mit dem ursprünglichen Kontext übereinstimmt.

VIST-Final-Schritt-Bewertung

In der ersten Phase der Experimente zielt das MiniGPT-5-Framework darauf ab, die entsprechenden Bilder zu generieren, und die folgende Tabelle fasst die Ergebnisse zusammen, die in diesem Setting erhalten wurden.

Wie zu sehen ist, kann das MiniGPT-5-Framework in allen drei Einstellungen das fein abgestimmte SD2-Framework überbieten, was die Effektivität des MiniGPT-5-Pipelines unterstreicht.

Die obige Abbildung vergleicht die Leistung des MiniGPT-5-Frameworks mit dem fein abgestimmten MiniGPT-4-Framework auf den S-BERT-, Rouge-L- und Meteor-Leistungsmetriken. Die Ergebnisse zeigen, dass die Verwendung von generativen Vokens die Leistung des Frameworks nicht negativ beeinträchtigt, wenn es um die multimodale Verständnis geht. Die Ergebnisse zeigen auch, dass das MiniGPT-5-Framework in der Lage ist, lange horizontale multimodale Eingabe-Prompts über eine breite Palette von Daten zu verwenden, um hochwertige und kohärente Bilder zu generieren, ohne die Fähigkeit des ursprünglichen Modells für die multimodale Verständnis zu beeinträchtigen.

Die obige Tabelle vergleicht die Leistung von drei Frameworks auf 5.000 Samples für die multimodale Generierung aus den Aspekten der multimodalen Kohärenz, Bildqualität und sprachlichen Kontinuität. Wie zu sehen ist, übertrifft das MiniGPT-5-Framework die beiden anderen Baseline-Modelle in mehr als 70% der Fälle. Andererseits zeigt die folgende Tabelle die Leistung des MiniGPT-5-Frameworks auf dem CC3M-Validierungsdatensatz für die Generierung von einzelnen Bildern. Aufgrund von Datenbeschränkungen fanden die Entwickler eine Lücke für die Voken-Ausrichtung, wenn sie mit der stabilen Diffusion verwendet wurden. Trotz dieser Einschränkung übertrifft das MiniGPT-5-Framework das aktuelle State-of-the-Art-Baseline-Modell GILL in allen Metriken.

Schlussfolgerung

In diesem Artikel haben wir über MiniGPT-5 gesprochen, einem verflochtenen Sprach- und Bildgenerierungs-Algorithmus, der das Konzept von “generativen Vokens” einführt, um die Fähigkeiten von LLMs zu nutzen, um multimodale Daten zu generieren, indem er das Large Language Model mit einem Text-zu-Bild-Generierungsmodell verbindet, das vorgefertigt ist. Wir haben die wesentlichen Komponenten und die Gesamtbauweise des MiniGPT-5-Frameworks besprochen, zusammen mit den Ergebnissen, die eine wesentliche Verbesserung der Leistung und Effizienz im Vergleich zu den aktuellen Baseline- und State-of-the-Art-Modellen zeigen. MiniGPT-5 strebt danach, einen neuen Benchmark im Bereich der multimodalen Inhalts- und Datengenerierung zu setzen und die Herausforderungen zu lösen, mit denen die vorherigen Modelle konfrontiert waren, wenn sie versuchten, das gleiche Problem zu lösen.

Kunal Kejriwal

Ein Ingenieur von Beruf, ein Schriftsteller von Herzen. Kunal ist ein technischer Schriftsteller mit einer tiefen Liebe und einem tiefen Verständnis für KI und ML, der sich der Aufgabe widmet, komplexe Konzepte in diesen Bereichen durch seine ansprechenden und informativen Dokumentationen zu vereinfachen.