Stummel MoE-LLaVA: Expertenmischung für große Vision-Sprach-Modelle – Unite.AI
Vernetzen Sie sich mit uns

Künstliche Intelligenz

MoE-LLaVA: Expertenmischung für große Vision-Sprach-Modelle

mm
Aktualisiert on
MoE-LLaVA: Expertenmischung für große Vision-Sprach-Modelle

Jüngste Fortschritte bei Large Vision Language Models (LVLMs) haben gezeigt, dass die Skalierung dieser Frameworks die Leistung bei einer Vielzahl nachgelagerter Aufgaben erheblich steigert. LVLMs, darunter MiniGPT, LLaMA und andere, haben durch die Integration visueller Projektionsebenen und eines Bildencoders in ihre Architektur bemerkenswerte Fähigkeiten erreicht. Durch die Implementierung dieser Komponenten verbessern LVLMs die visuelle Wahrnehmungsfähigkeit von Large Language Models (LLMs). Die Leistung kann weiter verbessert werden, indem die Größe und Anzahl der Parameter des Modells erhöht und der Datensatzumfang erweitert wird.

Modelle wie InternVL haben ihren Bildencoder auf über 6 Milliarden Parameter erweitert, während andere das Backend von LVLMs auf 13 Milliarden Parameter erweitert haben und so eine überlegene Leistung bei einer Vielzahl von Aufgaben erzielen. IDEFICS hat ein LVLM mit über 80 Milliarden Parametern trainiert. Diese Skalierungsmethoden haben die Leistung von LLMs, die auf über 34, 70 oder sogar 100 Milliarden Parameter vorab trainiert wurden, erreicht oder sogar übertroffen. Allerdings hat die Skalierung eine Kehrseite: Sie erhöht die Trainings- und Inferenzkosten erheblich. Dies liegt daran, dass alle Parameter für jeden zu berechnenden Token aktiv sein müssen, was zu einem hohen Rechenaufwand und damit zu höheren Kosten führt.

In diesem Artikel geht es um MoE-LLaVA, eine auf Mixture of Experts (MoE) basierende, spärliche LVLM-Architektur, die eine effektive Trainingsstrategie, MoE-Tuning, für LVLMs verwendet. MoE-Tuning geht auf innovative Weise den Leistungsabfall beim multimodalen Sparsity-Lernen an und führt zu einem Modell mit einer großen Anzahl von Parametern, aber konsistenten Trainings- und Inferenzkosten. Die MoE-LLaVA-Architektur ist darauf ausgelegt, während der Bereitstellung nur die Top-K-Experten zu aktivieren, während der Rest inaktiv bleibt.

Wir werden das MoE-LLaVA-Framework untersuchen und seinen Mechanismus, seine Methodik, seine Architektur und seinen Vergleich mit führenden Bild- und Videogenerierungs-Frameworks untersuchen.

MoE-LLaVA: Kostengünstige Skalierung großer Vision-Sprachmodelle

Large Vision Language Models nutzen nicht nur visuelle Projektionsebenen und Bildkodierer, sondern vergrößern auch die Modellgröße, indem sie die Anzahl der Parameter erhöhen, um die Leistung des Modells zu verbessern. Einige bemerkenswerte Beispiele für Large Vision Language-Modelle, die diesen Ansatz zur Verbesserung ihrer Leistung verfolgt haben, sind MiniGPT-4, InternGPT, InternVL und andere. In realen Anwendungen wird die Skalierung eines Large Language Model oder eines Large Vision Language Model mit hochwertigen Trainingsdaten oft zu einer Notwendigkeit, um die Leistung des Modells zu verbessern. Obwohl die Skalierung einer Modellgröße die Leistung verbessert, erhöht sie auch die Rechenkosten für das Training und die Bereitstellung des Modells und erhöht die Komplikationen und Effizienz der gleichzeitigen Bereitstellung des Modells auf parallelen Geräten weiter. Ein Hauptgrund für die erhöhten Trainings- und Inferenzkosten sowie die Rechenanforderungen besteht darin, dass jedes Token im Framework eine Berechnung mit jedem einzelnen Parameter innerhalb des Modells erfordert, das als dichtes Modell bezeichnet wird. 

Andererseits haben spärliche MoE- oder Mixture-of-Expert-Modelle eine effektive Skalierung von Frameworks durch die Verarbeitung von Daten mit Hilfe fester aktivierter Parameter gezeigt, ein Ansatz, der im Bereich der Verarbeitung natürlicher Sprache weit verbreitet ist. Die Verwendung von Mixture of Expert zum direkten Trainieren spärlicher Large Vision-Sprachmodelle ist jedoch eine Herausforderung, da die Konvertierung von LLMs in LVLMs und die gleichzeitige Sparsifizierung des Modells zu erheblichen Leistungseinbußen führt. Um einen Modellmix zur Skalierung von LLMs und LVLMs zu implementieren, ist es wichtig, zunächst den LVLM für die Sparsifizierung zu initialisieren. Um dies zu erreichen, führt das MoE-LLaVA-Framework MoE-Tuning ein, eine einfache, aber effektive dreiphasige Trainingsstrategie. 

Wie in der obigen Abbildung dargestellt, trainiert der MoE-Tuning-Prozess zunächst ein MLP oder ein mehrschichtiges Perzeptron, das in der ersten Phase die visuellen Token an ein großes Sprachmodell anpasst. Das Framework trainiert dann die gesamten Parameter des LLM, um das Large Vision Language Model mit allgemeinen multimodalen Verständnisfähigkeiten auszustatten. In der dritten Stufe schließlich repliziert das Framework das FFN oder Feed Forward Network als Initialisierungsgewichte für die Experten und trainiert nur die Mixture of Expert-Schichten. Insgesamt hilft der Trainingsprozess beim schrittweisen Übergang des spärlichen Modells von einer LVLM-Initialisierung zu einer spärlichen Mischung von Expertenmodellen. 

Nachdem wir den Trainingsprozess behandelt haben, lassen Sie uns etwas Licht auf MoE-LLaVA werfen, eine Basislinie für Large Vision Language-Modelle mit einer Mischung aus Expertenmodellen, die lernbare Router und MoE-Modelle umfasst. Im Kern besteht das MoE-LLaVA-Modell aus mehreren spärlichen Pfaden, und das Framework verwendet diese Pfade, um jedes Token über den lernbaren Router an verschiedene Experten zu senden. Die Token werden dann gemeinsam von den aktivierten Experten verarbeitet, während die inaktiven Pfade stumm bleiben. Das Framework stapelt dann die Mixture of Expert-Encoderschichten iterativ, um einen spärlichen Pfad zu einem größeren und leistungsfähigeren LVLM bereitzustellen. 

Dank des vom MoE-LLaVA-Framework implementierten Ansatzes ist es in der Lage, Modelle mit einer ähnlichen Anzahl aktivierter Parameter zu übertreffen und sie beim POPE-Objekthalluzinations-Benchmark um einen großen Unterschied zu übertreffen, obwohl es nur 2.2 Milliarden Parameter hat. Darüber hinaus ist das MoE-LLaVA-Framework mit 2.2 Milliarden Parametern in der Lage, eine mit dem InternVL-Chat-19B-Framework vergleichbare Leistung mit fast der achtfachen Anzahl aktivierter Parameter zu erreichen. 

Es wurden leistungsstarke große Sprachmodelle mit starken Generalisierungs- und Befehlsverfolgungsfunktionen implementiert Große Visionssprachmodelle. Frühe LLMs wie BLIP kodierten visuelle Signale in eine Folge visueller Tokens und ermöglichten so eine erfolgreiche Anpassung des Sehvermögens an LLMs mithilfe mehrerer Projektionsebenen. Gleichzeitig konzentrieren sich neuere Arbeiten auf die Verbesserung der Modellleistung durch die Implementierung von Methoden wie der Erweiterung des Befehlsoptimierungsdatensatzes, der Erhöhung der Bildauflösung, der Optimierung von Trainingsstrategien, der Ausrichtung der Eingabe, der Verbesserung der Bildencoder und vielem mehr. Diese Ansätze haben dazu beigetragen, LVLMs mit leistungsstarken visuellen Verständnisfähigkeiten auszustatten, indem die visuellen Anweisungen zur Feinabstimmung von Datensätzen und Modellmaßstäben erweitert wurden. Darüber hinaus verfügen einige LVLMs auch über feinkörnige Bildverständnisfunktionen wie Regions- und Mehrregionenverständnis sowie pixelweise Erdungsfunktionen. Allerdings ist der Rechenaufwand, der mit der Skalierung dichter visueller Daten und Modelle einhergeht, oft erheblich hoch, was das Tragen erschwert. Andererseits zielt das MoE-LLaVA-Framework darauf ab, die LVLM-Forschung erschwinglicher zu machen, indem die Fähigkeiten von MoE-Modellen genutzt werden. 

MoE-LLaVA: Methode und Architektur

Im Kern besteht das MoE-LLaVA-Framework aus einer visuellen Projektionsschicht (Multilayer Perceptron), einem Vision-Encoder, MoE-Blöcken, mehreren gestapelten LLM-Blöcken und einer Worteinbettungsschicht. 

Architektur

Die folgende Tabelle fasst die detaillierten Konfigurationen des MoE-LLaVA-Frameworks zusammen. 

Für ein bestimmtes RGB-Bild verarbeitet der Vision-Encoder die Bilder, um eine Sequenz visueller Token zu erhalten, wobei eine visuelle Projektionsebene die visuelle Token-Sequenz den Eingabebildern zuordnet. Die Texteingaben werden von der Worteinbettungsschicht verarbeitet, die sie dann projiziert, um die Sequenztokens zu erhalten. Gleichzeitig verknüpft das MoE-LLaVA-Framework die Text- und visuellen Token miteinander und leitet sie an das weiter LLM. Allerdings trainiert das Framework nur die visuelle Projektionsschicht mit dem großen Sprachmodell bestehend aus FFN oder Feedforward Neural Networks und Multi-Head Self Attention Layers. Schließlich wendet das Framework Restverbindungen und Layer-Normalisierung auf jeden Block an. 

Im weiteren Verlauf repliziert das MoE-LLaVA-Framework das FFN oder Feedforward Neural Networks aus der zweiten Stufe, um als Initialisierungsschritt ein Expertenensemble zu bilden. Da der Router eine lineare Schicht ist, sagt er die Wahrscheinlichkeit voraus, dass jedes Token jedem Experten zugewiesen wird. Jeder Token wird von den Top-k-Experten mit der maximalen Wahrscheinlichkeit verarbeitet und die gewichtete Summe basierend auf dem Softmax-Ergebnis der Wahrscheinlichkeiten berechnet. 

MoE-Tuning

MoE-Tuning ist eine einfache, aber effektive dreiphasige Trainingsstrategie, bei der zunächst ein MLP oder ein mehrschichtiges Perzeptron trainiert wird, das in der ersten Phase die visuellen Token an ein großes Sprachmodell anpasst. Das Framework trainiert dann die gesamten Parameter des LLM, um das Large Vision Language Model mit allgemeinen multimodalen Verständnisfähigkeiten auszustatten. In der dritten Stufe schließlich repliziert das Framework das FFN oder Feed Forward Network als Initialisierungsgewichte für die Experten und trainiert nur die Mixture of Expert-Schichten. 

Stufe

In der ersten Phase besteht das Hauptziel darin, die Bildtokens an das große Sprachmodell anzupassen, das es dem LLM ermöglicht, die Instanzen im Bild zu verstehen. Das MoE-LLaVA-Framework verwendet ein mehrschichtiges Perzeptron, um die Bild-Tokens in die Eingabedomäne des großen Sprachmodells zu projizieren, und behandelt Bild-Patches als Pseudotext-Tokens. In dieser Phase trainiert das MoE-LLaVA-Framework das LLM zur Beschreibung der Bilder und wendet in dieser Phase die MoE-Ebenen nicht auf das LLM an.

Stufe

In der zweiten Phase versucht das MoE-LLaVA, die Fähigkeiten und Steuerbarkeit des Frameworks zu verbessern, indem es das Modell mit multimodalen Befehlsdaten abstimmt. Das MoE-LLaVA-Framework erreicht dies, indem es das LLM so anpasst, dass es zu einem LVLM mit multimodalen Verständnisfähigkeiten wird. Das Framework verwendet komplexere Anweisungen, einschließlich Texterkennungs- und logischer Bildschlussaufgaben, die erfordern, dass das Modell über stärkere multimodale Fähigkeiten verfügt. Traditionell gilt der Trainingsprozess für dichte Modelle mit diesem Schritt als abgeschlossen. Das MoE-LLaVA-Framework stieß jedoch bei der Umwandlung des LLM in ein auf Herausforderungen LVLM gleichzeitig mit der Sparsifizierung des LVLM. Um dieser Herausforderung entgegenzuwirken, nutzt das Framework die Gewichte der Stufe als Initialisierung für die nächste Stufe, um die Lernschwierigkeiten des spärlichen Modells zu verringern. 

Stufe

In der dritten Stufe repliziert das Modell das Feedforward-Neuronale Netzwerk mehrmals, um die Experten als Initialisierungsverfahren zu initialisieren. Das Framework speist dann die Text- und Bild-Tokens in die Mischung aus Expertenschichten ein, woraufhin der Router die passenden Gewichtungen zwischen Experten und jedem Token berechnet. Jeder Token wird dann von den Top-K-Experten verarbeitet, wobei die aggregierte Ausgabe durch gewichtete Summierung basierend auf den Gewichtungen des Routers berechnet wird. Sobald die Top-K-Experten aktiviert sind, schließt das Modell die verbleibenden Experten. Dieser Ansatz stattet das MoE-LLaVA-Framework mit unendlich möglichen spärlichen Pfaden aus und stattet das Modell so mit einer breiten Palette von Fähigkeiten aus. 

MoE-LLaVA: Ergebnisse und Experimente

Das MoE-LLaVA-Framework verwendet CLIP-Large als Vision-Encoder, wobei das Multilayer Perceptron aus zwei Schichten besteht, wobei die beiden durch eine GELU-Aktivierungsschicht getrennt sind. Standardmäßig verwendet das Framework einen abwechselnden Ersatz der Feedforward-Neuronalen Netze durch die Mischung von Expertenschichten, was bedeutet, dass die Mischung von Expertenschichten 50 % der Gesamtzahl der Schichten ausmacht. Die folgende Tabelle enthält die verschiedenen Datensätze zusammen mit ihrer Stichprobengröße, die zum Trainieren und Bewerten des MoE-LLaVA-Frameworks verwendet werden. 

Beantwortung von Zero-Shot-Bildfragen

Die folgende Abbildung zeigt, dass MoE-LLaVA ein Sparse-Modell mit einem Soft-Router auf LVLM-Basis ist. Das Framework wird anhand von fünf Benchmarks zur Beantwortung von Bildfragen bewertet. Wie man beobachten kann, zeigt das MoE-LLaVA-Framework bemerkenswerte Bildverständnisfähigkeiten und liefert bei fünf verschiedenen Benchmarks eine vergleichbare Leistung wie das hochmoderne LLaVA 5-Framework. 

Bewertung der Objekthalluzination

Zur Bewertung der Objekthalluzination übernimmt das MoE-LLaVA-Framework die POPE-Bewertungspipeline, eine abfragebasierte Abfragemethode. Die Ergebnisse werden in der folgenden Tabelle dargestellt. Wie man beobachten kann, liefert das MoE-LLaVA von allen Frameworks die besten Ergebnisse, was auf die Fähigkeit des Frameworks hinweist, Objekte zu generieren, die mit dem Eingabebild konsistent sind. Darüber hinaus ist es erwähnenswert, dass das MoE-LLaVA-Framework das Ja-Verhältnis gut ausbalanciert, was auf die Fähigkeit des Sparse-Modells hinweist, genaues Feedback für die gegebene Frage zu liefern. 

Das folgende Bild zeigt die Verteilung der Expertenladungen, wobei die unterbrochenen Linien eine ausgewogene Verteilung der Token auf die Modalitäten oder Experten darstellen. Die erste Abbildung veranschaulicht die Arbeitsbelastung der Experten, während die übrigen Bilder die Leistung der Experten in Bezug auf verschiedene Modalitäten zeigen. 

Darüber hinaus zeigt die folgende Abbildung die Verteilung der Modalitäten auf verschiedene Experten. 

Abschließende Überlegungen

In diesem Artikel haben wir über MoE-LLaVA gesprochen, eine Basislinie für Large Vision-Sprachmodelle mit einer Mischung aus Expertenmodellen, die lernbare Router und MoE-Modelle umfasst. Im Kern besteht das MoE-LLaVA-Modell aus mehreren spärlichen Pfaden, und das Framework verwendet diese Pfade, um jedes Token über den lernbaren Router an verschiedene Experten zu senden. Die Token werden dann gemeinsam von den aktivierten Experten verarbeitet, während die inaktiven Pfade stumm bleiben. Das Framework stapelt dann die Mixture of Expert-Encoderschichten iterativ, um einen spärlichen Pfad zu einem größeren und leistungsfähigeren LVLM bereitzustellen. Die MoE-Tuning-Strategie geht das häufige Problem der Leistungsverschlechterung beim multimodalen Sparsity-Lernen auf innovative Weise an und erstellt folglich ein Modell mit einer signifikant großen Anzahl von Parametern, aber konsistenten Trainings- und Inferenzkosten. Die Architektur des MoE-LLaVA-Frameworks wurde so konzipiert, dass sie während der Bereitstellung nur die Top-K-Experten aktiviert, während die verbleibenden Experten inaktiv bleiben. 

„Von Beruf Ingenieur, von Herzen Schriftsteller“. Kunal ist ein technischer Autor mit einer tiefen Liebe und einem tiefen Verständnis für KI und ML, der sich der Vereinfachung komplexer Konzepte in diesen Bereichen durch seine ansprechende und informative Dokumentation widmet.