Künstliche Intelligenz
MoE-LLaVA: Mischung aus Experten für Large Vision-Language-Modelle
Jüngste Fortschritte bei Large Vision Language Modellen (LVLMs) haben gezeigt, dass die Skalierung dieser Frameworks die Leistung bei einer Vielzahl von Downstream-Aufgaben erheblich verbessert. LVLMs, einschließlich MiniGPT, LLaMA und anderen, haben bemerkenswerte Fähigkeiten durch die Integration von visuellen Projektionsschichten und einem Bildencoder in ihre Architektur erzielt. Durch die Implementierung dieser Komponenten verbessern LVLMs die visuellen Wahrnehmungsfähigkeiten von Large Language Modellen (LLMs). Die Leistung kann weiter verbessert werden, indem die Größe des Modells und die Anzahl der Parameter erhöht und die Datenskala erweitert werden.
Modelle wie InternVL haben ihren Bildencoder auf über 6 Milliarden Parameter erweitert, während andere das Backend von LVLMs auf 13 Milliarden Parameter erweitert haben und eine überlegene Leistung bei einer Vielzahl von Aufgaben erzielt haben. IDEFICS hat ein LVLM mit über 80 Milliarden Parametern trainiert. Diese Skalierungsverfahren haben die Leistung von LLMs, die auf über 34, 70 oder sogar 100 Milliarden Parametern vorgefertigt wurden, erreicht oder übertroffen. Allerdings hat die Skalierung einen Nachteil: Sie erhöht die Trainings- und Inferenzkosten erheblich. Dies liegt daran, dass alle Parameter für jeden Token in der Berechnung aktiv sein müssen, was zu hohen Rechenanforderungen und folglich höheren Kosten führt.
Dieser Artikel diskutiert MoE-LLaVA, eine Mischung aus Experten (MoE)-basierte sparse LVLM-Architektur, die eine effektive Trainingsstrategie, MoE-Tuning, für LVLMs verwendet. MoE-Tuning behandelt die Leistungsverschlechterung bei der multi-modalen Spärlichkeitserkennung innovativ und resultiert in einem Modell mit einer großen Anzahl von Parametern, aber konsistenten Trainings- und Inferenzkosten. Die MoE-LLaVA-Architektur ist so konzipiert, dass nur die Top-k-Experten während der Bereitstellung aktiviert werden, während die restlichen inaktiv bleiben.
Wir werden das MoE-LLaVA-Framework untersuchen, seine Mechanismen, Methoden, Architektur und wie es sich mit führenden Bild- und Video-Generierungsframeworks vergleicht.
MoE-LLaVA: Skalierung von Large Vision Language Modellen zu geringeren Kosten
Neben der Nutzung von visuellen Projektionsschichten und Bildencodern skalieren Large Vision Language Modelle auch die Modellgröße, indem die Anzahl der Parameter erhöht wird, um die Leistung des Modells zu verbessern. Einige bemerkenswerte Beispiele für Large Vision Language Modelle, die diesem Ansatz gefolgt sind, um ihre Leistung zu verbessern, sind MiniGPT-4, InternGPT, InternVL und andere. In realen Anwendungen wird es oft notwendig, ein Large Language Modell oder ein Large Vision Language Modell mit hochwertigen Trainingsdaten zu skalieren, um die Leistung des Modells zu verbessern. Obwohl die Skalierung der Modellgröße die Leistung verbessert, erhöht sie auch die Rechenkosten für das Training und die Bereitstellung des Modells und erhöht die Komplexität und Effizienz der Bereitstellung des Modells auf parallelen Geräten. Ein wichtiger Grund für die erhöhten Trainings- und Inferenzkosten sowie die Rechenanforderungen ist, dass jedes Token im Framework die Berechnung mit jedem einzelnen Parameter im Modell erfordert, was als dichtes Modell bezeichnet wird.
Andererseits haben sparse MoE- oder Mischung-aus-Experten-Modelle eine effektive Skalierung von Frameworks durch die Verarbeitung von Daten mit Hilfe von aktivierten Parametern demonstriert, ein Ansatz, der im Bereich der Natural Language Processing weithin akzeptiert ist. Allerdings ist es herausfordernd, Mischung aus Experten direkt zum Training von sparsen Large Vision Language Modellen zu verwenden, da die Umwandlung von LLMs in LVLMs und die Spärlichkeit des Modells gleichzeitig zu einer erheblichen Leistungsverschlechterung führt. Um Mischung aus Modellen zum Skalieren von LLMs und LVLMs zu implementieren, ist es notwendig, das LVLM zunächst für die Spärlichkeit zu initialisieren. Um dies zu erreichen, führt das MoE-LLaVA-Framework MoE-Tuning ein, eine einfache, aber effektive dreistufige Trainingsstrategie.

Wie in der obigen Abbildung gezeigt, trainiert der MoE-Tuning-Prozess zunächst ein MLP oder ein Multilayer-Perceptron, das die visuellen Token an ein Large Language Modell anpasst, in der ersten Phase. Das Framework trainiert dann alle Parameter des LLM, um das Large Vision Language Modell mit allgemeinen multi-modalen Verständnisfähigkeiten zu befähigen. Schließlich trainiert das Framework in der dritten Phase die Mischung-aus-Experten-Schichten, indem es die FFN oder Feed-Forward-Netzwerk als Initialisierungsgewichte für die Experten repliziert. Der Trainingsprozess hilft bei der allmählichen Umstellung des sparsen Modells von einer LVLM-Initialisierung auf ein sparses Mischung-aus-Experten-Modell.
Nachdem der Trainingsprozess abgeschlossen ist, werfen wir einen Blick auf MoE-LLaVA, eine Basis für Large Vision Language Modelle mit Mischung-aus-Experten-Modellen, die lernbare Router und MoE-Modelle integriert. Im Kern besteht das MoE-LLaVA-Modell aus mehreren sparsen Pfaden, und das Framework verwendet diese Pfade, um jedes Token an verschiedene Experten durch den lernbaren Router zu senden. Die Token werden dann kollektiv von den aktivierten Experten verarbeitet, während die inaktiven Pfade still bleiben. Das Framework stapelt die Mischung-aus-Experten-Encoder-Schichten iterativ, um einen sparsen Pfad zu einem größeren und leistungsfähigeren LVLM zu bieten.

Dank des Ansatzes, der vom MoE-LLaVA-Framework implementiert wird, kann es Modelle mit einer ähnlichen Anzahl von aktivierten Parametern überbieten und sie bei der POPE-Objekt-Halluzination-Benchmark um einen großen Betrag übertreffen, obwohl es nur 2,2 Milliarden Parameter hat. Darüber hinaus kann das MoE-LLaVA-Framework mit 2,2 Milliarden Parametern eine Leistung erzielen, die mit dem InternVL-Chat-19B-Framework vergleichbar ist, das fast 8-mal so viele aktivierte Parameter hat.
Leistungsstarke Large Language Modelle mit starken Verallgemeinerungs- und Anweisungsfolgefähigkeiten wurden in Large Vision Language Modelle implementiert. Frühe LLMs wie BLIP kodierten visuelle Signale in eine Sequenz von visuellen Token, um sie an LLMs anzupassen, indem sie mehrere Projektionsschichten verwendeten. Gleichzeitig konzentrieren sich aktuelle Arbeiten auf die Verbesserung der Modellleistung durch die Implementierung von Methoden wie der Erweiterung des Instruction-Tuning-Datensatzes, der Erhöhung der Bildauflösung, der Optimierung der Trainingsstrategien, der Ausrichtung der Eingabe, der Verbesserung der Bildencoder und vielem mehr. Diese Ansätze haben dazu beigetragen, LVLMs mit leistungsstarken visuellen Verständnisfähigkeiten auszustatten, indem sie den visuellen Anweisungsfinedatensatz und die Modellskala erweitern. Darüber hinaus verfügen einige LVLMs auch über feinkörnige Bildverständnisfähigkeiten, wie Regionen- und Multi-Regionen-Verständnis sowie pixelweise Grundierungsfähigkeiten. Allerdings sind die Rechenkosten, die mit der Skalierung von dichten visuellen Daten und Modellen verbunden sind, oft erheblich hoch, was es schwierig macht, sie zu tragen. Andererseits zielt das MoE-LLaVA-Framework darauf ab, die LVLM-Forschung erschwinglicher zu machen, indem es die Fähigkeiten von MoE-Modellen nutzt.
MoE-LLaVA: Methode und Architektur
Im Kern besteht das MoE-LLaVA-Framework aus einer visuellen Projektionsschicht (Multilayer-Perceptron), einem Bildencoder, MoE-Blöcken, mehreren gestapelten LLM-Blöcken und einer Wort-Embedding-Schicht.

Architektur
Die folgende Tabelle fasst die detaillierten Konfigurationen des MoE-LLaVA-Frameworks zusammen.

Für ein gegebenes RGB-Bild verarbeitet der Bildencoder das Bild, um eine Sequenz von visuellen Token zu erhalten, und die visuelle Projektionsschicht kartiert die visuelle Token-Sequenz auf die Eingabebilder. Die Texteingaben werden von der Wort-Embedding-Schicht verarbeitet, die sie dann projiziert, um die Token-Sequenz zu erhalten. Gleichzeitig verbindet das MoE-LLaVA-Framework die Text- und visuellen Token und füttert sie in das LLM ein. Allerdings trainiert das Framework nur die visuelle Projektionsschicht mit dem Large Language Modell, das aus FFN oder Feed-Forward-Neural-Netzwerken und Multi-Head-Self-Attention-Schichten besteht. Schließlich wendet das Framework Residual-Verbindungen und Layer-Normalisierung auf jeden Block an.
Weiterhin repliziert das MoE-LLaVA-Framework die FFN oder Feed-Forward-Neural-Netzwerke mehrmals, um die Experten als Initialisierungsschritt zu initialisieren. Der Router, der eine lineare Schicht ist, prognostiziert die Wahrscheinlichkeit, dass jedes Token jedem Experten zugewiesen wird. Jedes Token wird von den Top-k-Experten mit der maximalen Wahrscheinlichkeit verarbeitet, und die gewichtete Summe wird auf der Grundlage der Softmax-Ergebnisse der Wahrscheinlichkeiten berechnet.
MoE-Tuning
MoE-Tuning ist eine einfache, aber effektive dreistufige Trainingsstrategie, die zunächst ein MLP oder ein Multilayer-Perceptron trainiert, das die visuellen Token an ein Large Language Modell anpasst, in der ersten Phase. Das Framework trainiert dann alle Parameter des LLM, um das Large Vision Language Modell mit allgemeinen multi-modalen Verständnisfähigkeiten zu befähigen. Schließlich trainiert das Framework in der dritten Phase die Mischung-aus-Experten-Schichten, indem es die FFN oder Feed-Forward-Netzwerk als Initialisierungsgewichte für die Experten repliziert.
Phase 1
In der ersten Phase besteht das primäre Ziel darin, die Bildtoken an das Large Language Modell anzupassen, um es in die Lage zu versetzen, die Instanzen im Bild zu verstehen. Das MoE-LLaVA-Framework verwendet ein Multilayer-Perceptron, um die Bildtoken in den Eingabebereich des Large Language Modells zu projizieren, und behandelt Bildpatches als Pseudo-Texttoken. In dieser Phase trainiert das MoE-LLaVA-Framework das LLM, um die Bilder zu beschreiben, und wendet die MoE-Schichten nicht auf das LLM an.
Phase 2
In der zweiten Phase versucht das MoE-LLaVA-Framework, die Fähigkeiten und die Steuerbarkeit des Frameworks zu verbessern, indem es das Modell mit multi-modalen Anweisungsdaten anpasst. Das MoE-LLaVA-Framework erreicht dies, indem es das LLM anpasst, um ein LVLM mit multi-modalen Verständnisfähigkeiten zu werden. Das Framework verwendet komplexere Anweisungen, einschließlich Texterkennung und logischem Bildverständnis, die das Modell dazu zwingen, stärkere multi-modale Fähigkeiten zu besitzen. Traditionell gilt der Trainingsprozess für dichte Modelle als abgeschlossen. Allerdings stieß das MoE-LLaVA-Framework auf Herausforderungen bei der Umwandlung des LLM in ein LVLM und der gleichzeitigen Spärlichkeit des LVLM. Um diese Herausforderung zu überwinden, verwendet das Framework die Gewichte aus der Phase als Initialisierung für die nächste Phase, um die Lernschwierigkeit des sparsen Modells zu mildern.
Phase 3
In der dritten Phase repliziert das Framework das Feed-Forward-Neural-Netzwerk mehrmals, um die Experten als Initialisierungsschritt zu initialisieren. Das Framework füttert dann die Text- und Bildtoken in die Mischung-aus-Experten-Schichten ein, woraufhin der Router die Übereinstimmungsgewichte zwischen Experten und jedem Token berechnet. Jedes Token wird von den Top-k-Experten mit der maximalen Wahrscheinlichkeit verarbeitet, und die gewichtete Summe wird auf der Grundlage der Softmax-Ergebnisse der Wahrscheinlichkeiten berechnet. Sobald die Top-k-Experten aktiviert sind, schaltet das Modell die restlichen Experten aus, ein Ansatz, der das MoE-LLaVA-Framework mit unendlich vielen möglichen sparsen Pfaden ausstattet und es somit mit einer Vielzahl von Fähigkeiten ausstattet.
MoE-LLaVA: Ergebnisse und Experimente
Das MoE-LLaVA-Framework verwendet CLIP-Large als Bildencoder, wobei das Multilayer-Perceptron aus zwei Schichten mit einer GELU-Aktivierungsschicht besteht, die die beiden Schichten trennt. Standardmäßig verwendet das Framework eine abwechselnde Ersetzung der Feed-Forward-Neural-Netzwerke mit den Mischung-aus-Experten-Schichten, was bedeutet, dass die Mischung-aus-Experten-Schichten 50% der Gesamtzahl der Schichten ausmachen. Die folgende Tabelle enthält die verschiedenen Datensätze mit ihren Stichprobengrößen, die zum Trainieren und Auswerten des MoE-LLaVA-Frameworks verwendet werden.

Zero-Shot-Bildfragebeantwortung
Die folgende Abbildung zeigt, dass MoE-LLaVA ein sparses Modell mit einem weichen Router auf Basis von LVLM ist. Das Framework wird auf 5 Bildfragebeantwortungsbenchmarks ausgewertet, und wie es zu sehen ist, zeigt das MoE-LLaVA-Framework bemerkenswerte Bildverständnisfähigkeiten und liefert eine vergleichbare Leistung mit dem State-of-the-Art-LLaVA-1.5-Framework auf fünf verschiedenen Benchmarks.

Objekt-Halluzinationsevaluation
Um die Objekt-Halluzination zu bewerten, verwendet das MoE-LLaVA-Framework die POPE-Evaluationspipeline, eine pollingbasierte Abfragemethode, und die Ergebnisse werden in der folgenden Tabelle dargestellt. Wie zu sehen ist, liefert das MoE-LLaVA-Framework die stärksten Ergebnisse aller Frameworks, was auf die Fähigkeit des Frameworks hinweist, Objekte zu generieren, die mit dem Eingabebild konsistent sind. Darüber hinaus ist es erwähnenswert, dass das MoE-LLaVA-Framework die Ja-Quote gut ausgleicht, was auf die Fähigkeit des sparsen Modells hinweist, genaue Rückmeldungen für die gegebene Frage zu liefern.

Das folgende Bild enthält die Verteilung der Expertenlasten, wobei die unterbrochenen Linien eine gut ausgewogene Verteilung der Token unter den Modalitäten oder Experten darstellen. Die erste Abbildung zeigt die Arbeitslast innerhalb der Experten, während die restlichen Abbildungen die Leistung der Experten gegenüber verschiedenen Modalitäten zeigen.

Darüber hinaus zeigt die folgende Abbildung die Verteilung der Modalitäten über verschiedene Experten.

Letzte Gedanken
In diesem Artikel haben wir über MoE-LLaVA gesprochen, eine Basis für Large Vision Language Modelle mit Mischung-aus-Experten-Modellen, die lernbare Router und MoE-Modelle integriert. Im Kern besteht das MoE-LLaVA-Modell aus mehreren sparsen Pfaden, und das Framework verwendet diese Pfade, um jedes Token an verschiedene Experten durch den lernbaren Router zu senden. Die Token werden dann kollektiv von den aktivierten Experten verarbeitet, während die inaktiven Pfade still bleiben. Das Framework stapelt die Mischung-aus-Experten-Encoder-Schichten iterativ, um einen sparsen Pfad zu einem größeren und leistungsfähigeren LVLM zu bieten. Die MoE-Tuning-Strategie behandelt die häufige Problematik der Leistungsverschlechterung bei der multi-modalen Spärlichkeitserkennung innovativ und konstruiert somit ein Modell mit einer erheblich großen Anzahl von Parametern, aber konsistenten Trainings- und Inferenzkosten. Die Architektur des MoE-LLaVA-Frameworks wurde so konzipiert, dass nur die Top-k-Experten während der Bereitstellung aktiviert werden, während die restlichen Experten inaktiv bleiben.












