Künstliche Intelligenz
Uni-MoE: Skalierung von vereinheitlichten multimodalen LLMs mit Mixture of Experts
Die jüngsten Fortschritte in der Architektur und Leistung von Multimodalen Großsprachmodellen (MLLMs) haben die Bedeutung von skalierbaren Daten und Modellen zur Leistungssteigerung unterstrichen. Obwohl dieser Ansatz die Leistung verbessert, verursacht er erhebliche Rechenkosten, die die Praktikabilität und Benutzbarkeit solcher Ansätze einschränken. Im Laufe der Jahre sind Mixture-of-Expert-Modelle (MoE) als erfolgreicher alternativer Ansatz zur effizienten Skalierung von Bild-Text- und Großsprachmodellen aufgetaucht, da MoE-Modelle wesentlich geringere Rechenkosten und starke Leistung aufweisen. Allerdings sind Mixture-of-Modelle aufgrund ihrer Einschränkungen, wie z.B. weniger Experten und begrenzte Modalitäten, nicht der ideale Ansatz zur Skalierung von Großsprachmodellen.
Um die Hindernisse, die aktuellen Ansätze behindern, zu überwinden und Großsprachmodelle effizient zu skalieren, werden wir in diesem Artikel über Uni-MoE sprechen, ein vereinheitlichtes multimodales Großsprachmodell mit einer MoE-Architektur, das in der Lage ist, eine breite Palette von Modalitäten und Experten zu verarbeiten. Das Uni-MoE-Framework implementiert auch eine sparse Mixture-of-Expert-Architektur innerhalb der Großsprachmodelle, um den Trainings- und Inferenzprozess effizienter zu machen, indem Experten-Parallelismus und Daten-Parallelismus eingesetzt werden. Darüber hinaus präsentiert das Uni-MoE-Framework, um Generalisierung und Multi-Experten-Zusammenarbeit zu verbessern, eine progressive Trainingsstrategie, die aus drei verschiedenen Prozessen besteht. Zunächst erreicht das Uni-MoE-Framework eine Cross-Modalitäts-Anpassung mithilfe verschiedener Konnektoren mit unterschiedlichen Cross-Modalitäts-Daten. Zweitens aktiviert das Uni-MoE-Framework die Präferenz der Experten-Komponenten, indem es modality-spezifische Experten mit Cross-Modalitäts-Anweisungsdaten trainiert. Schließlich implementiert das Uni-MoE-Modell die LoRA- oder Low-Rank-Adaptation-Lern-Technik auf gemischten multimodalen Anweisungsdaten, um das Modell zu justieren.
Dieser Artikel zielt darauf ab, das Uni-MoE-Framework in der Tiefe abzudecken und wir erforschen den Mechanismus, die Methodik, die Architektur des Frameworks sowie seinen Vergleich mit State-of-the-Art-Frameworks. Also los geht’s.
Uni-MoE: Skalierung von vereinheitlichten multimodalen LLMs
Die Einführung von Open-Source-Multimodalen Großsprachmodellen, einschließlich LLama und InstantBlip, hat in den letzten Jahren die bemerkenswerte Erfolge und Fortschritte bei Aufgaben im Bereich Bild-Text-Verständnis aufgezeigt. Darüber hinaus arbeitet die KI-Gemeinschaft aktiv daran, ein vereinheitlichtes multimodales Großsprachmodell zu entwickeln, das eine breite Palette von Modalitäten, einschließlich Bild, Text, Audio, Video und mehr, verarbeiten kann, und geht damit über das traditionelle Bild-Text-Paradigma hinaus. Ein häufiger Ansatz, der von der Open-Source-Gemeinschaft verfolgt wird, um die Fähigkeiten von Multimodalen Großsprachmodellen zu verbessern, besteht darin, die Größe der Vision-Grundmodell zu erhöhen und es mit Großsprachmodellen mit Milliarden von Parametern zu integrieren, und vielfältige Multimodale Datensätze zu verwenden, um die Anweisungsfeinabstimmung zu verbessern. Diese Entwicklungen haben die zunehmende Fähigkeit von Multimodalen Großsprachmodellen, mehrere Modalitäten zu verarbeiten und zu verstehen, unterstrichen, und zeigen die Bedeutung der Erweiterung von Multimodalen Anweisungsdaten und Modell-Skalierbarkeit.
Obwohl das Skalieren eines Modells ein bewährter Ansatz ist, der wesentliche Ergebnisse liefert, ist das Skalieren eines Modells ein rechenintensiver Prozess für sowohl den Trainings- als auch den Inferenzprozess.
Um das Problem der hohen Rechenkosten zu überwinden, geht die Open-Source-Gemeinschaft dazu über, die MoE- oder Mixture-of-Expert-Modellarchitektur in Großsprachmodellen zu integrieren, um sowohl den Trainings- als auch den Inferenzprozess effizienter zu machen. Im Gegensatz zu Multimodalen Großsprachmodellen und Großsprachmodellen, die alle verfügbaren Parameter verwenden, um jeden Eingabe zu verarbeiten, erfordert die Mixture-of-Expert-Architektur nur die Aktivierung eines Teils der Experten-Parameter für jeden Eingabe. Als Ergebnis ergibt sich die Mixture-of-Expert-Architektur als gangbarer Weg, um die Effizienz von Großmodellen ohne umfangreiche Parameter-Aktivierung und hohe Rechenkosten zu verbessern. Obwohl bestehende Arbeiten die erfolgreiche Implementierung und Integration von Mixture-of-Expert-Modellen in der Konstruktion von Text- und Text-Bild-Großsprachmodellen hervorgehoben haben, sind Forscher noch nicht vollständig in der Lage, das Potenzial der Entwicklung der Mixture-of-Expert-Architektur zur Konstruktion leistungsfähiger vereinheitlichter Multimodaler Großsprachmodelle auszuschöpfen.
Uni-MoE ist ein Multimodales Großsprachmodell, das sparse Mixture-of-Expert-Modelle verwendet, um mehrere Modalitäten zu interpretieren und zu verwalten, um die Skalierung von vereinheitlichten Multimodalen Großsprachmodellen mit der MoE-Architektur zu erforschen. Wie in der folgenden Abbildung gezeigt, erhält das Uni-MoE-Framework zunächst die Kodierung von verschiedenen Modalitäten mithilfe modality-spezifischer Kodierer und kartiert diese Kodierungen dann in den Sprach-Representationsraum der Großsprachmodelle mithilfe verschiedener Konnektoren. Diese Konnektoren enthalten ein trainierbares Transformer-Modell mit nachfolgenden linearen Projektionen, um die Ausgaberepräsentationen des festgefrorenen Kodierers zu destillieren und zu projizieren. Das Uni-MoE-Framework führt dann eine sparse Mixture-of-Expert-Schicht innerhalb des internen Blocks des dichten Großsprachmodells ein. Als Ergebnis weist jedes Mixture-of-Expert-basierte Block eine gemeinsame Selbst-Aufmerksamkeitsschicht auf, die auf alle Modalitäten anwendbar ist, einen sparsen Router zur Zuweisung von Experten auf Token-Ebene und diverse Experten basierend auf dem Feedforward-Netzwerk. Aufgrund dieses Ansatzes ist das Uni-MoE-Framework in der Lage, mehrere Modalitäten, einschließlich Sprache, Audio, Text, Video, Bild, zu verstehen, und erfordert nur die Aktivierung von Teilparametern während der Inferenz.

Darüber hinaus implementiert das Uni-MoE-Framework, um die Multi-Experten-Zusammenarbeit und Generalisierung zu verbessern, eine dreistufige Trainingsstrategie. In der ersten Stufe verwendet das Framework umfangreiche Bild-/Audio-/Sprach-Text-Paare, um den entsprechenden Konnektor aufgrund der vereinheitlichten Modality-Representation im Sprachraum des Großsprachmodells zu trainieren. Zweitens trainiert das Uni-MoE-Modell modality-spezifische Experten mithilfe von Cross-Modalitäts-Datensätzen getrennt, um die Fähigkeiten jedes Experten innerhalb seines jeweiligen Bereichs zu verfeinern. In der dritten Stufe integriert das Uni-MoE-Framework diese trainierten Experten in die Mixture-of-Expert-Schicht des Großsprachmodells und trainiert das gesamte Uni-MoE-Framework mit gemischten Multimodalen Anweisungsdaten. Um die Trainingskosten weiter zu reduzieren, verwendet das Uni-MoE-Framework den LoRA-Lernansatz, um diese Selbst-Aufmerksamkeitsschichten und die vorge trainierten Experten zu feinabzustimmen.
Uni-MoE: Methodik und Architektur
Die grundlegende Motivation hinter dem Uni-MoE-Framework ist die hohe Trainings- und Inferenzkosten von Multimodalen Großsprachmodellen sowie die Effizienz von Mixture-of-Expert-Modellen, und die Möglichkeit, ein effizientes, leistungsfähiges und vereinheitlichtes Multimodales Großsprachmodell mithilfe der MoE-Architektur zu entwickeln. Die folgende Abbildung zeigt eine Darstellung der Architektur, die im Uni-MoE-Framework implementiert wird, und zeigt das Design, das individuelle Kodierer für verschiedene Modalitäten, wie z.B. Audio, Sprache und visuelle Daten, sowie ihre jeweiligen Modality-Konnektoren enthält.

Das Uni-MoE-Framework integriert dann die Mixture-of-Expert-Architektur mit den Kern-Blöcken des Großsprachmodells, ein Prozess, der für die Steigerung der Gesamteffizienz von sowohl dem Trainings- als auch dem Inferenzprozess von entscheidender Bedeutung ist. Das Uni-MoE-Framework erreicht dies, indem es einen sparsen Routing-Mechanismus implementiert. Der gesamte Trainingsprozess des Uni-MoE-Frameworks kann in drei Phasen unterteilt werden: Cross-Modalitäts-Anpassung, Training modality-spezifischer Experten und Feinabstimmung von Uni-MoE mithilfe eines vielfältigen Satzes von Multimodalen Anweisungsdaten. Um verschiedene Modality-Eingaben effizient in ein sprachliches Format umzuwandeln, basiert das Uni-MoE-Framework auf LLaVA, einem vorge trainierten visuellen Sprachframework. Das LLaVA-Grundmodell integriert CLIP als visuellen Kodierer sowie eine lineare Projektionsschicht, die Bildmerkmale in ihre entsprechenden weichen Bild-Tokens umwandelt. Darüber hinaus verwendet das Uni-MoE-Framework, um Video-Inhalte zu verarbeiten, acht repräsentative Frames aus jedem Video und wandelt sie in Video-Tokens um, indem es sie mittels Durchschnitts-Pooling aggregiert, um ihre Bild- oder Frame-basierte Repräsentation zu aggregieren. Für Audio-Aufgaben setzt das Uni-MoE-Framework zwei Kodierer ein, BEATs und den Whisper-Kodierer, um die Merkmalsextraktion zu verbessern. Das Modell destilliert dann Audio-Merkmalsvektoren und feste Länge von Sprache und kartiert sie in Sprach-Tokens und weiche Audio-Tokens mittels einer linearen Projektionsschicht.
Trainingsstrategie
Das Uni-MoE-Framework führt eine progressive Trainingsstrategie für die schrittweise Entwicklung des Modells ein. Die progressive Trainingsstrategie, die eingeführt wird, versucht, die unterschiedlichen Fähigkeiten verschiedener Experten zu nutzen, die Multi-Experten-Zusammenarbeit zu verbessern und die Gesamteffizienz des Frameworks zu steigern. Der Trainingsprozess wird in drei Stufen unterteilt, um die MLLM-Struktur aufzubauen, die auf integrierten Mixture-of-Expert-Modellen basiert.
Stufe 1: Cross-Modalitäts-Anpassung
In der ersten Stufe versucht das Uni-MoE-Framework, eine Verbindung zwischen verschiedenen linguistischen und Modalitäten herzustellen. Das Uni-MoE-Framework erreicht dies, indem es Modality-Daten in weiche Tokens umwandelt, indem es Konnektoren konstruiert. Das primäre Ziel der ersten Trainingsstufe ist es, den generativen Entropie-Verlust zu minimieren.Innerhalb des Uni-MoE-Frameworks wird das LLM optimiert, um Beschreibungen für Eingaben über verschiedene Modalitäten zu generieren, und das Modell unterzieht nur die Konnektoren einem Training, eine Strategie, die es dem Uni-MoE-Framework ermöglicht, verschiedene Modalitäten innerhalb eines vereinheitlichten Sprachframeworks zu integrieren.

Stufe 2: Training modality-spezifischer Experten
In der zweiten Stufe konzentriert sich das Uni-MoE-Framework auf die Entwicklung von Single-Modality-Experten, indem es das Modell speziell auf Cross-Modalitäts-Daten trainiert. Das primäre Ziel ist es, die Fähigkeiten jedes Experten innerhalb seines jeweiligen Bereichs zu verfeinern, um die Gesamtleistung des Mixture-of-Expert-Systems auf einer breiten Palette von Multimodalen Daten zu verbessern. Darüber hinaus passt das Uni-MoE-Framework die Feedforward-Netzwerke an, um sie enger an die Merkmale der Modality anzupassen, während es den generativen Entropie-Verlust als fokalen Metrik-Training beibehält.

Stufe 3: Feinabstimmung von Uni-MoE
In der dritten und letzten Stufe integriert das Uni-MoE-Framework die Gewichte, die von den Experten während der Stufe 2 justiert wurden, in die Mixture-of-Expert-Schichten. Das Uni-MoE-Framework feinabstimmte dann die MLLMs mithilfe von gemischten Multimodalen Anweisungsdaten gemeinsam. Die Verlustkurven in der folgenden Abbildung spiegeln den Fortschritt des Trainingsprozesses wider.

Ein Vergleich der Konfigurationen von Mixture-of-Expert-Modellen zeigte, dass die Experten, die das Modell während der zweiten Trainingsstufe verfeinert hat, eine verbesserte Stabilität aufwiesen und eine schnellere Konvergenz auf gemischten Multimodalen Datensätzen erreichten. Darüber hinaus zeigte das Uni-MoE-Framework bei Aufgaben, die komplexe Multimodale Daten, einschließlich Text, Bild, Audio und Video, umfassten, eine konsistentere Trainingsleistung und reduzierte Verlust-Variabilität, wenn es vier Experten verwendete, im Vergleich zu zwei Experten.

Uni-MoE: Experimente und Ergebnisse
Die folgende Tabelle fasst die architektonischen Spezifikationen des Uni-MoE-Frameworks zusammen. Das primäre Ziel des Uni-MoE-Frameworks, das auf der LLaMA-7B-Architektur basiert, ist es, die Modellgröße zu skalieren.

Die folgende Tabelle fasst die Konstruktion und Optimierung des Uni-MoE-Frameworks zusammen, wie es von speziellen Trainingsaufgaben geleitet wird. Diese Aufgaben sind von entscheidender Bedeutung, um die Fähigkeiten der MLP-Schichten zu verfeinern und ihre spezialisierten Kenntnisse für eine verbesserte Modellleistung zu nutzen. Das Uni-MoE-Framework führt acht Single-Modality-Experten-Aufgaben durch, um die differentialen Auswirkungen verschiedener Trainingsmethoden zu verdeutlichen.

Das Modell bewertet die Leistung verschiedener Modell-Varianten über einen umfassenden Satz von Benchmarks, der zwei Video-Verständnis-, drei Audio-Verständnis- und fünf Sprach-bezogene Aufgaben umfasst. Zunächst wird das Modell auf seine Fähigkeit getestet, Sprach-Bild- und Sprach-Text-Aufgaben zu verstehen, und die Ergebnisse sind in der folgenden Tabelle enthalten.

Wie zu sehen ist, liefern die vorherigen Baseline-Modelle schlechtere Ergebnisse bei Sprach-Verständnis-Aufgaben, was sich auch auf die Leistung bei Bild-Sprach-Verständnis-Aufgaben auswirkt. Die Ergebnisse zeigen, dass die Einführung von Mixture-of-Expert-Architektur die Generalisierung von MLLMs auf unvertraute Audio-Bild-Verständnis-Aufgaben verbessern kann. Die folgende Tabelle präsentiert die experimentellen Ergebnisse bei Bild-Text-Verständnis-Aufgaben. Wie zu sehen ist, übertrifft das beste Ergebnis des Uni-MoE-Modells die Baseline-Modelle und übertrifft die Feinabstimmungsaufgabe im Durchschnitt um 4 Punkte.

Final Thoughts
In diesem Artikel haben wir über Uni-MoE gesprochen, ein vereinheitlichtes multimodales Großsprachmodell mit einer MoE- oder Mixture-of-Expert-Architektur, das in der Lage ist, eine breite Palette von Modalitäten und Experten zu verarbeiten. Das Uni-MoE-Framework implementiert auch eine sparse Mixture-of-Expert-Architektur innerhalb der Großsprachmodelle, um den Trainings- und Inferenzprozess effizienter zu machen, indem Experten-Parallelismus und Daten-Parallelismus eingesetzt werden. Darüber hinaus präsentiert das Uni-MoE-Framework, um Generalisierung und Multi-Experten-Zusammenarbeit zu verbessern, eine progressive Trainingsstrategie, die aus drei verschiedenen Prozessen besteht. Zunächst erreicht das Uni-MoE-Framework eine Cross-Modalitäts-Anpassung mithilfe verschiedener Konnektoren mit unterschiedlichen Cross-Modalitäts-Daten. Zweitens aktiviert das Uni-MoE-Framework die Präferenz der Experten-Komponenten, indem es modality-spezifische Experten mit Cross-Modalitäts-Anweisungsdaten trainiert. Schließlich implementiert das Uni-MoE-Modell die LoRA- oder Low-Rank-Adaptation-Lern-Technik auf gemischten Multimodalen Anweisungsdaten, um das Modell zu justieren.












