Künstliche Intelligenz

Uni-MoE: Skalierung von einheitlichen Multimodal-LLMs mit Mixture of Experts

Published May 31, 2024

Updated April 27, 2026

Kunal Kejriwal

Die jüngsten Fortschritte in der Architektur und Leistung von Multimodal Large Language Models oder MLLMs haben die Bedeutung von skalierbaren Daten und Modellen zur Leistungssteigerung hervorgehoben. Obwohl dieser Ansatz die Leistung verbessert, verursacht er erhebliche Rechenkosten, die die Praktikabilität und Benutzbarkeit solcher Ansätze einschränken. Im Laufe der Jahre sind Mixture-of-Expert- oder MoE-Modelle als erfolgreicher alternativer Ansatz zur effizienten Skalierung von Bild-Text- und großen Sprachmodellen aufgetaucht, da Mixture-of-Expert-Modelle erheblich geringere Rechenkosten und starke Leistung aufweisen. Allerdings sind Mixture-of-Models trotz ihrer Vorteile nicht der ideale Ansatz, um große Sprachmodelle zu skalieren, da sie oft weniger Experten und begrenzte Modalitäten aufweisen, was die Anwendungen einschränkt.

Um die Hindernisse der aktuellen Ansätze zu überwinden und große Sprachmodelle effizient zu skalieren, werden wir in diesem Artikel über Uni-MoE sprechen, ein einheitliches multimodales großes Sprachmodell mit einer MoE- oder Mixture-of-Expert-Architektur, das in der Lage ist, eine breite Palette von Modalitäten und Experten zu verarbeiten. Das Uni-MoE-Framework implementiert auch eine sparse Mixture-of-Expert-Architektur innerhalb der großen Sprachmodelle, um den Trainings- und Inferenzprozess effizienter zu machen, indem Experten-Modell-Parallelismus und Daten-Parallelismus eingesetzt werden. Darüber hinaus präsentiert das Uni-MoE-Framework, um Generalisierung und Multi-Experten-Zusammenarbeit zu verbessern, eine progressive Trainingsstrategie, die eine Kombination aus drei verschiedenen Prozessen ist. Zuerst erreicht das Uni-MoE-Framework eine Cross-Modality-Alignment unter Verwendung verschiedener Connector mit unterschiedlichen Cross-Modality-Daten. Zweitens aktiviert das Uni-MoE-Framework die Präferenz der Expertenkomponenten durch Training von modality-spezifischen Experten mit Cross-Modality-Anweisungsdaten. Schließlich implementiert das Uni-MoE-Modell die LoRA- oder Low-Rank-Adaptation-Lerntechnik auf gemischten multimodalen Anweisungsdaten, um das Modell zu justieren.

Dieser Artikel zielt darauf ab, das Uni-MoE-Framework in der Tiefe abzudecken, und wir erkunden den Mechanismus, die Methodik, die Architektur des Frameworks sowie seinen Vergleich mit State-of-the-Art-Frameworks. Also los geht’s.

Uni-MoE: Skalierung von einheitlichen Multimodal-LLMs

Die Einführung von Open-Source-Multimodal Large Language Models, einschließlich LLama und InstantBlip, hat die bemerkenswerten Erfolge und Fortschritte bei Aufgaben im Bereich Bild-Text-Verständnis in den letzten Jahren hervorgehoben. Darüber hinaus arbeitet die KI-Gemeinschaft aktiv daran, ein einheitliches multimodales großes Sprachmodell zu entwickeln, das eine breite Palette von Modalitäten, einschließlich Bild, Text, Audio, Video und mehr, umfassen kann, und damit über das traditionelle Bild-Text-Paradigma hinausgeht. Ein gängiger Ansatz, der von der Open-Source-Gemeinschaft verfolgt wird, um die Fähigkeiten von Multimodal Large Language Models zu verbessern, besteht darin, die Größe der Vision-Grundmodelle zu erhöhen und sie mit großen Sprachmodellen mit Milliarden von Parametern zu integrieren und diverse multimodale Datensätze zu verwenden, um die Anweisungsausrichtung zu verbessern. Diese Entwicklungen haben die zunehmende Fähigkeit von Multimodal Large Language Models hervorgehoben, mehrere Modalitäten zu verarbeiten und zu begründen, und damit die Bedeutung der Erweiterung multimodaler Anweisungsdaten und der Modellskalierbarkeit unterstrichen.

Obwohl das Skalieren eines Modells ein bewährter Ansatz ist, der substantielle Ergebnisse liefert, ist das Skalieren eines Modells ein rechenintensiver Prozess für sowohl den Trainings- als auch den Inferenzprozess.

Um das Problem der hohen Rechenkosten zu überwinden, geht die Open-Source-Gemeinschaft dazu über, die MoE- oder Mixture-of-Expert-Modellarchitektur in große Sprachmodelle zu integrieren, um sowohl den Trainings- als auch den Inferenzprozess effizienter zu machen. Im Gegensatz zu multimodalen großen Sprach- und großen Sprachmodellen, die alle verfügbaren Parameter verwenden, um jeden Eingabe zu verarbeiten, was zu einem dichten Rechenansatz führt, erfordert die Mixture-of-Expert-Architektur nur die Aktivierung eines Teils der Expertenparameter für jeden Eingabe. Als Ergebnis erscheint die Mixture-of-Expert-Architektur als gangbarer Weg, um die Effizienz großer Modelle ohne umfassende Parameteraktivierung und hohe Rechenkosten zu verbessern. Obwohl bestehende Arbeiten die erfolgreiche Implementierung und Integration von Mixture-of-Expert-Modellen in der Konstruktion von Text-Only- und Text-Bild-Modellen hervorgehoben haben, sind Forscher noch nicht vollständig auf die Erforschung des Potenzials der Entwicklung der Mixture-of-Expert-Architektur zur Konstruktion leistungsfähiger einheitlicher multimodaler großer Sprachmodelle eingegangen.

Uni-MoE ist ein multimodales großes Sprachmodell, das sparse Mixture-of-Expert-Modelle nutzt, um mehrere Modalitäten zu interpretieren und zu verwalten, um die Skalierung einheitlicher multimodaler großer Sprachmodelle mit der MoE-Architektur zu erforschen. Wie in der folgenden Abbildung dargestellt, erhält das Uni-MoE-Framework zunächst die Kodierung verschiedener Modalitäten unter Verwendung modality-spezifischer Encoder und kartiert diese Kodierungen dann in den Sprachrepräsentationsraum der großen Sprachmodelle unter Verwendung verschiedener Connector. Diese Connector enthalten ein trainierbares Transformer-Modell mit nachfolgenden linearen Projektionen, um die Ausgaberepräsentationen des gefrorenen Encoders zu destillieren und zu projizieren. Das Uni-MoE-Framework führt dann eine sparse Mixture-of-Expert-Schicht innerhalb des internen Blocks des dichten Large Language Models ein. Als Ergebnis weist jedes Mixture-of-Expert-basierte Block eine gemeinsame Self-Attention-Schicht auf, die auf alle Modalitäten anwendbar ist, eine sparse Router für die Zuweisung von Experten auf Token-Ebene und diverse Experten basierend auf dem Feedforward-Netzwerk. Aufgrund dieses Ansatzes ist das Uni-MoE-Framework in der Lage, mehrere Modalitäten, einschließlich Sprache, Audio, Text, Video, Bild, zu verstehen, und erfordert nur die Aktivierung partieller Parameter während der Inferenz.

Darüber hinaus, um die Multi-Experten-Zusammenarbeit und Generalisierung zu verbessern, implementiert das Uni-MoE-Framework eine dreistufige Trainingsstrategie. In der ersten Stufe verwendet das Framework umfassende Bild-/Audio-/Sprach-Paare, um den entsprechenden Connector zu trainieren, aufgrund der einheitlichen Modality-Repräsentation im Sprachraum des großen Sprachmodells. Zweitens trainiert das Uni-MoE-Modell modality-spezifische Experten unter Verwendung von Cross-Modality-Datensätzen getrennt, um die Fähigkeiten jedes Experten innerhalb seines jeweiligen Bereichs zu verfeinern. In der dritten Stufe integriert das Uni-MoE-Framework diese trainierten Experten in die Mixture-of-Expert-Schicht des großen Sprachmodells und trainiert das gesamte Uni-MoE-Framework mit gemischten multimodalen Anweisungsdaten. Um die Trainingskosten weiter zu reduzieren, verwendet das Uni-MoE-Framework den LoRA-Lernansatz, um diese Self-Attention-Schichten und die vorge trainierten Experten zu feinjustieren.

Uni-MoE : Methodik und Architektur

Die grundlegende Motivation hinter dem Uni-MoE-Framework ist die hohe Trainings- und Inferenzkosten von Multimodal Large Language Models sowie die Effizienz von Mixture-of-Expert-Modellen, und die Möglichkeit, ein effizientes, leistungsfähiges und einheitliches multimodales großes Sprachmodell unter Verwendung der MoE-Architektur zu entwickeln. Die folgende Abbildung zeigt eine Darstellung der Architektur, die im Uni-MoE-Framework implementiert ist, und zeigt das Design, das individuelle Encoder für verschiedene Modalitäten, wie Audio, Sprache und visuelle Daten, sowie ihre jeweiligen Modality-Connector umfasst.

Das Uni-MoE-Framework integriert dann die Mixture-of-Expert-Architektur mit den Kernblöcken des großen Sprachmodells, ein Prozess, der für die Steigerung der Gesamteffizienz des Trainings- und Inferenzprozesses von entscheidender Bedeutung ist. Das Uni-MoE-Framework erreicht dies, indem es eine sparse Routing-Mechanismus implementiert. Der gesamte Trainingsprozess des Uni-MoE-Frameworks kann in drei Phasen unterteilt werden: Cross-Modality-Alignment, Training modality-spezifischer Experten und Justierung von Uni-MoE unter Verwendung eines diversen Satzes multimodaler Anweisungsdaten. Um diverse Modality-Eingaben effizient in ein linguistisches Format umzuwandeln, wird das Uni-MoE-Framework auf Basis von LLaVA, einem vorge trainierten visuellen Sprachframework, aufgebaut. Das LLaVA-Grundmodell integriert CLIP als visuellen Encoder sowie eine lineare Projektionsschicht, die Bildmerkmale in ihre entsprechenden weichen Bildtoken umwandelt. Darüber hinaus verarbeitet das Uni-MoE-Framework für Videoinhalte acht repräsentative Frames aus jedem Video und wandelt sie in Videotoken um, indem es sie durch Mittelwertbildung zu einem Bild- oder Frame-basierten Repräsentation aggregiert. Für Audioaufgaben setzt das Uni-MoE-Framework zwei Encoder ein, BEATs und den Whisper-Encoder, um die Merkmalsextraktion zu verbessern. Das Modell destilliert dann die Audio-Funktionen-Vektor und fixiert die Länge der Sprache und kartiert sie in Sprachtoken und weiche Audio unter Verwendung einer linearen Projektionsschicht.

Trainingsstrategie

Das Uni-MoE-Framework führt eine progressive Trainingsstrategie für die inkrementelle Entwicklung des Modells ein. Die progressive Trainingsstrategie, die eingeführt wird, versucht, die unterschiedlichen Fähigkeiten verschiedener Experten zu nutzen, die Multi-Experten-Zusammenarbeit effizienter zu machen und die Gesamteffizienz des Frameworks zu steigern. Der Trainingsprozess wird in drei Stufen unterteilt, um die MLLM-Struktur aufzubauen, die auf integrierten Mixture-of-Expert basiert.

Stufe 1 : Cross-Modality-Alignment

In der ersten Stufe versucht das Uni-MoE-Framework, eine Verbindung zwischen verschiedenen linguistischen und Modalitäten herzustellen. Das Uni-MoE-Framework erreicht dies, indem es modale Daten in weiche Token übersetzt, indem es Connector konstruiert. Das primäre Ziel der ersten Trainingsstufe ist es, den generativen Entropieverlust zu minimieren. Innerhalb des Uni-MoE-Frameworks wird das LLM optimiert, um Beschreibungen für Eingaben über verschiedene Modalitäten zu generieren, und das Modell unterzieht nur die Connector dem Training, eine Strategie, die es dem Uni-MoE-Framework ermöglicht, verschiedene Modalitäten innerhalb eines einheitlichen Sprachframeworks zu integrieren.

Stufe 2: Training modality-spezifischer Experten

In der zweiten Stufe konzentriert sich das Uni-MoE-Framework auf die Entwicklung von Single-Modality-Experten, indem es das Modell speziell auf bestimmte Cross-Modality-Daten trainiert. Das primäre Ziel ist es, die Fähigkeiten jedes Experten innerhalb seines jeweiligen Bereichs zu verfeinern, um die Gesamtleistung des Mixture-of-Expert-Systems auf einer breiten Palette multimodaler Daten zu verbessern. Darüber hinaus passt das Uni-MoE-Framework die Feedforward-Netzwerke an, um sie enger an die Merkmale der Modality anzupassen, während es den generativen Entropieverlust als Fokusmetrik-Training beibehält.

Stufe 3: Justierung von Uni-MoE

In der dritten und letzten Stufe integriert das Uni-MoE-Framework die Gewichte, die von den Experten während der Stufe 2 justiert wurden, in die Mixture-of-Expert-Schichten. Das Uni-MoE-Framework justiert dann die MLLMs unter Verwendung von gemischten multimodalen Anweisungsdaten gemeinsam. Die Verlustkurven in der folgenden Abbildung spiegeln den Fortschritt des Trainingsprozesses wider.

Ein Vergleich zwischen den Konfigurationen von Mixture-of-Expert zeigte, dass die Experten, die das Modell während der zweiten Trainingsstufe verfeinert hat, eine verbesserte Stabilität aufwiesen und eine schnellere Konvergenz auf gemischten multimodalen Datensätzen erreichten. Darüber hinaus zeigte das Uni-MoE-Framework bei Aufgaben, die komplexe multimodale Daten, einschließlich Text, Bild, Audio und Video, umfassten, eine konsistentere Trainingsleistung und reduzierte Verlustvariabilität, wenn es vier Experten anstelle von zwei Experten einsetzte.

Uni-MoE : Experimente und Ergebnisse

Die folgende Tabelle fasst die architektonischen Spezifikationen des Uni-MoE-Frameworks zusammen. Das primäre Ziel des Uni-MoE-Frameworks, das auf der LLaMA-7B-Architektur aufbaut, ist es, die Modellgröße zu skalieren.

Die folgende Tabelle fasst die Gestaltung und Optimierung des Uni-MoE-Frameworks zusammen, wie es von speziellen Trainingsaufgaben geleitet wird. Diese Aufgaben sind von entscheidender Bedeutung, um die Fähigkeiten der MLP-Schichten zu verfeinern und damit ihre spezialisierten Kenntnisse für eine verbesserte Modellleistung zu nutzen. Das Uni-MoE-Framework führt acht Single-Modality-Experten-Aufgaben durch, um die unterschiedlichen Auswirkungen verschiedener Trainingsmethoden zu verdeutlichen.

Das Modell bewertet die Leistung verschiedener Modellvarianten über einen diversen Satz von Benchmarks, der zwei Video-Verständnis-, drei Audio-Verständnis- und fünf sprachbezogene Aufgaben umfasst. Zuerst wird das Modell auf seine Fähigkeit getestet, Sprache-Bild- und Sprache-Text-Aufgaben zu verstehen, und die Ergebnisse sind in der folgenden Tabelle enthalten.

Wie zu beobachten ist, liefern die vorherigen Basismodelle schlechtere Ergebnisse über sprachbezogene Aufgaben, was sich auch auf die Leistung bei Bild-Sprache-Verständnis auswirkt. Die Ergebnisse zeigen, dass die Einführung der Mixture-of-Expert-Architektur die Generalisierung von MLLMs auf unvertraute Audio-Bild-Verständnis-Aufgaben verbessern kann. Die folgende Tabelle präsentiert die experimentellen Ergebnisse bei Bild-Text-Verständnis-Aufgaben. Wie zu beobachten ist, übertrifft das beste Ergebnis des Uni-MoE-Modells die Basismodelle und übertrifft die Feinabstimmungsaufgabe im Durchschnitt um 4 Punkte.

Letzte Gedanken

In diesem Artikel haben wir über Uni-MoE gesprochen, ein einheitliches multimodales großes Sprachmodell mit einer MoE- oder Mixture-of-Expert-Architektur, das in der Lage ist, eine breite Palette von Modalitäten und Experten zu verarbeiten. Das Uni-MoE-Framework implementiert auch eine sparse Mixture-of-Expert-Architektur innerhalb der großen Sprachmodelle, um den Trainings- und Inferenzprozess effizienter zu machen, indem Experten-Modell-Parallelismus und Daten-Parallelismus eingesetzt werden. Darüber hinaus präsentiert das Uni-MoE-Framework, um Generalisierung und Multi-Experten-Zusammenarbeit zu verbessern, eine progressive Trainingsstrategie, die eine Kombination aus drei verschiedenen Prozessen ist. Zuerst erreicht das Uni-MoE-Framework eine Cross-Modality-Alignment unter Verwendung verschiedener Connector mit unterschiedlichen Cross-Modality-Daten. Zweitens aktiviert das Uni-MoE-Framework die Präferenz der Expertenkomponenten durch Training von modality-spezifischen Experten mit Cross-Modality-Anweisungsdaten. Schließlich implementiert das Uni-MoE-Modell die LoRA- oder Low-Rank-Adaptation-Lerntechnik auf gemischten multimodalen Anweisungsdaten, um das Modell zu justieren.

Kunal Kejriwal

Ein Ingenieur von Beruf, ein Schriftsteller von Herzen. Kunal ist ein technischer Schriftsteller mit einer tiefen Liebe und einem tiefen Verständnis für KI und ML, der sich der Aufgabe widmet, komplexe Konzepte in diesen Bereichen durch seine ansprechenden und informativen Dokumentationen zu vereinfachen.