Vernetzen Sie sich mit uns

Künstliche Intelligenz

Uni-MoE: Skalierung einheitlicher multimodaler LLMs mit einem Expertenmix

mm

Veröffentlicht

 on

Die jüngsten Fortschritte in der Architektur und Leistung multimodaler großer Sprachmodelle (MLLMs) haben die Bedeutung skalierbarer Daten und Modelle für die Leistungssteigerung hervorgehoben. Obwohl dieser Ansatz die Leistung verbessert, verursacht er erhebliche Rechenkosten, die die Praktikabilität und Benutzerfreundlichkeit solcher Ansätze einschränken. Im Laufe der Jahre haben sich Mixture-of-Expert- oder MoE-Modelle als erfolgreicher alternativer Ansatz zur effizienten Skalierung von Bild-Text- und großen Sprachmodellen herausgestellt, da Mixture-of-Expert-Modelle deutlich geringere Rechenkosten und eine starke Leistung aufweisen. Trotz ihrer Vorteile sind Mixture of Models jedoch nicht der ideale Ansatz zur Skalierung großer Sprachmodelle, da sie häufig weniger Experten und begrenzte Modalitäten erfordern und somit die Anwendungen einschränken. 

Um den Hürden, auf die aktuelle Ansätze stoßen, entgegenzuwirken und große Sprachmodelle effizient zu skalieren, werden wir in diesem Artikel über Uni-MoE sprechen, ein einheitliches multimodales großes Sprachmodell mit einer MoE- oder Mixture-of-Expert-Architektur, das in der Lage ist, eine große Bandbreite zu bewältigen Reihe von Modalitäten und Experten. Das Uni-MoE-Framework implementiert außerdem eine spärliche Mixture-of-Expert-Architektur innerhalb der großen Sprachmodelle, um den Trainings- und Inferenzprozess durch den Einsatz von Modellparallelität und Datenparallelität auf Expertenebene effizienter zu gestalten. Um die Generalisierung und die Zusammenarbeit mehrerer Experten zu verbessern, stellt das Uni-MoE-Framework außerdem eine progressive Schulungsstrategie vor, die eine Kombination aus drei verschiedenen Prozessen darstellt. Im ersten Schritt erreicht das Uni-MoE-Framework eine modalitätsübergreifende Ausrichtung mithilfe verschiedener Konnektoren mit unterschiedlichen modalitätsübergreifenden Daten. Zweitens aktiviert das Uni-MoE-Framework die Präferenz der Expertenkomponenten, indem es modalitätsspezifische Experten mit modalitätsübergreifenden Unterrichtsdaten trainiert. Schließlich implementiert das Uni-MoE-Modell die LoRA- oder Low-Rank-Adaptation-Lerntechnik auf gemischte multimodale Befehlsdaten, um das Modell abzustimmen. Als das anweisungsabgestimmte Uni-MoE-Framework an einem umfassenden Satz multimodaler Datensätze evaluiert wurde, verdeutlichten die umfangreichen experimentellen Ergebnisse den Hauptvorteil des Uni-MoE-Frameworks in der deutlichen Reduzierung von Leistungsverzerrungen bei der Verarbeitung gemischter multimodaler Datensätze. Die Ergebnisse zeigten auch eine signifikante Verbesserung der Zusammenarbeit mehrerer Experten und der Generalisierung. 

Ziel dieses Artikels ist es, das Uni-MoE-Framework eingehend zu behandeln, und wir untersuchen den Mechanismus, die Methodik, die Architektur des Frameworks sowie seinen Vergleich mit modernen Frameworks. Also lasst uns anfangen. 

Uni-MoE: Skalierung einheitlicher multimodaler LLMs

Das Aufkommen multimodaler Open-Source-Modelle für große Sprachen, darunter LLama und InstantBlip, hat den bemerkenswerten Erfolg und die Fortschritte bei Aufgaben, die das Bild-Text-Verstehen betreffen, in den letzten Jahren deutlich gemacht. Darüber hinaus arbeitet die KI-Community aktiv am Aufbau eines einheitlichen multimodalen großen Sprachmodells, das eine breite Palette von Modalitäten einschließlich Bild, Text, Audio, Video und mehr abdecken könnte und über das traditionelle Bild-Text-Paradigma hinausgeht. Ein gängiger Ansatz der Open-Source-Community zur Verbesserung der Fähigkeiten multimodaler großer Sprachmodelle besteht darin, die Größe der Vision-Foundation-Modelle zu erhöhen, sie in große Sprachmodelle mit Milliarden von Parametern zu integrieren und verschiedene multimodale Datensätze zu verwenden, um die Befehlsoptimierung zu verbessern. Diese Entwicklungen haben die zunehmende Fähigkeit multimodaler großer Sprachmodelle zur Begründung und Verarbeitung mehrerer Modalitäten hervorgehoben und die Bedeutung der Erweiterung multimodaler Lehrdaten und der Modellskalierbarkeit verdeutlicht. 

Obwohl die Skalierung eines Modells ein bewährter Ansatz ist, der substanzielle Ergebnisse liefert, ist die Skalierung eines Modells ein rechenintensiver Prozess sowohl für den Trainings- als auch für den Inferenzprozess. 

Um dem Problem der hohen Overhead-Rechenkosten entgegenzuwirken, strebt die Open-Source-Community die Integration an MoE oder Expertenmischung Modellarchitektur in großen Sprachmodellen, um sowohl die Trainings- als auch die Inferenzeffizienz zu verbessern. Im Gegensatz zu multimodalen Large Language- und Large-Language-Modellen, die alle verfügbaren Parameter verwenden, um jede Eingabe zu verarbeiten, was zu einem dichten Rechenansatz führt, erfordert die Mixture of Expert-Architektur nur, dass die Benutzer eine Teilmenge von Expertenparametern für jede Eingabe aktivieren. Infolgedessen erweist sich der Mixture-of-Expert-Ansatz als praktikabler Weg zur Steigerung der Effizienz großer Modelle ohne umfangreiche Parameteraktivierung und hohe Overhead-Rechenkosten. Obwohl bestehende Arbeiten die erfolgreiche Implementierung und Integration von Mixture-of-Expert-Modellen bei der Konstruktion von Nur-Text- und Text-Bild-Großmodellen hervorgehoben haben, müssen Forscher das Potenzial der Entwicklung der Mixture-of-Expert-Architektur für den Aufbau leistungsstarker einheitlicher multimodaler Großmodelle noch vollständig erforschen Sprachmodelle. 

Uni-MoE ist ein multimodales großes Sprachmodell, das spärliche Mixture of Expert-Modelle nutzt, um mehrere Modalitäten zu interpretieren und zu verwalten, um die Skalierung vereinheitlichter multimodaler großer Sprachmodelle mit der MoE-Architektur zu untersuchen. Wie in der folgenden Abbildung gezeigt, erhält das Uni-MoE-Framework zunächst die Kodierung verschiedener Modalitäten mithilfe modalitätsspezifischer Kodierer und ordnet diese Kodierungen dann mithilfe verschiedener entworfener Konnektoren dem Sprachdarstellungsraum der großen Sprachmodelle zu. Diese Konnektoren enthalten ein trainierbares Transformatormodell mit anschließenden linearen Projektionen, um die Ausgabedarstellungen des eingefrorenen Encoders zu destillieren und zu projizieren. Das Uni-MoE-Framework führt dann eine spärliche Mischung aus Expertenschichten innerhalb des internen Blocks des dichten Large Language Model ein. Infolgedessen verfügt jeder Mixture-of-Expert-Block über eine gemeinsame Selbstaufmerksamkeitsschicht, die über alle Modalitäten hinweg anwendbar ist, einen Sparse-Router für die Zuweisung von Fachwissen auf Token-Ebene und verschiedene Experten basierend auf dem Feedforward-Netzwerk. Dank dieses Ansatzes ist das Uni-MoE-Framework in der Lage, mehrere Modalitäten zu verstehen, einschließlich Sprache, Audio, Text, Video und Bild, und erfordert nur die Aktivierung von Teilparametern während der Inferenz. 

Um die Zusammenarbeit und Verallgemeinerung mehrerer Experten zu verbessern, implementiert das Uni-MoE-Framework außerdem eine dreistufige Schulungsstrategie. In der ersten Stufe nutzt das Framework aufgrund der einheitlichen Modalitätsdarstellung im Sprachraum des großen Sprachmodells umfangreiche Bild-/Audio-/Sprachpaare, um den entsprechenden Konnektor zu trainieren. Zweitens schult das Uni-MoE-Modell modalitätsspezifische Experten, indem es modalitätsübergreifende Datensätze separat verwendet, um die Kompetenz jedes Experten in seinem jeweiligen Bereich zu verfeinern. In der dritten Stufe integriert das Uni-MoE-Framework diese geschulten Experten in die Mixture of Expert-Schicht des großen Sprachmodells und trainiert das gesamte Uni-MoE-Framework mit gemischten multimodalen Befehlsdaten. Um die Schulungskosten weiter zu senken, nutzt das Uni-MoE-Framework den LoRA-Lernansatz, um diese Selbstaufmerksamkeitsebenen und die vorab abgestimmten Experten zu optimieren. 

Uni-MoE: Methodik und Architektur

Die grundlegende Motivation hinter dem Uni-MoE-Framework sind die hohen Schulungs- und Inferenzkosten für die Skalierung multimodaler großer Sprachmodelle sowie die Effizienz von Mixture of Expert-Modellen und die Erforschung der Möglichkeit, mithilfe dessen ein effizientes, leistungsstarkes und einheitliches multimodales großes Sprachmodell zu erstellen Die MoE-Architektur. Die folgende Abbildung zeigt eine Darstellung der im Uni-MoE-Framework implementierten Architektur und demonstriert das Design, das einzelne Encoder für verschiedene Modalitäten, d. h. Audio, Sprache und Bilder, zusammen mit ihren jeweiligen Modalitätsanschlüssen umfasst. 

Das Uni-MoE-Framework integriert dann die Mixture of Expert-Architektur mit den zentralen großen Sprachmodellblöcken, ein Prozess, der für die Steigerung der Gesamteffizienz sowohl des Trainings- als auch des Inferenzprozesses von entscheidender Bedeutung ist. Das Uni-MoE-Framework erreicht dies durch die Implementierung eines Sparse-Routing-Mechanismus. Der gesamte Trainingsprozess des Uni-MoE-Frameworks kann in drei Phasen unterteilt werden: modalitätsübergreifende Ausrichtung, Schulung modalitätsspezifischer Experten und Optimierung von Uni-MoE mithilfe eines vielfältigen Satzes multimodaler Befehlsdatensätze. Um verschiedene modale Eingaben effizient in ein sprachliches Format umzuwandeln, basiert das Uni-MoE-Framework auf LLaVA, einem vorab trainierten visuellen Sprachframework. Das LLaVA-Basismodell integriert CLIP als visuellen Encoder neben einer linearen Projektionsschicht, die Bildmerkmale in die entsprechenden Soft-Image-Token umwandelt. Darüber hinaus wählt das Uni-MoE-Framework zur Verarbeitung von Videoinhalten acht repräsentative Frames aus jedem Video aus und wandelt sie durch Durchschnittspooling in Video-Tokens um, um ihre bild- oder bildbasierte Darstellung zu aggregieren. Für Audioaufgaben setzt das Uni-MoE-Framework zwei Encoder ein, BEATs und den Whisper-Encoder, um die Merkmalsextraktion zu verbessern. Das Modell destilliert dann die Audiomerkmale Vektor und Sprache mit fester Länge und ordnet sie über eine lineare Projektionsebene jeweils Sprachtokens und Soft-Audio zu. 

Trainingsstrategie

Das Uni-MoE-Framework führt eine progressive Trainingsstrategie für die inkrementelle Entwicklung des Modells ein. Mit der progressiven Schulungsstrategie wurden Versuche eingeführt, die unterschiedlichen Fähigkeiten verschiedener Experten zu nutzen, die Effizienz der Zusammenarbeit zwischen mehreren Experten zu verbessern und die Gesamtverallgemeinerbarkeit des Frameworks zu steigern. Der Trainingsprozess gliedert sich in drei Phasen mit dem Versuch, das zu verwirklichen MLLM Struktur, die auf einer integrierten Expertenmischung aufbaut. 

Stufe 1: Modalitätsübergreifende Ausrichtung

In der ersten Phase versucht das Uni-MoE-Framework, eine Verbindung zwischen verschiedenen Linguistiken und Modalitäten herzustellen. Das Uni-MoE-Framework erreicht dies, indem es modale Daten durch die Konstruktion von Konnektoren in Soft-Tokens übersetzt. Das Hauptziel der ersten Trainingsphase besteht darin, den generativen Entropieverlust zu minimieren.  Innerhalb des Uni-MoE-Frameworks ist das LLM optimiert, um Beschreibungen für Eingaben über verschiedene Modalitäten hinweg zu generieren, und das Modell unterzieht nur die Konnektoren einem Training, eine Strategie, die es dem Uni-MoE-Framework ermöglicht, verschiedene Modalitäten in ein einheitliches Sprachframework zu integrieren. 

Stufe 2: Schulung modalitätsspezifischer Experten

In der zweiten Phase konzentriert sich das Uni-MoE-Framework auf die Entwicklung von Experten für einzelne Modalitäten, indem das Modell speziell auf bestimmte modalitätsübergreifende Daten trainiert wird. Das Hauptziel besteht darin, die Kompetenz jedes Experten in seinem jeweiligen Bereich zu verfeinern und so die Gesamtleistung des Mixture of Expert-Systems für ein breites Spektrum multimodaler Daten zu verbessern. Darüber hinaus passt das Uni-MoE-Framework die Feedforward-Netzwerke so an, dass sie sich besser an die Merkmale der Modalität anpassen und gleichzeitig den generativen Entropieverlust als zentrales metrisches Training beibehalten. 

Stufe 3: Uni-MoE optimieren

In der dritten und letzten Stufe integriert das Uni-MoE-Framework die von Experten in Stufe 2 abgestimmten Gewichte in die Mixture of Expert-Schichten. Das Uni-MoE-Framework optimiert dann die MLLMs unter gemeinsamer Nutzung gemischter multimodaler Befehlsdaten. Die Verlustkurven im folgenden Bild spiegeln den Fortschritt des Trainingsprozesses wider. 

Eine vergleichende Analyse zwischen den Konfigurationen von Mixture of Expert ergab, dass die Experten, die das Modell während der 2. Trainingsphase verfeinert hatten, eine verbesserte Stabilität aufwiesen und eine schnellere Konvergenz bei gemischtmodalen Datensätzen erreichten. Darüber hinaus zeigte das Uni-MoE-Framework bei Aufgaben, die komplexe multimodale Daten wie Text, Bilder, Audio und Videos umfassten, eine konsistentere Trainingsleistung und eine geringere Verlustvariabilität, wenn es vier Experten einsetzte, als wenn es zwei Experten einsetzte. 

Uni-MoE: Experimente und Ergebnisse

Die folgende Tabelle fasst die Architekturspezifikationen des Uni-MoE-Frameworks zusammen. Das Hauptziel des Uni-MoE-Frameworks, das auf der LLaMA-7B-Architektur basiert, ist die Skalierung der Modellgröße. 

Die folgende Tabelle fasst den Entwurf und die Optimierung des Uni-MoE-Frameworks anhand spezieller Schulungsaufgaben zusammen. Diese Aufgaben tragen maßgeblich dazu bei, die Fähigkeiten der MLP-Schichten zu verfeinern und so deren Spezialwissen für eine verbesserte Modellleistung zu nutzen. Das Uni-MoE-Framework übernimmt acht Einzelmodalitäts-Expertenaufgaben, um die unterschiedlichen Auswirkungen verschiedener Trainingsmethoden zu verdeutlichen. 

Das Modell bewertet die Leistung verschiedener Modellvarianten anhand verschiedener Benchmarks, die zwei Video-Verstehens-, drei Audio-Verstehens- und fünf sprachbezogene Aufgaben umfassen. Zunächst wird das Modell auf seine Fähigkeit getestet, Sprach-Bild- und Sprach-Text-Aufgaben zu verstehen. Die Ergebnisse sind in der folgenden Tabelle enthalten. 

Wie zu beobachten ist, liefern die vorherigen Basismodelle bei Sprachverständnisaufgaben schlechtere Ergebnisse, was sich weiter auf die Leistung bei Bild-Sprach-Schlussfolgerungsaufgaben auswirkt. Die Ergebnisse deuten darauf hin, dass die Einführung einer Mixture-of-Expert-Architektur die Generalisierbarkeit von MLLMs für ungesehene Audi-Image-Argumentationsaufgaben verbessern kann. Die folgende Tabelle präsentiert die experimentellen Ergebnisse zu Bild-Text-Verständnisaufgaben. Wie man beobachten kann, übertreffen die besten Ergebnisse der Uni-MoE-Modelle die Basiswerte und übertreffen die Feinabstimmungsaufgabe um einen durchschnittlichen Vorsprung von 4 Punkten. 

Abschließende Überlegungen

In diesem Artikel haben wir über Uni-MoE gesprochen, ein einheitliches multimodales großes Sprachmodell mit einer MoE- oder Mixture-of-Expert-Architektur, das in der Lage ist, eine breite Palette von Modalitäten und Experten zu verarbeiten. Das Uni-MoE-Framework implementiert außerdem eine spärliche Mixture-of-Expert-Architektur innerhalb der großen Sprachmodelle, um den Trainings- und Inferenzprozess durch den Einsatz von Modellparallelität und Datenparallelität auf Expertenebene effizienter zu gestalten. Um die Generalisierung und die Zusammenarbeit mehrerer Experten zu verbessern, stellt das Uni-MoE-Framework außerdem eine progressive Schulungsstrategie vor, die eine Kombination aus drei verschiedenen Prozessen darstellt. Im ersten Schritt erreicht das Uni-MoE-Framework eine modalitätsübergreifende Ausrichtung mithilfe verschiedener Konnektoren mit unterschiedlichen modalitätsübergreifenden Daten. Zweitens aktiviert das Uni-MoE-Framework die Präferenz der Expertenkomponenten, indem es modalitätsspezifische Experten mit modalitätsübergreifenden Unterrichtsdaten trainiert. Schließlich implementiert das Uni-MoE-Modell die LoRA- oder Low-Rank-Adaptation-Lerntechnik auf gemischte multimodale Befehlsdaten, um das Modell abzustimmen.

„Von Beruf Ingenieur, von Herzen Schriftsteller“. Kunal ist ein technischer Autor mit einer tiefen Liebe und einem tiefen Verständnis für KI und ML, der sich der Vereinfachung komplexer Konzepte in diesen Bereichen durch seine ansprechende und informative Dokumentation widmet.