Künstliche Intelligenz

Das neueste Mixture of Experts (MoE) 8x7B-Modell von Mistral AI

Veröffentlicht

7 Monate her

15. Dezember 2023

Mistral-KI Das in Paris ansässige Open-Source-Modell-Startup hat mit der Veröffentlichung seines neuesten Large Language Model (LLM), MoE 8x7B, über eine einfache Plattform Standards herausgefordert Torrent-Link. Dies steht im Gegensatz zum traditionellen Ansatz von Google mit der Veröffentlichung von Gemini, die in der KI-Community für Diskussionen und Aufregung sorgt.

Der Ansatz von Mistral AI bei Veröffentlichungen war schon immer unkonventionell. Ihre Strategie, die häufig auf die übliche Beilage von Artikeln, Blogs oder Pressemitteilungen verzichtet, hat sich auf einzigartige Weise als wirksam erwiesen, um die Aufmerksamkeit der KI-Community zu fesseln.

Kürzlich hat das Unternehmen eine bemerkenswerte Leistung erbracht $ 2 Milliarden Bewertung nach einer Finanzierungsrunde unter der Leitung von Andreessen Horowitz. Diese Finanzierungsrunde war historisch und stellte mit einer Seed-Runde in Höhe von 118 Millionen US-Dollar einen Rekord auf, die größte in der europäischen Geschichte. Über die Finanzierungserfolge hinaus ist Mistral AI aktiv an Diskussionen rund um das EU-KI-Gesetz beteiligt und setzt sich für eine geringere Regulierung von Open-Source-KI ein.

Warum MoE 8x7B Aufmerksamkeit erregt

Mixtral 4x8B wird als „verkleinertes GPT-7“ beschrieben und nutzt ein Mixture of Experts (MoE)-Framework mit acht Experten. Jeder Experte verfügt über 111B Parameter, gepaart mit 55B gemeinsamen Aufmerksamkeitsparametern, was insgesamt 166B Parameter pro Modell ergibt. Diese Designwahl ist von Bedeutung, da nur zwei Experten an der Schlussfolgerung jedes Tokens beteiligt sein können, was einen Wandel hin zu einer effizienteren und fokussierteren KI-Verarbeitung verdeutlicht.

Eines der wichtigsten Highlights von Mixtral ist seine Fähigkeit, einen umfangreichen Kontext von 32,000 Token zu verwalten, was ausreichend Spielraum für die Bewältigung komplexer Aufgaben bietet. Zu den mehrsprachigen Funktionen des Modells gehört eine solide Unterstützung für Englisch, Französisch, Italienisch, Deutsch und Spanisch und richtet sich an eine globale Entwicklergemeinschaft.

Die Vorschulung von Mixtral umfasst Daten aus dem offenen Web mit einem gleichzeitigen Schulungsansatz für Experten und Router. Diese Methode stellt sicher, dass das Modell nicht nur in seinem Parameterraum umfangreich ist, sondern auch fein auf die Nuancen der umfangreichen Daten abgestimmt ist, denen es ausgesetzt war.

Mixtral 8x7B erreicht eine beeindruckende Punktzahl

Mixtral 8x7B übertrifft LLaMA 2 70B und konkurriert mit GPT-3.5, besonders bemerkenswert bei der MBPP-Aufgabe mit einer Erfolgsquote von 60.7 %, deutlich höher als seine Gegenstücke. Selbst im strengen MT-Bench, der auf Modelle mit Anweisungsbefolgung zugeschnitten ist, erreicht der Mixtral 8x7B eine beeindruckende Punktzahl, die fast dem GPT-3.5 entspricht

Das Mixture of Experts (MoE)-Framework verstehen

Das Mixture of Experts (MoE)-Modell hat zwar aufgrund seiner Integration in hochmoderne Sprachmodelle wie das MoE 8x7B von Mistral AI in jüngster Zeit Aufmerksamkeit erregt, basiert jedoch tatsächlich auf grundlegenden Konzepten, die mehrere Jahre zurückreichen. Lassen Sie uns die Ursprünge dieser Idee anhand wegweisender Forschungsarbeiten noch einmal Revue passieren lassen.

Das Konzept von MoE

Mixture of Experts (MoE) stellt einen Paradigmenwechsel in der Architektur neuronaler Netzwerke dar. Im Gegensatz zu herkömmlichen Modellen, die ein einzelnes, homogenes Netzwerk zur Verarbeitung aller Arten von Daten verwenden, verfolgt MoE einen spezialisierteren und modulareren Ansatz. Es besteht aus mehreren „Experten“-Netzwerken, die jeweils für die Bearbeitung bestimmter Datentypen oder Aufgaben konzipiert sind und von einem „Gating-Netzwerk“ überwacht werden, das Eingabedaten dynamisch an den am besten geeigneten Experten weiterleitet.

Eine Mixture of Experts (MoE)-Schicht, eingebettet in ein wiederkehrendes Sprachmodell (Quelle)

Das obige Bild zeigt eine allgemeine Ansicht einer MoE-Schicht, die in ein Sprachmodell eingebettet ist. Im Wesentlichen besteht die MoE-Schicht aus mehreren Feed-Forward-Subnetzwerken, die als „Experten“ bezeichnet werden und jeweils das Potenzial haben, sich auf die Verarbeitung verschiedener Aspekte der Daten zu spezialisieren. Ein im Diagramm hervorgehobenes Gating-Netzwerk bestimmt, welche Kombination dieser Experten für eine bestimmte Eingabe eingesetzt wird. Diese bedingte Aktivierung ermöglicht es dem Netzwerk, seine Kapazität erheblich zu erhöhen, ohne dass der Rechenbedarf entsprechend stark ansteigt.

Funktionalität der MoE-Schicht

In der Praxis wertet das Gating-Netzwerk die Eingabe aus (bezeichnet als). G(x) im Diagramm) und wählt eine spärliche Gruppe von Experten aus, um es zu verarbeiten. Diese Auswahl wird durch die Ausgänge des Gating-Netzwerks moduliert und bestimmt so effektiv die „Stimme“ oder den Beitrag jedes Experten zum endgültigen Ausgang. Wie im Diagramm dargestellt, können beispielsweise nur zwei Experten für die Berechnung der Ausgabe für jedes spezifische Eingabe-Token ausgewählt werden, wodurch der Prozess effizient wird, indem die Rechenressourcen dort konzentriert werden, wo sie am meisten benötigt werden.

Transformator-Encoder mit MoE-Schichten (Quelle)

Die zweite Abbildung oben stellt einen herkömmlichen Transformer-Encoder einem um eine MoE-Schicht erweiterten gegenüber. Die Transformer-Architektur, die weithin für ihre Wirksamkeit bei sprachbezogenen Aufgaben bekannt ist, besteht traditionell aus nacheinander gestapelten Selbstaufmerksamkeits- und Feed-Forward-Schichten. Durch die Einführung von MoE-Schichten werden einige dieser Feed-Forward-Schichten ersetzt, wodurch das Modell hinsichtlich der Kapazität effektiver skaliert werden kann.

Im erweiterten Modell sind die MoE-Schichten auf mehrere Geräte verteilt, was einen modellparallelen Ansatz darstellt. Dies ist bei der Skalierung auf sehr große Modelle von entscheidender Bedeutung, da es die Verteilung der Rechenlast und des Speicherbedarfs auf einen Gerätecluster wie GPUs oder TPUs ermöglicht. Dieses Sharding ist für das effiziente Training und Bereitstellen von Modellen mit Milliarden von Parametern unerlässlich, wie das Training von Modellen mit Hunderten von Milliarden bis über einer Billion Parametern auf großen Rechenclustern zeigt.

Der Sparse-MoE-Ansatz mit Instruction Tuning auf LLM

Das Papier mit dem Titel „Sparse Mixture-of-Experts (MoE) für skalierbare Sprachmodellierung„diskutiert einen innovativen Ansatz zur Verbesserung von Large Language Models (LLMs) durch die Integration der Mixture of Experts-Architektur mit Instruktionsoptimierungstechniken.

Es zeigt eine häufige Herausforderung auf, bei der MoE-Modelle im Vergleich zu dichten Modellen mit gleicher Rechenkapazität schlechter abschneiden, wenn sie für bestimmte Aufgaben feinabgestimmt werden, was auf Diskrepanzen zwischen allgemeinem Vortraining und aufgabenspezifischer Feinabstimmung zurückzuführen ist.

Bei der Anweisungsoptimierung handelt es sich um eine Trainingsmethode, bei der Modelle verfeinert werden, um Anweisungen in natürlicher Sprache besser zu befolgen und so ihre Aufgabenleistung effektiv zu verbessern. Das Papier legt nahe, dass MoE-Modelle in Kombination mit einer Befehlsoptimierung eine deutliche Verbesserung aufweisen, und zwar stärker als ihre dichten Gegenstücke. Diese Technik richtet die vorab trainierten Darstellungen des Modells so aus, dass sie Anweisungen effektiver befolgen können, was zu erheblichen Leistungssteigerungen führt.

Die Forscher führten Studien über drei Versuchsaufbauten durch und zeigten, dass MoE-Modelle bei der direkten aufgabenspezifischen Feinabstimmung zunächst eine unterdurchschnittliche Leistung erbringen. Wenn jedoch eine Anweisungsoptimierung angewendet wird, zeichnen sich MoE-Modelle aus, insbesondere wenn sie zusätzlich durch eine aufgabenspezifische Feinabstimmung ergänzt werden. Dies legt nahe, dass die Befehlsoptimierung ein entscheidender Schritt für MoE-Modelle ist, um dichte Modelle bei nachgelagerten Aufgaben zu übertreffen.

Die Auswirkung der Befehlsoptimierung auf MOE

Außerdem wird FLAN-MOE32B vorgestellt, ein Modell, das die erfolgreiche Anwendung dieser Konzepte demonstriert. Insbesondere übertrifft es FLAN-PALM62B, ein dichtes Modell, bei Benchmark-Aufgaben und verbraucht dabei nur ein Drittel der Rechenressourcen. Dies zeigt das Potenzial für spärliche MoE-Modelle in Kombination mit der Befehlsoptimierung, um neue Maßstäbe für LLM-Effizienz und -Leistung zu setzen.

Implementierung einer Expertenmischung in realen Szenarien

Die Vielseitigkeit der MoE-Modelle macht sie ideal für eine Reihe von Anwendungen:

Verarbeitung natürlicher Sprache (NLP): MoE-Modelle können die Nuancen und Komplexitäten der menschlichen Sprache effektiver bewältigen und eignen sich daher ideal für fortgeschrittene NLP-Aufgaben.
Bild- und Videoverarbeitung: Bei Aufgaben, die eine hochauflösende Verarbeitung erfordern, kann MoE verschiedene Aspekte von Bildern oder Videobildern verwalten und so sowohl die Qualität als auch die Verarbeitungsgeschwindigkeit verbessern.
Anpassbare KI-Lösungen: Unternehmen und Forscher können MoE-Modelle auf bestimmte Aufgaben zuschneiden, was zu gezielteren und effektiveren KI-Lösungen führt.

Herausforderungen und Überlegungen

Obwohl MoE-Modelle zahlreiche Vorteile bieten, stellen sie auch besondere Herausforderungen dar:

Komplexität in Training und Tuning: Die verteilte Natur von MoE-Modellen kann den Trainingsprozess komplizieren und erfordert eine sorgfältige Abstimmung und Abstimmung der Experten und des Gating-Netzwerks.
Resourcenmanagement: Die effiziente Verwaltung der Rechenressourcen mehrerer Experten ist entscheidend für die Maximierung der Vorteile von MoE-Modellen.

Die Integration von MoE-Schichten in neuronale Netze, insbesondere im Bereich der Sprachmodelle, bietet einen Weg zur Skalierung von Modellen auf Größen, die aufgrund rechnerischer Einschränkungen bisher nicht realisierbar waren. Die durch MoE-Schichten ermöglichte bedingte Berechnung ermöglicht eine effizientere Verteilung der Rechenressourcen und ermöglicht so das Training größerer, leistungsfähigerer Modelle. Da wir weiterhin höhere Anforderungen an unsere KI-Systeme stellen, werden Architekturen wie der mit MoE ausgestattete Transformer wahrscheinlich zum Standard für die Bewältigung komplexer, umfangreicher Aufgaben in verschiedenen Bereichen.

Verwandte Themen:Zwillinge großes Sprachmodell Mistral

Als nächstes

Highlights und Beiträge von NeurIPS 2023

Verpassen Sie nicht

LucidDreamer: High-Fidelity-Text-zu-3D-Generierung über Intervall-Score-Matching

Aayush Mittal

Ich habe die letzten fünf Jahre damit verbracht, in die faszinierende Welt des maschinellen Lernens und des Deep Learning einzutauchen. Meine Leidenschaft und mein Fachwissen haben dazu geführt, dass ich an über 50 verschiedenen Software-Engineering-Projekten mitgewirkt habe, mit besonderem Schwerpunkt auf KI/ML. Meine anhaltende Neugier hat mich auch zur Verarbeitung natürlicher Sprache geführt, einem Bereich, den ich gerne weiter erforschen möchte.