Künstliche Intelligenz

Mistral AI’s Latest Mixture of Experts (MoE) 8x7B Model

Published December 15, 2023

Updated April 28, 2026

Aayush Mittal Mittal

welches ein in Paris ansässiges Open-Source-Model-Startup ist, hat Normen herausgefordert, indem es sein neuestes großes Sprachmodell (LLM), MoE 8x7B, über einen einfachen Torrent-Link veröffentlicht hat. Dies steht im Gegensatz zu Googles traditionellem Ansatz mit der Veröffentlichung von Gemini, was Gespräche und Aufregung in der KI-Gemeinschaft auslöst.

Mistral AI’s Ansatz bei Veröffentlichungen war immer unkonventionell. Oft verzichtet das Unternehmen auf die üblichen Begleitumstände wie wissenschaftliche Arbeiten, Blogs oder Pressemitteilungen, und seine Strategie war einzigartig effektiv, um die Aufmerksamkeit der KI-Gemeinschaft zu gewinnen.

Das Unternehmen hat kürzlich eine bemerkenswerte $2-Milliarden-Bewertung nach einer von Andreessen Horowitz geleiteten Finanzierungsrunde erzielt. Diese Finanzierungsrunde war historisch und stellte mit einer $118-Millionen-Seed-Runde, der größten in der europäischen Geschichte, einen Rekord auf. Neben den Erfolgen bei der Finanzierung ist Mistral AI auch aktiv an den Diskussionen um den EU-KI-Gesetz beteiligt und setzt sich für eine reduzierte Regulierung von Open-Source-KI ein.

Warum MoE 8x7B Aufmerksamkeit erregt

Als “skaliertes GPT-4” bezeichnet, nutzt Mixtral 8x7B ein Mixture-of-Experts-(MoE)-Framework mit acht Experten. Jeder Experte verfügt über 111-Millionen-Parameter, kombiniert mit 55-Millionen-geteilten-Aufmerksamkeitsparametern, um insgesamt 166-Millionen-Parameter pro Modell zu erhalten. Diese Designentscheidung ist bedeutend, da sie es ermöglicht, dass nur zwei Experten an der Inferenz jedes Tokens beteiligt sind, was auf einen Trend hin zu effizienterer und fokussierterer KI-Verarbeitung hinweist.

Einer der Hauptvorteile von Mixtral ist seine Fähigkeit, einen umfangreichen Kontext von 32.000 Token zu verwalten, was einen großen Spielraum für die Bewältigung komplexer Aufgaben bietet. Die multilingualen Fähigkeiten des Modells umfassen eine robuste Unterstützung für Englisch, Französisch, Italienisch, Deutsch und Spanisch, um einer globalen Entwicklergemeinschaft gerecht zu werden.

Die Vorverarbeitung von Mixtral umfasst Daten, die aus dem offenen Web stammen, mit einem simultanen Trainingsansatz für sowohl Experten als auch Router. Diese Methode stellt sicher, dass das Modell nicht nur in seinem Parameterspeicher umfangreich ist, sondern auch fein auf die Nuancen der umfangreichen Daten abgestimmt ist, denen es ausgesetzt war.

Mixtral 8x7B erreicht einen beeindruckenden Score

Mixtral 8x7B übertrifft LLaMA 2 70B und rivalisiert GPT-3.5, insbesondere bei der MBPP-Aufgabe mit einer Erfolgsrate von 60,7 %, was deutlich höher ist als bei seinen Konkurrenten. Selbst bei der strengen MT-Bench, die für anweisungsorientierte Modelle konzipiert ist, erreicht Mixtral 8x7B einen beeindruckenden Score, der nahezu mit GPT-3.5 übereinstimmt

Das Verständnis des Mixture-of-Experts-(MoE)-Frameworks

Das Mixture-of-Experts-(MoE)-Modell, das aufgrund seiner Integration in state-of-the-art-Sprachmodelle wie Mistral AI’s MoE 8x7B in jüngster Zeit Aufmerksamkeit erregt hat, basiert tatsächlich auf grundlegenden Konzepten, die bereits seit mehreren Jahren existieren. Lassen Sie uns die Ursprünge dieser Idee durch seminale Forschungsarbeiten aufarbeiten.

Das Konzept von MoE

Mixture of Experts (MoE) stellt einen Paradigmenwechsel in der Architektur von neuronalen Netzen dar. Im Gegensatz zu traditionellen Modellen, die ein einzelnes, homogenes Netzwerk verwenden, um alle Arten von Daten zu verarbeiten, nutzt MoE einen spezifischeren und modularen Ansatz. Es besteht aus mehreren “Experten”-Netzwerken, von denen jedes für die Verarbeitung bestimmter Arten von Daten oder Aufgaben konzipiert ist, und einem “Gating-Netzwerk”, das die Eingabedaten dynamisch an den geeignetsten Experten weiterleitet.

Eine Mixture-of-Experts-(MoE)-Schicht, die in ein rekurrentes Sprachmodell eingebettet ist (Quelle)

Das obige Bild zeigt eine hochrangige Ansicht einer MoE-Schicht, die in ein Sprachmodell eingebettet ist. Im Wesentlichen besteht die MoE-Schicht aus mehreren Feed-Forward-Subnetzwerken, die als “Experten” bezeichnet werden, von denen jeder das Potenzial hat, sich auf die Verarbeitung verschiedener Aspekte der Daten zu spezialisieren. Ein Gating-Netzwerk, das in der Abbildung hervorgehoben ist, bestimmt, welche Kombination dieser Experten für eine gegebene Eingabe aktiviert wird. Diese bedingte Aktivierung ermöglicht es dem Netzwerk, seine Kapazität erheblich zu erhöhen, ohne dass dies zu einem entsprechenden Anstieg des Rechenaufwands führt.

Funktionalität der MoE-Schicht

In der Praxis evaluiert das Gating-Netzwerk die Eingabe (bezeichnet als G(x) in der Abbildung) und wählt eine sparse Menge von Experten aus, um sie zu verarbeiten. Diese Auswahl wird durch die Ausgaben des Gating-Netzwerks moduliert, was effektiv die “Stimme” oder den Beitrag jedes Experten zur endgültigen Ausgabe bestimmt. Zum Beispiel kann in der Abbildung gezeigt werden, dass nur zwei Experten für die Berechnung der Ausgabe für jedes bestimmte Eingabetoken ausgewählt werden, was den Prozess effizient macht, indem Rechenressourcen konzentriert werden, wo sie am meisten benötigt werden.

Transformer-Encoder mit MoE-Schichten (Quelle)

Die zweite Abbildung oben zeigt einen traditionellen Transformer-Encoder im Vergleich zu einem, der mit einer MoE-Schicht ergänzt wurde. Die Transformer-Architektur, die weithin für ihre Effizienz bei sprachbezogenen Aufgaben bekannt ist, besteht traditionell aus Selbstaufmerksamkeits- und Feed-Forward-Schichten, die in Folge gestapelt sind. Die Einführung von MoE-Schichten ersetzt einige dieser Feed-Forward-Schichten, was es dem Modell ermöglicht, effektiver in Bezug auf Kapazität zu skalieren.

In dem ergänzten Modell werden die MoE-Schichten über mehrere Geräte verteilt, was einen modellparallelen Ansatz zeigt. Dies ist entscheidend, wenn man zu sehr großen Modellen skaliert, da es die Verteilung der Rechenlast und der Speicheranforderungen über einen Cluster von Geräten wie GPUs oder TPUs ermöglicht. Diese Verteilung ist für das effiziente Training und Bereitstellen von Modellen mit Milliarden von Parametern unerlässlich, wie es bei der Ausbildung von Modellen mit Hunderten von Milliarden bis über eine Billion Parametern auf großen Rechenclustern der Fall ist.

Der sparse MoE-Ansatz mit Anweisungstuning auf LLM

Das Paper mit dem Titel “Sparse Mixture-of-Experts (MoE) für skalierbares Sprachmodellieren” diskutiert einen innovativen Ansatz, um Large Language Models (LLM) durch die Integration der Mixture-of-Experts-Architektur mit Anweisungstuning-Techniken zu verbessern.

Es hebt ein häufiges Problem hervor, bei dem MoE-Modelle im Vergleich zu dichten Modellen mit gleicher Rechenkapazität bei der Feinabstimmung für spezifische Aufgaben unterlegen sind, aufgrund von Unterschieden zwischen allgemeiner Vorverarbeitung und aufgabenbezogener Feinabstimmung.

Anweisungstuning ist eine Trainingsmethodik, bei der Modelle verfeinert werden, um natürliche Sprachanweisungen besser zu befolgen, was effektiv ihre Aufgabenleistung verbessert. Das Paper legt nahe, dass MoE-Modelle eine bemerkenswerte Verbesserung zeigen, wenn sie mit Anweisungstuning kombiniert werden, insbesondere im Vergleich zu ihren dichten Gegenstücken. Diese Technik stimmt die vorverarbeiteten Repräsentationen des Modells ab, um Anweisungen effektiver zu befolgen, was zu signifikanten Leistungssteigerungen führt.

Die Forscher führten Studien in drei experimentellen Aufbauten durch und zeigten, dass MoE-Modelle anfangs bei der direkten Feinabstimmung für spezifische Aufgaben unterlegen sind. Wenn jedoch Anweisungstuning angewendet wird, übertrifft das MoE-Modell, insbesondere wenn es weiterhin mit aufgabenbezogener Feinabstimmung ergänzt wird. Dies deutet darauf hin, dass Anweisungstuning ein entscheidender Schritt für MoE-Modelle ist, um dichte Modelle bei nachgelagerten Aufgaben zu überbieten.

Die Auswirkung von Anweisungstuning auf MOE

Es stellt auch FLAN-MOE32B vor, ein Modell, das die erfolgreiche Anwendung dieser Konzepte demonstriert. Bemerkenswerterweise übertrifft es FLAN-PALM62B, ein dichtes Modell, bei Benchmark-Aufgaben, während es nur ein Drittel der Rechenressourcen verwendet. Dies zeigt das Potenzial von sparse MoE-Modellen in Kombination mit Anweisungstuning, um neue Standards für LLM-Effizienz und Leistung zu setzen.

Implementierung von Mixture of Experts in realen Szenarien

Die Vielseitigkeit von MoE-Modellen macht sie für eine Vielzahl von Anwendungen geeignet:

Natürliche Sprachverarbeitung (NLP): MoE-Modelle können die Nuancen und Komplexitäten der menschlichen Sprache effektiver verarbeiten, was sie ideal für fortgeschrittene NLP-Aufgaben macht.
Bild- und Videoverarbeitung: Bei Aufgaben, die eine hochauflösende Verarbeitung erfordern, kann MoE verschiedene Aspekte von Bildern oder Videoaufnahmen verwalten, was sowohl die Qualität als auch die Verarbeitungsgeschwindigkeit verbessert.
Maßgeschneiderte KI-Lösungen: Unternehmen und Forscher können MoE-Modelle für spezifische Aufgaben anpassen, was zu gezielteren und effektiveren KI-Lösungen führt.

Herausforderungen und Überlegungen

Komplexität bei Training und Feinabstimmung: Die verteilte Natur von MoE-Modellen kann den Trainingsprozess komplizieren, was eine sorgfältige Abstimmung und Feinabstimmung der Experten und des Gating-Netzwerks erfordert.
Ressourcenmanagement: Die effiziente Verwaltung von Rechenressourcen über mehrere Experten hinweg ist entscheidend, um die Vorteile von MoE-Modellen zu maximieren.

Die Integration von MoE-Schichten in neuronale Netze, insbesondere im Bereich von Sprachmodellen, bietet einen Weg, um Modelle auf Größen zu skalieren, die zuvor aufgrund von Rechenbeschränkungen nicht möglich waren. Die bedingte Berechnung, die durch MoE-Schichten ermöglicht wird, ermöglicht eine effizientere Verteilung von Rechenressourcen, was es möglich macht, größere und leistungsfähigere Modelle zu trainieren. Da wir von unseren KI-Systemen immer mehr verlangen, werden Architekturen wie das mit MoE ausgestattete Transformer wahrscheinlich zum Standard für die Bewältigung komplexer und groß angelegter Aufgaben in verschiedenen Bereichen werden.

Related Topics:gemini large language model Mistral

Aayush Mittal

Ich habe die letzten fünf Jahre damit verbracht, mich in die faszinierende Welt des Machine Learning und Deep Learning zu vertiefen. Meine Leidenschaft und mein Fachwissen haben mich dazu geführt, an über 50 verschiedenen Software-Entwicklungsprojekten mitzuwirken, mit einem besonderen Fokus auf KI/ML. Meine anhaltende Neugier hat mich auch zum Natural Language Processing hingezogen, ein Feld, das ich weiter erforschen möchte.

Unite.AI

Mistral AI’s Latest Mixture of Experts (MoE) 8x7B Model

You may like