Künstliche Intelligenz

Mistral AI: Neue Benchmarks im Open-Source-Bereich

Veröffentlicht am 3. Oktober 2023

Aktualisiert am 22. Mai 2026

Von

Aayush Mittal Mittal

Große Sprachmodelle (LLMs) haben kürzlich im Mittelpunkt gestanden, dank hervorragender Leistungen wie ChatGPT. Als Meta ihre Llama-Modelle vorstellte, wurde das Interesse an Open-Source-LLMs neu entfacht. Das Ziel? Erschwingliche, Open-Source-LLMs zu erstellen, die so gut sind wie Top-Modelle wie GPT-4, aber ohne den hohen Preis oder die Komplexität.

Diese Kombination aus Erschwinglichkeit und Effizienz hat nicht nur neue Wege für Forscher und Entwickler eröffnet, sondern auch den Grundstein für eine neue Ära technologischer Fortschritte in der Verarbeitung natürlicher Sprache gelegt.

Kürzlich haben Start-ups im Bereich generativer KI eine beachtliche Finanzierung erhalten. Zusammen haben sie 20 Millionen Dollar aufgebracht, um Open-Source-KI-Modelle zu entwickeln. Anthropic hat ebenfalls 450 Millionen Dollar erhalten, und Cohere, das mit Google Cloud zusammenarbeitet, hat 270 Millionen Dollar gesichert.

Einführung in Mistral 7B: Größe und Verfügbarkeit

Mistral AI, mit Sitz in Paris und gegründet von ehemaligen Mitarbeitern von Google’s DeepMind und Meta, hat sein erstes großes Sprachmodell vorgestellt: Mistral 7B. Dieses Modell kann von jedem heruntergeladen werden und ist auf GitHub und als 13,4-Gigabyte-Torrent verfügbar.

Dieses Start-up hat es geschafft, eine Rekordfinanzierung zu sichern, bevor es ein Produkt auf den Markt gebracht hat. Mistral AI hat ein Modell mit 7 Milliarden Parametern entwickelt, das die Leistung von Llama 2 13B in allen Tests übertrifft und Llama 1 34B in vielen Metriken schlägt.

Im Vergleich zu anderen Modellen wie Llama 2 bietet Mistral 7B ähnliche oder bessere Fähigkeiten, aber mit geringerem Rechenaufwand. Während grundlegende Modelle wie GPT-4 bessere Ergebnisse erzielen können, sind sie teurer und weniger benutzerfreundlich, da sie hauptsächlich über APIs zugänglich sind.

Bei Codierungsaufgaben kann Mistral 7B es mit CodeLlama 7B aufnehmen. Außerdem ist es kompakt genug, um auf Standardmaschinen mit 13,4 GB zu laufen.

Zusätzlich hat Mistral 7B Instruct, das speziell für Anweisungsdatensätze auf Hugging Face trainiert wurde, eine großartige Leistung gezeigt. Es übertrifft andere 7B-Modelle auf MT-Bench und steht auf gleicher Höhe mit 13B-Chat-Modellen.

Hugging Face Mistral 7B Beispiel

Leistungsvergleich

In einer detaillierten Leistungsanalyse wurde Mistral 7B mit den Llama-2-Modellen verglichen. Die Ergebnisse waren eindeutig: Mistral 7B übertrifft Llama 2 13B in allen Benchmarks. Tatsächlich entspricht es der Leistung von Llama 34B, insbesondere in Code- und Reasoning-Benchmarks.

Die Benchmarks wurden in verschiedene Kategorien unterteilt, wie z.B. Allgemeines Wissen, Weltwissen, Leseverständnis, Mathematik und Code. Eine bemerkenswerte Beobachtung war die Leistung von Mistral 7B in Bezug auf die Kosten-Leistungs-Metrik, die als “äquivalente Modellgrößen” bezeichnet wird. In Bereichen wie Reasoning und Verständnis zeigte Mistral 7B eine Leistung, die der eines Llama-2-Modells mit dreimal größerer Größe entspricht, was auf potenzielle Einsparungen bei der Speicherung und eine Steigerung der Durchsatzrate hindeutet. Allerdings entsprach Mistral 7B in Wissensbenchmarks Llama 2 13B, was wahrscheinlich auf die Parameterbegrenzungen zurückzuführen ist, die die Wissenskomprimierung beeinflussen.

Was macht das Mistral-7B-Modell besser als die meisten anderen Sprachmodelle?

Vereinfachung der Aufmerksamkeitsmechanismen

Die Feinheiten der Aufmerksamkeitsmechanismen sind technisch, aber die grundlegende Idee ist relativ einfach. Stellen Sie sich vor, Sie lesen ein Buch und unterstreichen wichtige Sätze; das ist analog zu dem, wie Aufmerksamkeitsmechanismen “unterstreichen” oder wichtige Datenpunkte in einer Sequenz hervorheben.

Im Kontext von Sprachmodellen ermöglichen diese Mechanismen es dem Modell, sich auf die relevantesten Teile der Eingabedaten zu konzentrieren, um sicherzustellen, dass die Ausgabe kohärent und kontextuell genau ist.

In Standard-Transformern werden Aufmerksamkeitswerte mit der Formel berechnet:

Transformers-Aufmerksamkeitsformel

Die Formel für diese Werte umfasst einen entscheidenden Schritt – die Matrixmultiplikation von Q und K. Die Herausforderung besteht darin, dass mit zunehmender Sequenzlänge beide Matrizen entsprechend wachsen, was zu einem rechenintensiven Prozess führt. Diese Skalierbarkeitsprobleme sind einer der Hauptgründe, warum Standard-Transformers langsam sein können, insbesondere bei der Verarbeitung langer Sequenzen.

Transformer Aufmerksamkeitsmechanismen helfen Modellen, sich auf bestimmte Teile der Eingabedaten zu konzentrieren. Typischerweise verwenden diese Mechanismen “Köpfe”, um diese Aufmerksamkeit zu verwalten. Je mehr Köpfe Sie haben, desto spezifischer die Aufmerksamkeit, aber es wird auch komplexer und langsamer. Tauchen Sie tiefer in die Transformers und Aufmerksamkeitsmechanismen ein hier.

Multi-Query-Aufmerksamkeit (MQA) beschleunigt den Prozess, indem sie einen Satz von “Schlüssel-Wert”-Köpfen verwendet, aber manchmal auf Kosten der Qualität. Nun fragen Sie sich vielleicht, warum man nicht die Geschwindigkeit von MQA mit der Qualität der Multi-Head-Aufmerksamkeit kombinieren kann? Das ist der Punkt, an dem die Gruppen-Abfrage-Aufmerksamkeit (GQA) eintritt.

Gruppen-Abfrage-Aufmerksamkeit (GQA)

Gruppen-Abfrage-Aufmerksamkeit

GQA ist eine Mittellösung. Anstatt nur einen oder mehrere “Schlüssel-Wert”-Köpfe zu verwenden, gruppiert sie diese. Auf diese Weise erreicht GQA eine Leistung, die der detaillierten Multi-Head-Aufmerksamkeit nahe kommt, aber mit der Geschwindigkeit von MQA. Für Modelle wie Mistral bedeutet dies eine effiziente Leistung ohne zu große Kompromisse bei der Qualität.

Sliding-Window-Aufmerksamkeit (SWA)

Die Sliding-Window-Methode ist eine weitere Methode, die bei der Verarbeitung von Aufmerksamkeitssequenzen verwendet wird. Diese Methode verwendet ein festes Aufmerksamkeitsfenster um jeden Token in der Sequenz. Mit mehreren Schichten, die dieses fensterbasierte Aufmerksamkeit stapeln, gewinnen die oberen Schichten schließlich eine breitere Perspektive, die Informationen aus der gesamten Eingabe umfasst. Dieser Mechanismus ist analog zu den Rezeptivfeldern, die in Convolutional Neural Networks (CNNs) zu finden sind.

Andererseits berechnet die “dilatierte Sliding-Window-Aufmerksamkeit” des Longformer-Modells, die konzeptionell ähnlich zur Sliding-Window-Methode ist, nur einige Diagonalen der QKT-Matrix. Diese Änderung führt dazu, dass der Speicherbedarf linear anstelle von quadratisch anwächst, was es zu einer effizienteren Methode für längere Sequenzen macht.

Mistral AI-Transparenz vs. Sicherheitsbedenken bei der Dezentralisierung

In ihrer Ankündigung betonte Mistral AI auch die Transparenz mit der Aussage: “Keine Tricks, keine proprietären Daten.” Gleichzeitig ist ihr aktuell einzig verfügbares Modell, “Mistral-7B-v0.1”, ein vorgefertigtes Basismodell, das daher auf jede Anfrage ohne Moderation antworten kann, was potenzielle Sicherheitsbedenken aufwirft. Während Modelle wie GPT und Llama Mechanismen haben, um zu erkennen, wann sie antworten sollten, könnte die vollständig dezentralisierte Natur von Mistral von böswilligen Akteuren ausgenutzt werden.

Allerdings hat die Dezentralisierung von Large Language Models auch ihre Vorzüge. Während einige sie missbrauchen könnten, können Menschen ihre Macht für das Gemeinwohl nutzen und Intelligenz für alle zugänglich machen.

Bereitstellungsflexibilität

Ein Highlight ist, dass Mistral 7B unter der Apache-2.0-Lizenz verfügbar ist. Das bedeutet, dass es keine echten Barrieren für die Verwendung gibt – egal, ob Sie es für persönliche Zwecke, ein großes Unternehmen oder sogar eine Regierungsbehörde verwenden. Sie benötigen nur das richtige System, um es auszuführen, oder müssen möglicherweise in Cloud-Ressourcen investieren.

Es gibt auch andere Lizenzen wie die einfache MIT-Lizenz und die kooperative CC-BY-SA-4.0-Lizenz, die eine Namensnennung und eine ähnliche Lizenz für Ableitungen erfordert. Die Apache-2.0-Lizenz bietet jedoch eine solide Grundlage für groß angelegte Unternehmungen.

Schlussgedanken

Der Aufstieg von Open-Source-Large-Language-Modellen wie Mistral 7B markiert einen wichtigen Wendepunkt in der KI-Industrie, indem hochwertige Sprachmodelle einer breiteren Öffentlichkeit zugänglich gemacht werden. Mistral AI-Neuerungen wie Gruppen-Abfrage-Aufmerksamkeit und Sliding-Window-Aufmerksamkeit versprechen eine effiziente Leistung ohne Kompromisse bei der Qualität.

Während die dezentralisierte Natur von Mistral bestimmte Herausforderungen mit sich bringt, unterstreicht ihre Flexibilität und Open-Source-Lizenzierung das Potenzial für die Demokratisierung von KI. Wenn sich das Landschaftsbild weiterentwickelt, wird der Fokus unweigerlich auf die Balance zwischen der Macht dieser Modelle und ethischen Überlegungen sowie Sicherheitsmechanismen liegen.

Was kommt als Nächstes für Mistral? Das 7B-Modell war nur der Anfang. Das Team plant, noch größere Modelle bald zu veröffentlichen. Wenn diese neuen Modelle die Leistung von 7B erreichen, könnte Mistral schnell zu einem Top-Spieler in der Branche aufsteigen, und all dies innerhalb ihres ersten Jahres.

Aayush Mittal, Mittal

Ich habe die letzten fünf Jahre damit verbracht, mich in die faszinierende Welt des Machine Learning und Deep Learning zu vertiefen. Mein Engagement und meine Expertise haben mich dazu geführt, an über 50 verschiedenen Software-Entwicklungsprojekten mit einem besonderen Fokus auf AI/ML beizutragen. Meine anhaltende Neugier hat mich auch zum Bereich der Natural Language Processing hingezogen, einem Feld, das ich weiter erforschen möchte.

Unite.AI