Künstliche Intelligenz
Mistral AI: Neue Benchmarks im Open-Source-Bereich

Große Sprachmodelle (LLMs) haben kürzlich im Mittelpunkt gestanden, dank hervorragender Leistungen wie ChatGPT. Als Meta ihre Llama-Modelle vorstellte, wurde das Interesse an Open-Source-LLMs neu entfacht. Das Ziel? Erschwingliche, Open-Source-LLMs zu erstellen, die so gut sind wie Top-Modelle wie GPT-4, aber ohne den hohen Preis oder die Komplexität.
Diese Kombination aus Erschwinglichkeit und Effizienz hat nicht nur neue Wege für Forscher und Entwickler eröffnet, sondern auch den Grundstein für eine neue Ära technologischer Fortschritte in der Verarbeitung natürlicher Sprache gelegt.
Kürzlich haben Start-ups im Bereich generativer KI eine beachtliche Finanzierung erhalten. Zusammen haben sie 20 Millionen Dollar aufgebracht, um Open-Source-KI-Modelle zu entwickeln. Anthropic hat ebenfalls 450 Millionen Dollar erhalten, und Cohere, das mit Google Cloud zusammenarbeitet, hat 270 Millionen Dollar gesichert.
Einführung in Mistral 7B: Größe und Verfügbarkeit
Mistral AI, mit Sitz in Paris und gegründet von ehemaligen Mitarbeitern von Google’s DeepMind und Meta, hat sein erstes großes Sprachmodell vorgestellt: Mistral 7B. Dieses Modell kann von jedem heruntergeladen werden und ist auf GitHub und als 13,4-Gigabyte-Torrent verfügbar.
Dieses Start-up hat es geschafft, eine Rekordfinanzierung zu sichern, bevor es ein Produkt auf den Markt gebracht hat. Mistral AI hat ein Modell mit 7 Milliarden Parametern entwickelt, das die Leistung von Llama 2 13B in allen Tests übertrifft und Llama 1 34B in vielen Metriken schlägt.
Im Vergleich zu anderen Modellen wie Llama 2 bietet Mistral 7B ähnliche oder bessere Fähigkeiten, aber mit geringerem Rechenaufwand. Während grundlegende Modelle wie GPT-4 bessere Ergebnisse erzielen können, sind sie teurer und weniger benutzerfreundlich, da sie hauptsächlich über APIs zugänglich sind.
Bei Codierungsaufgaben kann Mistral 7B es mit CodeLlama 7B aufnehmen. Außerdem ist es kompakt genug, um auf Standardmaschinen mit 13,4 GB zu laufen.
Zusätzlich hat Mistral 7B Instruct, das speziell für Anweisungsdatensätze auf Hugging Face trainiert wurde, eine großartige Leistung gezeigt. Es übertrifft andere 7B-Modelle auf MT-Bench und steht auf gleicher Höhe mit 13B-Chat-Modellen.
Leistungsvergleich
In einer detaillierten Leistungsanalyse wurde Mistral 7B mit den Llama-2-Modellen verglichen. Die Ergebnisse waren eindeutig: Mistral 7B übertrifft Llama 2 13B in allen Benchmarks. Tatsächlich entspricht es der Leistung von Llama 34B, insbesondere in Code- und Reasoning-Benchmarks.
Die Benchmarks wurden in verschiedene Kategorien unterteilt, wie z.B. Allgemeines Wissen, Weltwissen, Leseverständnis, Mathematik und Code. Eine bemerkenswerte Beobachtung war die Leistung von Mistral 7B in Bezug auf die Kosten-Leistungs-Metrik, die als “äquivalente Modellgrößen” bezeichnet wird. In Bereichen wie Reasoning und Verständnis zeigte Mistral 7B eine Leistung, die der eines Llama-2-Modells mit dreimal größerer Größe entspricht, was auf potenzielle Einsparungen bei der Speicherung und eine Steigerung der Durchsatzrate hindeutet. Allerdings entsprach Mistral 7B in Wissensbenchmarks Llama 2 13B, was wahrscheinlich auf die Parameterbegrenzungen zurückzuführen ist, die die Wissenskomprimierung beeinflussen.
Was macht das Mistral-7B-Modell besser als die meisten anderen Sprachmodelle?
Vereinfachung der Aufmerksamkeitsmechanismen
Die Feinheiten der Aufmerksamkeitsmechanismen sind technisch, aber die grundlegende Idee ist relativ einfach. Stellen Sie sich vor, Sie lesen ein Buch und unterstreichen wichtige Sätze; das ist analog zu dem, wie Aufmerksamkeitsmechanismen “unterstreichen” oder wichtige Datenpunkte in einer Sequenz hervorheben.
Im Kontext von Sprachmodellen ermöglichen diese Mechanismen es dem Modell, sich auf die relevantesten Teile der Eingabedaten zu konzentrieren, um sicherzustellen, dass die Ausgabe kohärent und kontextuell genau ist.
In Standard-Transformern werden Aufmerksamkeitswerte mit der Formel berechnet:
Die Formel für diese Werte umfasst einen entscheidenden Schritt – die Matrixmultiplikation von Q und K. Die Herausforderung besteht darin, dass mit zunehmender Sequenzlänge beide Matrizen entsprechend wachsen, was zu einem rechenintensiven Prozess führt. Diese Skalierbarkeitsprobleme sind einer der Hauptgründe, warum Standard-Transformers langsam sein können, insbesondere bei der Verarbeitung langer Sequenzen.

Multi-Query-Aufmerksamkeit (MQA) beschleunigt den Prozess, indem sie einen Satz von “Schlüssel-Wert”-Köpfen verwendet, aber manchmal auf Kosten der Qualität. Nun fragen Sie sich vielleicht, warum man nicht die Geschwindigkeit von MQA mit der Qualität der Multi-Head-Aufmerksamkeit kombinieren kann? Das ist der Punkt, an dem die Gruppen-Abfrage-Aufmerksamkeit (GQA) eintritt.
Gruppen-Abfrage-Aufmerksamkeit (GQA)
GQA ist eine Mittellösung. Anstatt nur einen oder mehrere “Schlüssel-Wert”-Köpfe zu verwenden, gruppiert sie diese. Auf diese Weise erreicht GQA eine Leistung, die der detaillierten Multi-Head-Aufmerksamkeit nahe kommt, aber mit der Geschwindigkeit von MQA. Für Modelle wie Mistral bedeutet dies eine effiziente Leistung ohne zu große Kompromisse bei der Qualität.
Sliding-Window-Aufmerksamkeit (SWA)
Die Sliding-Window-Methode ist eine weitere Methode, die bei der Verarbeitung von Aufmerksamkeitssequenzen verwendet wird. Diese Methode verwendet ein festes Aufmerksamkeitsfenster um jeden Token in der Sequenz. Mit mehreren Schichten, die dieses fensterbasierte Aufmerksamkeit stapeln, gewinnen die oberen Schichten schließlich eine breitere Perspektive, die Informationen aus der gesamten Eingabe umfasst. Dieser Mechanismus ist analog zu den Rezeptivfeldern, die in Convolutional Neural Networks (CNNs) zu finden sind.
Andererseits berechnet die “dilatierte Sliding-Window-Aufmerksamkeit” des Longformer-Modells, die konzeptionell ähnlich zur Sliding-Window-Methode ist, nur einige Diagonalen der QKT-Matrix. Diese Änderung führt dazu, dass der Speicherbedarf linear anstelle von quadratisch anwächst, was es zu einer effizienteren Methode für längere Sequenzen macht.
Mistral AI-Transparenz vs. Sicherheitsbedenken bei der Dezentralisierung
In ihrer Ankündigung betonte Mistral AI auch die Transparenz mit der Aussage: “Keine Tricks, keine proprietären Daten.” Gleichzeitig ist ihr aktuell einzig verfügbares Modell, “Mistral-7B-v0.1”, ein vorgefertigtes Basismodell, das daher auf jede Anfrage ohne Moderation antworten kann, was potenzielle Sicherheitsbedenken aufwirft. Während Modelle wie GPT und Llama Mechanismen haben, um zu erkennen, wann sie antworten sollten, könnte die vollständig dezentralisierte Natur von Mistral von böswilligen Akteuren ausgenutzt werden.
Allerdings hat die Dezentralisierung von Large Language Models auch ihre Vorzüge. Während einige sie missbrauchen könnten, können Menschen ihre Macht für das Gemeinwohl nutzen und Intelligenz für alle zugänglich machen.
Bereitstellungsflexibilität
Ein Highlight ist, dass Mistral 7B unter der Apache-2.0-Lizenz verfügbar ist. Das bedeutet, dass es keine echten Barrieren für die Verwendung gibt – egal, ob Sie es für persönliche Zwecke, ein großes Unternehmen oder sogar eine Regierungsbehörde verwenden. Sie benötigen nur das richtige System, um es auszuführen, oder müssen möglicherweise in Cloud-Ressourcen investieren.
Es gibt auch andere Lizenzen wie die einfache MIT-Lizenz und die kooperative CC-BY-SA-4.0-Lizenz, die eine Namensnennung und eine ähnliche Lizenz für Ableitungen erfordert. Die Apache-2.0-Lizenz bietet jedoch eine solide Grundlage für groß angelegte Unternehmungen.
Schlussgedanken
Der Aufstieg von Open-Source-Large-Language-Modellen wie Mistral 7B markiert einen wichtigen Wendepunkt in der KI-Industrie, indem hochwertige Sprachmodelle einer breiteren Öffentlichkeit zugänglich gemacht werden. Mistral AI-Neuerungen wie Gruppen-Abfrage-Aufmerksamkeit und Sliding-Window-Aufmerksamkeit versprechen eine effiziente Leistung ohne Kompromisse bei der Qualität.
Während die dezentralisierte Natur von Mistral bestimmte Herausforderungen mit sich bringt, unterstreicht ihre Flexibilität und Open-Source-Lizenzierung das Potenzial für die Demokratisierung von KI. Wenn sich das Landschaftsbild weiterentwickelt, wird der Fokus unweigerlich auf die Balance zwischen der Macht dieser Modelle und ethischen Überlegungen sowie Sicherheitsmechanismen liegen.
Was kommt als Nächstes für Mistral? Das 7B-Modell war nur der Anfang. Das Team plant, noch größere Modelle bald zu veröffentlichen. Wenn diese neuen Modelle die Leistung von 7B erreichen, könnte Mistral schnell zu einem Top-Spieler in der Branche aufsteigen, und all dies innerhalb ihres ersten Jahres.


















