Stummel Zephyr-7B: Das hyperoptimierte LLM von HuggingFace basiert auf Mistral 7B - Unite.AI
Vernetzen Sie sich mit uns

Künstliche Intelligenz

Zephyr-7B: Das hyperoptimierte LLM von HuggingFace basiert auf Mistral 7B

mm
Aktualisiert on
Zypher 7B

Einleitung

Die Entwicklung offener großer Sprachmodelle (LLMs) hat die KI-Forschungsgemeinschaft erheblich beeinflusst, insbesondere bei der Entwicklung von Chatbots und ähnlichen Anwendungen. Nach der Veröffentlichung von Modellen wie LLaMA gab es einen Anstieg der Forschung zu effizienter Feinabstimmung, erweiterter Eingabeaufforderungsverarbeitung, Retrieval Augmented Generation (RAG) und Quantisierung.

Das LLaMA-Modell markierte beispielsweise eine neue Ära der Feinabstimmung und schnellen Kontextualisierung und ebnete den Weg für nachfolgende Modelle wie MPT von MosaicML, RedPajama-INCITE von Together AI, Falcon von TII und Llama 2 von Meta. Jedes dieser Modelle bringt einzigartige Fähigkeiten mit , wodurch die Gesamtfunktionalität und der Umfang von LLMs verbessert werden.

Mistral AI, ein Startup aus Paris und gegründet von ehemaligen Google DeepMind- und Meta-Mitarbeitern, hat sich mit seinem ersten Angebot einen Namen gemacht: Mistral 7B.

Der Vorteil von Mistral 7B liegt in seiner Effizienz, da es im Vergleich zu Mitbewerbern wie Llama 2 ähnliche oder verbesserte Fähigkeiten bietet, jedoch einen geringeren Rechenaufwand erfordert.

Der speziell auf Unterrichtsaufgaben abgestimmte Mistral 7B Instruct glänzt auf Plattformen wie Hugging Face, wo er andere Modelle gleicher Größe übertrifft und mit denen mit fast doppelt so großen Parametern eng konkurriert.

Darauf aufbauend wurde Hugging Face vorgestellt Zephyr 7B AlphaDies zeigt, dass ein fein abgestimmter Mistral 7B tatsächlich die Fähigkeiten deutlich größerer Chat-Modelle übertreffen und in einigen Aufgaben sogar mit GPT-4 konkurrieren kann. Die „Alpha“ war erst der Anfang Zephyr 7B Die Beta folgte in Kürze.

In diesem Artikel wird untersucht, wie Zephyr 7B die Leistungsfähigkeit größerer Modelle nutzt, um seine Fähigkeit zu verfeinern, auf menschliche Anweisungen zu reagieren und sich daran anzupassen, ein Prozess, der durch die Technik der Wissensdestillation ermöglicht wird. Bei dieser Methode werden kleinere Modelle anhand der komplexen Muster trainiert, die von größeren Modellen gelernt wurden. Dadurch wird der Trainingsaufwand reduziert, ohne die Sprachmodellierungsfunktionen zu beeinträchtigen. Wir werden uns mit den Besonderheiten des Wissensdestillationsansatzes von Hugging Face befassen.

Wissensdestillation

Eine Schlüsselinnovation bei der Entwicklung von Modellen wie Zephyr-7B ist destillierte überwachte Feinabstimmung (dSFT). Bei dieser Methode wird die Ausgabe eines größeren, leistungsfähigeren „Lehrer“-Modells verwendet, um ein kleineres „Schüler“-Modell zu trainieren und so dessen Genauigkeit zu verbessern. Während die Destillation offene Modelle bei verschiedenen Aufgaben verbessert, besteht immer noch eine Leistungslücke im Vergleich zu Lehrermodellen.

Die Wissensdestillation ist eine Methode des maschinellen Lernens, bei der ein kompaktes Modell, das als „Wissensdestillation“ bezeichnet wird, verwendet wird.Schüler„wird gelehrt, die Leistung eines größeren, komplexeren“ zu reproduzieren.Lehrer" Modell. Diese Technik ermöglicht es dem Schüler, Aufgaben auszuführen, die vorher über seine Kapazitäten hinausgingen, indem er die vom Lehrer erlernten komplizierten Muster überträgt.

Wissensdestillation,| Lehrer-Schüler-Modell

Wissensdestillation | Lehrer-Schüler-Modell

Das Schülermodell trainiert anhand der vom Lehrermodell generierten Ausgabewahrscheinlichkeiten oder -merkmale und konzentriert sich dabei auf die Übereinstimmung dieser Ausgaben und nicht nur auf die endgültigen Vorhersagen. Dadurch kann der Schüler die differenzierten Entscheidungsprozesse des Lehrers erlernen, was häufig zu einer Leistungssteigerung im Vergleich zum Training nur mit den Ground-Truth-Daten führt.

In der Vergangenheit wurde die Wissensdestillation in Modellen wie den ursprünglichen Destillationsnetzwerken von Hinton und in jüngerer Zeit im NLP mit Modellen wie DistilBERT verwendet, das das BERT-Modell in eine kleinere, schnellere Version destillierte, die die meisten Sprachverständnisfähigkeiten des Originals beibehält. Ein weiteres Beispiel ist TinyBERT, das bei der Optimierung der Größe und Geschwindigkeit für Mobil- oder Edge-Geräte noch weiter geht.

Im Fall von Zephyr-7B wird die Wissensdestillation genutzt, um einem kleineren 7B-Parametermodell die Fähigkeiten seiner größeren Gegenstücke zu verleihen. Dadurch erreicht Zephyr-7B ein Gleichgewicht zwischen Leistung und Effizienz und eignet sich daher für Umgebungen mit begrenzten Rechenressourcen, ohne dass die Qualität der Interaktion und des Verständnisses darunter leidet.

Bei der Entwicklung von Zephyr-7B stellten sich die Forscher der Herausforderung, ein kleines offenes LLM vollständig durch Destillation auszurichten. Sie führten einen Ansatz namens „destillierte direkte Präferenzoptimierung“ (dDPO) ein, der KI-Feedback aus einem Ensemble von Lehrermodellen als Präferenzdaten nutzt. Diese Methode, die keine menschlichen Anmerkungen erfordert, reduziert den Zeit- und Ressourcenaufwand für das Modelltraining erheblich.

Bau von ZEPHYR-7B

Um dDPO zu validieren, konstruierten die Forscher ZEPHYR-7B, eine ausgerichtete Version des Mistral-7B-Modell. Der Prozess umfasste drei Schritte:

  1. dSFT unter Verwendung des UltraChat-Datensatzes:Distilled Supervised Fine-Tuning (dSFT) ist eine fortschrittliche Methode zum Trainieren großer Sprachmodelle (LLMs), indem die Ergebnisse größerer, leistungsfähigerer „Lehrer“-Modelle genutzt werden. Es beginnt mit einem Roh-LLM, das darauf trainiert ist, auf Benutzereingaben zu reagieren. Im Gegensatz zur herkömmlichen überwachten Feinabstimmung (Supervised Fine-Tuning, SFT), die einen festen Datensatz verwendet, verwendet dSFT einen dynamischen Ansatz, bei dem das Modell selbst Anweisungen und Antworten generiert. Bei dieser als „Selbstunterricht“ bezeichneten Methode wird das Lehrermodell verwendet, um Anweisungen auf der Grundlage von Antworten zu beantworten und zu verfeinern. Der Prozess beginnt mit einer Reihe von Startaufforderungen (x₀₁, x₀₂, …, x₀_J), die verschiedene Themen repräsentieren. Jede Eingabeaufforderung wird iterativ verfeinert: Für eine bestimmte Eingabeaufforderung x₀ wird vom Lehrermodell eine Antwort y₀ generiert, und dann wird eine neue Anweisung x₁ basierend auf x₀ und y₀ abgetastet. Der endgültige Datensatz C = {(x₁, y₁), …, (x_J, y_J)} wird zur Feinabstimmung des Modells verwendet.
  2. Einbindung von KI-Feedbackdaten von UltraFeedback:Diese Daten waren entscheidend für die Verfeinerung der Modellantworten. In diesem Schritt generiert das Modell Antworten auf verschiedene Eingabeaufforderungen (z. B. die Beschreibung, wie man Schokoladenbrownies herstellt), die dann von einem fortgeschritteneren Modell wie GPT-4 eingestuft werden. Die Antwort mit der höchsten Bewertung (yw) und eine zufällig ausgewählte Antwort mit der niedrigeren Bewertung (yl) bilden einen Feedback-Datensatz D.
  3. Anwenden von dDPO:Die letzte Phase, Distilled Direct Preference Optimization (dDPO), beinhaltet die Verfeinerung des dSFT-Modells durch Maximierung der Wahrscheinlichkeit, die bevorzugten Antworten höher einzustufen. Dies wird durch die Verwendung einer Belohnungsfunktion rθ(x, y) im Präferenzmodell erreicht, die auf der optimalen LLM-Richtlinie π* und der ursprünglichen Richtlinie πdSFT basiert. Das Optimierungsziel wird wie folgt formuliert: πθ = max π E (x, yw, yl) ∼ D log σ (β log π(yw|x)/πdSFT(yw|x) − β log π(yl|x)/πdSFT( yl|x)), was den Trainingsprozess vereinfacht, indem es mit der dSFT-Version des Modells beginnt und jedes AIF-Triple durchläuft.
Die in Zephyr-7B verwendete Methode spiegelt die in InstructGPT verwendeten Prozesse wider.

Die in Zephyr-7B verwendete Methode spiegelt die in InstructGPT verwendeten Prozesse wider.

Bemerkenswerterweise erreicht Zephyr-7B eine Leistung, die mit viel größeren 70B-Parametermodellen vergleichbar ist, die auf menschliches Feedback ausgerichtet sind. Es zeichnet sich sowohl durch akademische Benchmarks als auch durch Konversationsfähigkeiten aus und unterstreicht die Wirksamkeit des Präferenzlernens bei der Modellentwicklung. Zur weiteren Erkundung stehen Modelle, Code und Anweisungen unter zur Verfügung Das GitHub-Repository von Hugging Face.

Bewältigung der Herausforderung der Absichtsausrichtung

Ein bemerkenswertes Problem bei LLMs war ihre Ausrichtung auf die menschliche Absicht. Frühere Modelle lieferten oft keine Antworten, die den Benutzerpräferenzen entsprachen, was zu ungenauen oder irrelevanten Antworten führte. Jüngste Benchmarks wie MT-Bench und AlpacaEval haben jedoch Tools zur Quantifizierung und Verbesserung dieses Aspekts bereitgestellt und die überlegene Leistung proprietärer Modelle hervorgehoben, die mit menschlichem Feedback trainiert wurden, gegenüber Modellen, die ausschließlich durch Destillation trainiert wurden.

Bewertungsmethoden

Die Evaluierung des Zephyr 7B umfasste strenge Benchmark-Tests, mit denen die Konversationsfähigkeiten eines Modells sowohl in Einzel- als auch in Multi-Turn-Kontexten bewertet wurden:

  • MT-Bank: Dieser Multi-Turn-Benchmark erfordert ein Modell zur Beantwortung von 160 Fragen aus acht Bereichen. Jede Antwort wird von GPT-4 bewertet, wobei die Endbewertung des Modells den Durchschnitt über zwei Fragerunden widerspiegelt.
  • AlpakaEval: In diesem Single-Turn-Benchmark werden dem Modell 805 Fragen zu verschiedenen Themen präsentiert. Der Fokus liegt hier auf der Nützlichkeit des Modells, wobei GPT-4 die Antworten bewertet, um eine vergleichende Gewinnrate zu ermitteln.

Darüber hinaus wurde Zephyr 7B im Open LLM Leaderboard getestet, das zwar keine direkte Bewertung der Konversationsfähigkeiten darstellt, aber Einblicke in die Argumentation und Wahrhaftigkeit des Modells nach der Feinabstimmung bietet.

Zephyr 7B wurde mit einer Vielzahl offener und proprietärer Modelle verglichen, darunter solchen mit unterschiedlichen Größen und Ausrichtungsmethoden. Es etablierte neue Benchmarks für 7B-Modelle auf MT-Bench und AlpacaEval und zeigte eine konkurrenzfähige Leistung gegenüber größeren Modellen, wodurch die Wirksamkeit der direkten Präferenzoptimierung (dDPO) im Training validiert wurde.

Die SFT- und DPO-Trainingsphasen wurden sorgfältig konfiguriert, erstreckten sich über mehrere Epochen und optimierten die Lernraten und Batchgrößen für eine optimale Leistung. Das endgültige Zephyr-Modell erwies sich nicht nur als resistent gegen Überanpassung, sondern auch als verbessert bei der Bewältigung praktischer Aufgaben und akademischer Benchmarks.

Datensätze und Ergebnisse

Verwendete Datensätze

Bei der Entwicklung von Zephyr-7B wurden zwei Schlüsseldatensätze zum Trainieren und Verfeinern des Modells verwendet, die sich jeweils mit unterschiedlichen Aspekten der Dialoggenerierung befassen:

UltraChat-Datensatz

  • Quelle: Entwickelt aus Dialogen, die von GPT-3.5-TURBO generiert wurden.
  • Inhalte: Enthält 1.47 Millionen Multi-Turn-Dialoge zu 30 Themen und 20 Arten von Textmaterial.
  • Raffinesse: Der Datensatz wurde einer Truecasing-Heuristik unterzogen, um grammatikalische Probleme zu korrigieren, und es wurden Filter angewendet, um die Nützlichkeit der Antworten zu erhöhen und nicht hilfreiche Einleitungsphrasen zu eliminieren.

UltraFeedback-Datensatz

  • Quelle: Umfasst von GPT-4 bewertete Eingabeaufforderungen, bei denen die Antworten auf der Grundlage von Befolgung der Anweisungen, Ehrlichkeit und Hilfsbereitschaft bewertet wurden.
  • Inhalte: Enthält 64,000 Eingabeaufforderungen mit jeweils vier Antworten, bewertet mit GPT-4.
  • Binäreinstellungen: Wird generiert, indem die Antwort mit dem höchsten Durchschnittswert als „ausgewählt“ und eine zufällige Antwort aus den übrigen als „abgelehnt“ ausgewählt wird, um die Vielfalt zu erhöhen und den Prozess der direkten Präferenzoptimierung (Direct Preference Optimization, DPO) herauszufordern.

Beide Datensätze sind von entscheidender Bedeutung, um Zephyr-7B darin zu trainieren, menschenähnliche Dialoge zu verstehen und zu generieren, die Anweisungen befolgen, ehrlich und hilfreich sind. Diese Datensätze wurden auf dem Hugging Face Hub zur Verfügung gestellt, auf den Sie zugreifen können hier.

Leistung und Ergebnisse

Das folgende Diagramm veranschaulicht die Leistung des Zephyr 7B in verschiedenen Aufgabenkategorien im Vergleich zu anderen Modellen wie GPT-3.5-turbo, Claude 1, GPT-4 und Llama-2-70b-chat. Zu den Kategorien können Schreiben, Geisteswissenschaften, Rollenspiel, Argumentation, MINT, Extraktion, Codierung und Mathematik gehören.

Aus der Tabelle können wir ableiten, in welchen Bereichen der Zephyr 7B glänzt und in welchen Bereichen möglicherweise weitere Verbesserungen erforderlich sind. Wenn sich beispielsweise Zephyrs Linie auf der Schreibachse im Vergleich zu anderen weiter ausdehnt, deutet dies darauf hin, dass Zephyr besonders stark darin ist, schriftliche Inhalte zu generieren. Liegt die Linie dagegen näher am Mittelpunkt der Mathe-Achse, kann dies auf eine relative Schwäche bei der Lösung mathematischer Probleme hinweisen.

Das Radardiagramm hilft bei der Identifizierung der Stärken und Schwächen des Zephyr 7B und bietet eine visuelle Darstellung seiner Position im Vergleich zu größeren Modellen wie GPT-4 und Spezialmodellen wie Llama-2-70b-chat.

 

Radardiagramm zur Modellleistung

Radardiagramm zur Modellleistung

Vergleich verschiedener Sprachmodelle anhand von zwei Benchmarks: MT-Bench und AlpacaEval. Die Modelle werden anhand ihrer Größe, Ausrichtungsmethode (z. B. dSFT für destillierte überwachte Feinabstimmung oder dDPO für destillierte direkte Präferenzoptimierung) und Leistungsbewertungen bewertet. Zephyr sticht in beiden Benchmarks mit hohen Werten hervor, was auf seine Wirksamkeit bei der Generierung abgestimmter Antworten hinweist.

MT-Bench und AlpacaEval

MT-Bench und AlpacaEval

Zusammenfassung

Zusammenfassend zeigt die Entwicklung von Zephyr-7B, dass die Ausrichtung und Destillation der Konversationsfähigkeiten von einem großen Sprachmodell (LLM) auf ein kleineres Modell erreicht werden kann, ohne auf stichprobenbasierte Methoden angewiesen zu sein. Durch den Einsatz direkter Präferenzoptimierung (DPO) mit KI-Feedback nutzt Zephyr-7B die starke Grundlage von Mistral-7B, um einen neuen Maßstab für 7B-Parameter-Chat-Modelle zu setzen und die Fähigkeit kleinerer Open-Source-Modelle zu demonstrieren, Benutzer zu verstehen und auf sie zu reagieren Absicht effektiv.

Allerdings ist diese Studie nicht ohne Einschränkungen. Der Rückgriff auf GPT-4 als Evaluator für Benchmarks führt zu einer Tendenz zu Modellen, die daraus destilliert werden, wodurch möglicherweise genauere Antworten bevorzugt werden. Darüber hinaus bleiben die Skalierbarkeit dieser Methode auf größere Modelle wie LLAMA2-70B und ihre Auswirkungen auf Leistungssteigerungen Bereiche für weitere Forschung. Diese Einschränkungen verdeutlichen die Notwendigkeit kontinuierlicher Innovation und der Entwicklung unvoreingenommener Bewertungsmethoden in der KI-Community.

Ein Blick über die Studie hinaus zeigt, dass das Potenzial kleinerer Modelle, auf dem Niveau größerer Gegenstücke zu funktionieren, die KI demokratisieren und einen leichter zugänglichen und effizienteren Einsatz in verschiedenen Anwendungen ermöglichen kann. Der Erfolg von Zephyr-7B regt zur weiteren Erforschung von Open-Source-Modellen an, die Fortschritte in der KI durch die Förderung gemeinsamer Forschung und Entwicklung beschleunigen können.

Ich habe die letzten fünf Jahre damit verbracht, in die faszinierende Welt des maschinellen Lernens und des Deep Learning einzutauchen. Meine Leidenschaft und mein Fachwissen haben dazu geführt, dass ich an über 50 verschiedenen Software-Engineering-Projekten mitgewirkt habe, mit besonderem Schwerpunkt auf KI/ML. Meine anhaltende Neugier hat mich auch zur Verarbeitung natürlicher Sprache geführt, einem Bereich, den ich gerne weiter erforschen möchte.