Artificial Intelligence

Zephyr-7B : ミストラル 7B 上に構築された HuggingFace の超最適化 LLM

更新中 on 2023 年 11 月 23 日

概要

オープン大規模言語モデル (LLM) の進化は、AI 研究コミュニティ、特にチャットボットや同様のアプリケーションの開発に大きな影響を与えました。 LLaMA のようなモデルのリリースに続いて、効率的な微調整、拡張プロンプト処理、検索拡張生成 (RAG)、および量子化に関する研究が急増しています。

たとえば、LLaMA モデルは、微調整と迅速なコンテキスト化において新時代を切り開き、MosaicML の MPT、Togetter AI の RedPajama-INCITE、TII の Falcon、Meta の Llama 2 などの後続のモデルへの道を切り開きました。これらの各モデルは、独自の機能に貢献しています。、LLM の全体的な機能と範囲が強化されます。

Mistral AI はパリ発のスタートアップで、Google DeepMind と Meta の元従業員によって設立され、最初の製品である Mistral 7B で名を馳せました。

Mistral 7B の利点はその効率性にあり、Llama 2 などの同等の機能と比較して、より少ない計算量で同等または強化された機能を提供します。

教育用に特別に調整された Mistral 7B Instruct は、Hugging Face などのプラットフォームで威力を発揮し、同じサイズの他のモデルを上回り、ほぼ XNUMX 倍のパラメータを持つモデルと緊密に競合します。

これに基づいて、Hugging Face が導入されました。ゼファー7Bアルファ、微調整された Mistral 7B が実際に大幅に大規模なチャットモデルの能力を上回り、一部のタスクでは GPT-4 に匹敵することさえあることを示しています。「アルファ」は始まりにすぎませんでした。ゼファー7B ベータもすぐに続きました。

この記事では、Zephyr 7B がより大きなモデルの力をどのように活用して、人間の指示に応答して調整する能力を洗練させるかについて説明します。このプロセスは、知識蒸留の手法によって可能になります。この方法には、大規模なモデルによって学習された複雑なパターンに基づいて小規模なモデルをトレーニングすることが含まれており、言語モデリング機能を犠牲にすることなくトレーニングの要求を軽減します。 Hugging Face の知識蒸留アプローチの詳細を詳しく掘り下げていきます。

知識蒸留

次のようなモデルの開発における重要な革新ゼファー7B 蒸留教師あり微調整 (dSFT) です。この方法では、より大規模でより有能な「教師」モデルからの出力を使用して、より小規模な「生徒」モデルをトレーニングし、その精度を高めます。蒸留によりさまざまなタスクでオープンモデルが向上しますが、教師モデルと比較したパフォーマンスの差は依然として存在します。

知識の蒸留は、「」と呼ばれるコンパクトなモデルを作成する機械学習の方法です。学生」は、より大きく、より複雑な「」のパフォーマンスを再現するように教えられます。教師" モデル。この技術により、生徒は、教師が学習した複雑なパターンを転写することで、以前は能力を超えていたタスクを実行できるようになります。

知識の蒸留 | 教師と生徒のモデル

学生モデルは、教師モデルによって生成された出力の確率または特徴に基づいてトレーニングし、最終的な予測だけではなく、これらの出力の一致に重点を置きます。これにより、生徒は教師の微妙な意思決定プロセスを学ぶことができ、多くの場合、グラウンドトゥルースデータのみを使用したトレーニングよりもパフォーマンスが向上します。

歴史的に、知識の蒸留は、ヒントンのオリジナルの蒸留ネットワークなどのモデルで利用されてきましたが、最近では、BERT モデルを元の言語理解機能のほとんどを維持した、より小型で高速なバージョンに蒸留した DistilBERT などのモデルを使用した NLP で利用されてきました。もう XNUMX つの例は、モバイルまたはエッジデバイスのサイズと速度の最適化をさらに進めた TinyBERT です。

Zephyr-7B の場合、知識の蒸留を使用して、より小さな 7B パラメータモデルに、より大きな対応物の機能を吹き込みます。これにより、Zephyr-7B はパフォーマンスと効率のバランスを実現し、インタラクションと理解の質を犠牲にすることなく、計算リソースが限られた環境に適したものになります。

Zephyr-7B の開発において、研究者たちは蒸留によって小さなオープン LLM を完全に調整するという課題に取り組みました。彼らは、教師モデルのアンサンブルからの AI フィードバックを嗜好データとして使用する、蒸留直接嗜好最適化 (dDPO) と呼ばれるアプローチを導入しました。この方法は人間による注釈を必要としないため、モデルのトレーニングに必要な時間とリソースが大幅に削減されます。

ZEPHYR-7Bの構築

dDPO を検証するために、研究者は、dDPO の整合バージョンである ZEPHYR-7B を構築しました。ミストラル-7Bモデル。このプロセスには次の XNUMX つのステップが含まれます。

UltraChat データセットを使用した dSFT:Distilled Supervised Fine-Tuning (dSFT) は、より大規模でより有能な「教師」モデルの出力を活用して、大規模言語モデル (LLM) をトレーニングする高度な方法です。これは、ユーザーのプロンプトに応答するようにトレーニングされた生の LLM から始まります。固定データセットを使用する従来の教師あり微調整 (SFT) とは異なり、dSFT はモデル自体が命令と応答を生成する動的アプローチを採用します。自己指導として知られるこの方法には、教師モデルを使用して回答し、回答に基づいて指示を絞り込むことが含まれます。このプロセスは、さまざまなトピックを表す一連のシードプロンプト (x₀₁、x₀₂、…、x₀_J) から始まります。各プロンプトは繰り返し改良されます。指定されたプロンプト x₀ に対して、教師モデルによって応答 y₀ が生成され、x₀ と y₀ に基づいて新しい命令 x₁ がサンプリングされます。最終的なデータセット C = {(x₁, y₁), …, (x_J, y_J)} は、モデルの微調整に使用されます。
UltraFeedback からの AI フィードバックデータの組み込み:このデータは、モデルの応答を調整するために非常に重要でした。このステップでは、モデルはさまざまなプロンプト (チョコレートブラウニーの作り方の説明など) に対する応答を生成し、GPT-4 などのより高度なモデルによってランク付けされます。最も高いスコアの応答 (yw) とランダムに選択されたより低いスコアの応答 (yl) がフィードバックデータセット D を形成します。
dDPO の適用:最後のフェーズである Distilled Direct Preference Optimization (dDPO) では、優先応答を上位にランク付けする確率を最大化することによって dSFT モデルを改良します。これは、最適な LLM ポリシー π* と元のポリシー πdSFT に基づく優先モデルで報酬関数 rθ(x, y) を使用することによって実現されます。最適化目標は次のように定式化されます。 πθ = max π E (x, yw, yl) ∼ D log σ (β log π(yw|x)/πdSFT(yw|x) − β log π(yl|x)/πdSFT( yl|x)) は、モデルの dSFT バージョンから開始し、各 AIF トリプルを反復処理することでトレーニングプロセスを簡素化します。

Zephyr-7B で使用されるメソッドは、InstructGPT で使用されるプロセスを反映しています。

注目すべきことに、Zephyr-7B は、人間のフィードバックに合わせたはるかに大きな 70B パラメータモデルに匹敵するパフォーマンスを実現します。学術的なベンチマークと会話機能の両方で優れており、モデル開発における好み学習の有効性が強調されています。さらに詳しく調べるには、モデル、コード、および手順を次の場所で入手できます。 Hugging Face の GitHub リポジトリ.

意図の調整という課題に対処する

LLM に関する注目すべき懸念は、LLM が人間の意図と一致していることです。以前のモデルでは、ユーザーの好みに一致する応答を生成できないことが多く、不正確または無関係な応答が得られました。ただし、MT-Bench や AlpacaEval などの最近のベンチマークは、この側面を定量化して改善するためのツールを提供し、蒸留のみでトレーニングされたモデルよりも人間のフィードバックでトレーニングされた独自のモデルのパフォーマンスが優れていることを強調しています。

評価方法

Zephyr 7B の評価には、シングルターンとマルチターンの両方のコンテキストでモデルの会話能力を評価するベンチマークにわたる厳格なテストが含まれていました。

MTベンチ: このマルチターンベンチマークでは、160 つのドメインにわたる 4 の質問に対処するモデルが必要です。各回答は GPT-XNUMX によって評価され、モデルの最終スコアは XNUMX ラウンドの質問の平均を反映しています。
アルパカエヴァル: この 805 ターンベンチマークでは、モデルにはさまざまな主題にわたる 4 の質問が提示されます。ここでの焦点はモデルの有用性にあり、GPT-XNUMX が応答をスコアリングして比較勝率を決定します。

さらに、Zephyr 7B は Open LLM Leaderboard でテストされており、会話スキルの直接的な評価ではありませんが、微調整後のモデルの推論と真実性についての洞察が得られます。

Zephyr 7B は、サイズや位置合わせ方法が異なるさまざまなオープンモデルや独自モデルと比較されました。 MT-Bench と AlpacaEval で 7B モデルの新しいベンチマークを確立し、より大規模なモデルに対して競争力のあるパフォーマンスを示し、トレーニングにおける直接優先最適化 (dDPO) の有効性を検証しました。

SFT と DPO のトレーニングフェーズは、複数のエポックにまたがり、最適なパフォーマンスを実現するために学習率とバッチサイズを微調整して、細心の注意を払って構成されました。最終的な Zephyr モデルは、過学習に対する耐性だけでなく、実践的なタスクや学術的なベンチマークへの対応も強化されました。

データセットと結果

利用されたデータセット

Zephyr-7B の開発では、モデルのトレーニングと改良に XNUMX つの主要なデータセットが使用され、それぞれ対話生成のさまざまな側面に対応しました。

UltraChat データセット

ソース: GPT-3.5-TURBO によって生成されたダイアログから開発されました。
内容: 1.47 のトピックと 30 種類のテキスト資料にわたる 20 万のマルチターンダイアログが含まれています。
洗練: データセットは文法上の問題を修正するためにトゥルーケーシングヒューリスティックを受け、応答の有用性を高め、役に立たない前置きのフレーズを削除するためにフィルターが適用されました。

ウルトラフィードバックデータセット

ソース: GPT-4 によって評価されたプロンプトで構成され、指示への従うこと、誠実さ、有用性に基づいて応答を評価します。
内容: GPT-64,000 によって評価された、それぞれ 4 つの応答を含む XNUMX のプロンプトが含まれます。
バイナリ設定: 多様性を強化し、直接優先最適化 (DPO) プロセスに挑戦するために、平均スコアが最も高い応答を「選択」として選択し、残りからランダムな応答を「拒否」として選択することによって生成されます。

どちらのデータセットも、Zephyr-7B が指示に従い、誠実で役立つ人間のような対話を理解し、生成できるようにトレーニングするために不可欠です。これらのデータセットは、Hugging Face Hub で利用できるようになり、アクセスできます。こちら.

パフォーマンスと結果

以下のグラフは、GPT-7-turbo、Claude 3.5、GPT-1、Llama-4-2b-chat などの他のモデルに対する、さまざまなタスクカテゴリにわたる Zephyr 70B のパフォーマンスを示しています。カテゴリには、ライティング、人文科学、ロールプレイ、推論、STEM、抽出、コーディング、数学などが含まれます。

このチャートから、Zephyr 7B がどの領域に優れているか、どの領域にさらなる改善が必要かを推測できます。たとえば、Zephyr の線が他の線と比較して書き込み軸でさらに外側に伸びている場合、Zephyr は書かれたコンテンツの生成に特に優れていることを示唆しています。逆に、線が数学軸の中心に近い場合は、数学の問題を解くのが相対的に苦手であることを示している可能性があります。

レーダーチャートは、Zephyr 7B の長所と短所を特定するのに役立ち、GPT-4 などの大型モデルや Llama-2-70b-chat などの特殊なモデルと比較して、Zephyr XNUMXB がどのような立場にあるのかを視覚的に表現します。

モデルパフォーマンスレーダーチャート

MT-Bench と AlpacaEval の XNUMX つのベンチマークでさまざまな言語モデルを比較します。モデルは、サイズ、調整方法 (抽出された教師あり微調整の dSFT、抽出された直接優先最適化の dDPO など)、およびパフォーマンススコアに基づいて評価されます。 Zephyr は両方のベンチマークで高いスコアを示しており、整合性のある応答を生成する際の有効性を示しています。

MT-Bench と AlpacaEval

まとめ

結論として、Zephyr-7B の開発は、大規模な言語モデル (LLM) から小規模なモデルへの会話機能の調整と抽出が、サンプリングベースの手法に依存せずに達成できることを示しています。 AI フィードバックによる直接設定最適化 (DPO) を採用することで、Zephyr-7B は、Mistral-7B の強力な基盤を活用して 7B パラメータチャットモデルの新しいベンチマークを設定し、より小規模なオープンソースモデルがユーザーを理解し、応答する能力を実証します。効果的に意図します。

ただし、この研究には限界がないわけではありません。ベンチマークの評価ツールとして GPT-4 に依存すると、GPT-2 から抽出されたモデルに対するバイアスが生じ、正確な応答よりも優先される可能性があります。さらに、LLAMA70-XNUMXB などのより大きなモデルに対するこの方法の拡張性と、パフォーマンス向上への影響については、今後の研究の余地があります。これらの制限は、AI コミュニティにおける継続的なイノベーションと公平な評価方法の開発の必要性を浮き彫りにしています。

この研究の先を見てみると、小規模なモデルが大規模なモデルと同等のパフォーマンスを発揮できる可能性により、AI が民主化され、さまざまなアプリケーションでよりアクセスしやすく効率的な使用が可能になることは明らかです。 Zephyr-7B の成功は、オープンソースモデルのさらなる探求を促進し、共同研究開発を促進することで AI の進歩を加速することができます。

関連トピック：GPT LLM ミストラル 7B ゼファーゼファー7B

次に

物理的制約が脳のような AI の進化を促す

お見逃しなく

コールセンターが AI を活用してエージェントと顧客の時間を解放する 7 つの方法

アーユシュ・ミタル

私は過去 50 年間、機械学習と深層学習の魅力的な世界に没頭してきました。私の情熱と専門知識により、特に AI/ML に重点を置いた XNUMX を超える多様なソフトウェアエンジニアリングプロジェクトに貢献してきました。私の継続的な好奇心は、私がさらに探求したいと思っている分野である自然言語処理にも引き寄せられました。