Connect with us

Zephyr-7B : HuggingFaceのハイパーオプティマイズされたLLM、Mistral 7Bをベースに構築

人工知能

Zephyr-7B : HuggingFaceのハイパーオプティマイズされたLLM、Mistral 7Bをベースに構築

mm
Zypher 7B

はじめに

オープンな大規模言語モデル(LLM)の進化は、AI研究コミュニティに大きな影響を与え、特にチャットボットや同様のアプリケーションの開発において重要な役割を果たしています。LLaMAのようなモデルがリリースされた後、効率的なファインチューニング、拡張プロンプトハンドリング、リトリーバーオーギュメンテーション生成(RAG)、量子化に関する研究が増加しています。
LLaMAモデルは、ファインチューニングとプロンプトコンテキスト化の新しい時代を切り開き、MosaicMLのMPT、Together AIのRedPajama-INCITE、TIIのFalcon、MetaのLlama 2などの後のモデルへの道を開きました。各モデルは独自の機能を提供し、LLMの全体的な機能と範囲を強化しています。
Mistral AIは、パリに本拠を置くスタートアップで、元Google DeepMindとMetaの従業員によって設立され、最初の製品Mistral 7Bで注目されています。
Mistral 7Bの特徴は、効率性にあり、同等または優れた機能を提供しながら、計算要求を削減しています。
特に、指示タスクに特化したMistral 7B Instructは、Hugging Faceなどのプラットフォームで同サイズの他のモデルを上回り、約2倍のパラメータを持つモデルと競合しています。
これを基に、Hugging FaceはZephyr 7B Alphaを導入し、ファインチューンされたMistral 7Bが実際に大幅に大きいチャットモデルの能力を超え、特定のタスクではGPT-4と競合することを実証しました。「Alpha」は始まりでした。次にZephyr 7Bベータが続きました。
この記事では、Zephyr 7Bが大規模モデルの力を利用して人間の指示に応じて応答し、整列する能力を磨く方法を探ります。これは、知識の蒸留という手法を通じて実現可能です。この方法では、大規模モデルの複雑なパターンを学習させた小規模モデルをトレーニングし、言語モデリングの能力を犠牲にすることなくトレーニングの要求を削減します。Hugging Faceの知識の蒸留アプローチの詳細に迫ります。

知識の蒸留

Zephyr-7Bのようなモデルの開発における重要な革新は、蒸留された教師ありファインチューニング(dSFT)です。この方法では、大規模でより優れた「教師」モデルからの出力を使用して、小規模な「生徒」モデルをトレーニングし、精度を高めます。蒸留は、さまざまなタスクでオープンモデルのパフォーマンスを向上させますが、教師モデルとのパフォーマンスのギャップは依然として存在します。
知識の蒸留は、機械学習における手法で、コンパクトなモデル(「生徒」)を、大規模でより複雑な「教師」モデルのパフォーマンスを再現するように教えます。この手法により、生徒モデルは、教師が学習した複雑なパターンを移転することで、以前は不可能だったタスクを実行できるようになります。

知識の蒸留、教師-生徒モデル

知識の蒸留 | 教師-生徒モデル


私は過去5年間、機械学習とディープラーニングの魅力的世界に没頭してきました。私の情熱と専門知識は、AI/MLに特に焦点を当てた50以上の多様なソフトウェアエンジニアリングプロジェクトに貢献することにつながりました。私の継続的な好奇心は、私がさらに探究したい分野である自然言語処理にも私を引き寄せました。