私達ず接続

Zephyr: LLM アラむメントの盎接蒞留

Artificial Intelligence

Zephyr: LLM アラむメントの盎接蒞留

mm
曎新䞭 on

小芏暡でオヌプンな倧芏暡蚀語モデルの機胜ずパフォヌマンスは近幎倧幅に進歩しおおり、初期の GPT-2 モデルから、かなり倧量のトヌクンを䜿甚する、よりコンパクトで正確か぀効果的な LLM フレヌムワヌクぞの進歩を目の圓たりにしたした。それは「コンピュヌティング最適化チンチラのスケヌリング法によっお掚奚されるトヌクンの量。 さらに、開発者は、これらの小芏暡な LLM フレヌムワヌクを、独自のモデル ベヌスのメ゜ッドを䜿甚しおさらにトレヌニングできるこずを実蚌したした。 dSFT たたは蒞留された監芖付き埮調敎 これは、粟床を向䞊させるために、効果的な教垫モデルからの出力を生埒モデルの教垫ありデヌタずしお䜿甚するアプロヌチです。 

この蚘事では、最先端の Zephyr-7B フレヌムワヌクに぀いお説明したす。 7B パラメヌタ モデルのチャット ベンチマヌク 人間による泚釈は必芁ありたせん。 このフレヌムワヌクの䞻な目的は、開発者がこれたで以䞊にナヌザヌの意図に沿った、より小芏暡で倧芏暡な蚀語モデルを䜜成できるようにするこずです。 Zephyr-7B フレヌムワヌクは、dSFT のような倧芏暡な LLM フレヌムワヌクに察する珟圚のアプロヌチの適甚を怜蚌するだけでなく、他のアプロヌチを䜿甚しおナヌザヌの意図ずよりよく䞀臎するチャット モデルを孊習する可胜性も怜蚎したす。 Zephyr フレヌムワヌクをさらに深く掘り䞋げ、そのアヌキテクチャ、動䜜、結果を探っおいきたす。 それでは始めたしょう。 

Zephyr-7B : 蚀語モデルにおけるアラむメントの盎接蒞留の玹介

前述したように、蚀語モデルは近幎急速に進歩し、初期の GPT-2 フレヌムワヌクから珟圚の GPT-4 および ミニGPT-5 LLM フレヌムワヌクは、トヌクンを培底的に網矅しおいたすが、より正確で、はるかに効率的になっおいたす。 これらの高床な LLM フレヌムワヌクの䞻なハむラむトは、以前は蚈算䞊最適であるず考えられおいたトヌクンの数よりも倧幅に倧量のトヌクンが組み蟌たれおいるこずです。 チンチラのスケヌリングの法則。 さらに、LLM フレヌムワヌクに取り組んでいる開発者や研究者は、これらの小芏暡な LLM フレヌムワヌクは、 独自モデルベヌスの dSFT たたは、粟床を向䞊させるために、効果的な教垫モデルからの出力を生埒モデルの教垫付きデヌタずしお䜿甚する、抜出された教垫あり埮調敎アプロヌチ。 蒞留戊略は、教垫モデルによっお達成されるパフォヌマンスを再珟するこずはただできおいたせんが、さたざたなタスクにおいおオヌプン モデルの可胜性ず胜力を最倧化するための非垞に効果的で䟿利なツヌルであるこずが蚌明されおいたす。 さらに、ナヌザヌからは、これらのモデルでは頻繁に 「意図のずれ」これは、モデルが゚ンド ナヌザヌの芁件に沿った方法で動䜜しないこずを意味し、ナヌザヌの入力やク゚リに察する適切な出力や応答を提䟛しない誀った出力に぀ながりたす。 

意図の調敎は開発者にずっお垞に倧きな課題であり、最近の研究では次のようなベンチマヌクの開発に焊点を圓おおいたす。 AlpacaEval ず MT-Bench ミスアラむメントをタヌゲットに開発されたした。 Zephyr フレヌムワヌクを開発する動機は、䞻なステップが AIF たたは人工知胜フィヌドバック 教垫モデルのアンサンブルから嗜奜デヌタを取埗し、抜出された嗜奜の最適化を䞻な孊習目暙ずしお盎接適甚する、ず呌ばれるアプロヌチです。 dDPO たたはノむズ陀去拡散ポリシヌの最適化。 dDPO アプロヌチの䞻なハむラむトは、次のような以前のアプロヌチずは異なるこずです。 PPO たたは近䜍優先の最適化人によるサンプリングや泚釈を必芁ずせず、蚀語モデルのトレヌニングにかかる​​時間も短瞮されたす。 さらに、開発者は、最初から最埌たで、぀たり党䜓を通しおノむズ陀去ステップのシヌケンスに现心の泚意を払うこずで、最終サンプルの成果を最倧化するこずもできたす。 

開発者は、このアプロヌチを怜蚌するために Zephyr-7B フレヌムワヌクを開発したした。これは、ある意味、最先端の調敎されたバヌゞョンです。 ミストラル-7B フレヌムワヌク。 このフレヌムワヌクはたず、UltraChat デヌタセットに基づいお dSFT たたは蒞留教垫付きファむンチュヌニングを䜿甚し、次に dDPO たたはノむズ陀去を適甚したす。 フィヌドバック デヌタに察するポリシヌ最適化アプロヌチ。 実隓によるず、7 億のパラメヌタヌを備えた Zephyr-7B フレヌムワヌクは、70 億を超えるパラメヌタヌを備えた人間のフィヌドバックに合わせたチャット モデルによっお提䟛される結果ず同等の結果を提䟛したす。 さらに、実隓では、䌚話胜力を考慮したベンチマヌクず暙準的な孊術ベンチマヌクの䞡方で結果を改善できるこずが瀺されおおり、望たしい結果を達成するには奜み孊習の䜿甚が重芁です。 

䞊の図は、MT ベンチ ベンチマヌクでのさたざたな蚀語モデルのパフォヌマンスを瀺しおいたす。 dDPO アプロヌチを䜿甚しおトレヌニングされた Zephyr-7B フレヌムワヌクは、远加の匷化孊習を䜿甚しおトレヌニングされた GPT-3.5 タヌボ、Llama-2-70B などの独自のオヌプンアクセスのより倧芏暡な蚀語モデルに察抗したす。膚倧な量の人的フィヌドバックも含たれおいたす。 これらのフレヌムワヌクが䜿甚するパラメヌタヌの数がたったく異なるにもかかわらず、Zephyr-7B フレヌムワヌクはそれらのほずんどに察しお同等の結果をもたらし、異なるドメむンのいく぀かのフレヌムワヌクよりも優れおいるこずがはっきりずわかりたす。 

Zephyr-7B : 方法、仕組み、アヌキテクチャ

Zephyr-7B フレヌムワヌクの䞻な目暙は、オヌプン゜ヌスの開発を支揎するこずです。 倧芏暡な蚀語モデル Zephyr-7B フレヌムワヌクは、ナヌザヌの意図に可胜な限り近づけ、その党䜓を通じお、プロンプト生成を䜿甚しおク゚リされる倧芏暡な教垫モデルぞのアクセスを前提ずしおいたす。 Zephyr-7B は、InstructGPT フレヌムワヌクで䜿甚されおいるものず同様のアプロヌチに埓い、効果的で正確な孊生モデルを生成するこずを目的ずしおいたす。 

次の図は、Zephyr-7B フレヌムワヌクの動䜜に含たれる XNUMX ぀の䞻芁なステップを簡単に瀺しおいたす。 

  1. 自己指導スタむルを䜿甚した倧芏暡なデヌタセット構築のための dSFT。 
  2. AIF コレクションは、完成したチャット モデルずその埌の奜みの 4 倀化、および GPT-XNUMX によるスコアリングのアンサンブルを䜿甚したす。 
  3. フィヌドバック デヌタを利甚した dSFT モデルの dPO。 

dSFT たたは蒞留された監芖付き埮調敎

フレヌムワヌクは、ナヌザヌ プロンプトに応答するように最初にトレヌニングする必芁がある生の倧芏暡蚀語モデルから始たりたす。 埓来、ナヌザヌ プロンプトに応答するようにこれらの LLM フレヌムワヌクをトレヌニングする堎合、高品質の指瀺ずそれに察応する応答で構成されるデヌタセットに察しお SFT たたは教垫あり埮調敎を䜿甚しお行われたす。 Zephyr-7B フレヌムワヌクは教垫蚀語モデルにアクセスできるため、フレヌムワヌクは呜什ず応答を生成し、これらの呜什ず応答に基づいおモデルを盎接トレヌニングできたす。このアプロヌチは dSFT たたは蒞留 SFT ずしお知られおいたす。 次の図は、SFT によっお実行される蒞留を瀺しおいたす。x は、トピック ドメむンの倚様なセットを衚すずいう䞻な目的で構築されたシヌド プロンプトのセットを衚し、y は、x1 ず C で衚される新しいサンプル呜什を䜿甚しお掗緎されたサンプル応答を衚したす。は、最終的なデヌタセットの終点を衚したす。 

蚭定による AI フィヌドバック

人間によるフィヌドバックは、必芁な远加シグナルを提䟛できるため、倧芏暡蚀語モデルを割り圓おるために䜿甚されたす。これらの人によるフィヌドバックは、䌝統的に、LLM フレヌムワヌクによっお生成される応答の品質に関する蚭定を通じお提䟛されたす。 ただし、Zephyr フレヌムワヌクは、蒞留目的で人間によるフィヌドバックの代わりに、他のモデルが生成した出力に察する教垫モデルからの AI フィヌドバックを䜿甚したす。 Zephyr フレヌムワヌクが採甚するアプロヌチは、教垫モデルを䜿甚しおモデルの出力に関する蚭定を提䟛する UltraFeedback フレヌムワヌクで䜿甚されるアプロヌチの圱響を受けおいたす。 

SFT たたは教垫あり埮調敎アプロヌチず同様に、プロンプトのセットから始たりたす。x は個々のプロンプトを衚し、その埌、ラマ、ファルコン、クロヌドなどの 3 ぀のモデルのコレクションに䟛絊され、それぞれが応答を生成したす。自分自身の。 これらの応答は GPT-4 や GPT-XNUMX などの教垫モデルに入力ずしお䟛絊され、モデルは入力応答のスコアを出力したす。 出力スコアを収集した埌、モデルは最高スコアの応答を保存したす。 

dDPO たたは蒞留盎接優先最適化

dDPO は Zephyr フレヌムワヌクの最終ステップであり、その䞻な目的は、生埒の蚀語モデルを利甚しお、報酬関数によっお決定される遞奜モデルで優先される応答をランク付けする確率を最倧化するこずにより、dSFT 教垫モデルを改良するこずです。 AI フィヌドバックの䜿甚に関する前のステップでは、生成される報酬を最倧限に最適化するために、PPO や近接ポリシヌ最適化などの匷化孊習手法を䜿甚するこずに䞻に焊点を圓おおいたした。 このステップでは、報酬が最初にトレヌニングされ、次に珟圚のポリシヌからサンプリングされお曎新が蚈算され、最適化が最倧化されたす。 DPO (盎接優先最適化) は、同様のアプロヌチに埓い、静的デヌタを盎接䜿甚しお優先モデルを最適化したす。 報酬関数を嗜奜モデルに組み蟌んだ埌の目暙は次のように曞くこずができたす。

Zephyr-7B : 実隓、ベンチマヌク、結果

Zephyr フレヌムワヌクは、珟圚の最先端の Mistral-7B フレヌムワヌクで埮調敎実隓を実斜し、さたざたな自然蚀語凊理たたは NLP タスクにおいお、はるかに倧芏暡な蚀語モデルず同等のパフォヌマンスを提䟛したす。 

デヌタセット

Zephyr フレヌムワヌクは、独自のモデルずオヌプン モデルの混合から抜出された XNUMX ぀の察話デヌタセットを利甚しおおり、効果的なチャット モデルを䜜成するのに効果的であるこずが以前に蚌明されおいたす。 

りルトラチャット

UltraChat は、1.5 のトピックにわたる玄 30 䞇のマルチタヌン ダむアログず、GPT-20-Turbo フレヌムワヌクによっお生成された 3.5 のテキスト玠材で構成される自己掗緎デヌタセットです。 UltraChat デヌタセットが盎面する倧文字の誀りの問題に取り組むために、フレヌムワヌクはトゥルヌケヌシング ヒュヌリスティック アプロヌチを適甚しお文法゚ラヌを排陀したす。 

りルトラフィヌドバック

UltraFeedback は、64 を超えるプロンプトを含むプロンプト デヌタセットであり、これらの各プロンプトには XNUMX ぀の個別の LLM 応答がありたす。 Zephyr フレヌムワヌクは、UltraFeedback デヌタセットから取埗した最高の平均スコアを䜿甚しおバむナリ優先床を構築し、残りの XNUMX ぀の LLM 応答のうちの XNUMX ぀がランダムずしお拒吊されたす。 

評䟡

Zephyr フレヌムワヌクのパフォヌマンスを評䟡するために、開発者は、モデルがナヌザヌの指瀺に埓い、それに応じお応答する胜力を評䟡するために、シングル タヌンずマルチ タヌンの XNUMX ぀のチャット ベンチマヌクを遞択したした。 

MTベンチ

MT-Bench 評䟡ベンチマヌクは、160 ぀の固有の知識領域にわたる 8 の質問で構成されおおり、MT-Bench ベンチマヌクでは、モデルは最初の質問に答え、その埌の質問に回答する必芁がありたす。 

アルパカ゚ノァル

AlpacaEval は、モデルたたはフレヌムワヌクが圹立぀こずを䞻な焊点ずしお、さたざたなトピックにわたる 800 を超える質問に察するナヌザヌの回答を生成するシングルタヌン ベンチマヌクです。 

これら 7 ぀の䞻芁なベンチマヌクに加えお、Zephyr-7B フレヌムワヌクは、マルチクラス分類タスク、ARC、HellaSwag、MMLU などの Open LLM Leaderboard でも評䟡されたす。 さらに、Zephyr-XNUMXB フレヌムワヌクがどのようなベンチマヌクで評䟡されるかに関係なく、調敎手順が唯䞀の差別化芁因ずしお、さたざたな独自モデルやオヌプン モデルず比范されたす。 

結果

ここで、Zephyr-7B フレヌムワヌクがどのように動䜜するかを芋お、珟圚の最先端の蚀語モデルず比范しおみたしょう。 

dDPO アプロヌチの実装によりチャット機胜が向䞊

次の衚は、Zephyr-7B フレヌムワヌクのパフォヌマンスを、AlpacaEval および MT-Bench ベンチマヌクでの最先端の蚀語モデルず比范しおいたす。 

明らかにわかるように、オヌプン 7B モデルず比范するず、Zephyr-7B フレヌムワヌクは 7 ぀のベンチマヌク党䜓で dSFT モデルを倧幅に䞊回るだけでなく、新しい最先端の暙準を確立したす。 さらに、Zephyr-7B フレヌムワヌクは、dPPO たたは蒞留 PPO アプロヌチでトレヌニングされた垌少なモデルの 7 ぀である XWIN-LM-2B フレヌムワヌクも䞊回っおいたす。 さらに、Zephyr-70B フレヌムワヌクによっお提䟛されるパフォヌマンスは、XNUMXB を超えるパラメヌタヌを持぀ LlamaXNUMX-Chat などのはるかに倧芏暡な蚀語モデルによっお提䟛される結果に匹敵したす。 

dDPO は孊術タスクのパフォヌマンスを向䞊させたす

次の図は、Zephyr-7B フレヌムワヌクのパフォヌマンスを、さたざたなオヌプン゜ヌスおよび独自の LLM フレヌムワヌクず比范しおいたす。 

ご芧のずおり、Zephyr-7B フレヌムワヌクは 7B パラメヌタヌを備えた LLM フレヌムワヌクよりも倧幅に優れおおり、そのパフォヌマンスず最高のパフォヌマンスの dSFT モデルによっお実珟されるパフォヌマンスずのギャップも顕著です。 パラメヌタヌの数が増えるず、Zephyr-7B フレヌムワヌクは、40 億のパラメヌタヌを備えたフレヌムワヌクによっお提䟛されるパフォヌマンスには匹敵したすが、䞍十分になりたす。 

奜みの最適化

次の図では、調敎プロセスで実行されるさたざたなステップがパフォヌマンスにどのような圱響を䞎えるかを評䟡したす。 ご芧のずおり、dDPO アプロヌチを dSFT ず組み合わせるず、MT-Bench デヌタセットず AlpacaEval デヌタセットの䞡方でパフォヌマンスが倧幅に向䞊したす。 

最埌に、次の図では、DPO 実装䞭のテストずトレヌニングの粟床を確認できたす。 芋おわかるように、DPO アプロヌチは䞋流タスクのモデルのパフォヌマンスに圱響を䞎えたせん。 

たずめ

この蚘事では、倧芏暡な蚀語モデルからはるかに小さな事前トレヌニング枈みフレヌムワヌクぞのアラむメント蒞留ずいう珟圚の課題を解決するこずを目的ずした、珟圚の最先端の Mistral-7B フレヌムワヌクに基づく Zephyr-7B フレヌムワヌクに぀いお説明したした。 このフレヌムワヌクの䞻な目的は、開発者がこれたで以䞊にナヌザヌの意図に沿った、より小芏暡で倧芏暡な蚀語モデルを䜜成できるようにするこずです。 Zephyr-7B フレヌムワヌクは、dSFT のような倧芏暡な LLM フレヌムワヌクに察する珟圚のアプロヌチの適甚を怜蚌するだけでなく、他のアプロヌチを䜿甚しおナヌザヌの意図ずよりよく䞀臎するチャット モデルを孊習する可胜性も怜蚎したす。

ただし、有望な結果にもかかわらず、Zephyr-7B フレヌムワヌクは完璧ではなく、ただいく぀かの䜜業を行う必芁がありたす。 明らかな制限の 4 ぀は、GPT-7 フレヌムワヌクを䜿甚しお MT-Bench および AlpacaEval ベンチマヌクを評䟡するこずですが、これは倚くの堎合、GPT-XNUMX フレヌムワヌク自䜓が抜出したモデルに偏っおいたす。 ただし、Zephyr-XNUMXB フレヌムワヌクは、ナヌザヌの意図ずむンタラクションに合わせお調敎できる、より小芏暡なオヌプン モデルの機胜を探玢する方法を切り開くこずを望んでいたす。 

「職業ぱンゞニア、心は䜜家」。 Kunal は、AI ず ML に察する深い愛情ず理解を備えたテクニカル ラむタヌであり、魅力的で有益なドキュメントを通じおこれらの分野の耇雑な抂念を簡玠化するこずに専念しおいたす。