Artificial Intelligence

効率的な大規模言語モデルのための専門家の混合の台頭

更新中 on 2024 年 3 月 21 日

自然言語処理 (NLP) の世界では、より大規模でより高性能な言語モデルの構築の追求が、最近の多くの進歩の原動力となっています。ただし、これらのモデルのサイズが大きくなるにつれて、トレーニングと推論のための計算要件がますます厳しくなり、利用可能なハードウェアリソースの制限に迫られています。

Mixture-of-Experts (MoE) は、この計算負荷を軽減しながら、より大規模で強力な言語モデルのトレーニングを可能にする技術です。この技術ブログでは、MoE の世界を掘り下げ、その起源、内部動作、およびトランスフォーマーベースの言語モデルでの応用について探っていきます。

専門家の混合の起源

Mixture-of-Experts (MoE) の概念は、研究者が入力データに基づいてニューラルネットワークの一部が選択的にアクティブ化される条件付き計算のアイデアを研究した 1990 年代初頭に遡ります。この分野における先駆的な作品のひとつが「地元の専門家の適応的な混合」Jacobsらによる論文。 1991 年に、それぞれが入力空間の異なる領域に特化したニューラルネットワークのアンサンブルのための教師あり学習フレームワークを提案しました。

MoE の背後にある中心的なアイデアは、それぞれが入力データのサブセットの処理を担当する複数の「エキスパート」ネットワークを用意することです。ゲートメカニズム (通常はニューラルネットワーク自体) は、どのエキスパートが特定の入力を処理するかを決定します。このアプローチでは、すべての入力に対してモデルの全能力を使用するのではなく、各入力に対して関連するエキスパートのみをアクティブにすることで、モデルが計算リソースをより効率的に割り当てることができます。

長年にわたり、さまざまな研究者が条件付き計算のアイデアを探索および拡張し、階層型 MoE、条件付き計算のための低ランク近似、確率的ニューロンやハードしきい値活性化関数による勾配推定技術などの開発につながりました。

トランスフォーマーにおける専門家の混合

専門家の混合

アイデアの萌えは何十年も前から存在していますが、トランスフォーマーベースの言語モデルに適用されたのは比較的最近です。最先端の言語モデルの事実上の標準となっているトランスフォーマーは複数のレイヤーで構成されており、各レイヤーにはセルフアテンションメカニズムとフィードフォワードニューラルネットワーク (FFN) が含まれています。

MoE を変圧器に適用する際の重要な革新は、密な FFN 層を疎な MoE 層に置き換えることです。各層は複数のエキスパート FFN とゲートメカニズムで構成されます。ゲートメカニズムは、どのエキスパートが各入力トークンを処理するかを決定し、モデルが特定の入力シーケンスに対してエキスパートのサブセットのみを選択的にアクティブ化できるようにします。

変圧器における MoE の可能性を実証した初期の研究の 2017 つは、Shazeer らによる論文「法外に大規模なニューラルネットワーク: まばらにゲートされた専門家の混合層」です。この研究では、まばらにゲートされた MoE レイヤーの概念が導入されました。これは、エキスパートの選択プロセスにまばらさとノイズを追加するゲートメカニズムを採用し、各入力に対してエキスパートのサブセットのみが確実にアクティブになるようにしました。

それ以来、他のいくつかの研究により、変圧器への MoE の適用がさらに前進し、トレーニングの不安定性、負荷分散、効率的な推論などの課題に対処しました。注目すべき例としては、スイッチトランスフォーマー (Fedus 他、2021)、 ST-MoE (Zoph et al.、2022)、およびグラム (Du et al.、2022)。

言語モデルにおける専門家の混合の利点

言語モデルで MoE を採用する主な利点は、推論中の計算コストを比較的一定に維持しながらモデルのサイズをスケールアップできることです。各入力トークンに対してエキスパートのサブセットのみを選択的にアクティブにすることにより、MoE モデルは、必要な計算量を大幅に削減しながら、はるかに大規模な高密度モデルの表現力を実現できます。

たとえば、7 億パラメータの高密度 FFN 層を持つ言語モデルを考えてみましょう。このレイヤーを、それぞれ 7 億個のパラメーターを持つ 56 人の専門家で構成される MoE レイヤーに置き換えると、パラメーターの総数は 14 億個に増加します。ただし、推論中にトークンごとに 7 人のエキスパートのみをアクティブ化した場合、XNUMX 億パラメーターの行列乗算を XNUMX 回計算するため、計算コストは XNUMX 億パラメーターの密なモデルに相当します。

推論中のこの計算効率は、モバイルデバイスやエッジコンピューティング環境など、リソースが限られている展開シナリオで特に価値があります。さらに、トレーニング中の計算要件の削減により、大幅なエネルギー節約と二酸化炭素排出量の削減につながる可能性があり、これは持続可能な AI 実践への重点の高まりと一致しています。

課題と考慮事項

MoE モデルには魅力的な利点がありますが、その導入と展開にはいくつかの課題と考慮事項も伴います。

トレーニングの不安定性: MoE モデルは、密度の高いモデルと比較して、トレーニングが不安定になりやすいことが知られています。この問題は、エキスパートアクティベーションのまばらで条件付きの性質から発生し、勾配の伝播と収束に課題が生じる可能性があります。これらの不安定性を軽減するためにルーターの z-loss (Zoph et al., 2022) などの技術が提案されていますが、さらなる研究がまだ必要です。
微調整とオーバーフィッティング: MoE モデルは、特に下流タスクのデータセットが比較的小さい場合、微調整中にオーバーフィットしやすくなる傾向があります。この動作は、MoE モデルの容量とスパース性の増加に起因しており、トレーニングデータの過度の専門化につながる可能性があります。この問題を軽減するには、慎重な正則化と微調整戦略が必要です。
メモリ要件: MoE モデルは推論中の計算コストを削減できますが、多くの場合、同様のサイズの高密度モデルと比較してメモリ要件が高くなります。これは、各入力に対してサブセットのみがアクティブ化される場合でも、すべてのエキスパートの重みをメモリにロードする必要があるためです。メモリの制約により、リソースに制約のあるデバイス上の MoE モデルのスケーラビリティが制限される可能性があります。
ロードバランシング: 最適な計算効率を達成するには、エキスパート間で負荷のバランスをとり、1 人のエキスパートが過負荷になり、他のエキスパートが十分に活用されないままにならないようにすることが重要です。この負荷分散は通常、トレーニング中の補助損失と、各エキスパートに割り当てることができるトークンの最大数を決定する容量係数の慎重な調整によって実現されます。
通信オーバーヘッド: 分散トレーニングおよび推論シナリオでは、異なるデバイスまたはアクセラレータ上に存在する専門家間でアクティベーションおよび勾配情報を交換する必要があるため、MoE モデルにより追加の通信オーバーヘッドが発生する可能性があります。このオーバーヘッドを軽減するには、効率的な通信戦略とハードウェアを意識したモデル設計が不可欠です。

これらの課題にもかかわらず、より大規模でより機能的な言語モデルを可能にするという MoE モデルの潜在的な利点により、これらの問題に対処し、軽減するための重要な研究努力が促進されています。

例: Mixtral 8x7B および GLaM

言語モデルにおける MoE の実際の応用を説明するために、Mixtral 8x7B と GLaM という XNUMX つの注目すべき例を考えてみましょう。

Mixtral 8x7B は、MoE の亜種です。ミストラル言語モデル、Anthropicによって開発されました。これは 7 人の専門家で構成されており、各専門家は 56 億のパラメーターを持ち、合計 14 億のパラメーターになります。ただし、推論中はトークンごとに XNUMX 人のエキスパートのみがアクティブになるため、計算コストが XNUMX 億パラメータの高密度モデルの計算コストに効果的に削減されます。

Mixtral 8x7B は、70 億パラメータの Llama モデルを上回る優れたパフォーマンスを実証し、推論時間を大幅に短縮しました。 Mixtral-8x7B-Instruct-v8 と呼ばれる Mixtral 7x0.1B の命令調整バージョンもリリースされ、自然言語命令に従う機能がさらに強化されました。

もう 1.6 つの注目すべき例は、Google によって開発された大規模 MoE モデルである GLaM (Google Language Model) です。 GLaM はデコーダのみのトランスフォーマーアーキテクチャを採用しており、3 兆 3 億もの大規模なトークンデータセットでトレーニングされました。このモデルは、GPT-XNUMX のトレーニングに必要なエネルギーの XNUMX 分の XNUMX のみを使用しながら、GPT-XNUMX の品質に匹敵する数ショット評価およびワンショット評価で優れたパフォーマンスを達成します。

GLaM の成功は、合理的な計算要件を維持しながら膨大な数のパラメーターを使用したモデルのトレーニングを可能にした効率的な MoE アーキテクチャに起因すると考えられます。このモデルはまた、MoE モデルが高密度のモデルと比較してエネルギー効率が高く、環境的に持続可能なものである可能性があることも実証しました。

Grok-1 アーキテクチャ

GROK の専門家の組み合わせ

Grok-1 は、効率とパフォーマンスを最大化するように設計された独自のアーキテクチャを備えた変圧器ベースの MoE モデルです。主要な仕様を詳しく見てみましょう。

計測パラメータ: Grok-314 は、1 億という驚異的なパラメータを備え、これまでで最大のオープン LLM です。ただし、MoE アーキテクチャのおかげで、常にウェイトの 25% (約 86 億個のパラメータ) のみがアクティブになり、処理能力が向上します。
アーキテクチャ: Grok-1 は、8 人の専門家の混合アーキテクチャを採用しており、推論中に各トークンが XNUMX 人の専門家によって処理されます。
層: モデルは 64 のトランス層で構成され、各層にはマルチヘッドアテンションと高密度ブロックが組み込まれています。
トークン化: Grok-1 は、語彙サイズ 131,072 トークンの SentencePiece トークナイザーを利用します。
埋め込みと位置エンコーディング: このモデルは 6,144 次元のエンベディングを特徴とし、回転位置エンベディングを採用しているため、従来の固定位置エンコーディングと比較して、より動的なデータの解釈が可能になります。
注目: Grok-1 は、クエリに 48 個のアテンションヘッド、キーと値に 8 個のアテンションヘッドを使用し、それぞれのサイズは 128 です。
コンテキストの長さ: このモデルは、bfloat8,192 精度を利用して効率的な計算を行い、最大 16 トークンの長さのシーケンスを処理できます。

パフォーマンスと実装の詳細

Grok-1 は、MMLU スコア 2% で LLaMa 70 8B および Mixtral 7x73B を上回る優れたパフォーマンスを実証し、さまざまなテスト全体でその効率と精度を実証しました。

ただし、Grok-1 はそのサイズが大きいため、大量の GPU リソースを必要とすることに注意することが重要です。オープンソースリリースの現在の実装は、モデルの正確性の検証に焦点を当てており、カスタムカーネルの必要性を回避するために非効率な MoE レイヤー実装を採用しています。

それにもかかわらず、このモデルはアクティベーションシャーディングと 8 ビット量子化をサポートしており、パフォーマンスを最適化し、メモリ要件を削減できます。

驚くべき動きで、 xAI が Grok-1 をリリース Apache 2.0 ライセンスの下で、その重みとアーキテクチャをグローバルコミュニティが使用および貢献できるようにしています。

オープンソースリリースには、Grok-1 モデルをロードして実行する方法を示す JAX サンプルコードリポジトリが含まれています。ユーザーは、トレントクライアントを使用するか、HuggingFace Hub を通じて直接チェックポイントの重みをダウンロードできるため、この画期的なモデルに簡単にアクセスできます。

言語モデルにおける専門家の混合の将来

より大規模でより高機能な言語モデルに対する需要が高まり続けるにつれて、MoE 技術の採用はさらに勢いを増すことが予想されます。現在進行中の研究努力は、トレーニングの安定性の向上、微調整中のオーバーフィッティングの軽減、メモリと通信要件の最適化など、残りの課題に対処することに焦点を当てています。

有望な方向性の 1 つは、各専門家自体が複数のサブ専門家で構成される階層型 MoE アーキテクチャの探求です。このアプローチにより、大規模モデルの表現力を維持しながら、さらに優れたスケーラビリティと計算効率が可能になる可能性があります。

さらに、MoE モデルに最適化されたハードウェアおよびソフトウェアシステムの開発も活発な研究分野です。 MoE モデルのスパースな条件付き計算パターンを効率的に処理するように設計された特殊なアクセラレータと分散トレーニングフレームワークにより、パフォーマンスとスケーラビリティがさらに向上する可能性があります。

さらに、MoE 技術と、スパースアテンションメカニズム、効率的なトークン化戦略、マルチモーダル表現などの言語モデリングの他の進歩との統合により、幅広いタスクに取り組むことができるさらに強力で汎用性の高い言語モデルが実現する可能性があります。

まとめ

専門家混合手法は、より大規模でより有能な言語モデルを追求する強力なツールとして登場しました。 MoE モデルは、入力データに基づいてエキスパートを選択的にアクティブにすることにより、高密度モデルのスケールアップに伴う計算上の課題に対する有望なソリューションを提供します。トレーニングの不安定性、過剰適合、メモリ要件など、克服すべき課題はまだありますが、計算効率、スケーラビリティ、環境の持続可能性の点で MoE モデルの潜在的な利点により、MoE モデルは研究開発の興味深い分野となっています。

自然言語処理の分野が可能性の限界を押し広げ続ける中、MoE 技術の採用は、次世代の言語モデルを可能にする上で重要な役割を果たすと考えられます。 MoE をモデルアーキテクチャ、トレーニング技術、ハードウェアの最適化における他の進歩と組み合わせることで、自然かつシームレスな方法で人間を真に理解し、コミュニケーションできる、さらに強力で汎用性の高い言語モデルが期待できます。

次に

PostgreSQL データベース用の AI GPT: 機能しますか?

お見逃しなく

NVIDIA の新しい Blackwell AI スーパーチップとアーキテクチャについて知っておくべきこと

アーユシュ・ミタル

私は過去 50 年間、機械学習と深層学習の魅力的な世界に没頭してきました。私の情熱と専門知識により、特に AI/ML に重点を置いた XNUMX を超える多様なソフトウェアエンジニアリングプロジェクトに貢献してきました。私の継続的な好奇心は、私がさらに探求したいと思っている分野である自然言語処理にも引き寄せられました。