人工知能
Mistral AIの最新のMixture of Experts(MoE)8x7Bモデル

は、パリを拠点とするオープンソースモデルスタートアップで、従来の規範に挑戦し、シンプルな トレントリンク を介して、大規模言語モデル(LLM)、MoE 8x7B をリリースしました。これは、Google の Gemini リリースにおける伝統的なアプローチとは対照的であり、AI コミュニティ内で議論や興奮を引き起こしています。
Mistral AI のリリースアプローチは、常に非伝統的でした。通常の論文、ブログ、またはプレスリリースを伴わない、彼らの戦略は、AI コミュニティの注目を引き付けるのに効果的に機能しています。
最近、同社は、Andreessen Horowitz が主導する資金調達ラウンドに続き、 $2 億の評価額 を達成しました。この資金調達ラウンドは歴史的であり、欧州史上最大の $1.18 億のシードラウンドを記録しました。資金調達の成功を超えて、Mistral AI は、オープンソース AI での規制の削減を主張しながら、EU AI 法に関する議論に積極的に参加しています。
MoE 8x7B が注目を集める理由
「GPT-4 のスケールダウン版」と呼ばれる Mixtral 8x7B は、8 つのエキスパートを備えた Mixture of Experts (MoE) フレームワークを使用します。各エキスパートには 111B のパラメータがあり、55B の共有アテンションパラメータがあり、合計でモデルごとに 166B のパラメータがあります。この設計選択は重要です。各トークンの推論に 2 つのエキスパートのみを関与させることで、より効率的で集中した AI 処理へのシフトを強調しています。
Mixtral の主な特徴の 1 つは、32,000 トークンの広範なコンテキストを処理できる能力であり、複雑なタスクの処理に十分な範囲を提供します。モデルのマルチリンガル機能には、英語、フランス語、イタリア語、ドイツ語、スペイン語の強力なサポートが含まれており、世界中の開発者コミュニティに応えています。
Mixtral の事前トレーニングには、オープンウェブから取得されたデータが使用されており、エキスパートとルーターを同時にトレーニングするアプローチが採用されています。この方法により、モデルはパラメータ空間で広大であるだけでなく、露出している膨大なデータのニュアンスにも細かく調整されています。

Mixtral 8x7B は印象的なスコアを達成
Mixtral 8x7B は LLaMA 2 70B を上回り、特に MBPP タスクで 60.7% の成功率を達成し、対抗する GPT-3.5 とほぼ同等のスコアを達成しています。さらに、命令に従うモデル向けに調整された MT-Bench でも、Mixtral 8x7B は印象的なスコアを達成し、GPT-3.5 に近いスコアを達成しています。
Mixture of Experts (MoE) フレームワークの理解
Mixture of Experts (MoE) モデルは、Mistral AI の MoE 8x7B を含む最新の言語モデルに取り入れることで、最近注目を集めています。しかし、このアイデアは、数年前に遡る基礎概念に根ざしています。いくつかの重要な研究論文を通じて、このアイデアの起源を振り返りましょう。
MoE の概念
Mixture of Experts (MoE) は、ニューラルネットワークアーキテクチャにおけるパラダイムシフトを表します。従来のモデルがすべてのデータタイプを処理する単一のホモジニアスネットワークを使用するのとは異なり、MoE はより専門化されたモジュラーなアプローチを採用します。複数の「エキスパート」ネットワークで構成されており、各ネットワークは特定のデータタイプまたはタスクを処理するように設計されており、入力データを最も適切なエキスパートに動的に誘導する「ゲーティングネットワーク」によって監督されます。

再帰言語モデル内に埋め込まれた Mixture of Experts (MoE) レイヤー (ソース)
上の画像は、言語モデル内に埋め込まれた MoE レイヤーの高レベルビューを示しています。MoE レイヤーは、各エキスパートがデータの異なる側面を処理する可能性のある複数のフィードフォワードサブネットワークで構成されています。ゲーティングネットワーク(図に強調表示)は、入力ごとにこれらのエキスパートのどの組み合わせを使用するかを決定します。この条件付きアクティベーションにより、ネットワークは計算要求の増加なしに容量を大幅に増やすことができます。
MoE レイヤーの機能
実践では、ゲーティングネットワークは入力(図の G(x) で示される)を評価し、スパースなエキスパートのセットを選択して処理します。この選択は、ゲーティングネットワークの出力によって調節され、各エキスパートの「投票」または出力への貢献を効果的に決定します。たとえば、図に示すように、各入力トークンの出力を計算するために、2 つのエキスパートのみが選択される可能性があり、計算リソースを最も必要とする場所に集中させることでプロセスを効率化します。

MoE レイヤーを備えた Transformer エンコーダー (ソース)
上の図は、MoE レイヤーを備えた伝統的な Transformer エンコーダーと比較したものです。Transformer アーキテクチャは、言語関連タスクでその有効性が広く知られているため、従来は自己注意とフィードフォワード層のスタックで構成されていました。MoE レイヤーの導入により、フィードフォワード層のいくつかを置き換え、モデルが容量に関してより効果的にスケールできるようになります。
拡張モデルでは、MoE レイヤーは複数のデバイスに分割されており、モデル並列アプローチを示しています。これは、数十億から数千億のパラメータを持つモデルを効率的にトレーニングおよびデプロイするために不可欠です。GPU または TPU などのデバイスクラスターアーキテクチャを通じて、計算負荷とメモリ要件を分散できるからです。
LLM でのスパース MoE アプローチと命令チューニング
「スパース Mixture-of-Experts (MoE) を使用したスケーラブルな言語モデリング」というタイトルの論文では、大規模言語モデル (LLM) を改善するための革新的なアプローチについて説明しています。Mixture of Experts アーキテクチャと命令チューニング技術を統合することです。
一般的な課題を強調しています。MoE モデルは、特定のタスクにファインチューニングされた場合、同等の計算能力を持つ密なモデルに比べて、一般的な事前トレーニングとタスク固有のファインチューニングの不一致により、パフォーマンスが低下することがあります。
命令チューニングは、モデルを自然言語の命令に従うように微調整するトレーニング方法であり、実際にはタスクのパフォーマンスを向上させます。論文では、MoE モデルは命令チューニングと組み合わせたときに、特にタスク固有のファインチューニングにさらに補足されたときに、密なモデルよりも大幅に改善されることを示しています。このテクニックにより、モデルの事前トレーニングされた表現が命令に従うように調整され、重要なパフォーマンスのブーストにつながります。
研究者は 3 つの実験設定で研究を実施し、MoE モデルは直接のタスク固有のファインチューニングで初期的にパフォーマンスが低いことを示しています。ただし、命令チューニングを適用すると、MoE モデルは特にタスク固有のファインチューニングにさらに補足されたときに、密なモデルを上回ります。これは、命令チューニングが MoE モデルが下流タスクで密なモデルを上回るために不可欠なステップであることを示しています。
また、FLAN-MOE32B というモデルを紹介しており、これはこれらの概念の成功した応用を示しています。特に、FLAN-PALM62B という密なモデルを上回り、ベンチマークタスクで新しい基準を設定する可能性のある、スパース MoE モデルと命令チューニングの潜在能力を示しています。
実際のシナリオでの Mixture of Experts の実装
MoE モデルの多様性により、幅広いアプリケーションに適しています:
- 自然言語処理 (NLP): MoE モデルは人間の言語のニュアンスと複雑さをより効果的に処理できるため、先進的な NLP タスクに適しています。
- 画像およびビデオ処理: 高解像度処理を必要とするタスクでは、MoE は画像またはビデオフレームのさまざまな側面を処理できるため、品質と処理速度の両方が向上します。
- カスタマイズ可能な AI ソリューション: ビジネスと研究者は、MoE モデルを特定のタスクに合わせてカスタマイズできるため、よりターゲットを絞った効果的な AI ソリューションにつながります。
課題と考慮事項
MoE モデルは多くの利点を提供しますが、独自の課題も提起します:
- トレーニングとチューニングの複雑さ: MoE モデルの分散型アーキテクチャにより、エキスパートとゲーティングネットワークのトレーニングプロセスが複雑になる可能性があり、エキスパートとゲーティングネットワークのバランスとチューニングが慎重に必要になります。
- リソース管理: 複数のエキスパートにわたる計算リソースを効率的に管理することは、MoE モデルの利点を最大化するために不可欠です。
ニューラルネットワーク、特に言語モデルに MoE レイヤーを組み込むと、従来の計算制約により実現不可能だったサイズにモデルをスケーリングするための道筋が示されます。MoE レイヤーによって可能な条件付き計算により、計算リソースをより効率的に配分でき、より大規模で高機能なモデルをトレーニングできるようになります。私たちが AI システムからより多くのことを求めるにつれて、MoE を備えた Transformer などのアーキテクチャは、さまざまなドメインの複雑で大規模なタスクの処理の標準になる可能性が高いです。













