スタブ Microsoft の Phi-3 Mini の内部: 重量を超えた軽量 AI モデル - Unite.AI
私達と接続

Artificial Intelligence

Microsoft の Phi-3 Mini の内部: 重量を超えた軽量 AI モデル

mm

公開済み

 on

Phi-3 : 携帯電話上でローカルに動作する高機能な言語モデル

Microsoft は最近、Phi-3 Mini と呼ばれる最新の軽量言語モデルを発表し、限られたコンピューティング リソースを持つデバイス上で効率的に実行できるほど十分に小さいながら、最先端のパフォーマンスを提供するように設計された 3.8 つのコンパクトな AI モデルを開始しました。 Phi-3 Mini のパラメータ数はわずか 4 億で、GPT-XNUMX のような AI 巨人の数分の一の規模ですが、多くの重要な分野でその能力に匹敵することが約束されています。

開発 ファイ-3 ミニ これは、より幅広いハードウェアで高度な AI 機能にアクセスできるようにすることで、その機能を民主化するという取り組みにおける重要なマイルストーンとなります。設置面積が小さいため、スマートフォン、タブレット、その他のエッジ デバイスにローカルに展開でき、クラウドベースのモデルに伴う遅延とプライバシーの問題を克服できます。これにより、仮想アシスタントや会話型 AI からコーディング アシスタントや言語理解タスクに至るまで、さまざまな領域にわたるインテリジェントなオンデバイス エクスペリエンスの新たな可能性が開かれます。

iPhone 上でネイティブに実行される 4 ビット量子化された phi-3-mini
4ビット量子化 ファイ-3-ミニ iPhone 上でネイティブに実行される

内部: アーキテクチャとトレーニング

Phi-3 Mini の核心は、Phi-XNUMX Mini と同様のアーキテクチャに基づいて構築されたトランス デコーダ モデルです。 オープンソースの Llama-2 モデル。 32 のレイヤー、3072 の隠れたディメンション、および 32 のアテンション ヘッドを備え、デフォルトのコンテキスト長は 4,000 トークンです。 Microsoft は、Phi-3 Mini-128K と呼ばれるロング コンテキスト バージョンも導入しました。これは、LongRope などの技術を使用してコンテキストの長さを 128,000 トークンという驚異的な数に拡張します。

ただし、Phi-3 Mini が他と異なるのは、そのトレーニング方法です。 Microsoft は、大規模なデータセットと計算能力の強引な力だけに依存するのではなく、高品質で推論の密度が高いトレーニング データセットを厳選することに重点を置いています。このデータは、高度にフィルタリングされた Web データと、より大きな言語モデルによって生成された合成データで構成されています。

トレーニング プロセスは 2 段階のアプローチに従います。最初のフェーズでは、モデルに一般知識と言語理解を教えることを目的としたさまざまな Web ソースをモデルに公開します。第 2 フェーズでは、さらに厳しくフィルタリングされた Web データと、論理的推論スキルと専門分野の専門知識を与えるように設計された合成データを組み合わせます。

Microsoft は、このアプローチを「データ最適レジーム」と呼んでいます。これは、多くの大規模な言語モデルで採用されている従来の「コンピューティング最適レジーム」または「オーバートレーニング レジーム」からの脱却です。目標は、モデルのスケールに合わせてトレーニング データを調整し、他の機能に十分な能力を残しつつ、適切なレベルの知識と推論能力を提供することです。

新しい Phi-3 モデルの品質 (Massive Multitask Language Understanding (MMLU) ベンチマークのパフォーマンスで測定)
新しい Phi-3 モデルの品質、Massive Multitask Language Understanding (MMLU) ベンチマークのパフォーマンスによって測定

このデータ中心のアプローチは功を奏し、Phi-3 Mini は幅広い学術ベンチマークで優れたパフォーマンスを達成し、多くの場合、はるかに大型のモデルに匹敵するか、それを上回っています。たとえば、マルチタスクの学習と理解の MMLU ベンチマークでは 69%、数学的推論の MT ベンチでは 8.38 のスコアを獲得しており、Mixtral 8x7B や GPT-3.5 などのモデルと同等の結果です。

安全性と堅牢性

その圧倒的なパフォーマンスとともに、 Microsoft は安全性と堅牢性を重視しています Phi-3 Miniの開発に携わりました。モデルは、教師あり微調整 (SFT) と直接優先最適化 (DPO) を含む厳密なトレーニング後のプロセスを経ています。

SFT ステージでは、数学、コーディング、推論、会話、モデルの同一性、安全性など、さまざまな領域にわたって高度に厳選されたデータを活用します。これは、強いアイデンティティと倫理的行動の意識を植え付けながら、これらの領域におけるモデルの機能を強化するのに役立ちます。

一方、DPO ステージでは、拒否された応答を否定的な例として使用して、モデルを望ましくない動作から遠ざけることに焦点を当てます。このプロセスには、チャット形式のデータ、推論タスク、責任ある AI (RAI) の取り組みが含まれており、Phi-3 Mini が Microsoft の倫理的で信頼できる AI の原則に準拠していることが保証されます。

安全性プロファイルをさらに強化するために、Phi-3 Mini は、数十の RAI 危害カテゴリーにわたって広範なレッドチーム化と自動テストを受けてきました。 Microsoft の独立したレッド チームはモデルを繰り返し検証し、改善すべき領域を特定し、追加の厳選されたデータセットと再トレーニングを通じてそれらの領域に対処しました。

Microsoft の社内 RAI ベンチマークで実証されているように、この多面的なアプローチにより、有害な反応、事実の不正確さ、偏見の発生率が大幅に減少しました。たとえば、このモデルは、有害なコンテンツの継続 (0.75%) と要約 (10%) の欠陥率が低く、根拠のない率 (0.603) も低く、その応答が特定のコンテキストにしっかりと根ざしていることを示しています。

アプリケーションとユースケース

Phi-3 Mini は、その優れたパフォーマンスと堅牢な安全対策により、幅広いアプリケーション、特にリソースに制約のある環境や遅延に制約のあるシナリオに最適です。

最もエキサイティングな展望の 1 つは、インテリジェントな仮想アシスタントと会話型 AI をモバイル デバイスに直接展開することです。これらのアシスタントはローカルで実行することで、ネットワーク接続を必要とせずに即時応答を提供できると同時に、機密データがデバイス上に確実に残るため、プライバシーの問題に対処できます。

Phi-3 Mini の強力な推論能力は、コーディング支援や数学的問題解決にも貴重な資産となります。開発者と学生は、デバイス上のコード補完、バグ検出、説明の恩恵を受け、開発と学習のプロセスを合理化できます。

これらのアプリケーションを超えて、モデルの多用途性により、言語理解、テキストの要約、質問応答などの分野での機会が開かれます。サイズが小さく効率的であるため、スマート家電から産業オートメーション システムに至るまで、幅広いデバイスやシステムに AI 機能を組み込むための魅力的な選択肢となっています。

今後の展望: Phi-3 Small と Phi-3 Medium

一方、 ファイ-3 ミニ はそれ自体素晴らしい成果ですが、Microsoft は Phi-3 ファミリに対してさらに大きな計画を立てています。同社はすでに、Phi-3 Small (7 億パラメータ) と Phi-3 Medium (14 億パラメータ) という XNUMX つのより大きなモデルをプレビューしており、どちらもコンパクトな言語モデルのパフォーマンスの限界を押し上げることが期待されています。

たとえば、Phi-3 Small は、より高度なトークナイザー (tiktoken) とグループ化されたクエリ アテンション メカニズムに加え、新しいブロックスパース アテンション レイヤーを利用して、長時間のコンテキスト取得パフォーマンスを維持しながらメモリ フットプリントを最適化します。また、さらに 10% の多言語データが組み込まれており、複数の言語にわたる言語理解および生成の機能が強化されています。

一方、Phi-3 Medium は、40 レイヤー、40 個のアテンション ヘッド、および 5,120 の埋め込み次元を備え、スケールが大幅に向上しています。 Microsoft は、一部のベンチマークでは、この容量の増加を十分に活用するには、トレーニング データの混合をさらに改良する必要がある可能性があると述べていますが、MMLU、TriviaQA、HumanEval などのタスクでは Phi-3 Small よりも大幅に改善されており、初期の結果は有望です。

制限と将来の方向

その優れた機能にもかかわらず、Phi-3 Mini には、他の言語モデルと同様に制限がないわけではありません。最も顕著な弱点の XNUMX つは、TriviaQA などのベンチマークでのパフォーマンスの低下から明らかなように、事実に関する知識を保存する能力が比較的限られていることです。

ただし、Microsoft は、モデルに検索エンジン機能を追加し、オンデマンドで関連情報を取得して推論できるようにすることで、この制限を緩和できると考えています。このアプローチは、次のセクションで実証されています。 ハグフェイスチャットUIここで、Phi-3 Mini は検索を活用して応答を強化できます。

改善の余地があるもう 3 つの領域は、モデルの多言語機能です。 Phi-XNUMX Small は追加の多言語データを組み込むことで初期段階を踏みましたが、これらのコンパクト モデルの言語を超えたアプリケーションの可能性を完全に引き出すにはさらなる作業が必要です。

Microsoft は将来を見据えて、Phi ファミリのモデルを継続的に進化させ、その限界に対処し、機能を拡張することに取り組んでいます。これには、トレーニング データと方法論のさらなる改良、およびコンパクトで高性能な言語モデルに特化した新しいアーキテクチャと技術の探求が含まれる場合があります。

まとめ

Microsoft の Phi-3 Mini は、高度な AI 機能の民主化における大きな進歩を表しています。最先端のパフォーマンスをコンパクトでリソース効率の高いパッケージで実現することで、幅広いアプリケーションにわたってインテリジェントなオンデバイス エクスペリエンスの新たな可能性を切り開きます。

このモデルの革新的なトレーニング アプローチは、純粋な計算能力よりも高品質で推論の密度が高いデータに重点​​を置き、ゲームチェンジャーであることが証明されており、Phi-3 Mini はその重量クラスをはるかに上回る能力を発揮します。 Phi-3 ファミリーのモデルは、堅牢な安全対策と継続的な開発努力と組み合わせることで、インテリジェント システムの将来を形成する上で重要な役割を果たし、AI をこれまで以上にアクセスしやすく、効率的で、信頼できるものにする準備が整っています。

テクノロジー業界が AI の可能性の限界を押し広げ続ける中、Phi-3 Mini のような軽量で高性能なモデルに対する Microsoft の取り組みは、「大きいほど良い」という従来の常識からの新鮮な脱却を表しています。サイズがすべてではないことを実証することで、Phi-3 Mini は、インテリジェントなデータ キュレーション、思慮深いモデル設計、責任ある開発実践を通じて AI の価値と影響を最大化することに重点を置いたイノベーションの新たな波を引き起こす可能性を秘めています。

私は過去 50 年間、機械学習と深層学習の魅力的な世界に没頭してきました。 私の情熱と専門知識により、特に AI/ML に重点を置いた XNUMX を超える多様なソフトウェア エンジニアリング プロジェクトに貢献してきました。 私の継続的な好奇心は、私がさらに探求したいと思っている分野である自然言語処理にも引き寄せられました。