Connect with us

ポケットサイズのパワーハウス: マイクロソフトのPhi-3を紹介 – スマートフォンに収まる言語モデル

人工知能

ポケットサイズのパワーハウス: マイクロソフトのPhi-3を紹介 – スマートフォンに収まる言語モデル

mm

人工知能の分野は急速に進化しており、トレンドは大規模で複雑なモデルに傾きがちですが、マイクロソフトはPhi-3 Miniで異なるアプローチを採用しています。この小規模言語モデル (SLM)は、3世代目となり、スマートフォンの厳格なリソース制約の中で大規模モデルと同等のパフォーマンスを発揮します。3.8億のパラメータを備えたPhi-3 Miniは、言語処理、推論、コーディング、数学などのタスクで大規模言語モデル (LLM)と同等のパフォーマンスを発揮し、量子化によりモバイルデバイスでの効率的な動作に最適化されています。

大規模言語モデルの課題

マイクロソフトのPhi SLMの開発は、LLMが一般的な消費者向けデバイスでは通常利用できないほどの計算能力を必要とするという課題に対する対応です。この高い需要は、標準的なコンピュータやモバイルデバイスでの使用を複雑にし、トレーニングおよび動作中に大量のエネルギーを消費することにより環境への懸念を引き起こし、大規模で複雑なトレーニングデータセットにより偏見を永続させるリスクがあります。これらの要因は、リアルタイムアプリケーションでのモデルの応答性を損なう可能性があり、更新をより困難にします。

Phi-3 Mini: パーソナルデバイスでのAIの効率化とプライバシー強化

Phi-3 Miniは、スマートフォンやラップトップなどのパーソナルデバイスに高度なAIを直接統合するためのコスト効率の高い代替手段を提供するように戦略的に設計されています。この設計により、より迅速で即時的な応答が可能になり、日常的なシナリオでのテクノロジーとのユーザーインタラクションが強化されます。
Phi-3 Miniは、モバイルデバイスで高度なAI機能を直接処理できるようにし、クラウドサービスへの依存を減らし、リアルタイムデータ処理を強化します。この機能は、モバイルヘルスケア、リアルタイム言語翻訳、パーソナライズド教育などの即時データ処理を必要とするアプリケーションに不可欠です。モデルのコスト効率は、運用コストを削減するだけでなく、ウェアラブルテクノロジーやホームオートメーションなどのさまざまな業界、特に新興市場でのAI統合の可能性を拡大します。Phi-3 Miniは、ローカルデバイスでデータ処理を行うことでユーザーのプライバシーを強化します。これは、個人ヘルスケアや金融サービスなどの機密情報を管理する分野では不可欠です。さらに、モデルの低エネルギー要件は、環境に優しいAI操作に貢献し、地球規模の持続可能性への取り組みと一致しています。

Phiの設計哲学と進化

Phiの設計哲学は、子供が徐々に難しい例を通じて学ぶ教育アプローチにインスピレーションを得たカリキュラム学習の概念に基づいています。主なアイデアは、AIのトレーニングを簡単な例から始め、学習プロセスが進むにつれてトレーニングデータの複雑さを増やしていくことです。マイクロソフトは、教科書から構築されたデータセットを使用することで、この教育戦略を実装しています。Phiシリーズは2023年6月に開始され、最初のPhi-1は13億パラメータを備えたコンパクトモデルでした。このモデルはすぐにその有効性を証明し、特にPythonコーディングタスクで大規模で複雑なモデルを上回りました。この成功を基盤に、マイクロソフトは後にPhi-1.5を開発しました。これは同じ数のパラメータを維持しながら、共通の感覚的な推論や言語理解などの分野でその能力を拡大しました。シリーズは2023年12月のPhi-2のリリースで輝きを放ち、27億パラメータを備え、推論や言語理解で印象的なスキルを示し、大規模なモデルと競合する強力なライバルとなりました。

Phi-3 vs. 他の小規模言語モデル

Phi-3 Miniは、Phi-2の進歩を基盤にし、GoogleのGemmaMistralのMistralMetaのLlama3-InstructGPT 3.5などの他のSLMを上回り、言語理解や推論、一般的な知識、共通の感覚的な推論、学校数学のワード問題、医療質問への回答などの産業アプリケーションで優れたパフォーマンスを発揮します。Phi-3 Miniは、コンテンツ作成や特定の場所に合わせたアクティビティの提案などのタスクでiPhone 14でオフラインテストも行われました。この目的のために、Phi-3 Miniは量子化というプロセスを使用して1.8GBに圧縮されています。これは、32ビット浮動小数点数から4ビット整数などのよりコンパクトな形式へのモデルの数値データの変換により、限られたリソースを持つデバイス用にモデルを最適化します。これにより、モデルのメモリフットプリントが削減され、処理速度と電力効率が向上し、モバイルデバイスでは不可欠です。開発者は、TensorFlow LitePyTorch Mobileなどのフレームワークを使用して、自動化および精製化するために組み込みの量子化ツールを活用します。

機能比較: Phi-3 Mini vs. Phi-2 Mini

以下、Phi-3とその前身Phi-2のいくつかの機能を比較します。

  • モデルアーキテクチャ: Phi-2は、次の単語を予測するように設計されたトランスフォーマーベースのアーキテクチャを使用します。Phi-3 Miniもトランスフォーマーデコーダアーキテクチャを使用しますが、Llama-2モデルの構造に近くなっており、320,641の語彙サイズを持つ同じトークナイザを使用します。この互換性により、Llama-2用に開発されたツールをPhi-3 Miniで簡単に使用できます。
  • コンテキスト長: Phi-3 Miniは8,000トークンのコンテキスト長をサポートし、Phi-2の2,048トークンよりも大幅に長くなっています。この増加により、Phi-3 Miniはより詳細なやり取りを管理し、長いテキストを処理できます。
  • モバイルデバイスでのローカル実行: Phi-3 Miniは4ビットに圧縮でき、約1.8GBのメモリを占有します。これはPhi-2と似ており、A16 Bionicチップを搭載したiPhone 14でテストされ、同等の条件下でPhi-2と同等の12トークン/秒以上の処理速度を達成しました。
  • モデルサイズ: Phi-3 Miniには3.8億のパラメータがあり、Phi-2の2.7億パラメータよりも大規模です。これは、Phi-3 Miniの増加した能力を反映しています。
  • トレーニングデータ: Phi-2は1.4兆トークンでトレーニングされたのに対し、Phi-3 Miniは3.3兆トークンの大規模なセットでトレーニングされており、複雑な言語パターンをよりよく理解することができます。

Phi-3 Miniの限界に対処

Phi-3 Miniは、小規模言語モデルの分野で大きな進歩を示していますが、限界がありません。大規模言語モデルに比べると小規模であるPhi-3 Miniの主な制約は、広範な事実情報を保持する能力が限られていることです。これにより、詳細な事実データや専門知識を必要とするクエリを独自に処理する能力が影響を受ける可能性があります。これは、Phi-3 Miniを検索エンジンと統合することで軽減できます。こうすることで、モデルはより広範な情報にリアルタイムでアクセスでき、基本的な知識の限界を補うことができます。この統合により、Phi-3 Miniは、言語とコンテキストを包括的に理解しているものの、正確で最新の回答を提供するために時折「情報を調べる」必要がある、高度な会話能力者のように機能します。

利用可能性

Phi-3は、Microsoft Azure AI StudioHugging FaceOllamaなどのプラットフォームで利用可能です。Azure AIでは、モデルはデプロイ、評価、ファインチューニングのワークフローを組み込み、Ollamaではラップトップでローカルに実行できます。モデルはONNX Runtimeに最適化され、Windows DirectMLをサポートし、GPU、CPU、モバイルデバイスなどのさまざまなハードウェアタイプで動作します。さらに、Phi-3は、NVIDIA NIMを通じてマイクロサービスとして提供され、標準的なAPIを備え、さまざまな環境に簡単にデプロイでき、NVIDIA GPUに最適化されています。マイクロソフトは、近い将来、Phi-3シリーズをPhi-3-small (7B)とPhi-3-medium (14B)のモデルを追加することでさらに拡大する予定で、ユーザーが品質とコストのバランスを取るための追加の選択肢を提供します。

まとめ

マイクロソフトのPhi-3 Miniは、モバイルでの使用に適した大規模言語モデルの力を活用することで、人工知能の分野で大きな進歩を遂げています。このモデルは、より迅速でリアルタイムの処理と強化されたプライバシー機能を通じて、デバイスとのユーザーインタラクションを改善します。クラウドベースのサービスへの必要性を最小限に抑え、運用コストを削減し、ヘルスケアやホームオートメーションなどの分野でのAIの適用範囲を拡大します。カリキュラム学習を通じて偏見を軽減し、競合するパフォーマンスを維持することに重点を置くことで、Phi-3 Miniは、効率的で持続可能なモバイルAIのための重要なツールとなり、テクノロジーとの毎日のやり取りを微妙に変化させています。

Dr. Tehseen ZiaはCOMSATS University Islamabadの正教授であり、オーストリアのVienna University of TechnologyでAIのPh.D.を取得しています。人工知能、機械学習、データサイエンス、コンピュータビジョンを専門とし、信頼性の高い科学雑誌に掲載された出版物で著しい貢献をしています。Dr. Tehseenは、主な調査員としてさまざまな産業プロジェクトを率い、AIコンサルタントとしても務めています。