ベスト
5つのベストオープンソースLLM(March 2026)

オープンソースAIはクローズドソースシステムに追いつきました。これら5つの大規模言語モデル(LLM)は、継続的なAPIコストやベンダーロックインなしで、エンタープライズレベルのパフォーマンスを提供します。各モデルは、オンデバイス推論から大規模な多言語サポートまで、異なるユースケースに対応します。 このガイドでは、GPT-OSS-120B、DeepSeek-R1、Qwen3-235B、LLaMA 4、Mixtral-8x22Bについて、機能、コスト、導入要件に関する具体的な詳細とともに解説します。
クイック比較
| ツール | 最適な用途 | 開始価格 | 主な特徴 |
|---|---|---|---|
| GPT-OSS-120B | シングルGPUデプロイメント | 無料 (Apache 2.0) | 80GB GPUで120Bパラメータを実行 |
| DeepSeek-R1 | 複雑な推論タスク | 無料 (MIT) | 671Bパラメータと透明な思考プロセス |
| Qwen3-235B | 多言語アプリケーション | 無料 (Apache 2.0) | 119以上の言語をサポートするハイブリッド思考 |
| LLaMA 4 | マルチモーダル処理 | 無料 (カスタムライセンス) | 1000万トークンのコンテキストウィンドウ |
| Mixtral-8x22B | コスト効率の高い本番運用 | 無料 (Apache 2.0) | 密モデルと比較して75%の計算コスト削減 |
1. GPT-OSS-120B
OpenAIは2025年8月、GPT-2以来となる初のオープンウェイトモデルをリリースしました。GPT-OSS-120Bは、Mixture-of-Expertsアーキテクチャを使用し、総パラメータ数は1170億ですが、トークンごとにアクティブなのは51億のみです。このスパース設計により、マルチGPUクラスターを必要とせず、単一の80GB GPUで実行できます。 このモデルは、主要なベンチマークでo4-miniのパフォーマンスに匹敵します。MMLUテストで90%の精度を達成し、GPQA推論タスクでは約80%です。コード生成は62%のpass@1で、クローズドソースの代替モデルと競争力があります。128,000トークンのコンテキストウィンドウは、チャンキングなしで包括的なドキュメント分析を処理します。 OpenAIはこれらのモデルを、o3やその他のフロンティアシステムの技術を用いてトレーニングしました。焦点は、生のスケールよりも実用的なデプロイメントにありました。モデルとともにo200k_harmonyトークナイザーもオープンソース化し、実装間での入力処理方法を標準化しました。 価格: GPT-OSS-120BはApache 2.0ライセンスの下で動作し、継続的なコストはゼロです。80GBモデルを実行できるハードウェア(NVIDIA A100またはH100 GPU)が必要です。AWS、Azure、またはGCPでのクラウドデプロイメントは、適切なインスタンスタイプで約1時間あたり3〜5ドルのコストがかかります。セルフホスト型デプロイメントには、GPUの一括購入(中古A100で約10,000〜15,000ドル)が必要です。 サブスクリプション料金なし。API制限なし。ベンダーロックインなし。 GPT-OSS-120Bを訪問 →
2. DeepSeek-R1
DeepSeek-R1は、透明な推論のために特別に構築されたモデルです。このアーキテクチャは総パラメータ数6710億を使用し、フォワードパスごとに370億がアクティブ化されます。トレーニングは、従来の教師ありファインチューニングを最初に行わずに強化学習を重視し、推論パターンがRLプロセスから自然に出現するようにしました。 このモデルは、MATH-500評価で97%の精度を達成し、複雑な推論タスクでOpenAIのo1に匹敵します。DeepSeek-R1を際立たせているのは、その思考プロセスを観察できる点です。このモデルは最終的な答えだけでなく、段階的な論理を示します。この透明性は、財務分析やエンジニアリング検証など、推論を検証する必要があるアプリケーションで重要です。 DeepSeekはメインモデルとともに、6つの蒸留バージョンをリリースしました。これらは15億から700億パラメータの範囲で、ハイエンドコンシューマーGPUからエッジデバイスまでのハードウェアで実行できます。Qwen-32B蒸留モデルは、計算量のごく一部で済みながら、ベンチマーク全体でo1-miniを上回ります。 価格: DeepSeek-R1はMITライセンスの下でリリースされ、使用料はかかりません。完全な671Bモデルには、最低8基のA100 GPUが必要です(クラウドコスト:約1時間あたり25〜30ドル)。蒸留モデルは大幅に安価に実行できます:32Bバリアントは単一のA100が必要です(クラウド:約1時間あたり3〜5ドル、ハードウェア購入:約10,000ドル)。7Bバージョンはコンシューマー向けRTX 4090 GPUで実行できます。 DeepSeekはテスト用にレート制限付きの無料APIアクセスを提供します。本番デプロイメントには、セルフホスティングまたはクラウドインフラストラクチャが必要です。 DeepSeek R1を訪問 →
3. Qwen3-235B
AlibabaのQwen3-235Bは、オープンソースモデルにハイブリッド思考をもたらします。ユーザーはタスクの複雑さに基づいて推論努力レベル(低、中、高)を制御できます。迅速なカスタマーサービス応答が必要ですか?低思考モードで高速な回答を提供します。複雑なデータ分析を実行しますか?高思考モードで体系的な推論を適用します。 このアーキテクチャは、総パラメータ数2350億を使用し、94層にわたって220億がアクティブ化されます。各層には128のエキスパートが含まれ、トークンごとに8つがアクティブ化されます。このエキスパート選択により、能力を維持しながら効率的な処理が可能になります。このモデルは、119言語にわたる10億以上のトークンでトレーニングされ、以前のQwenバージョンと比較して10倍の多言語データを表しています。 パフォーマンスはMMLU精度で87-88%であり、強力な多言語ベンチマークを備えています。このモデルは、アジア、ヨーロッパ、その他の市場にわたるC-Evalおよび地域固有の評価で優れています。コード生成はゼロショットで37%ですが、複雑なプログラミングタスクで思考モードをアクティブにすると大幅に改善します。 価格: Qwen3-235BはApache 2.0ライセンスを使用し、料金はかかりません。完全なモデルには、量子化に応じて4〜8基のA100 GPUが必要です(クラウド:約1時間あたり15〜30ドル)。Alibaba Cloudは、思考モードで1,000トークンあたり0.002ドルから、標準モードで1,000トークンあたり0.0003ドルから始まる従量制課金のマネージドエンドポイントを提供しています。 小型のQwen3バリアント(7B、14B、72B)はコンシューマーハードウェアで実行できます。7Bモデルは24GBのコンシューマーGPUで動作します。 Qwen3を訪問 →
4. LLaMA 4
MetaのLLaMA 4は、テキスト、画像、短い動画にわたるネイティブのマルチモーダル機能を導入します。Scoutバリアントは総パラメータ数1090億を備え、170億がアクティブです。一方、Maverickは専門タスクのためにより大きなエキスパートプールを使用します。両方とも、モダリティを統合された表現に統合するアーリーフュージョン技術を通じて、複数のコンテンツタイプを処理します。 コンテキスト処理は新たなレベルに達しました。LLaMA 4 Scoutは、大規模なドキュメント分析アプリケーションのために最大1,000万トークンをサポートします。標準コンテキストは128Kトークンで、ほとんどのユースケースですでに十分な規模です。これらのモデルは、LLaMA 3のトレーニングミックスの2倍である30兆以上のトークンで事前トレーニングされました。 パフォーマンスベンチマークは、LLaMA 4がコーディング、推論、多言語テスト全体でGPT-4oおよびGemini 2.0 Flashを上回ることを示しています。Metaは、モデルスケール全体でハイパーパラメータを確実に設定するための技術であるMetaPを開発しました。これにより、学習したパラメータを異なる構成に転送する際の一貫したパフォーマンスが可能になります。 価格: LLaMA 4はMetaのカスタム商用ライセンスを使用します(ほとんどの用途で無料、7億人以上のユーザーを抱えるサービスには制限あり)。Scoutバリアントには2〜4基のH100 GPUが必要です(クラウド:約1時間あたり10〜20ドル)。Maverickには4〜8基のH100が必要です(約1時間あたり20〜40ドル)。Metaは、レート制限付きでプラットフォームを通じて無料のAPIアクセスを提供します。 小型のLLaMAバリアントはコンシューマーハードウェアで実行できます。8Bモデルは16GB GPUで動作します。エンタープライズデプロイメントは、Metaと直接ライセンス交渉できます。
5. Mixtral-8x22B
Mistral AIのMixtral-8x22Bは、同等の密モデルと比較して75%の計算コスト削減を実現します。Mixture-of-Experts設計には、8つの220億パラメータエキスパートが含まれ、総パラメータ数は1410億ですが、推論中にアクティブ化されるのは390億のみです。このスパースアクティベーションは、密な70Bモデルよりも高速に実行しながら、優れたパフォーマンスを提供します。 このモデルは、高度なアプリケーション開発のためのネイティブ関数呼び出しをサポートします。カスタム統合レイヤーなしで、自然言語インターフェースをAPIやソフトウェアシステムに直接接続できます。64,000トークンのコンテキストウィンドウは、長時間の会話や包括的なドキュメント分析を処理します。 多言語パフォーマンスは、英語、フランス語、イタリア語、ドイツ語、スペイン語で際立っています。Mistralは特にヨーロッパ言語でトレーニングを行い、より広範だが浅い言語カバレッジのモデルよりも強力なパフォーマンスをもたらしました。数学的推論はGSM8Kで90.8%を達成し、コーディングはHumanEvalおよびMBPPベンチマークで強力な結果を達成します。 価格: Mixtral-8x22BはApache 2.0ライセンスの下で動作し、料金はかかりません。本番運用には2〜4基のA100 GPUが必要です(クラウド:約1時間あたり10〜15ドル)。Mistralは、入力100万トークンあたり2ドル、出力100万トークンあたり6ドルでマネージドAPIアクセスを提供します。セルフホスティングでは、初期のハードウェア投資後のトークンごとのコストがなくなります。 量子化バージョンは、許容できるパフォーマンス低下で単一のA100で実行できます。このモデルの効率性は、高ボリュームの本番ワークロードに対してコスト効果的です。
<a class="cta-button-primary" href="https://mistral.ai/news/mixtral-













