人工知能

Gemini 3.1 Proが記録的な推論性能を達成

Published February 20, 2026

Updated April 25, 2026

Alex McFarland

Googleは2月19日にGemini 3.1 Proをリリースしました。これは、同社のフラグシップAIモデルであり、推論性能を2倍以上向上させながら、前世代モデルの価格を維持しています。

最も注目すべき数字は、ARC-AGI-2というベンチマークで、モデルの新しい論理パターンを解決する能力をテストします。このベンチマークでは、Gemini 3.1 Proは77.1%のスコアを獲得しました。一方、Gemini 3 Proは31.1%でした。この46ポイントのジャンプは、どのフロンティアモデルのファミリーでも、1世代あたりの推論性能の最大の向上です。

このモデルは、Googleの消費者と開発者向けプラットフォームで即時に利用可能です。GeminiアプリのAI ProとAI Ultraプランのユーザーは、使用制限が高い状態でアクセスできます。開発者は、Gemini APIを介してAI Studio、Vertex AI、Gemini CLI、Antigravity、Android Studioで3.1 Proにアクセスできます。NotebookLMも、ProとUltraサブスクライバー向けにアップグレードされます。

200,000トークン未満のプロンプトの場合、1百万トークンあたりの価格は2ドルで固定されています。長いコンテキストの場合、価格は4ドルに上昇します。出力コストは1百万トークンあたり12ドルです。Gemini 3 ProをAPI経由で既に使用している場合、アップグレードは無料です。

全般的なベンチマーク性能

モデルカードによると、Gemini 3.1 Proは18のトラッキングベンチマークのうち12で1位を獲得しています。ARC-AGI-2以外の注目すべき成果としては、GPQA Diamondで94.3%、LiveCodeBench Proで2,887 Eloという、すべてのフロンティアモデルの最高スコアを達成しています。

Humanity’s Last Examというベンチマークでは、3.1 Proは44.4%のスコアを達成しました。これは、Gemini 3 Proの37.5%とGPT-5.2の34.5%を上回りました。多言語のMMLUベンチマークでは92.6%、128,000トークンの長いコンテキストの精度は84.9%でした。

このモデルは、1百万トークンの入力コンテキストウィンドウを保持し、最大64,000トークンの出力を生成します。これは、AIコード生成ツールの仕様と一致しています。これらのツールは、コードベース全体をインジェストし、1回のセッションで大量のコードブロックを生成する必要があります。

3.1 Proがリードしないのは、SWE-Bench Verifiedという、実際のソフトウェアエンジニアリングタスクのテストで、80.6%のスコアを獲得しました。これは、AnthropicのClaude Opus 4.6の80.8%にわずかに劣ります。ギャップはわずかですが、Anthropicが実用的なコーディングタスクで依然として微小なリードを維持していることを示しています。

ダイナミック思考の変更

Gemini 3.1 Proは、デフォルトでダイナミック思考を使用します。このアプローチでは、モデルは各プロンプトの複雑さに応じて、内部推論の適用量を調整します。シンプルな質問には迅速な回答が返され、複雑なマルチステップ問題には、モデルが応答を生成する前に、より深い処理チェーンがトリガーされます。

開発者は、APIのthinking_levelパラメータを介してこの動作を制御できます。内部推論の最大深度を設定できます。これは、推論モデルのテンションを解決します。延長思考は、難しい問題での精度を向上させますが、シンプルなクエリでは待ち時間とコストが増加します。ダイナミック思考は、このトレードオフを自動化しようとします。

この機能は、業界全体のシフトを反映しています。OpenAIのoシリーズモデルは、連鎖思考推論を選択可能なモードとして導入しました。AnthropicのClaudeは、延長思考をオプトイン機能として使用しています。Googleのアプローチは、デフォルトで変動的な強度でこの機能を使用することです。ほとんどのユーザーは、モデルが自分でどれだけ考えるかを管理するのではなく、モデルに決定させることを好むという賭けです。

競合フィールドの拡大

Gemini 3.1 Proは、ベンチマークのリーダーシップが毎月変更される市場に登場しました。GoogleのGemini 3は、OpenAIで「コードレッド」を引き起こし、1ヶ月以内にGPT-5.2を生み出しました。Anthropicは、Claudeの更新を加速するペースで出荷しています。各リリースは、モデルのギャップを狭め、プラットフォームの選択を、生の能力ではなく、エコシステムと価格に依存するようにしています。

Googleの優位性は、配布です。Gemini 3.1 Proは、数百万人によって使用される製品に直接スロットされます。Gmail、Docs、Search、およびパーソナルインテリジェンス機能は、モデルをユーザーのパーソナルデータに接続します。このモデルはまた、Gemini EnterpriseとGemini CLIを動かします。開発者とビジネスは、既存のツールを使用してアクセスできます。

フロンティアモデルの選択肢を持つ開発者にとって、価格決定は簡単になりました。1百万トークンあたり2ドルという価格設定で、Gemini 3.1 Proは、OpenAIとAnthropicのフラグシップ価格を下回り、同等の能力を提供しています。3 Proからの無料アップグレードにより、既存のユーザーに対する移行の摩擦がなくなりました。

推論性能の向上は、計画、多段階タスクの実行、ツールの自律的な使用が必要なエージェントアプリケーションにとって最も重要です。ARC-AGI-2は、エージェントがトレーニングデータでカバーされていない問題に遭遇する場合に必要な、新しいパターン認識の種類をテストします。77.1%のスコアを獲得したモデルは、31.1%のスコアを獲得したモデルよりも、未知の状況をはるかに信頼性の高い方法で処理できます。

これらのベンチマークの向上が、実際の改善に比例するかどうかは、Googleが来週に答える必要がある質問です。ベンチマークは、特定の機能を制御された条件下で測定します。実際のユーザーエクスペリエンスは、ユーザーがモデルに投げかけるタスクの予測不可能な範囲に応じて変化します。ARC-AGI-2のジャンプは、3.1 Proが以前にないモデルよりも新規性をよりうまく処理できることを示唆しています。ユーザーがこの機能をどのように使用するかが、数字が重要かどうかを決定します。

Unite.AI

Gemini 3.1 Proが記録的な推論性能を達成

全般的なベンチマーク性能

ダイナミック思考の変更

競合フィールドの拡大

You may like