人工知能
OpenAIとAnthropic、対立するモデルを公開してAIの軍拡競争を激化させる

OpenAIとAnthropicは、今日、数分間の差で新しいフラグシップモデルをリリースしました。一方、OpenAIは同時にエンタープライズエージェントプラットフォームを立ち上げ、Perplexityはマルチモデルの研究機能を導入しました。今日、AI製品の発表は、通常の週よりも1日の午後に多くの発表がありました。
ここに何が配信されたか、それが何を意味するかを説明します。
AnthropicのOpus 4.6: エージェントチームと100万トークンのウィンドウ
AnthropicはClaude Opus 4.6をリリースしました。これは、最も能力の高いモデルで、2つの注目すべき機能があります。1つの機能は、100万トークンのコンテキストウィンドウで、もう1つの機能は、エージェントチームという新しい機能です。
コンテキストウィンドウは、技術的な成果が大きいです。100万トークンで、Opus 4.6は、約3,000ページのテキストを1つのプロンプトで処理できます。つまり、前身の256,000トークンの制限の4倍です。128,000トークンの出力サポートと組み合わせて、このモデルは、コードベース、規制上の提出物、または研究コーパスを、チャンク化または要約化せずに処理および作業できます。
エージェントチームは、Claude Codeで利用可能で、複数のClaudeインスタンスが共有コードベースで並行して作業できます。単一のエージェントがタスクを順番に実行するのではなく、開発者は、1つのエージェントがフロントエンドの変更を処理し、別のエージェントがテストを書き、3つ目のエージェントがバックエンドロジックをリファクタリングするチームをスピンアップできます。すべてのエージェントは、同じプロジェクトで同時に調整して作業します。
Opus 4.6は、適応的な思考も導入しており、モデルは、与えられたプロンプトにどれだけの推論努力を投資するかを調整できます。シンプルな質問には迅速な応答が返り、複雑な問題には深い思考がトリガーされます。開発者は、4つのレベル(低、 сред、 高、最大)で努力コントロールを調整できます。
ベンチマークでは、Opus 4.6は、Terminal-Bench 2.0のエージェントコーディングで最高スコアを獲得し、Humanity’s Last Examという複雑な推論評価でトップになります。Anthropicは、GDPval-AA評価でGPT-5.2に対して144ポイントのEloアドバンテージを主張し、Opus 4.5に対して190ポイントの改善を主張しています。
APIの価格は、入力トークン1ミリオンあたり5ドル、出力トークン1ミリオンあたり25ドルで変更されていませんが、20万トークンを超えるプロンプトには、10ドル/37.50ドルのプレミアムレートが適用されます。
注目すべきエンタープライズ動きとして、Anthropicは、Claudeの研究プレビューをMicrosoft PowerPointで発表しました。ここで、モデルは既存のスライドレイアウトとテンプレートを読み取り、プレゼンテーションを生成または編集できますが、ブランドのフォーマットは保持されます。
OpenAIのGPT-5.3-Codex: 自分自身を構築するのに役立ったモデル
Anthropicの発表の数分後、OpenAIはGPT-5.3-Codexを立ち上げました。これは、最も能力の高いコーディングモデルです。このリリースは、GPT-5.2-CodexのフロンティアコーディングパフォーマンスとGPT-5.2の推論および専門知識の機能を1つのシステムに統合し、さらに25パーセント高速化しました。
最も注目すべき主張は、GPT-5.3-Codexが自分自身を構築するのに役立ったということです。OpenAIのCodexチームは、モデルを自身のトレーニングプロセス中に使用しました。トレーニング実行のデバッグ、デプロイインフラストラクチャの管理、評価結果の診断を行いました。これは、モデルが自身の開発に重要な役割を果たしたことをOpenAIが初めて公に認めたことであり、効率と安全性に関する疑問を引き起こします。
GPT-5.3-Codexは、SWE-Bench ProとTerminal-Benchというベンチマークで、業界最高のスコアを達成しました。これらのベンチマークは、実世界のソフトウェアエンジニアリングタスクを評価します。モデルは、研究、ツールの使用、複雑な実行を伴う長時間のタスクを処理できます。ユーザーは、タスクの中間でモデルとやり取りすることもできます。コラボレーションするような感覚で、コマンドを発行するのではなく、モデルと一緒に作業できます。
モデルは、すべてのChatGPT有料プランユーザーがCodexアプリ、CLI、IDE拡張機能、Webインターフェイスを通じて利用できます。APIアクセスは近く来ます。
開発者がAIコードジェネレーターを選択する場合、競合の絵は今やはっきりと定義されています。Opus 4.6はエージェントの調整と長いコンテキストの作業で優れていますが、GPT-5.3-Codexは速度と統合された推論を強調しています。両者は、重複するベンチマークで最高のスコアを主張しています。CursorやAppleのXcodeなどのツールは両方をサポートしているため、開発者は自由に切り替えることができます。
OpenAIフロンティア: エンタープライズエージェントが独自のプラットフォームを取得
モデルを立ち上げると同時に、OpenAIはFrontierを導入しました。これは、AIエージェントを構築、デプロイ、管理するためのエンタープライズプラットフォームです。Frontierは、データベース、CRMシステム、HRプラットフォーム、チケットツール、その他のビジネスアプリケーションに接続し、AIエージェントがそれらを跨いでプロセスを実行できるようにします。
OpenAIは、Frontierを「エンタープライズのためのセマンティックレイヤー」と説明しました。ここで、人間の従業員とAIエージェントが同じプラットフォームで共有データアクセスとセキュリティコントロールで動作します。エージェントは、従業員のようなID、共有組織コンテキスト、エンタープライズグレードのアクセス許可を取得します。
プラットフォームは、モデル非依存です。企業は、OpenAIのモデルで構築されたエージェントと、Google、Microsoft、Anthropicのモデルで構築されたエージェントを管理できます。初期の顧客には、Intuit、State Farm、Thermo Fisher、Uberが含まれます。
Frontierは、OpenAIを、SalesforceのAgentforceやServiceNowのAIエージェントのようなエンタープライズプラットフォームと直接競争させる位置に置きます。違いは、OpenAIがモデルレイヤーから構築しているのに対し、既存のワークフローツールにAIを追加していることです。企業がAIプロバイダーからエージェントインフラストラクチャを取得するか、ソフトウェアベンダーから取得するかによって、エンタープライズAIの競争が2026年に定義されることになります。
Perplexityのモデル評議会: 3つのモデル、1つの答え
PerplexityはModel Councilを立ち上げました。これは、同じクエリを3つのモデル(Claude Opus、GPT、Gemini)で同時に実行し、シンセサイザーモデルを使用してその出力を1つの答えに統合し、合意と不一致の領域をフラグします。

Image: Perplexity
前提は、単一のモデルがすべてのクエリで信頼性が高く最も優れているわけではないということです。3つのフロンティアモデルが同じ答えに収束する場合、信頼性は高くなります。モデルが異なる場合、ユーザーはさらに調査する必要があることを知ります。Model Councilは、Maxサブスクライバーに利用可能で、投資研究、戦略分析、複雑な意思決定に位置付けられています。
この機能は、Perplexityが基盤モデルを構築するのではなく、マルチモデルのオーケストレーションを通じて差別化する戦略を反映しています。フロンティアAIチャットボットのギャップが個々のベンチマークで狭まるにつれ、出力を集約することが、単一のプロバイダーを選択するよりも価値がある可能性があります。
何を意味するか
これらのリリースは、AIの競争がモデル能力から製品インフラストラクチャに移行したことを確認しています。OpenAIとAnthropicの両方に、同じベンチマークでトップになるモデルがあります。差別化は、モデル上に構築できるものにあります。
一方、Perplexityは、モデル戦争がモデルを組み合わせる方法よりも重要ではない可能性があるという、静かな主張をしています。Model Councilが有用であることが証明されれば、将来はClaudeとGPTのどちらかを選択するのではなく、両方を使用することになるかもしれません。
開発者やエンタープライズがAIスタックを評価する場合、これは決定をより困難にしました。












