Connect with us

アンソロピック、Claude Opus 4.1 をリリース – コーディング ベンチマークを大幅に上回る

お知らせ

アンソロピック、Claude Opus 4.1 をリリース – コーディング ベンチマークを大幅に上回る

mm

アンソロピックは今日、Claude Opus 4.1をリリースしました。これは、同社のフラグシップ AI モデルをアップグレードしたバージョンで、リアルワールドのコーディング タスクで 74.5% の精度を達成し、新しいベンチマーク レコードを樹立しながら、前身の価格を維持しています。

このアップデートは、AI 業界が OpenAI の GPT-5 リリースを予測している中での戦略的な動きです。アンソロピックは、最新のモデルを複雑なプログラミング チャレンジと自律タスク完了に優れた競合他社の代替品として位置付けました。同社は、近い将来に「大幅な改善」を約束しており、トップ AI 開発者の間での競争の激化を示しています。

主要なパフォーマンスの改善

アンソロピックの発表によると、Claude Opus 4.1 は、前身モデルのパフォーマンスを 3 つの主要な分野で改善しました。マルチステップの推論を必要とするエージェント タスク、リアルワールドのコーディング アプリケーション、および分析的推論能力です。

モデルの SWE-bench Verified ベンチマークは 74.5% で、SWE-bench Verified は、AI がオープンソース ソフトウェアの実際のバグを特定して修正する能力を測定します。これは、前身の Claude Opus 4 のスコア 72.5% を上回り、OpenAI の o シリーズ モデルよりも約 5 パーセントポイント高くなりました。

GitHub は、マルチファイル コード リファクタリング機能の特に大きな改善を指摘しました。一方、Rakuten Group は、大きなコードベース内で新しいバグを導入せずに修正を特定するモデルの精度を強調しました。 Windsurf というコーディング スタートアップは、Opus 4.1 がジュニア デベロッパー ベンチマークで Opus 4 よりも 1 標準偏差の改善を達成したと報告しました。これは、Sonnet 3.7 から Sonnet 4 への前回のジャンプと比較できます。

利用可能性と統合

アップグレードされたモデルは、有料の Claude ユーザー向けに Web インターフェイスと Claude Code、また Anthropic の API、Amazon Bedrock、Google Cloud の Vertex AI を介してすぐに利用可能になります。開発者は、API タグを使用して新しいモデルにアクセスできます。価格は前身モデルの価格と同じです。 価格構造 は、Claude をエンタープライズ市場で競争力を持たせます。

ソフトウェア エンジニアリング以外では、Claude Opus 4.1 は、データ分析および研究タスクで強化された機能を示しています。アンソロピックは、特に「詳細追跡およびエージェント検索」の改善を強調しました。これは、モデルの複雑でマルチステップの操作全体でコンテキストを維持する能力を指します。これは、自律的な問題解決を必要とする エンタープライズ アプリケーション の重要な機能です。

業界の状況と競争

リリースのタイミングは、業界が OpenAI の GPT-5 リリースを予測している中で意図的であると思われます。The Information によると、GPT-5 はプログラミング、数学、エージェントベースのタスクに焦点を当てると予想されますが、分析家は改善が革命的ではなく漸進的である可能性が高いと予測しています。

Claude モデルの迅速なイテレーション (このアップデートは、5 月の Claude 4 ファミリーのリリースから 3 か月後に実施されました) は、企業および開発者向けツールの市場シェアをめぐる競争が激化していることを反映しています。これは、アンソロピックが OpenAI に対する安全性に重点を置いた代替品として自己位置付けを続ける中で、競合他社のパフォーマンス メトリックと競合することを示しています。

技術的詳細と実装

システム カード によると、Claude Opus 4.1 は、拡張思考モードの有無に関係なく動作できるハイブリッド推論モデルです。SWE-bench Verified や Terminal-Bench などのベンチマークでは、モデルの結果は拡張思考を使用せずに達成されましたが、GPQA Diamond や MMMU などの他のベンチマークでは、最大 64K トークンの拡張思考能力が使用されました。

モデルの SWE-bench テスト用のシンプルなスケルトンは、アンソロピックが Claude 4 ファミリー全体で使用してきたものと同じです。モデルのみに bash ツールと、文字列置換によって動作するファイル編集ツールを提供します。このミニマリスト アプローチは、より複雑な実装と比較して業界をリードする結果を達成します。

今後の展望

アンソロピックは、すべてのユースケースで Opus 4 ユーザーが新しいバージョンにアップグレードすることを推奨しています。同社は、モデル ページ と技術仕様書を含む包括的なドキュメントを提供しています。これは、開発者がこのテクノロジーを実装することに興味がある方に提供されます。

アンソロピックと OpenAI の両社が重要なリリースを準備しているため、近い将来は次の世代の AI 機能のリーダーシップを決定する上で重要な時期となる可能性があります。 AI モデル が推論およびコーディング能力でますます高度化するにつれて、競争は生のパフォーマンス メトリックから実用的実装および生産環境での信頼性への移行しています。

FAQ (Claude Opus 4.1)

Claude Opus 4.1 は、以前のバージョンと比較してコーディングおよび推論タスクをどのように改善していますか?

Claude Opus 4.1 は、SWE-bench Verified で 74.5% (Opus 4 では 72.5%) のスコアを達成し、マルチファイル コード リファクタリング、複雑なコードベースでの詳細追跡、およびマルチステップの推論タスクをより効果的に処理できるエージェント検索機能で著名な改善を実現しています。

Claude Opus 4.1 のコーディングおよび AI エージェントの主なリアルワールド アプリケーションは何ですか?

モデルの機能は、バグを新しく導入せずに大きなコードベースをデバッグすること、複数のファイルのコードを自動的にリファクタリングすること、詳細なデータ分析、および継続的なコンテキストが必要な研究タスクに優れています。これにより、エンタープライズ ソフトウェア開発および自動ワークフロー最適化に最適なモデルとなります。

Claude Opus 4.1 の SWE-bench のパフォーマンスは、コーディング機能をどのように反映していますか?

SWE-bench Verified は、AI がオープンソース ソフトウェアの実際のバグを特定して修正する能力を測定し、Claude Opus 4.1 の 74.5% のスコアは、公開された最高のパフォーマンスを表し、OpenAI の o シリーズ モデルよりも約 5 パーセントポイント高くなります。

Claude Opus 4.1 と他の AI モデル (例: GitHub Copilot または ChatGPT) の主な違いは何ですか?

GitHub Copilot がコード補完に重点を置いているのとは異なり、Claude Opus 4.1 はデバッグやリファクタリングを含む完全な問題解決ワークフローを処理します。また、標準の ChatGPT 実装にはない、簡単な回答と拡張思考の両方を可能にするハイブリッド推論モードを提供します。

開発者と企業は、ワークフローとプラットフォームに Claude Opus 4.1 を統合する方法は何ですか?

開発者は、API タグ「claude-opus-4-1-20250805」、または Amazon Bedrock、Google Cloud Vertex AI、また Claude Code を介して Claude Opus 4.1 にアクセスできます。価格は Opus 4 と同じです。既存の実装にはコードの変更は必要ありません。 価格構造 は、エンタープライズ市場で Claude を競争力を持たせます。

Alex McFarlandは、人工知能の最新の開発を探求するAIジャーナリスト兼ライターです。彼は、世界中の数多くのAIスタートアップや出版物と共同しています。