サイバーセキュリティ

シムビアンがサイバー防御ベンチマークを発表、AIセキュリティ能力の重大なギャップを明らかに

公開日 2026年4月28日

更新日 2026年5月16日

著者

Antoine Tardif, Unite.AIのCEO兼創設者

シムビアンが発表した新しいベンチマークは、人工知能の最も広く受け入れられている仮定の1つに挑戦している。つまり、脆弱性を発見できるモデルはそれらを防御できるという仮定である。

同社の新しく導入されたシムビアンのサイバー防御ベンチマークは、Simbian Research Labによって開発され、主要な大規模言語モデル（LLM）が実際のサイバー防御シナリオでどれほどよく機能するかを評価する。結果は明らかである。現代のAIシステムは、弱点を発見して利用することがますます効果的になっているが、攻撃を特定して停止するように依頼されたときに大きな苦労をしている。

フロンティアモデルは防御の最低基準を満たさない

ベンチマークでは、Claude Opus 4.6、GPT-5、Gemini 3.1 Proなど、主要なモデルをシミュレートされたエンタープライズ環境でテストした。

どのモデルも合格点を獲得できなかった。

Claude Opus 4.6は、テストで最も強力なパフォーマーであり、MITRE ATT&CK戦術全体で攻撃証拠を検出したが、多くのモデルは悪意のあるアクティビティの全カテゴリを特定できなかった。独立した学術研究はこれらの結果と一致しており、トップモデルは開放的な脅威ハンティングで苦労しており、現実的なシナリオでは悪意のあるイベントの小さな部分しか検出できなかったことを示している。

このギャップは、重要な制限を強調している。今日のAIシステムは、構造化された質問に答えたり、包含された問題を解決したりするには優れているが、ガイダンスなしに複雑で進化する攻撃チェーンを調査することが求められたときに失敗する。

現実的なエージェントベースの評価へのシフト

このベンチマークを際立たせているのは、その設計である。

以前のサイバーセキュリティテストとは異なり、シムビアンのアプローチは実際のテレメトリデータを使用し、モデルをエージェントベースの調査ループに配置する。モデルは、ログを調査し、仮説を形成し、独立して脅威を特定する必要がある。

これは、実際のセキュリティオペレーションセンターで人間のセキュリティアナリストがどのように動作するかを反映している。

ベンチマークには、複数のステージをまたいで攻撃手法の数十個が含まれており、モデルは時間とシステム全体で信号を接続する必要がある。また、コンテキストを変更し、決定的なスコアリングを適用することで、モデルが単にパターンを記憶するリスクも軽減する。

この現実性へのシフトは重要である。AIの開発において、実際の複雑さを正確に反映したベンチマークを作成することは、問題自体を解決するための最初のステップであることが多い。

攻撃的AIと防御的AIの間の拡大するギャップ

結果は、業界全体で出現しているより広いトレンドを強化している。

AIは、攻撃的サイバータスクで急速に改善している。最近の研究は、フロンティアモデルはすでにシミュレートされた環境でマルチステップ攻撃を実行でき、ツールを使用せずにそれを行うことが増えていることを示している。一方、防御能力は後れをとっている。

この不均衡は、拡大する非対称性を生み出している。攻撃者は自動化とスケールを利用できるが、防御者は依然として人間の専門知識と断片的なツールに大きく依存している。AIが脆弱性を特定したとしても、その重大性を誤解したり、適切に対応できなかったりする可能性があるため、検出と理解の間のギャップが強調される。

「オフザシェルフ」AIが短所を示す理由

シムビアンの結論は、AIがシステムを防御できないということではなく、単独では防御できないということである。

ベンチマークは、LLMが効果的に機能するには、外部インテリジェンス、構造化されたワークフロー、システムレベルの統合を組み合わせた「洗練されたハーネス」が必要であることを示唆している。

これは、サイバーセキュリティタスクでAIのパフォーマンスを大幅に改善するために、ツール、メモリ、コンテキストを追加することができることを示す研究と一致する。

実稼働環境では、シムビアンは、これらの追加レイヤーとモデルを組み合わせることで、検出精度を大幅に高めたと主張している。意味は明らかである。生のモデル能力は、パズルの1つの部分にすぎない。

AIセキュリティの新しいベンチマークカテゴリ

サイバー防御ベンチマークのリリースは、AIシステムが実際の展開に評価される方法において重要なステップを表している。

質問に答えるのではなく、証拠に基づいた脅威ハンティングに焦点を当てることで、問題はインテリジェンスから実行に再定義される。また、コストを測定可能な要素として導入し、モデル間のパフォーマンスと効率のトレードオフを強調する。

AIがサイバーセキュリティを再定義し続けるにつれて、このようなベンチマークは、モデルが何ができるかではなく、どこで失敗するかを理解するための不可欠なツールになる可能性がある。

今のところ、結論は明確である。AIの急速な進歩にもかかわらず、完全に自律的なサイバー防御はまだ届きにくい。次のイノベーションの段階は、より大きなモデルを構築することよりも、AIを構造化されたインテリジェンス、コンテキスト、人間の管理と組み合わせたシステムを設計することに依存する可能性が高い。

Antoine Tardif, Unite.AIのCEO兼創設者

アントワーヌは、Unite.AIのビジョナリーレーダーであり共同創設者であり、AIとロボティクスの未来を形作り推進することに尽力しています。シリアルエントレプレナーである彼は、AIが電気と同様に社会に大きな変化をもたらすと信じており、破壊的な技術とAGIの可能性について語ることがよくあります。

彼はフューチャリストとして、これらのイノベーションが私たちの世界をどのように形作るかを探求することに尽力しています。さらに、彼はSecurities.ioの創設者であり、未来を再定義し、全セクターを再構築する最先端技術への投資に焦点を当てたプラットフォームです。

Unite.AI