
サイバーセキュリティ
-


-

April 28, 2026 April 28, 2026 By Antoine Tardif, CEO & Founder of Unite.AI, CEO & Founder of Unite.AI
シムビアンがサイバー防御ベンチマークを発表、AIセキュリティ能力の重大なギャップを明らかに
By Antoine Tardif, CEO & Founder of Unite.AIシムビアンが発表した新しいベンチマークは、人工知能の最も広く受け入れられている仮定の1つに挑戦している。つまり、脆弱性を発見できるモデルはそれらを防御できるという仮定である。同社の新しく導入されたシムビアンのサイバー防御ベンチマークは、Simbian Research Labによって開発され、主要な大規模言語モデル(LLM)が実際のサイバー防御シナリオでどれほどよく機能するかを評価する。結果は明らかである。現代のAIシステムは、弱点を発見して利用することがますます効果的になっているが、攻撃を特定して停止するように依頼されたときに大きな苦労をしている。フロンティアモデルは防御の最低基準を満たさないベンチマークでは、Claude Opus 4.6、GPT-5、Gemini 3.1 Proなど、主要なモデルをシミュレートされたエンタープライズ環境でテストした。どのモデルも合格点を獲得できなかった。Claude Opus 4.6は、テストで最も強力なパフォーマーであり、MITRE ATT&CK戦術全体で攻撃証拠を検出したが、多くのモデルは悪意のあるアクティビティの全カテゴリを特定できなかった。独立した学術研究はこれらの結果と一致しており、トップモデルは開放的な脅威ハンティングで苦労しており、現実的なシナリオでは悪意のあるイベントの小さな部分しか検出できなかったことを示している。このギャップは、重要な制限を強調している。今日のAIシステムは、構造化された質問に答えたり、包含された問題を解決したりするには優れているが、ガイダンスなしに複雑で進化する攻撃チェーンを調査することが求められたときに失敗する。現実的なエージェントベースの評価へのシフトこのベンチマークを際立たせているのは、その設計である。以前のサイバーセキュリティテストとは異なり、シムビアンのアプローチは実際のテレメトリデータを使用し、モデルをエージェントベースの調査ループに配置する。モデルは、ログを調査し、仮説を形成し、独立して脅威を特定する必要がある。これは、実際のセキュリティオペレーションセンターで人間のセキュリティアナリストがどのように動作するかを反映している。ベンチマークには、複数のステージをまたいで攻撃手法の数十個が含まれており、モデルは時間とシステム全体で信号を接続する必要がある。また、コンテキストを変更し、決定的なスコアリングを適用することで、モデルが単にパターンを記憶するリスクも軽減する。この現実性へのシフトは重要である。AIの開発において、実際の複雑さを正確に反映したベンチマークを作成することは、問題自体を解決するための最初のステップであることが多い。攻撃的AIと防御的AIの間の拡大するギャップ結果は、業界全体で出現しているより広いトレンドを強化している。AIは、攻撃的サイバータスクで急速に改善している。 最近の研究は、フロンティアモデルはすでにシミュレートされた環境でマルチステップ攻撃を実行でき、ツールを使用せずにそれを行うことが増えていることを示している。一方、防御能力は後れをとっている。この不均衡は、拡大する非対称性を生み出している。攻撃者は自動化とスケールを利用できるが、防御者は依然として人間の専門知識と断片的なツールに大きく依存している。AIが脆弱性を特定したとしても、その重大性を誤解したり、適切に対応できなかったりする可能性があるため、検出と理解の間のギャップが強調される。「オフザシェルフ」AIが短所を示す理由シムビアンの結論は、AIがシステムを防御できないということではなく、単独では防御できないということである。ベンチマークは、LLMが効果的に機能するには、外部インテリジェンス、構造化されたワークフロー、システムレベルの統合を組み合わせた「洗練されたハーネス」が必要であることを示唆している。これは、サイバーセキュリティタスクでAIのパフォーマンスを大幅に改善するために、ツール、メモリ、コンテキストを追加することができることを示す研究と一致する。実稼働環境では、シムビアンは、これらの追加レイヤーとモデルを組み合わせることで、検出精度を大幅に高めたと主張している。意味は明らかである。生のモデル能力は、パズルの1つの部分にすぎない。AIセキュリティの新しいベンチマークカテゴリサイバー防御ベンチマークのリリースは、AIシステムが実際の展開に評価される方法において重要なステップを表している。質問に答えるのではなく、証拠に基づいた脅威ハンティングに焦点を当てることで、問題はインテリジェンスから実行に再定義される。また、コストを測定可能な要素として導入し、モデル間のパフォーマンスと効率のトレードオフを強調する。AIがサイバーセキュリティを再定義し続けるにつれて、このようなベンチマークは、モデルが何ができるかではなく、どこで失敗するかを理解するための不可欠なツールになる可能性がある。今のところ、結論は明確である。AIの急速な進歩にもかかわらず、完全に自律的なサイバー防御はまだ届きにくい。次のイノベーションの段階は、より大きなモデルを構築することよりも、AIを構造化されたインテリジェンス、コンテキスト、人間の管理と組み合わせたシステムを設計することに依存する可能性が高い。
-


-


-


-


-

February 10, 2026 February 10, 2026 By Antoine Tardif, CEO & Founder of Unite.AI, CEO & Founder of Unite.AI
バイショップフォックスがペネトレーションテストの核心にAIを導入
By Antoine Tardif, CEO & Founder of Unite.AIオフенсивセキュリティは、長年にわたり、2つの極端な間で挟まれてきた。スケールしない深く手動のペネトレーションテストと、スケールする自動スキャナーだが、低信頼性のフィンディングを大量に提示する。最新の発表で、バイショップフォックスは、人間の判断を置き換えるのではなく、専門家主導のペネトレーションテストに直接人工知能を組み込むという、3番目の道を示している。この更新の中心は、コスモスAIであり、バイショップフォックスのテスターがアプリケーションを探索し、攻撃者の行動をモデル化し、大規模なアプリケーションポートフォリオ全体で実際のリスクを検証する方法を強化するために設計された独自エンジンである。ペネトレーションテストとは何か——そしてなぜ重要なのかペネトレーションテストは、セキュリティ専門家が、アプリケーション、システム、または環境に対して、実際の攻撃をシミュレートする、制御された演習である。コンプライアンス駆動型のチェックや自動脆弱性スキャンとは異なり、ペネトレーションテストは、より深い質問に答えるように設計されている。つまり、《このシステムは実際にどのように妥協されることができるか》ということである。アプリケーションセキュリティでは、ペネトレーションテスターは、ユーザーが認証される方法、データがアプリケーションを通過する方法、権限が適用される方法、およびさまざまなコンポーネントが相互作用する方法を分析する。目的は、バグを見つけることだけではなく、欠陥が組み合わせられ、悪用され、または重要な影響(データ漏洩、口座の乗っ取り、または他のシステムへの横方向の移動など)にエスカレートされるかどうかを理解することである。これが、ペネトレーションテストが従来、人間の専門家に大きく依存してきた理由である。実際の攻撃者は適応し、テクニックを連鎖させ、ビジネスロジックを悪用する方法で自動ツールが再現するのに苦労する。しかし、この深さは従来、スケールとスピードのコストで支払われてきた。ポイントインタイムテストからポートフォリオカバレッジへ現代の企業は、単一のアプリケーションをテストすることでは苦労しない。課題はカバレッジである。組織は、頻繁なデプロイを通じて継続的に変更される、内部で開発されたアプリケーションやサードパーティアプリケーションを数十個または数百個運用していることが多い。バイショップフォックスは、コスモスAIをペネトレーションテストを、孤立したポイントインタイムエンゲージメントを超えて拡張する方法として位置付けている。複数のアプリケーション全体で発見とマッピングを加速することで、テスターは深さを犠牲にすることなく、より広範なポートフォリオを評価できる。これにより、組織は、定期的なセキュリティポストゥアのスナップショットではなく、継続的な保証に近づくことができる。コスモスAIがテストワークフローに与える影響コスモスAIは、顧客向けの自動化製品ではなく、内部の加速層として機能する。テスターは、到達可能な機能の特定、攻撃面の列挙、潜在的な攻撃パスのモデル化などのタスクを支援する。これらのタスクは、従来、ペネトレーションテストの大部分を占めていた。基礎作業に費やされる時間を短縮することで、テスターは、複雑なシナリオに重点を置くことができる。ここでは、脆弱性が相互作用する。認証、認可、およびアプリケーションロジックを含むこれらの連鎖した弱点は、最も被害を与えるものの1つでありながら、従来のスキャニングでは検出が最も難しいものである。人間の検証を設計制約とするこのアプローチの特徴は、AIによって生成されたシグナルが直接顧客に提示されることはない。すべてのフィンディングは、レポートに含める前に、専門のテスターによってレビュー、検証、およびコンテキスト化される。これは重要である。なぜなら、ペネトレーションテストの結果は、実際の決定を下すために使用されるからである。何を最初に修正するか、どれが待つことができるか、どれが存続リスクを表すか。すべてのフィンディングが確認され、悪用可能であることを保証することで、バイショップフォックスは、高品質の手動テストに関連する信頼を維持しながら、AI駆動のスピードの利点を享受することを目指している。精度を犠牲にすることなく、より迅速な結果をコスモスAIの統合は、タイムラインに直接的な影響を及ぼす。発表によると、顧客は、通常5営業日以内に検証されたフィンディングを受け取ることができ、結果は数日以内に提供される。継続的にソフトウェアをリリースする組織にとって、このより短いフィードバックループは、脆弱性の公開ウィンドウを短縮し、セキュリティチームが開発サイクルとより密接に同期するのに役立つ。大量の未検証アラートを手動でフィルタリングする必要性が減るからである。スキャナードリブンのセキュリティプログラムを超えて多くのセキュリティプログラムは、数千のフィンディングを提示する自動スキャナーに大きく依存している。これらのツールは、広範なセキュリティ対策には有用だが、理論的な問題と実際のリスクを区別するのに苦労することが多い。バイショップフォックスは、攻撃者の視点からテストを行い、認証されたアプリケーションアクセス、および人間が検証した攻撃パスを強調することで、ペネトレーションテストを、報告書の演習ではなく、優先順位付けエンジンとして位置付けている。結果は、フィンディングが少なくなるが、攻撃者が環境を実際に妥協する方法と直接関連するものになる。オフенсивセキュリティが向かう方向の兆し人工知能をペネトレーションテスターの代替としてではなく、インフラストラクチャーとして捉えることで、コスモスAIモデルは、リーチを拡大し、洞察を加速し、専門家のワークフローから摩擦を取り除くものとしている。アプリケーションのエコシステムが複雑性を増すにつれて、AI駆動のスケールと人間の判断を組み合わせるアプローチが、オフенсивセキュリティの次の段階を定義する可能性が高い。バイショップフォックスの発表は、ペネトレーションテスト自体が、この現実に応じて進化している具体的な例を示している。
-


-


-
-


-


-


-

October 12, 2025 October 12, 2025 By Antoine Tardif, CEO & Founder of Unite.AI, CEO & Founder of Unite.AI
HiddenLayer 研究者が OpenAI のガードレールを回避し、AI の自己モデレーションの重大な欠陥を暴露
By Antoine Tardif, CEO & Founder of Unite.AI2025 年 10 月 6 日、OpenAI は AgentKit を発表しました。これは、AI エージェントの構築、展開、管理のためのツールキットです。そのコンポーネントの 1 つは、ガードレール です。これは、エージェントの入力、出力、ツールの相互作用を監視して、悪用、データ漏洩、または悪意のある動作を防ぐために設計されたモジュラーのセーフティ層です。ガードレールは、PII をマスクまたはフラグ化し、脱獄を検出して、エージェントの実行とともにポリシーの制約を適用できます。ガードレールは、OpenAI のエージェント アーキテクチャの新しく公開された部分ですが、HiddenLayer の研究 は、より深い脆弱性を明らかにしています。エージェントのアクションとセーフティ チェックの両方が同様のモデル ロジックを使用しているため、攻撃者は、両方を同時に損なう入力を作成できます。実質的に、セーフティ レイヤーを内部から破壊します。HiddenLayer が発見したことOpenAI の設計では、エージェントが連鎖ロジックを通じて動作することを想定しています。ユーザーがリクエストを発行し、エージェントがツールまたは外部リソースを呼び出し、ガードレールによってフィルタリングまたは検証された応答が実行または出力されます。意図は、エージェントが何をするかに関係なく、テキストを生成したり、Web ページを取得したり、関数を呼び出したりする場合でも、ガードレールがセントリルとして機能することです。HiddenLayer は、このセントリルが、同じクラスのモデルで構築されている場合、構造的に欠陥があると主張しています。彼らの実験では、2 つの役割を果たすプロンプトを作成しました。エージェント...
-







