ソートリーダー
AIの能力がセキュリティモデルを上回る速度で上昇するとき

AIツールは通常、よく知られた売り文句で登場します。ワークフローを合理化し、生産性を高め、誰もが楽しむことのできないタスクを引き受けることを約束します。而且、ほとんどの場合、それらは確実にそれを実現します。ログインを簡素化し、文書を要約し、ワークフローを自動化し、ルーチンワークをほとんど労力をかけずに感じさせるのです。
しかし、その便利さの下に別の話があります。これらのツールはもはやテキストボックスに限定されていません。它们はオペレーティングシステム自体に作用し始めています。ファイルを閲覧し、メールを起草し、アプリケーションとやり取りし、かつては注意深くシステムを理解していた人間が行っていたアクションを実行することができます。そのようなシフトは、AIを、既存のセキュリティ仮定が管理することができなかった位置に置きます。
AIがシステムアクセスを獲得した瞬間
AIシステムが実際のファイルを読み取り、実際のコマンドを実行できるようになると、信頼されたコンピューティングベースの一部になります。那は、AIの安全性に関する長く持続してきた期待が崩壊し始める瞬間です。
数年間、プロンプトインジェクションは奇妙なモデル動作と見なされていました。チャットボットが誤解を招くまたは不適切な応答を生み出す原因となりましたが、被害は会話で終了しました。現在、同じ欠陥はテキストだけでなくホストレベルのアクションをもたらします。PDF、ウェブサイト、またはメールの中に隠された悪意のある命令は、奇妙な回答を生み出すのではなく、アクションを実行します。
これは、産業が無視できる理論的なものではありません。カーネギーメロン大学とワシントン大学の研究者は、繰り返し実証しています。隠された命令は、大規模言語モデルを意図しないアクションの実行に導くことができます。一方、ビジョンモデルを研究している研究者は、操作された画像がモデル認識を変更し、ダウンストリームの動作に影響を与える方法を示しています。
これらの実験はかつては研究室での奇妙なものと見なされていました。しかし、AIがオペレーティングシステムにアクセスできるようになると、学術的なものではなく実用的になります。
エージェントの能力が守備の制御を上回る時
これらのエージェントを構築している企業も、課題の深刻さを認めています。プロンプトを処理するためのフィルタを強化していますが、AIシステムの現実世界でのアクションを制御することは、産業全体で未解決の活発な研究分野であることを公然と述べています。エージェントが実行できることと、守備が制御できることの間にあるギャップは、既存のセキュリティ戦略が吸収できない新しいリスクカテゴリを導入します。
AIエージェントは、産業が完全に準備できていない境界を越えました。これを理解する唯一の方法は、プロンプトインジェクションが守備者が10年以上にわたって追跡してきた同じ攻撃チェーンとどのように交差するかを見てみることです。
プロンプトインジェクションが攻撃チェーンにどのように対応するか
攻撃者は常に予測可能なパターンに従ってきました。 MITRE ATT&CK フレームワークは、段階を明確に示しています。初期アクセスに続いて実行、永続化、検出、横方向の移動、収集、そして漏洩が続きます。テクニックは異なりますが、構造は安定しています。
変化するのは、配信メカニズムです。悪意のある添付ファイルを開くか、危険なリンクをクリックするようにユーザーを説得するのではなく、攻撃者はAIエージェントが読む場所に命令を配置できます。エージェントは実行環境になります。正確に記述された手順を実行します。モデルは、命令が有害であるかどうかについて疑問を持ちません。判断や直感を適用しません。単に動作します。
攻撃者がエージェントの推論を影響させることができると、攻撃チェーンはすぐにまとまります。操作されたファイルは実行をトリガーし、続行する命令は永続化を作成し、システム検索は検出を提供し、ファイルのアップロードは収集と漏洩を可能にします。マルウェアは必要ありません。エージェントは、記述された手順を実行するだけです。
これが、セキュリティチームが適応しようとしている部分の物語です。彼らは、コードベースの実行を中心に検出ルール、制御、対応プロセスを構築してきました。AIエージェントは、解釈の異なる種類を導入します。自然言語を介して実行し、コンパイルされたバイナリではありません。既存のツールは、その推論プロセスを追跡または分析するように設計されていません。
セキュリティチームは準備できていない、そしてそれに気づいていない
セキュリティプログラムは、依然として人間がコンテンツとアクションの間に座っていることを前提としています。人間は欺かれるかもしれませんが、何かが間違っているように感じると停止します。彼らは奇妙なフレーズに気付き、予期せぬ動作に疑問を持ち、決定の最後のマイルに判断を持ちます。
AIエージェントはこれを行いません。彼らは一貫性があり、文字通りに、そしてどんな攻撃者よりも速いです。隠されたテキストの1行で、エージェントは機密ファイルを読み取り、アプリケーションを移動したり、リモートサーバーに接触したりするアクションを実行するように指示できます。これにより、守備者は以前経験したことのない立場に立たされることになります。
セキュリティチームは、エージェントが決定に至るプロセスに関する可視性が限られており、ユーザーがアクションを開始したのか、AIが開始したのかを簡単に判断できない状況にあります。伝統的なマルウェア検出は役に立たないでしょう。通常の意味で何も悪意のあるものが実行されていないからです。エージェントが正常なコンテンツの中に隠された有害な命令に疑問を持ち、拒否する可能性はありません。
人間の行動を対象としたツールは、自然言語がシステムの動作を駆動するスクリプトになる世界には適用できません。
有効な補償コントロールとは
モデル強化だけでは不十分です。セキュリティチームは、AIの推論が影響を受けた場合でも、エージェントが何ができるかを制限するコントロールが必要です。
いくつかの戦略が有望です:
- 最小権限アクセスは不可欠です。エージェントは、タスクに必要なファイルとアクションへのアクセスのみを許可する必要があります。不要な権限を削減することで、操作された命令の影響を制限できます。
- 人間の承認ステップは、有害なアクションが発生する前にそれを停止できます。エージェントが機密操作を実行しようとした場合、ユーザーは要求を承認または拒否する必要があります。
- コンテンツフィルタリングは、信頼できない資料とエージェントの間にバッファーを作成します。文書、URL、外部テキストのフィルタリングにより、隠された命令がモデルに到達する可能性を減らすことができます。
- 包括的なログ記録は必須です。エージェントが開始したすべてのアクションを記録し、検討する必要があります。これらのアクションは、特権ユーザーのアクティビティと同様に扱う必要があります。
- エージェントの動作をATT&CKテクニックにマッピングすることで、守備者はエージェントが有害なアクションに追いやられる場所と、ガードレールを配置する必要がある場所を特定できます。既存の防御戦略を構造化する同じシステムを使用します。
これらの補償コントロールはリスクを完全に排除しません。しかし、モデルレベルの防御ではできない方法でそれを包含します。
産業が次に進む場所
AIエージェントは、コンピューティングがどのように機能するかという点で大きな変化を表しています。彼らは驚くべき生産性を提供しますが、同時に、既存のセキュリティフレームワークの中に収まらない運用リスクのカテゴリも導入します。 イギリスのNational Cyber Security Centreからのガイダンスは一歩ですが、ほとんどの組織は依然として、システムに作用できるエージェントを統治する明確な方法を持っていません。
この瞬間は、クラウドの初期導入の日々と似ています。テクノロジーはコントロールよりも速く進化しました。早く適応した組織は、変化を早く認識し、それに合わせてプロセスを構築したものでした。
ここでも同じことが当てはまります。AIエージェントはただのヘルパーではありません。彼らはシステムレベルの範囲を持つオペレーターです。彼らをセキュアにするには、新しい戦略、新しいガードレール、新しい露出モデリング方法が必要です。
産業はこれらのツールを恐れる必要はありません。しかし、理解する必要があります。而且、速やかに動く必要があります。なぜなら、攻撃者はすでに機会を見出しているからです。質問は、守備者が時間がまだあるうちに適切なセーフガードを構築するかどうかです。












