ソートリーダー
AIの能力が、それを封じ込めるために構築されたセキュリティモデルよりも速く進化するとき

AIツールは通常、聞き慣れた売り文句と共に登場します。ワークフローの効率化、生産性の向上、誰も楽しんでいないタスクの引き受けを約束します。そしてほとんどの場合、まさにそれを実現します。ログインを簡素化し、文書を要約し、ワークフローを自動化し、日常業務をほとんど努力なしに感じさせます。 しかし、その便利さの裏側には、別の物語があります。これらのツールはもはやテキストボックスに閉じ込められていません。オペレーティングシステムそのものに対して行動を開始しつつあります。ファイルを閲覧し、メールを下書きし、アプリケーションと対話し、かつては結果を理解した注意深い人間を必要としたアクションを実行できるようになっています。この変化は、AIを既存のセキュリティの前提が想定していなかった立場に置きます。
AIがシステムアクセスを獲得する瞬間
AIシステムが実際のファイルを読み、実際のコマンドを実行できるようになった時点で、それは信頼できるコンピューティング基盤の一部となります。それは、AI安全性について長年抱かれてきた期待が崩れ始める瞬間です。 長年、プロンプトインジェクションは奇妙なモデルの挙動と考えられてきました。これはチャットボットに誤解を招く、または不適切な応答を生成させましたが、被害は会話で終わっていました。今や、同じ欠陥が、テキストだけでなく、ホストレベルのアクションを引き起こす可能性があります。PDF、ウェブサイト、メール内に隠された悪意のある指示は、もはや奇妙な答えを生み出すのではなく、マシン上で実行されるアクションを生み出します。 これは業界が理論的として片付けられるものではありません。カーネギーメロン大学とワシントン大学の研究者たちは、隠された指示が大規模言語モデルをユーザーが意図しなかったアクションの実行に導くことを繰り返し実証しています。一方、視覚モデルを研究する研究者たちは、操作された画像が下流の行動に影響を与える方法でモデルの知覚をどのように変えうるかを示しています。 これらの実験はかつて実験室の珍奇現象として扱われていました。AIがオペレーティングシステムにアクセスできる今、それらはもはや学術的なものとは感じられません。
エージェントの能力が防御側の制御を上回るとき
これらのエージェントを構築している企業でさえ、この課題の深刻さを認めています。彼らはプロンプトを処理するためのフィルターを強化してきましたが、AIシステムの現実世界での行動を制御することは、業界全体で未解決の活発な研究分野であると率直に述べています。エージェントができることと防御側が制御できることの間のこのギャップは、既存のセキュリティプレイブックが吸収できない新たなカテゴリのリスクをもたらします。 AIエージェントは、業界が完全には準備できていない境界を越えてしまいました。これを理解する唯一の方法は、プロンプトインジェクションが今、防御側が10年以上にわたって追ってきたのと同じ攻撃チェーンとどのように交差するかを見ることです。
プロンプトインジェクションが誰もが知る攻撃チェーンにどう対応するようになったか
攻撃者は常に予測可能なパターンに従ってきました。MITRE ATT&CKフレームワークはその段階を明確に示しています。初期アクセスの後、実行、持続性確立、偵察、横移動、収集、外部送信が続きます。手法は様々ですが、構造は安定しています。 変化しているのは、配信メカニズムです。ユーザーを騙して悪意のある添付ファイルを開かせたり、危険なリンクをクリックさせたりする代わりに、攻撃者はAIエージェントが読み取る場所に指示を配置できます。エージェントは実行環境そのものになります。それは指示された通りに正確にステップを実行します。モデルはその指示が有害かどうかを問いません。判断や直感を適用せず、単純に行動します。 攻撃者がエージェントの推論に影響を与えられると、攻撃チェーンは素早く成立します。操作されたファイルが実行を引き起こし、続く指示が持続性を確立し、システム検索が偵察を提供し、ファイルアップロードが収集と外部送信を可能にします。マルウェアは必要ありません。エージェントは単に書かれた通りにステップを実行するだけです。 これが、セキュリティチームが適応に苦労している部分です。彼らは何年もかけて、コードベースの実行を中心に検知ルール、制御、対応プロセスを構築してきました。AIエージェントは異なる種類のインタープリターを導入します。それらはコンパイルされたバイナリではなく、自然言語を通じて実行します。既存のツールは、その推論プロセスを追跡したり、分析したりするようには構築されていません。
セキュリティチームは準備ができておらず、それに気づきさえしていない
セキュリティプログラムは依然として、コンテンツとアクションの間に人間が介在することを前提としています。人間は騙されるかもしれませんが、何かがおかしいと感じた時には立ち止まります。奇妙な言い回しに気づき、予期しない行動を疑問視し、意思決定の最後の段階に判断を持ち込みます。 AIエージェントはこれらのことを一切行いません。それらは一貫性があり、文字通りであり、どんな敵対者よりも速いのです。隠されたテキストのたった一行で、エージェントに機密ファイルを読ませたり、アプリケーション間を移動させたり、リモートサーバーに連絡させたりするのに十分です。これは防御側をこれまでにない立場に置きます。 セキュリティチームは、エージェントがどのように決定に至るかについて限定的な可視性しか持たず、アクションがユーザーに由来するものかAIに由来するものかを容易に判断できません。従来のマルウェア検知は役に立ちません。なぜなら、通常の意味で悪意のあるものは何も実行されておらず、エージェントが通常のコンテンツに隠された有害な指示を疑問視したり拒否したりする保証がないからです。 人間の行動のために設計されたツールは、自然言語がシステムの振る舞いを駆動するスクリプトとなる世界には、単純に移行できません。 実際に機能する補完的制御とは モデルの堅牢化だけでは不十分です。セキュリティチームは、たとえその推論が影響を受けていても、AIができることを制限するエージェント周辺の制御を必要としています。 いくつかの戦略が有望視されています:
- 最小権限アクセスが不可欠です。エージェントは、そのタスクに必要なファイルとアクションにのみアクセス権を持つべきです。不必要な権限を減らすことで、操作された指示による影響を制限できます。
- 人間による承認ステップは、有害なアクションが発生する前にそれを止めることができます。エージェントがコマンドの実行や保護されたデータへのアクセスなどの機密操作を試みた時、ユーザーはその要求を承認または拒否すべきです。
- コンテンツフィルタリングは、信頼できない素材とエージェントの間に緩衝材を作ります。文書、URL、外部テキストをスクリーニングすることで、隠された指示がモデルに到達する可能性を減らします。
- 包括的なロギングは必須です。エージェントが開始したすべてのアクションは記録され、レビューされる必要があります。これらのアクションは、他の特権ユーザー活動と同様に扱われるべきです。
- エージェントの行動をATT&CKの技法に対応付けることは、防御側がエージェントが有害な行動に押しやられる可能性がある場所と、ガードレールを置く必要がある場所を特定するのに役立ちます。これは、既に防御戦略を構造化しているのと同じシステムを利用します。
これらの補完的制御はリスクを排除しません。しかし、モデルレベルの防御ができない方法でリスクを封じ込めます。
業界が次に進む方向
AIエージェントは、コンピューティングの働き方における大きな変化を表しています。それらは信じられないほどの生産性を提供しますが、同時に既存のセキュリティフレームワークに収まらない種類の運用リスクも導入します。英国国家サイバーセキュリティセンターのガイダンスは始まりに過ぎず、ほとんどの組織はシステム上で行動できるエージェントを統治する明確な方法をまだ欠いています。 この瞬間は、クラウド採用の初期の日々に似ています。技術は制御よりも速く進みました。迅速に適応した組織は、変化を早期に認識し、それに合わせたプロセスを構築した組織でした。 ここでも同じことが当てはまるでしょう。AIエージェントは単なるヘルパーではありません。それらはシステムレベルに到達するオペレーターです。それらを保護するには、新しいプレイブック、新しいガードレール、そして新しいエクスポージャー(暴露)のモデリング方法が必要です。 業界はこれらのツールを恐れる必要はありません。しかし、それらを理解する必要はあります。そして迅速に動く必要があります。なぜなら、攻撃者はすでにその機会を見ているからです。問題は、防御側がまだ時間があるうちに適切な保護策を構築するかどうかです。












