ソートリーダー
チャットボットのセーフガードは誤ったセキュリティ境界である

エンタープライズAIは、すでに概念実証の段階を超えています。 23%の組織は、すでにエージェントAIシステムを拡大しています 、そして 62%は、少なくともAIエージェントの実験をしています 。これらは研究プロジェクトではありません。これらは、コードリポジトリ、顧客データ、内部API、および運用インフラストラクチャに触れるワークフローに埋め込まれたプロダクション展開です。
業界の成長への対応は、主にエージェントが稼働する前の事象に焦点を当てています。ベンダーと研究者は、事前展開のセーフガードにエネルギーを注ぎ込んでいます。 スケーリングポリシーの公開 、基盤モデルを強化する、入力をフィルタリングする、AIサプライチェーンをセキュアにする、トレーニング時に整合性を強制する。主要なAIプロバイダーは、 開発者向けのセキュリティツール に大量の投資をしています。中央的な仮定を強化しています。モデルとその入力が制御されれば、ダウンストリームのリスクを包含できるという仮定です。
それは妥当な直感ですが、ますます不完全なものです。
プロンプトはセキュリティ境界ではありません
モデルインターフェイスで動作するセーフガードは、主にアプリケーションコード、モデル構成、および基盤となるインフラストラクチャを制御するチームに利益をもたらします。彼らは、自分で構築していないAIシステムや変更できないAIシステムをセキュアにするように依頼された防御者には、ほとんど保護を提供しません。そこは大きな盲点であり、攻撃者はすでにそれを見つけました。
OpenAIの最新の脅威インテリジェンスレポート では、正確にこのダイナミクスが文書化されています。脅威アクターは、プロダクション環境でChatGPTや同様のツールを悪用しています。新しい攻撃技術を発明するのではなく、既存のワークフローにAIを埋め込んでスピードを上げています。偵察がより効率的になります。ソーシャルエンジニアリングがスケールします。マルウェア開発が加速します。攻撃面は基本的に変わりません。攻撃のスピードと量が変わりました。
もっと物語的なのは、攻撃者がツールが押し返したときにどう反応したかです。OpenAIは、脅威アクターが迅速にプロンプトを変異させ、根本的な意図を保存しながら、表面レベルのバリエーションをサイクル化してフロントエンドの制御をバイパスすることを観察しました。これは、セキュリティの実践者が前に見たパターンです。静的な防御、シグネチャーベースのアンチウイルスソフトウェアや入力フィルタリングは、ルールの更新に追随するよりも速く反復する攻撃者に対して効果を持ちません。
課題は、エージェントが自律性を獲得するにつれて複雑になります。現代のAIエージェントは、単一の交換で動作しません。多段階のアクションシーケンスを実行し、正常に見えるように個別にツールや権限を呼び出します。有効な資格情報を使用して内部APIを列挙するエージェントは、アラートをトリガーしません。ルーチンなワークフロー中に敏感なデータストアにアクセスするエージェントは、すぐにフラグを生成しません。各個別のアクションは検査に合格します。危険は、組み合わせとシーケンスにあります。
脅威がダウンストリームに移動するとき
AI展開を守るセキュリティチームは、構造的なミスマッチに直面しています。彼らが利用できるツールは、主にモデルが何と言うことを許可されているかを推論するように構築されています。彼らが管理する必要がある実際のリスクは、エージェントが許可とセットアップの後、システム、ネットワーク、アイデンティティ全体で何をしているかです。
プロンプトベースのセーフガードは、以前のルールドリブンのセキュリティアプローチと同じ根本的な弱点を共有しています。彼らは、攻撃パターンを予測する必要があるため、脆いです。彼らは、脅威が観察され、コード化されるまで防御が機能しないため、反応的です。AIを標準的な実践として採用した攻撃者によって追い越されます。入力フィルタリングに頼って脅威アクターを捕まえる防御者は、基本的に敗北しています。
実際の露出は展開後に表面化します。エージェント駆動のアクションは、事前テストで完全に予測できる方法で環境を通過します。エージェントは、エッジケースに遭遇し、設計時に扱うことを意図していないデータソースと相互作用し、元のアーキテクチャの外側のシステムからの入力を受け取り、時間の経過とともに決定を積み重ねます。事前展開テストはスナップショットです。プロダクションは連続したストリームです。スナップショットのみを守ることは、ストリームで発生するすべてのことが実質的に監視されていないことを意味します。
セキュリティ境界をエージェントの動作にシフトする
AIの回復力を構築するには、異なるフレームが必要です。目標はモデルインターフェイスを保護することではなく、エージェントのアクションの観察可能な結果を通じて攻撃者の意図を検出することです。これは重要な区別です。意図は、常にエージェントが何と言うか、または何を受け取る入力かによって表面化するわけではありません。
AIシステムをセキュアにするには、展開後にエージェントがどのように動作するかを継続的に評価することまで、エージェントの動作を検出する必要があります。静的な評価は展開時に必要ですが、不十分です。エージェントが動作する脅威環境は、常に変化しています。エージェントの動作は、同じ連続性で監視する必要があります。
これは、プロンプトの強化では解決できない問題です。アクションシーケンスを通じて表面化する悪意のある意図を検出するには、運用環境での複雑でシーケンスベースの動作を理解することができるモデルが必要です。伝統的なSIEMツールやルールベースのシステムとは異なり、行動分析のために特別に設計されたディープラーニングの基盤モデルはこれを実行できます。彼らは、エージェントの活動の完全なコンテキストで正常に見えるものを学び、従来のアラートをトリガーしない個別のアクションではトリガーされない変異を表面化します。
根本的な論理は、展開コンテキストに関係なく成り立ちます。プロンプトレイヤーに固定されたセキュリティは、実際に脅威が存在するアクションレイヤーで動作する攻撃者に常に敗北します。防御は、実際の脅威が存在する場所に移動する必要があります。
セキュリティチームが今すぐにするべきこと
このギャップを埋めるために、セキュリティリーダーが実践的なシフトを行うことができます。
フルアプリケーションスタック全体でAIの安全性を評価します。基盤モデルは1つのレイヤーです。同等に重要なのは、エージェントが展開された後にどのように動作するか、どのツールを呼び出すか、どの権限を使用するか、そしてそれらの選択が時間の経過とともにどのように進化するかです。モデル境界で停止するセキュリティ評価は、運用サーフェスをほとんど調査しません。
エージェントレベルで最小権限を適用します。AIエージェントは、指定された機能に必要なツール、API、およびデータにのみアクセスできる必要があります。この制約は、エージェントの出力が無害に思えても重要です。スコープを制限することで、危害の範囲を減らし、異常検出をより効果的にするための明確な行動基準を作成します。
エージェントをテレメトリを生成するアイデンティティとして扱います。エージェントが行うすべてのアクションは、データポイントです。セキュリティチームは、ユーザープロンプトに先行するものではなく、エージェントが開始したアクションチェーンの周りに検出ロジックを構築する必要があります。この再構成は、監視を、誰かがエージェントに何を依頼したかから、エージェントが実際に何をしたかへの移行です。そこが、攻撃者の意図が可視化される場所です。
このタスクに特化した検出モデルを使用した継続的な行動モニタリングに投資します。アクションシーケンスを通じて表面化する悪意のある意図を検出するには、特別な能力が必要です。従来のモニタリングツールは、人間が生成したアクティビティパターン用に構築されました。エージェントの動作、スピード、ボリューム、多段階構造は、コンテキストを考慮して設計された検出インフラストラクチャを必要とします。
集団防御を優先します。AI駆動の攻撃技術は、どの組織も追跡できるよりも速く進化しています。共同研究、オープンコラボレーション、コミュニティの脅威インテリジェンスは、AIセキュリティ戦略のオプションではありません。コア入力です。防御者が最新の情報を保持するのは、共同の知識に貢献し、そこから学ぶ人たちです。
行動セキュリティは実際に効果をもたらします
このシフトを行うセキュリティチームの運用的な利益は具体的です。エージェントの動作に基づく検出は、攻撃が隠蔽されている、適応している、または暗号化されている場合でも、悪意のある意図の早期識別を可能にします。入力フィルタリングを通過するプロンプトを変異させることに成功した攻撃者でも、アクションを実行する必要があります。アクションは痕跡を残します。行動検出は、被害が広がる前にそれらの痕跡を見つけます。
もしかしたら、最も重要なことは、このアプローチが組織に、セキュリティポストを劣化させることなく、AIエージェントを大規模に展開できる信頼できるパスを提供することです。多くの企業を妨げている疑問は、AIエージェントが価値を提供できるかどうかではありません。セキュリティポストが展開の拡大とともに劣化しないことを保証できるかどうかです。行動セキュリティは、プロンプトベースのコントロールが構造的にできない方法で、実行されるのではなく、実際に動作するエージェントに基づいています。












