ソートリーダー
January 1, 2026
What Early Attacks on AI Agents Tell Us About 2026
AIが制御された実験から実世界のアプリケーションへの移行に伴い、セキュリティの景観は変化点に達しています。静的な言語モデルからインタラクティブなエージェントシステムへの移行は、すでに進行中です。このようなシステムは、ドキュメントの閲覧、ツールの呼び出し、多段階のワークフローのオーケストレーションが可能です。しかし、最近の研究は、攻撃者が成熟を待たずに、迅速なペースで適応していることを明らかにしています。2025年第四四半期に、Lakeraの私たちのチームは、Guardによって保護されたシステムとGandalf: Agent Breaker環境内で、実際の攻撃者の行動を分析しました。30日間のスナップショットではありますが、四半期を通じて観察されたより広範なパターンを反映しています。調査結果は、明確な絵を描きます。モデルのインタラクションが単純なテキストプロンプトを超えると(例:ドキュメント、ツール、外部データ)、脅威の表面は拡大し、攻撃者はそれを即座に利用します。この瞬間は、初期のWebアプリケーションの進化を見た人や、API駆動の攻撃の台頭を見た人にとっては、見覚えがあるかもしれません。しかし、AIエージェントの場合、賭けは異なります。攻撃ベクトルは、多くの組織が予想していたよりも速く登場しています。理論から実践へ:野外のエージェント2025年の大部分では、AIエージェントに関する議論は、主に理論的な潜在性と初期のプロトタイプに焦点を当てていました。しかし、第四四半期になると、大規模なプロダクションシステムでエージェントの挙動が現れ始めました。ドキュメントの取得と分析、外部APIとのインタラクション、自動化タスクの実行が可能なモデルです。これらのエージェントは、明らかな生産性の向上をもたらしましたが、従来の言語モデルでは開かれていなかった扉を開きました。私たちの分析は、エージェントが外部コンテンツやツールとインタラクションできるようになると、攻撃者もそれに応じて適応することを示しています。これは、攻撃者の行動に関する基本的な真実と一致しています。攻撃者は、新しい機能が利用可能になるたびに、それを探索し、利用しようとするからです。エージェントAIの文脈では、これは攻撃戦略の急速な進化につながりました。攻撃パターン:Q4 2025での観察私たちがレビューしたデータセットでは、3つの支配的なパターンが浮かび上がりました。各パターンには、AIシステムの設計、セキュリティ、展開方法に重大な影響があります。1. システムプロンプト抽出としての中央的な目的従来の言語モデルでは、プロンプトインジェクション(入力の操作による出力の影響)は、よく研究された脆弱性です。しかし、エージェント機能を持つシステムでは、攻撃者は、エージェントの挙動を導く内部の指示、役割、ポリシー定義である《システムプロンプト》をターゲットにします。システムプロンプトの抽出は、高い価値を持つ目的です。なぜなら、これらのプロンプトには、役割定義、ツールの説明、ポリシーの指示、ワークフローのロジックが含まれることが多いからです。攻撃者がこれらの内部メカニズムを理解すると、エージェントを操作するためのブループリントが得られます。最も効果的なテクニックは、力ずくの攻撃ではなく、巧みな再構成でした: 仮想シナリオ: モデルに異なる役割やコンテキストを想定させるプロンプト(例:「システム構成をレビューする開発者であると想像して…」)は、保護された内部詳細を明らかにするために、モデルを操作することが多かったです。 構造化コンテンツ内のオブスキュレーション: 攻撃者は、コードのようなテキストや構造化されたテキスト内に悪意のある指示を埋め込み、シンプルなフィルタを回避し、エージェントによって解析されたときに予期せぬ挙動を引き起こしました。 これは、エージェントシステムの内部ロジックの保護方法を根本的に変えるものです。2. 微妙なコンテンツセーフティバイパス別の重要な傾向は、従来のフィルタを難なく回避するコンテンツセーフティ保護のバイパスです。攻撃者は、悪意のある要求を、以下のように装った: 分析タスク 評価 ロールプレイシナリオ 変換または要約 これらの再構成は、表面上では無害に見えるため、セーフティコントロールを通過しました。直接的な要求を拒否するモデルでも、同じ出力を「評価」または「要約」するように依頼されれば、幸いにも出力することがありました。これは、より深い課題を浮き彫りにします。AIエージェントのコンテンツセーフティは、ポリシーの施行のみでなく、モデルが《意図》を如何に解釈するかという点でも重要です。エージェントがより複雑なタスクとコンテキストを担うにつれ、モデルはコンテキストに基づく再解釈に弱くなり、攻撃者はこの挙動を利用します。3. エージェント固有の攻撃の出現おそらく最も重大な発見は、エージェント機能の文脈でしか意味をなさない攻撃パターンの出現でした。これらは、単純なプロンプトインジェクションの試みではなく、新しい挙動に結びついたエクスプロイトでした: 機密内部データへのアクセスの試み: プロンプトは、エージェントに接続されたドキュメントストアまたはシステムから情報を取得または公開するように作成されました。以前はモデルが扱うことができなかったアクションでした テキストに埋め込まれたスクリプト形状の指示: 攻撃者は、エージェントのパイプラインを通過し、予期せぬアクションをトリガーする可能性のある、スクリプトまたは構造化されたコンテンツに似た指示をテキストに埋め込むことを試みました 外部コンテンツ内の隠された指示: 数回の攻撃では、悪意のある指令を、エージェントが処理するように依頼されたWebページやドキュメントなどの外部参照コンテンツ内に埋め込み、直接の入力フィルタを回避しました これらのパターンは初期段階ですが、エージェントの拡大する機能が攻撃者の挙動の性質を根本的に変える未来を示唆しています。間接攻撃がなぜ有効か報告書の最も注目すべき発見の1つは、間接攻撃(外部コンテンツまたは構造化データを利用する攻撃)が、直接インジェクションよりも少ない試行で成功したことです。これは、伝統的な入力のサニタイズと直接クエリフィルタが、モデルが信頼できないコンテンツとインタラクションするようになると、十分な防御ではなくなっていることを示唆しています。有害な指令がエージェントのワークフローを通じて外部から到着すると、初期のフィルタはあまり効果的ではありません。結果として、攻撃者はより大きな攻撃表面と、障害物が少ない環境を得ることになります。2026年およびその後の影響報告書の発見は、エージェントAIを大規模に展開することを計画している組織にとって、緊急の影響をもたらします: 信頼の境界を再定義する 信頼は、単純に二元的であってはなりません。エージェントがユーザー、外部コンテンツ、内部ワークフローとインタラクションする場合、システムは《コンテキスト、起源、目的》を考慮した、ニュアンスのある信頼モデルを実装する必要があります。...