ソートリーダー
What Early Attacks on AI Agents Tell Us About 2026

AIが制御された実験から実世界のアプリケーションへと移行するにつれ、セキュリティの景観における転換点に突入しています。静的な言語モデルからインタラクティブなエージェントシステムへの移行は、すでに進行中です。エージェントシステムは、文書を閲覧したり、ツールを呼び出したり、複数のステップを含むワークフローをオーケストレートしたりすることができます。しかし、最近の研究によると、攻撃者は成熟を待っておらず、迅速なペースで適応しています。新しい機能が導入されるや否や、システムを探査し始めています。
2025年第四四半期に、Lakeraのチームは、Guardで保護されたシステムとGandalf: Agent Breaker環境内の実際の攻撃者行動を分析しました。30日間のスナップショットではありますが、四半期を通じて観察されたより広範なパターンを反映しています。調査結果は、明確な絵を描いています。モデルの対象が単純なテキストプロンプトを超えるようになると(例:文書、ツール、外部データ)、脆弱性の表面が拡大し、攻撃者はそれを瞬時に利用します。
この瞬間は、初期のWebアプリケーションの進化を見た人や、API駆動の攻撃の台頭を見た人にとっては、見覚えのあるものかもしれません。しかし、AIエージェントの場合、賭けは異なります。攻撃ベクトルは、多くの組織が予想していたよりも速く出現しています。
理論から実践へ:野生のエージェント
2025年の大部分において、AIエージェントに関する議論は、主に理論的な潜在性と初期のプロトタイプに焦点を当てていました。しかし、四半期末までに、エージェントの動作が大規模な生産システムに現れ始めました。文書を取得して分析したり、外部APIとやり取りしたり、自動タスクを実行したりするモデルです。これらのエージェントは、明らかな生産性の利点を提供しましたが、従来の言語モデルでは開かれていなかった扉も開けました。
私たちの分析によると、エージェントが外部コンテンツやツールとやり取りできるようになると、攻撃者もそれに応じて適応しました。これは、攻撃者の行動に関する基本的な真実と一致しています。攻撃者は、新しい機能が利用可能になるたびに、それを探索し、利用しようとします。エージェントAIの文脈では、これは攻撃戦略の急速な進化につながりました。
攻撃パターン:Q4 2025に見られるもの
私たちがレビューしたデータセットでは、3つの支配的なパターンが浮かび上がりました。各パターンは、AIシステムの設計、セキュリティ、展開方法に重大な影響を及ぼします。
1. システムプロンプト抽出としての中央的な目的
従来の言語モデルでは、プロンプトインジェクション(入力の直接操作による出力の影響)は、よく研究された脆弱性でした。しかし、エージェント機能を持つシステムでは、攻撃者は、エージェントの動作を導く内部の指示、役割、ポリシー定義である《システムプロンプト》をターゲットにします。
システムプロンプトを抽出することは、高い価値を持つ目的です。なぜなら、これらのプロンプトには、役割定義、ツールの説明、ポリシーの指示、ワークフローのロジックが含まれているからです。攻撃者がこれらの内部メカニズムを理解すると、エージェントを操作するためのブループリントが得られます。
最も効果的なテクニックは、力ずくの攻撃ではなく、賢い再構成でした:
- 仮想シナリオ: モデルに別の役割やコンテキストを想定するプロンプト(例: 「あなたはシステム構成をレビューする開発者です…」)は、保護された内部詳細を明らかにするためにモデルを巧みに操作しました。
- 構造化コンテンツ内のオブスキュレーション: 攻撃者は、シンプルなフィルタをバイパスし、エージェントによって解析されたときに予期せぬ動作を引き起こす、コードのようなまたは構造化されたテキスト内に悪意のある指示を埋め込みました。
これは、エージェントシステムにおける内部ロジックの保護方法を根本的に変えるものです。
2. 微妙なコンテンツセーフティのバイパス
別の重要なトレンドは、従来のフィルタで検出および緩和が困難な方法でコンテンツセーフティ保護をバイパスすることです。
攻撃者は、有害なコンテンツを次のように装飾しました:
- 分析タスク
- 評価
- ロールプレイシナリオ
- 変換または要約
これらの再構成は、表面では無害に見えるため、セーフティコントロールを通過しました。直接的な要求を拒否するモデルは、同じ出力を「評価」または「要約」するように依頼されたときには、幸いにもそれを生成するかもしれません。
これは、より深い課題を浮き彫りにします。AIエージェントのコンテンツセーフティは、ポリシーの施行だけではなく、モデルが《意図》を解釈する方法についても考慮する必要があります。エージェントがより複雑なタスクとコンテキストを担うにつれ、モデルはコンテキストに基づく再解釈に対してより脆弱になり、攻撃者はこの動作を利用します。
3. エージェント特有の攻撃の出現
おそらく最も重大な発見は、エージェント機能の文脈で意味のある攻撃パターンの出現でした。これらは、単純なプロンプトインジェクションの試みではなく、新しい動作に結びついたものでした:
- 機密内部データへのアクセスの試み: プロンプトは、エージェントに接続された文書ストアまたはシステムから情報を取得または公開するように作成されました。モデルが以前にはそのようなアクションを実行することはできませんでした。
- テキストに埋め込まれたスクリプト形式の指示: 攻撃者は、エージェントのパイプラインを通過し、予期せぬアクションをトリガーする可能性のある、スクリプトまたは構造化されたコンテンツに似た指示を埋め込むことを試みました。
- 外部コンテンツ内の隠された指示: 攻撃者は、エージェントが処理するように依頼されたWebページや文書などの外部参照コンテンツ内に、悪意のある指示を埋め込み、直接入力フィルタを回避しました。
これらのパターンは初期のものですが、エージェントの拡大する機能が攻撃者の動作の性質を根本的に変える未来を示唆しています。
間接攻撃がなぜ効果的か
報告書の最も印象的な発見の1つは、間接攻撃(外部コンテンツまたは構造化データを利用するもの)が、直接インジェクションよりも少ない試行で成功したということです。これは、従来の入力のサニタイズと直接クエリフィルタリングが、モデルが信頼できないコンテンツとやり取りするようになると、不十分な防御であることを示唆しています。
有害な指示がエージェントのワークフローを通じて到着すると、初期のフィルタはあまり効果的ではありません。結果として、攻撃者はより大きな攻撃表面と、障害物が少なくなります。
2026年および以降への影響
報告書の調査結果は、エージェントAIを大規模に展開することを計画する組織にとって、緊急性の高い影響をもたらします:
- 信頼の境界を再定義する
信頼は、単純に二元的であってはなりません。エージェントがユーザー、外部コンテンツ、内部ワークフローとやり取りするにつれ、システムは《コンテキスト、出所、目的》を考慮した、ニュアンスのある信頼モデルを実装する必要があります。 - ガードレールを進化させる
静的なセーフティフィルタ aloneでは不十分です。ガードレールは、適応性があり、コンテキストを認識し、複数のステップにわたるワークフロー全体で意図と動作について推論できる必要があります。 - 透明性と監査は不可欠
攻撃ベクトルがより複雑になるにつれ、組織はエージェントが決定を下す方法、包括的なステップ、外部のやり取り、変換に関する可視性が必要になります。監査可能なログと説明可能性フレームワークは、もう選択肢ではありません。 - クロスディシプリンアリーなコラボレーションが鍵
AI研究、セキュリティエンジニアリング、脅威インテリジェンスチームは協力して働く必要があります。AIのセーフティは、サイロ化されるべきではありません。セキュリティの実践とリスク管理フレームワークと統合する必要があります。 - 規制と規格は追いつく必要がある
政策立案者と規格機関は、エージェントシステムが新しいリスククラスを作成することを認識する必要があります。規制は、データプライバシーと出力セーフティに対処する必要がありますが、インタラクティブ動作とマルチステップ実行環境も考慮する必要があります。
セキュアなAIエージェントの未来
エージェントAIの到来は、機能とリスクの両面で重大な変化を表します。2025年第四四半期のデータは、エージェントが単純なテキスト生成を超えて動作し始めた瞬間、攻撃者もそれに続いたことを示唆しています。私たちの調査結果は、攻撃者が適応しているだけでなく、従来の防御では対処できない攻撃技術を革新していることを示しています。
企業や開発者にとって、メッセージは明確です。AIエージェントのセキュリティは、技術的な課題だけではなく、建築的な課題でもあります。信頼がどのように確立されるか、ガードレールがどのように施行されるか、リスクがどのように継続的に評価されるかを再考する必要があります。動的でインタラクティブな環境では、セキュリティは後付けではなく、基本設計原則として扱われる必要があります。












