Amanda Rousseau, Principal AI security Researcher, Straiker

ソートリーダー January 9, 2026

マルチモーダル攻撃の到来の波: AIツールが新しいエクスプロイトサーフェスになる時

大規模言語モデル（LLM）は、テキスト、画像、音声、コードを処理できるマルチモーダルシステムに進化し、外部ツールやコネクタを強力にオーケストレートできるようになっています。この進化により、組織が認識する必要がある拡張された攻撃面が生まれます。マルチモーダルシステムの進化により、AIツールが新しいエクスプロイトサーフェスになる可能性があります。攻撃者は、単純なテキストプロンプトを使用してツールの誤用をトリガーしたり、未承認のアクションを実行したり、合法的なチャネルを介して機密データを抽出することができます。これらの機能は、防御ではなくアクセシビリティのために設計されているため、低スキルな攻撃者でもAIシステムを使用して、コードを1行も書かずに複雑な操作を実行できます。マルチモーダルAIがエクスプロイトチェーンになる方法LLMは、外部システムのオーケストレーターとして増えているため、今日の統合には、API、電子メール、クラウドストレージ、コード実行ツールなどが含まれています。これらのコネクタは、防御ではなくアクセシビリティのために構築されています。これには、プロンプト駆動のツール誤用などの新しいエクスプロイトの波が生じる可能性があります。たとえば、攻撃者は、プロンプトインジェクションの指示が挿入された画像を使用して電子メールを送信できます。画像からテキストを抽出するには、光学文字認識（OCR）ツールが必要です。エージェントは、電子メールに返信し、ターゲットの自宅アドレスにGoogleマップを添付するように指示され、被害者のロケーションを匿名化解除します。また、クロスモーダルガードレール回避などのメカニズムもあります。これは、ツールの入力と出力の間にあるガードレールに関連しています。たとえば、OCR抽出器の出力の分析では、出力から発見されたプロンプトインジェクションに対する十分なガードレールがない可能性があります。構造的な弱点もあります。1つの問題は、モデルと呼び出せる外部ツールとの間の緩い、過度に許容的なバインディングです。つまり、単純な自然言語プロンプトで、コードの実行、ファイルのアクセス、電子メールとのやり取りなどの実際のアクションをトリガーすることができます。また、これらのシステムには、厳格なアクセス制御が不足していることが多く、AIは、人間が承認することのないデータの書き込み、削除、または変更を行うことができます。問題は、コネクタやMCPスタイルの拡張機能を考慮するとさらに深刻化します。これらは、ほとんどのガードレールなしで付加され、AIのリーチを、個人ストレージ、インボックス、クラウドプラットフォームにほとんどの監視なしで拡大します。これらの構造的な弱点は、クラシックなセキュリティの問題、たとえば、データの抽出、サンドボックスのエスケープ、さらにはメモリの汚染が、巧妙に作成されたプロンプトのみでトリガーされる可能性がある環境を作り出します。新たな脅威: これから来るものこの新しい通常、AIを使用した電子メールやソーシャルエンジニアリング攻撃が迫っています。フィッシングの量は、LLMを攻撃者が使用することにより増加します。通常のスパムフィルタをバイパスすることが、首を絞めるポイントです。インボックスに接続されたAIエージェントは、フィッシング攻撃の成功確率を高めます。ユーザーがエージェントをGmailまたはOutlookに接続すると、電子メールベースの脅威が増える可能性があります。攻撃者は、AIにスパムまたはスピアフィッシングキャンペーンを実行するように指示できます。このシナリオでは、AIからAIへのフィッシングが現実的になります。マルチモーダルシステムは、コード実行機能を提供し始めています。エスケープパスにより、攻撃者は基礎となるインフラストラクチャを侵害できます。サンドボックスエスケープは、ベンダーの最大の評判上の悪夢を表します。長期的なメモリ汚染や遅延トリガーもさらなる脅威を表します。永続的なメモリにより、隠されたペイロードが将来のプロンプトで活性化します。クロスモーダルトリガー（たとえば、画像またはテキストのスニペット）は、時間爆弾の動作をトリガーする可能性があります。マルチモーダル攻撃がなぜアクセスしやすく、そして危険であるかAIは攻撃能力を民主化しました。ユーザーは、コードを書くことやマルウェアを開発するスキルが必要ではありません。自然言語が、マルウェアの作成またはデータの抽出のインターフェイスになります。これは、非技術的な個人でも、プロンプトを使用してマルウェアを生成またはキャンペーンを実行できることを意味します。AIは、有害な操作の加速と拡大を可能にします。マルチモーダルエージェントは、専門家の努力がかかっていた作業を自動化できます。コード、電子メール、調査、偵察は瞬時に生成できます。ユーザーの過信と意図しない公開がAIの危害の可能性に寄与しています。ユーザーは、AIがアクセスできることを理解していないことが多く、デフォルト設定では、AIの統合が自動的に有効になります。多くの人は、電子メールやドキュメントへのAIのアクセスを過度に許可したことを認識していません。マルチモーダルセキュリティの原則と制御組織は、マルチモーダル攻撃に対するセキュリティ対策を実施する必要があります。セキュリティチームは、ツールへのアクセスをデフォルトで制限する必要があります。オプトイン制御は、自動有効化された統合に取って代わるべきです。また、すべてのAI接続システムに最小権限アクセスを適用し、書き込み/削除アクセスを削除する必要があります。これには、クロスオリジンルールとドメインのホワイトリスト（インフラストラクチャのホワイトリストであり、LLMレベルのホワイトリストではありません）が含まれます。別の重要なステップは、ツールの呼び出しに対する明示的なガードレールを構築することです。自然言語トリガーを、構造化された、型付きのコマンド検証に置き換える必要があります。ガードレールは、入力と出力の両方の絞り込みポイントである必要があります。その他の重要な原則と制御には、以下のものがあります。機密操作に対する強力な承認ワークフローを適用します。ユーザーデータを永続的なモデルメモリに保存しないでください。自動メモリのサニタイズとプロバンスチェックを適用します。コード実行環境を強化および分離します。疑わしい動作やエスケープの試みについて監視します。ユーザーの教育と透明性を強化します。エージェントがリスクの高いタスクを実行している場合に、ユーザーに確認を追加します。 AIツールが電子メール、ファイル、またはクラウドリソースにアクセスしていることを明確にします。ユーザーに、高リスクのコネクタについて警告します。マルチモーダル攻撃に対する成功AIテクノロジーは、ビジネス操作のエージェントにすばやく変化し、自然言語自体がエクスプロイトの形式になる状況を作り出しています。マルチモーダル性とツールアクセスの収束により、AIはアシスタントから攻撃の媒体になります。マルチモーダル攻撃は、LLMとそれが制御する外部システム（たとえば、API、ファイルストレージ、自動化プラットフォーム）の間の緩い統合を利用します。脅威が進化するにつれて、組織は、マルチモーダル攻撃パスを明示的に考慮する戦略を採用する必要があります。上記のベストプラクティスを使用して防御を強化することは、マルチモーダル攻撃を防止するために不可欠です。

Unite.AI

Amanda Rousseau, Principal AI security Researcher, Straiker

マルチモーダル攻撃の到来の波: AIツールが新しいエクスプロイトサーフェスになる時