サイバーセキュリティ

オープンAIが明らかにしたこと – AIブラウザは完全に安全になることはないかもしれない

mm

オープンAIは12月22日に、セキュリティブログポストを公開しました。このポストには、注目すべき認識が含まれています。AIブラウザに対するプロンプトインジェクション攻撃は「完全に解決されることはないかもしれない」ということです。この認識は、オープンAIがChatGPT Atlasを発売してから2ヶ月後に発表されました。ChatGPT Atlasは、自律エージェント機能を備えたブラウザです。

この会社は、プロンプトインジェクションを「ウェブ上的詐欺や社会工学的攻撃」と比較しました。これらは、攻撃者が排除するのではなく、防御者が管理する持続的な脅威です。AIエージェントがユーザーの代わりにインターネットをナビゲートすることを信頼するユーザーにとって、このフレーミングは、どの程度の自律性が適切かについて基本的な疑問を提起します。

オープンAIが明らかにしたこと

このブログポストでは、Atlasの防御アーキテクチャについて説明しています。強化学習を搭載した「自動攻撃者」が、悪意のあるアクターが見つける前に脆弱性を探索します。会社は、この内部のレッドチームが「人間のレッドチームキャンペーンや外部の報告では見つからなかった新しい攻撃戦略」を発見したと主張しています。

一つのデモでは、悪意のあるメールがAIエージェントをユーザーの受信トレイでハイジャックする方法を示しました。指示された出張の返信を書く代わりに、エージェントは辞職メッセージを送信しました。オープンAIは、最新のセキュリティアップデートでこの攻撃を検出できるようになったと述べています。しかし、この例は、AIエージェントが感染性のある状況で自律的に動作することの重要性を示しています。

自動攻撃者は「複雑で長期的な有害なワークフローを実行するエージェントを誘導することができます。これは、10回(または100回)以上のステップで展開されます」とオープンAIは書いています。この機能により、オープンAIは外部の攻撃者よりも早く欠陥を見つけることができます。しかし、プロンプトインジェクション攻撃がどれほど複雑で有害になる可能性があるかも示しています。

イメージ:オープンAI

根本的なセキュリティ問題

プロンプトインジェクションは、大規模言語モデルの基本的な限界を利用します。つまり、正当な指令とデータ内の悪意のあるコンテンツを信頼性高く区別できないことです。AIブラウザがウェブページを読み取ると、そのページのテキストはすべてブラウザの動作に影響を与える可能性があります。

セキュリティ研究者はこれを繰り返し実証しています。AIブラウザは、ある程度の自律性と非常に高いアクセス性を組み合わせており、これはセキュリティ空間で課題となる位置です。

攻撃には複雑な技術は必要ありません。ウェブページの隠しテキスト、慎重に作成されたメール、またはドキュメント内の不可視の指令はすべて、AIエージェントを意図しないアクションに操作することができます。いくつかの研究者は、スクリーンショットに隠された悪意のあるプロンプトが、AIがユーザーの画面の写真を撮ったときに実行されることを示しています。

オープンAIの対応

オープンAIの防御策には、敵対的にトレーニングされたモデル、プロンプトインジェクション分類器、および「スピードバンプ」が含まれます。スピードバンプでは、ユーザーは感染性のあるアクションを実行する前に確認を求められます。会社は、ユーザーにアトラスがアクセスできるものを制限することを推奨しています。具体的には、ログインアクセスを制限し、支払いまたはメッセージの前に確認を要求し、広範な指令ではなく狭い指令を提供することです。

この推奨は、明らかです。オープンAIは、基本的に自社の製品を不信感を持って扱うことをユーザーに勧めています。つまり、自律エージェントブラウザが魅力的な理由となる自律性を制限することです。ユーザーがAIブラウザにメールボックス全体を扱わせたり、財務を管理させたりしたい場合、会社が推奨しないリスクを負っています。

セキュリティアップデートにより、プロンプトインジェクション攻撃の成功率が減少します。この改善は重要ですが、残りの攻撃面も残り続け、攻撃者はオープンAIが展開する防御に対応するでしょう。

業界全体への影響

オープンAIだけがこれらの課題に直面しているわけではありません。Googleのセキュリティフレームワークは、Chromeのエージェント機能用に複数の防御レイヤーを備えています。これには、提案されたアクションを検証する別のAIモデルも含まれます。PerplexityのCometブラウザも、Braveのセキュリティ研究者から類似の検証を受けています。研究者は、悪意のあるウェブページにアクセスすると、有害なAIアクションがトリガーされる可能性があることを発見しました。

業界は、共通の理解に合意しつつあるようです。プロンプトインジェクションは、修正できるバグではなく、基本的な限界です。これは、AIエージェントが自律的に複雑で感染性のあるタスクを処理するというビジョンに重大な影響を及ぼします。

ユーザーが考慮すべきこと

正直な評価は、不安を与えるものです。AIブラウザは、完全に排除できないセキュリティ上の限界を伴う有用なツールです。ユーザーは、利便性とリスクのトレードオフに直面していますが、これはベンダーが完全に解決することはできません。

オープンAIのガイダンスは、アクセスを制限し、確認を要求し、広範な指令を避けることを推奨しています。これは、製品の効果を低下させることを意味します。これは、シニカルな姿勢ではなく、現状の限界を認めたものです。AIアシスタントがより多くのことができる場合、より多くのことが操作される可能性もあります。

従来のウェブセキュリティとの類似点は、示唆に富んでいます。ユーザーはまだ、登場してから数十年が経過したフィッシング攻撃に陥ります。ブラウザはまだ、毎日数百万の悪意のあるサイトをブロックしています。脅威は、防御が永久に解決するよりも早く適応しています。

AIブラウザは、この既存のダイナミクスに新しい次元を追加します。人間がブラウズするとき、ユーザーは何が疑わしいように見えるかについての判断を持ちます。AIエージェントは、すべての情報を同等の信頼で処理します。これにより、エージェントは操作されやすくなります。

進むべき道

オープンAIの透明性は評価に値します。会社は、根本的な問題の持続性を認めることなく、セキュリティアップデートを黙って出荷することができました。しかし、代わりに、会社は攻撃ベクターと防御アーキテクチャの詳細な分析を公開しました。この情報は、ユーザーが情報に基づいた決定を下し、競合他社が自社の保護を改善するのに役立ちます。

しかし、透明性だけでは根本的な緊張を解決しません。AIエージェントがより強力になるにつれて、より魅力的なターゲットとなります。Atlasが複雑なワークフローを処理できる機能は、同時に複雑な攻撃の機会も生み出します。

現在、AIブラウザのユーザーは、これらを完全に自律的なデジタルアシスタントとしてではなく、有意義な限界を持つ強力なツールとして扱うべきです。オープンAIは、この現実について異常に率直でした。業界のマーケティングが、セキュリティチームがすでに知っていることを追いつくかどうかが疑問です。

Alex McFarlandは、人工知能の最新の開発を探求するAIジャーナリスト兼ライターです。彼は、世界中の数多くのAIスタートアップや出版物と共同しています。