Unite.AI

サイバーセキュリティ 2 months ago
By Alex McFarland

OpenAI、AIブラウザーは完全に安全になることはないかもしれないと認める

OpenAIは12月22日、衝撃的な認めを含むセキュリティに関するブログ記事を公開した：AIブラウザーに対するプロンプトインジェクション攻撃は「完全に解決されることはないかもしれない」。この認めは、同社が自律エージェント機能を備えたブラウザーChatGPT Atlasを発表してからわずか2ヶ月後に訪れた。同社はプロンプトインジェクションを「ウェブ上の詐欺やソーシャルエンジニアリング」に例えた——防御側が排除するのではなく管理する持続的な脅威である。ユーザーに代わってインターネットをナビゲートするようAIエージェントを信頼するユーザーにとって、この見方は、どれだけの自律性が適切かという根本的な疑問を提起する。OpenAIが明らかにしたことこのブログ記事は、Atlasのための防御アーキテクチャについて説明しており、悪意のある攻撃者が脆弱性を見つける前にそれを探す、強化学習を利用した「自動化された攻撃者」を含んでいる。同社は、この内部レッドチームが「人間によるレッドチーミングキャンペーンや外部報告には現れなかった新たな攻撃戦略」を発見したと主張している。あるデモンストレーションでは、ユーザーの受信箱をチェックしているAIエージェントを、悪意のあるメールがどのように乗っ取るかを示した。指示通り不在通知の返信を下書きする代わりに、侵害されたエージェントは退職メッセージを送信した。OpenAIは、最新のセキュリティアップデートでこの攻撃を捕捉できるようになったと述べている——しかし、この例は、AIエージェントがセンシティブな文脈で自律的に行動する際のリスクの大きさを説明している。自動化された攻撃者は「エージェントを巧妙で長期的な有害なワークフローを実行するように仕向けることができ、それは数十（あるいは数百）のステップにわたって展開する」とOpenAIは記した。この能力は、OpenAIが外部の攻撃者よりも速く欠陥を見つけるのに役立つが、プロンプトインジェクション攻撃がいかに複雑で損害を与えうるものになり得るかも明らかにしている。根本的なセキュリティ問題プロンプトインジェクションは、大規模言語モデルの基本的な限界を悪用する：それらは、正当な指示と処理するデータに埋め込まれた悪意のあるコンテンツを確実に区別することができない。AIブラウザーがウェブページを読み取るとき、そのページ上のあらゆるテキストがその動作に影響を与える可能性がある。セキュリティ研究者はこれを繰り返し実証してきた。AIブラウザーは、中程度の自律性と非常に高いアクセス権を組み合わせている——セキュリティ分野において困難な立場である。これらの攻撃には高度な技術は必要ない。ウェブページ上の隠されたテキスト、巧妙に作成されたメール、文書内の見えない指示はすべて、AIエージェントを操作して意図しない行動を実行させることができる。一部の研究者は、ユーザーの画面の写真をAIが撮影したときに実行される、スクリーンショットに隠された悪意のあるプロンプトを示している。OpenAIの対応策OpenAIの防御策には、敵対的に訓練されたモデル、プロンプトインジェクション分類器、そしてセンシティブなアクションの前にユーザーの確認を求める「速度抑制」が含まれる。同社は、ユーザーがAtlasがアクセスできるものを制限することを推奨している——ログインアクセスの制限、支払いやメッセージ送信前の確認要求、広範な指示ではなく狭い指示を提供することなどである。この推奨事項は示唆に富んでいる。OpenAIは本質的に、自社の製品を疑いの目で見て、エージェント型ブラウザーの魅力である自律性そのものを制限するよう助言している。AIブラウザーに受信箱全体の処理や財務管理を任せたいユーザーは、同社自身が推奨しないリスクを負っていることになる。このセキュリティアップデートは、プロンプトインジェクション攻撃の成功率を低下させる。その改善は重要だが、それはまた、残存する攻撃対象領域が持続することを意味する——そして攻撃者はOpenAIが展開するあらゆる防御策に適応するだろう。業界全体への影響OpenAIだけがこれらの課題に直面しているわけではない。Chromeのエージェント機能に対するGoogleのセキュリティフレームワークには、提案されたすべてのアクションを審査する別個のAIモデルを含む、複数の防御層が含まれている。PerplexityのCometブラウザーも、Braveのセキュリティ研究者から同様の精査を受けており、悪意のあるウェブページに移動すると有害なAIアクションがトリガーされる可能性があることが判明した。業界は共通の理解に収束しつつあるようだ：プロンプトインジェクションは修正すべきバグではなく、根本的な限界である。これは、AIエージェントが複雑でセンシティブなタスクを自律的に処理するというビジョンに重大な意味を持つ。ユーザーが考慮すべきこと率直な評価は居心地の悪いものだ：AIブラウザーは、より優れたエンジニアリングによって排除することのできない本質的なセキュリティ上の限界を持つ有用なツールである。ユーザーは、どのベンダーも完全に解決できない、利便性とリスクの間のトレードオフに直面している。OpenAIのガイダンス——アクセスを制限し、確認を要求し、広範な指示を避ける——は、製品のよりパワフルでないバージョンを使用するよう助言するものに等しい。これは冷笑的なポジショニングではなく、現在の限界に対する現実的な認識である。より多くのことができるAIアシスタントは、より多くのことをするように操作される可能性もまた高い。従来のウェブセキュリティとの類似点は参考になる。ユーザーはフィッシング攻撃が出現してから数十年経ってもまだ引っかかる。ブラウザーは今も毎日何百万もの悪意のあるサイトをブロックしている。脅威は防御が恒久的に解決するよりも速く適応する。AIブラウザーはこのよく知られた力学に新たな次元を加える。人間がブラウジングするとき、彼らは何が怪しいかについての判断を持ち込む。AIエージェントはすべてを等しく信頼して処理するため、より能力が高まるにつれて、操作に対してより脆弱になる。今後の展望OpenAIの透明性は評価に値する。同社は、根本的な問題の持続を認めずに、静かにセキュリティアップデートを出荷することもできた。代わりに、攻撃ベクトルと防御アーキテクチャの詳細な分析を公開した——この情報は、ユーザーが情報に基づいた決定を下し、競合他社が自らの保護を改善するのに役立つ。しかし、透明性は根本的な緊張を解決しない。AIエージェントがより強力になるほど、それらはより魅力的な標的を提示する。Atlasが複雑なワークフローを処理できるようにするのと同じ能力が、巧妙な攻撃の機会も生み出す。今のところ、AIブラウザーのユーザーは、それらを監督なしにセンシティブなタスクを処理できる完全自律型のデジタルアシスタントとしてではなく、意味のある限界を持つ強力なツールとして扱うべきである。OpenAIはこの現実について異例の率直さを示した。問題は、業界のマーケティングがセキュリティチームがすでに知っていることに追いつくかどうかである。

Unite.AI

OpenAI、AIブラウザーは完全に安全になることはないかもしれないと認める