Andersonの視点
LLMデータ漏洩からプロンプトを保護する

意見 IBM NeurIPS 2024 提出 は、2024 年末に Arxiv に再浮上 した。Large Language Model (LLM) との会話中に、ユーザーが個人情報や機密情報をメッセージに提出するのを自動的に介入して防ぐシステムを提案している。このような LLM の例としては、ChatGPT がある。

ユーザーがプロンプト介入サービスとどのようにやり取りするかを調べるために使用されたモックアップ例。 ソース: https://arxiv.org/pdf/2502.18509
上記のモックアップは、IBM 研究者によって、このような「介入」の潜在的なユーザーフリクションをテストするために使用された。
GUI 実装については詳細が少ないが、ブラウザープラグイン 通信 を使用してローカルの「ファイアウォール」LLM フレームワークと連携する機能を組み込むことができる。あるいは、スタンドアロン プログラム を作成して、OpenAI API に直接フックすることができる。
しかし、ChatGPT 自体は、プロンプトが重要な情報(例:銀行口座情報)を含むと自動的に自己検閲する。

ChatGPT は、重要なセキュリティ情報(上記のプロンプトの詳細はフィクションであり、機能しない)を含むプロンプトに回答しない。 ソース: https://chatgpt.com/
しかし、ChatGPT は、他の種類の個人情報については、より寛容である。

上記の例はフィクションですが、ChatGPT は、潜在的な評判リスクまたは収益リスクを構成するデリケートな話題について、ユーザーと会話することをためらわない(上記の例は完全にフィクションである)。
この場合、代わりに「白血病の診断が人の執筆能力や移動能力に与える影響は何か?」と書く方がよかったかもしれない。
IBM プロジェクトは、このようなリクエストを「個人的」から「一般的」な立場に再解釈する。

プロンプト内の機密情報を識別するために、ローカルの LLM または NLP ベースのヒューリスティックを使用する IBM システムのスキーマ。
これは、オンライン LLM によって収集されたデータが、将来的にモデルや広告フレームワークにフィードされることはないと仮定している。
しかし、これらのシステムや構成は現在存在しないが、1990 年代初頭のインターネット採用の黎明期には、これらの機能も存在しなかった。
したがって、LLM プロンプト入力を今のうちにサニタイズする方がよい。
覚えていますか?
「ジェネリック」またはサニタイズされた LLM プロンプトを使用することの反対する要因の 1 つは、API のみの LLM である ChatGPT をカスタマイズする機能がかなり魅力的であるということである。
しかし、これには、長期にわたるプライベート情報の公開が伴う。

ChatGPT は、ユーザーが将来のプロンプトに回答するときに適用される「キャッシュ」の「記憶」を開発できるようにする。
これにより、情報が外部サーバーに保存され、将来的に変更される可能性のある利用条件に従うことになる。
一時的な健忘
ChatGPT の会話を「一時的な」ものにすることは可能だが、会話の履歴を参照できるようにしておくことは役立つ。
しかし、これらの「破棄された」会話については、OpenAI が 述べた とおり、訓練に使用されないことはわかっているが、破棄されるかどうかはわからない。
考えること
LLM には、ユーティリティーと潜在的なリスクの間にある緊張関係がある。

ユーティリティーとデータ プライバシーをバランスさせる IBM ベースの 3 つの改訂。最下部(ピンク)の帯では、システムが有意義な方法でサニタイズできないプロンプトが表示される。
IBM のアプローチでは、ネットワーク レベルで LLM に送信されるパケットを傍受し、必要に応じて送信前に書き換える。
プロンプトとしてのセキュリティ リスク
「プロンプト介入」は、Windows OS のセキュリティに似ている。
このシステムは、完全にローカルで動作する LLM を使用して、ユーザーのマシンで LLM API に送信されるプロンプトをフィルタリングする。
家のルール
構造化された分類は、Private Prompts イニシアチブの「プライベート データ定義」方法に似ている。

Private Prompts 実行可能ファイルでは、ユーザー入力テキストの代替の置換リストを作成できる。
ChatGPT の意見
ChatGPT は、IBM の提案を批判した。

ChatGPT-4o は IBM プロジェクトを低く評価している。
結論
OpenAI は、IBM の提案のようなガードレールを実装することはできない。
そして、世界中で実装することもできない。
少なくとも、有効に実装することはできない。
2025 年 2 月 27 日に初めて公開
2025 年 2 月 27 日 15:47:11 にアップデートされました。Apple 関連のリンクが不正確だったため – MA










