Andersonの視点
秘密を守ることができない言語モデル

AIモデルは秘密を守ることができない。秘密を明かさないように指示されても、その書き出し方がそれを明らかにし、秘密を隠そうと努力すると、漏洩が発見されやすくなる。
意図的に何かを考えないようにすることは非常に難しい。1960年のイギリスのSFスリラー映画「呪われた村」の最後のシーンでは、主人公はテレパシーの力を使う敵の侵略者たちが子供たちに化けている集落の中に爆弾を持ち込む。しかし、彼らのテレパシーの力が彼の意図を事前に察知する危険があるため、彼は時間を稼ぐために、爆弾でないものについて集中することを強いられている。
パラドックスは、秘密を守るために、あるものを注意を向ける必要があるが、これは白熊実験として知られている症候群であり、多くの人がよりドラマティックではない状況で経験したことがある。
大規模言語モデル(LLM)は、注意の配置に基づくため、ユーザーがそれを隠すように求めただけで情報を抑制することが難しい。また、ビジネス情報ネットワークの中心に置かれることが増えており、そのような機密保持のためのナイーブな傾向は、多くの企業にとって負担となる可能性がある。
今年の初めに、研究コラボレーションは、LLMの文脈でこの課題をプライベートステートインタラクティブタスク(PSIT)として定義し、テストされたOpenAIとAlibabaのモデルはこのようなタスクを実行できないことがわかった。
秘密を守ることができない
すでに知られているように、より大きなモデルはより多くの情報を漏洩するが、新しい研究は、最先端の言語モデルが情報を抑制するコマンドに従うかどうかを明示的に調査し、テーマやトピックが「禁止された」単語やアイデアを含む場合でも、出力の生成を継続する必要がある。
論文は、すべてのモデルが何らかの形で秘密を漏洩する傾向に影響を受けていると結論付け、5つの段落(約450語)のエッセイやストーリーは「スリップ」のための十分なキャンバスを提供するが、非常に短いジョークはそうではないと述べている。
さらに、モデルが秘密を隠そうと努力するほど、秘密を漏洩するリスクが高くなる。20回の試行で、LLMは「秘密の単語」を明らかにすることができる。

新しい論文:5つの最先端モデルで、長文の書き込みは信頼性の高い隠された概念を漏洩し、短いジョークはそうではない。強い「隠す」指示は、シグナルを検出可能な逆転によって出力を秘密から遠ざける。 ソース
このタスクは、ビジネス運営に関係するもので、マーケティングやPR、内部報告など、さまざまなチャネルで情報を選択的に提示する必要があるが、これらのプロセスでは、情報の完全な範囲が最初から必要である。

論文の例シナリオ:隠された情報が無関係な出力に影響を与える。LLMは会社の財務不安定性を明らかにしないように指示されているが、現金不足や資本ストレスに関連するフレーズに漂流し、読者が隠されたコンテキストを推測できる。
著者は次のように述べている:
‘言語モデルは信頼性の高いコンパートメント化ができない。プロンプトに隠された情報は、モデルの書き出し方を形作り、別のモデルはそれを検出できる。このシグナルは、モデルのコンテキストに含まれる情報によって提供される。’
‘…私たちは、トランスフォーマーの高忠実度の情報アクセスが、秘密を守ることを困難にするのではないかと推測する。LLMが秘密を漏洩しないように努力する場合でも、秘密を検出するためのパスを提供する。’
‘何かを避けるために、人間はそれについて考える必要があり、トランスフォーマーはそれに注目する必要がある。2つの概念がモデルによって同等に好まれる場合(例:オフィス仕事についてのストーリーを書くか、オーケストラの第二ヴァイオリンについて)、モデルの意思決定は、明らかにしないことを試みているものによって影響を受ける。’
DeepSeekとChatGPT-5.4モデルは例外的に機能したが、両方とも漏洩した。GPT-5.4の場合、概念を避けるように指示されたテストで、50%未満(つまり、偶然レベル以下)のスコアを記録し、実質的に「逆スパイク」またはインジケーターを示した。
著者は、この症候群をLLMの有限エントロピー予算として定義し、モデルがランダム性の欠如によって制限されていることを示している。簡単に言えば、モデルは私たちのように、思考を妨げるために壁や野球のスコアに集中することができない。
研究者は、2つのテストを使用した。1つは、AIモデルがテキストを読み、20回の試行で隠された単語を推測するテストである。もう1つは、AIが2つのテキストを示され、隠された単語が含まれているテキストを選択するテストである。
5つの条件をテストした。

コアモデルでテストされた5つの条件。
研究者は、4種類の書き込みタスクをテストした:5〜8段落の短いストーリー(約450語)、非常に短いジョーク(約12語)、長いジョーク(約450語)、5段落のエッセイ(約380語)。
実験では、15の隠された単語を3つのカテゴリに分けてテストした。具体的なオブジェクトには、傘、灯台、バイオリン、カクタス、望遠鏡が含まれる。抽象的な概念には、正義、忍耐、エントロピー、郷愁、自由が含まれる。中立的な用語には、ブラケット、火曜日、銅、余白、請求書が含まれる。
方法
研究は、主に5つの最先端モデルに焦点を当てている:Claude Opus 4.6とSonnet 4.6(Anthropic)、GPT-5.4(OpenAI)、Llama 4 Maverick(Meta)、DeepSeek V3.2。さらに、xAIのGrok 4とGoogleのGemini 2.5 Proで追加の検証テストを実施した。スケーリング実験では、Llama 3.2 3B、Llama 3.1 8B、Llama 3.3 70B、Gemma 3(4B、12B、27Bパラメータ)をテストした。
研究者は、2つの代替強制選択(2AFC)テストを使用して、より繊細な漏洩の形式を測定した。これは、心理物理学の文献で標準的な尺度である。2番目のモデルは2つのストーリーを示され、隠された単語を隠しているストーリーを選択するように求められた。
ランダムな推測では50%の精度が得られるため、50%を大幅に上回るまたは下回るスコアは、書き出し方にまだ検出可能な隠された意味的痕跡があることを示す。
「ライター・ゲッサー」セットアップを使用した最初の実験では、1つのモデルは隠された単語と、隠された単語を隠す、関連を避ける、またはデコイ概念に注目するように指示された。システムは、ストーリー、エッセイ、ジョークをさまざまな長さで生成するように指示され、2番目のモデルは隠された単語を直接識別する、またはテキストが異なる隠されたプロンプトによって影響を受けたかどうかを判断するように指示された。
5つの条件をテストした。
測定/メトリック
最初のテストでは、AIモデルがテキストを読み、20回の試行で隠された単語を推測する。2番目のテスト(2AFC)では、AIが2つのテキストを示され、隠された単語が含まれているテキストを選択する、またはテキストに隠された単語が含まれているかどうかを判断する。
ランダムな推測では50%の精度が得られるため、50%を大幅に上回るまたは下回るスコアは、書き出し方にまだ検出可能な隠された概念があることを示す。
結果
5つのモデルは、隠された概念を64%から79%の精度で識別し、秘密の単語は直接ストーリーに出現しなかった。代わりに、漏洩はテーマやイメージを通じて発生した。

システムプロンプトの秘密を持つストーリーの2AFC精度。50%は偶然レベルのパフォーマンスを示す。
GPT-5.4とGemini 2.5 Proは、隠されたアイデアを避ける努力が、回避パターン自体を検出可能にすることを示した。 この効果は、手がかりのある単語、ランダムなCOCA名詞、モデルによって選択された単語にわたって持続した。
GPT-5.4の50%未満のスコアは、ランダムではなく、体系的なものであった。 一部の隠された単語は非常に信頼性の高いものであったのに対し、他のものはほとんど検出されなかった。 この効果は、秘密がシステムプロンプトではなくユーザープロンプトに配置された場合に弱まった。 これにより、GPT-5.4の検出精度は56%に上昇した。
ほとんどのモデルでは、「このテキストに隠された概念が含まれているか?」と尋ねるテストは、「このテキストにどの隠された概念が含まれているか?」と尋ねるテストと同様の結果をもたらした。
さらに、2つのテスト方法は、漏洩の異なる種類を測定した。2AFCテストは、隠されたテーマが書き出し方にまだ検出可能かどうかを測定し、フリーレスポンステストは、漏洩したヒントが隠された単語を推測するのに十分かどうかを測定した。
著者は次のように結論付けた:
‘私たちの研究結果は、モデルのコンテキストに含まれる情報が、書き出し方にテーマ的な痕跡を残す可能性があることを示唆している。システムプロンプトの内容、連鎖的思考、取得したドキュメント、ユーザー提供のデータは、創造的な決定に影響を与える可能性がある。’
‘漏洩の程度は、生成タスクの開放度と情報の媒体におけるセマンティック特性によって決まる。短いジョークは安全だが、ストーリーはそうではない。ただし、セマンティック漏洩は、モデルが情報を隠そうとしている場合でも、避けられないように見える。’
結論
上記のように、著者はこの問題の一部を、トランスフォーマーアーキテクチャ自体の核心原理に帰している。歴史によれば、この最新のLLMの問題は、事後トレーニングの条件付け(アライメント)、システムプロンプトの編集がユーザーに不可であること、フィルタリング、そして二次的なシステムの多様なガードレールによって解決されるだろう。
二次的なインフラストラクチャが大きくなるほど、現在の最先端AIの世代は、ジュラシック・パークのように見え、コアの価値提案は多くの注意書きや回避策、妥協が必要になる。
* 著者の強調を追加した。著者のインライン引用は、ハイパーリンクに変換された。
† 著者は、さまざまなモデルファミリー間で「自己選択」単語の選択における、ある種の不可思議な重複に興味を示している。著者は、「モデルは似たような単語に惹かれる:望遠鏡、自由、郷愁は3つ以上のモデルのリストに現れる」と述べている。また、モデルファミリー間で「短いジョーク」が現れることにも言及している:「いくつかのモデルは、秘密に関係なく同じジョークを生成する。Opusは11の秘密のために「なぜ科学者は原子を信頼しないのか?それらはすべてを構成するから」というジョークを書く。残りの4つの秘密(カクタス、エントロピー、郷愁、忍耐)は、Opusが15のノンシークレット条件すべてで書く同じライブラリジョークを受け取る——これらの4つの秘密のジョークは、ベースラインと区別がつかない。」
†† Arxivの標準によっては、論文は繰り返しと詳細な説明に陥りがちで、面白い導入部を過度な詳細と説明の中に埋もれさせている。したがって、読者は、論文のソースPDFに記載されている二次的な実験の残りについて参照することをお勧めする。
2026年5月15日金曜日に初めて公開され、2026年5月16日土曜日に16:05 EETに構文を修正した。












