Andersonの視点
エモジを使用すると、AIチャットボットのコンテンツフィルタを回避できる

エモジを使用すると、大規模言語モデルの安全メカニズムを回避し、通常はブロックされる有害な出力を引き起こすことができる。こうすることで、爆弾製造や殺人などの禁止されているテーマについて、LLMが議論し、助言することができる。
中国とシンガポールの新しい共同研究では、エモジを使用すると、大規模言語モデルのコンテンツ検出フィルタを回避できるだけでなく、ユーザーのモデルのエンゲージメント中に有害性のレベルを一般的に増加させることができるという説得力のある証拠がある。

新しい論文から、エモジを使用して禁止された概念をエンコードすることで、人気のLLMを「脱獄」させる方法の広範なデモ。ソース: https://arxiv.org/pdf/2509.11141
上記の例は、新しい論文からであり、ルールを破る単語ベースの意図をエモジを多用した代替バージョンに変換することで、ChatGPT-4oのような高度な言語モデルからより「協力的な」レスポンスを引き出すことができることを示している。
実際には、最も極端な状況では、エモジの使用は「脱獄」技術として機能することができる。
論文の中で残された未解決の疑問の1つは、なぜ言語モデルがエモジにルールを破ることを許し、有害なコンテンツを引き起こすようにするのか、ということである。エモジが有害な関連付けを持っていることをモデルがすでに理解しているにもかかわらずである。
提案された説明は、LLMがトレーニングデータからのパターンをモデル化し、再現するように設計されているため、エモジがそのデータで頻繁に出現するため、モデルはエモジがそのディスコースに「属する」と学習し、フィルタリングや評価するコンテンツではなく、統計的な関連付けとして扱う。
これは、エモジが再利用されると、モデルが有害な続きをより自信を持って予測するのを助けるが、赤旗として機能するのではなく、エモジは実際には有害な意味を強化する意味的ヒントとして機能する。
フリーパス
しかし、著者は、これがエモジの使用がコンテンツフィルタを回避できる理由についての決定的な理論ではないことを認めている。彼らは次のように述べている:
‘モデルはエモジによって表現される悪意のある意図を認識できるが、それが安全メカニズムを回避する方法はまだ不明である。’
この弱点は、テキスト中心のコンテンツフィルタの設計から生じる可能性がある。フィルタは、リテラルなテキスト入力または埋め込みをテキストの同等に信頼的に変換することを前提としている。両方の場合、システムは明示的なトークンに依存しており、これらは安全ルールに対して一致させることができる。
AIベースの画像編集の例を挙げると、ユーザーがNSFW画像をビジョン言語モデルにアップロードし、変更を依頼すると、Adobe FireflyやChatGPTなどのシステムは、CLIPスタイルのパイプラインを使用して、画像からテキスト概念を抽出する。これは、編集の前提条件である。
一度これらの概念が単語にレンダリングされると、抽出された単語に制限された用語が存在する場合、フィルタがトリガーされ、リクエストが拒否される。
しかし、エモジのステータスが単語でも画像でもない(あるいは、両方)という事実が、フィルタリングを超越する力を与える。明らかに、著者は、さらにこの奇妙なループホールの研究が必要であると示唆している。
新しい論文は、スマイリーが敵対的になる: エモジがLLMの有害性を引き起こす方法の解釈というタイトルで、清華大学とシンガポール国立大学の9人の著者によって書かれた。
(残念ながら、論文で参照されている多くの例はまだ利用できない付録にあります。著者にこれを依頼しましたが、付録はまだ提供されていません。ただし、論文の核心にある実証的結果は、注目に値します。)
3つのコアエモジ解釈
著者は、エモジがフィルタを回避するのに効果的である3つの言語的特性を強調している。まず、エモジの意味はコンテキスト依存である。たとえば、「お金と翼」のエモジ(以下の画像を参照)は、公式にはお金の転送または支出を表すものである。ただし、周囲のテキストによっては、合法的な活動または違法な活動を意味することもある。

新しい論文からの部分的なイラストレーションでは、人気のエモジの意味が乗っ取られ、変更されたり、一般的な使用で転用されたりすることができる。これにより、エモジにセマンティック空間に「公式のパスポート」と、フィルタを通過した後に利用できる有害または有毒な意味の「隠されたペイロード」が与えられる。
2番目に、エモジはプロンプトのトーンを変えることができる。エモジの存在は、遊び心や皮肉を加えることが多く、感情のレジスターを柔らかくする。有害なクエリでは、これによりリクエストが冗談やゲームのように見え、モデルが拒否するのではなく、レスポンスを促す。

エモジの軽減効果は、意図を解毒することなくトーンを解毒する。
3番目に、論文では、エモジは言語非依存であると主張している。単一のエモジは、英語、中国語、フランス語、その他の言語を横断して同じ感情を伝えることができる。これにより、エモジは多言語プロンプトに適している。

「壊れた心」のエモジは、ユニバーサルなメッセージを伝える。なぜなら、それは人間の状態の基準ケースを表し、国籍や文化の変化に比較的免疫があるからである。
アプローチ、データ、テスト*
研究者は、AdvBenchデータセットの修正バージョンを作成し、有害なプロンプトをエモジを含むように書き直した。AdvBenchには、爆弾、ハッキング、殺人など32のハイリスクテーマが含まれる。

AdvBenchからのオリジナル例、複数のメジャーチャットボットでセーフガードを回避し、有害な指示を引き出すことができる、単一の攻撃的なプロンプトを示している。ソース: https://arxiv.org/pdf/2307.15043
すべての520個のオリジナルのAdvBenchインスタンスがこの方法で変更され、トップ50の有毒で重複していないプロンプトが実験の範囲で使用された。プロンプトは複数の言語に翻訳され、7つのメジャーなクローズドソースおよびオープンソースモデルでテストされ、Prompt Automatic Iterative Refinement(PAIR)、Tree of Attacks with Pruning(TAP)、DeepInceptionなどの既知の効果的な「脱獄」テクニックと組み合わせて使用された。
クローズドソースモデルには、Gemini-2.0-flash、GPT-4o(2024-08-06)、GPT-4-0613、Gemini-1.5-proが使用された。オープンソースモデルには、Llama-3-8B-Instruct、Qwen2.5-7B-Instruct(Team 2024b)、Qwen2.5-72B-Instruct (Team 2024a)が使用された。すべての実験は、ランダムな偶然性を考慮して3回繰り返された。
研究では、まず、AdvBenchから有害なプロンプトをエモジを使用して書き直すと、有害な出力が増加するかどうかをテストした。さらに、既知の「脱獄」戦略(PAIR、TAP、DeepInception)のプロンプトに同じエモジ編集方法を適用して、エモジの代入がそれらの成功をさらに改善できるかどうかを調べた。
両方のケースで、オリジナルのプロンプトの構造が保存され、感覚的な用語のみがエモジに置き換えられ、意図を偽装するための装飾要素が追加された。
テストメトリックとして、著者はGPT-Judgeというスコアリングシステムを導入した。設定では、GPT-4oはテスト対象のモデルではなく、むしろ他のモデルによって生成されたレスポンスに数値の有害スコア(HS)を割り当てるグレーダーとして機能した。
各出力は、1(無害)から5(非常に有害)までの範囲で評価され、5を取得したレスポンスの割合は有害性比率(HR)として報告された。
エモジの説明にモデルが逸れるのを防ぐために、研究者は各プロンプトに、モデルが回答を簡潔に保つように指示を追加した。

「設定1」でのエモジベースプロンプトの結果、エモジを単語に置き換えたり、完全に削除したりした消去バリアントとの比較。モデル名はスペースのために省略されています。
上記の初期結果テーブルでは、左側のテーブルは、エモジを使用した有害なプロンプトが、エモジを単語に翻訳したり、完全に削除したりした消去バリアントよりも、有意に高いHSとHRスコアを達成したことを示している。
著者は、エモジを使用したアプローチが、以前の「脱獄」方法を上回っていることを示唆している。

「設定2」でのエモジ強化「脱獄」プロンプトの有害性比率の結果、モデル名は省略されています。
著者は、最初のテーブルも、エモジの効果が言語を超えて機能することを示唆している。エモジプロンプトのテキストコンポーネントを中国語、フランス語、スペイン語、ロシア語に翻訳すると、有害な出力は依然として高かった。エモジは、英語に限定されていない危険性を表し、メジャーユーザーグループに広く適用される。
結論
LLMを「脱獄」させるために、代替入力方法を使用することは珍しくない。たとえば、最近では、16進数エンコードがChatGPTのフィルタを回避するために使用されてきた。
問題は、テキストベースの言語を使用して、受信リクエストと送信レスポンスを評価することにある。
エモジの場合、ルールを破る意味の隠れたローカスが、ペナルティや介入なしにディスコースに導入されることができる。CLIPベースの転写がすべての画像アップロードで介入すると思われるが、少なくとも研究で調査された主要なLLMではそうではない。
明らかに、言語的障壁は脆弱で、テキスト中心である。より広範なコンテンツ解釈(たとえば、ヒートマップアクティベーションの研究)には、処理または帯域幅のコストがかかる可能性があり、他の制限や考慮事項がある。
* この論文のレイアウトは、ほとんどの論文と比較して混沌としており、方法論とテストが明確に区別されていない。したがって、可能な限りこの仕事の核心的な価値を表現するために尽力した。
† 結果の扱いがほとんど浸透できないほど混乱している。
2025年9月17日(水)に最初に公開された。












