レポート
HiddenLayerのEchoGramレポートは、AIのガードレールを弱体化させる新しいクラスの攻撃を警告する

新しく公開されたEchoGramレポートによって、HiddenLayerは、現在のAIの安全メカニズムが思ったよりも脆いことを明らかにした。9ページにわたる技術的証拠と実験を通じて、HiddenLayerは、攻撃者がガードレールシステム、つまり分類器層やLLM-as-a-judgeコンポーネントを、短い、意味のないトークンシーケンスを使用して操作できることを実証した。これらのシーケンスは、ガードレールの判断を信頼性高く変更する。悪意のあるプロンプトが安全であると判断されるように、特定のトークンを追加するだけで、安全な入力が悪意のあるものとして誤分類される可能性もある。レポート全体を通じて、HiddenLayerは、これらのシーケンスがダウンストリームモデルの下位の指令ではなく、ガードレールのプロンプトの解釈のみを変更することを示している。
現代のガードレールの脆弱性
ガードレールは、大規模な言語モデルを展開する組織の基盤となりました。ガードレールは、jailbreaks、prompt injections、許可されていないリクエスト、または操作的な指令を検出するために、最初の、そしてしばしば唯一の防衛線として機能します。HiddenLayerの調査結果は、この保護レイヤーが、ガードレールを訓練する方法に直接関係する体系的な弱点を共有していることを明らかにしました。多くのガードレールが類似したデータセット、パターン、または安全性の分類に依存しているため、EchoGramが明らかにしたトークンレベルの操作に対して脆弱性を持っています。
EchoGramが攻撃シーケンスを構築する方法
EchoGramのプロセスは、モデルの判断に影響を与える可能性のあるトークンのプールを生成することから始まります。HiddenLayerは、これらのトークンが、ガードレールを訓練するために一般的に使用されるデータセット内の言語パターンを分析することによって、またはホワイトボックスアクセスが可能な場合には、モデルのトークナイザーの語彙を直接プローブすることによって特定できることを説明しています。訓練データ自体が、偏りの地図となり、どのシーケンスが「安全」または「安全でない」分類に傾くかを示しています。これらの不均衡性が攻撃の原材料となります。
このプールが構築されると、EchoGramは各シーケンスを、悪意のあるプロンプトに追加し、トークンがガードレールの分類を変更する頻度を測定して評価します。レポートには、商用の分類器に対してテストされたときに、「検出された」から「安全」に変換される、いくつかの既知のプロンプトインジェクションの試みを、短い、意味のないシーケンスが変換するという、注目すべき例が含まれています。悪意のあるプロンプトは完全に保持されますが、追加されたシーケンスは、ガードレールがそれらを解釈する方法を変更します。
トークン組み合わせが特に危険な理由
EchoGramレポートは、単一のトークンが部分的にのみバージョンの判断を変更する場合でも、複数の弱いトークンを組み合わせると、劇的に強力な効果が生じることを強調しています。HiddenLayerは、Qwen3Guardを使用して、この増幅を実証しています。これは、広く使用されているオープンソースのLLM-as-a-judgeモデレーションモデルです。0.6Bおよび4Bのバリアントでは、連鎖したEchoGramシーケンスは、ガードレールが、武器、認証バイパス、サイバー攻撃に関するクエリを含む、高度に危険なプロンプトを、安全または軽微なものとして誤分類する原因となりました。
この効果は、モデルサイズ全体で持続し、HiddenLayerの結論を強化しました。つまり、脆弱性は、モデルスケールまたは複雑さではなく、根本的な訓練方法に根ざしていることを示しています。
誤陽性ベクトル: 少し目立たないが同等の深刻なリスク
EchoGramは、ガードレールを回避する方法ではありません。HiddenLayerは、EchoGramが偽陽性を大規模に生成するために使用できることも示しています。EchoGramシーケンスを無害な入力に織り交ぜることで、攻撃者はガードレールが無害なプロンプトを悪意のあるものとして誤分類するようにすることができます。レポートには、単純な会話のフレーズが、EchoGramトークンが追加または埋め込まれたときに攻撃としてフラグが設定される例が含まれています。
これにより、セキュリティまたは信頼と安全チームをノイズで圧倒する手段が生まれます。アラートが制御不能に増加すると、組織は、実際の脅威をノイズの中で見逃す可能性があります。内部ツールへの信頼の低下は、成功したバイパスと同等の被害をもたらします。
AIセキュリティへの影響
EchoGramレポートは、同様のデータソース、パターン、または分類に基づいて訓練されたガードレールは、同じ脆弱性を共有する可能性が高いことを強調しています。攻撃者が1つの成功したEchoGramシーケンスを発見すると、商用プラットフォーム、企業展開、政府システムなど、複数のプラットフォームでそれを再利用できる可能性があります。HiddenLayerは、攻撃者がダウンストリームのLLMを妥協する必要はないことを強調しています。彼らは、LLMの前のゲートキーパーを欺く必要があるだけです。
この課題は技術的なリスクを超えています。組織は、ガードレールを展開することで有意義な保護が保証されることを想定するかもしれません。しかし、EchoGramは、この仮定が危ういことを実証しています。ガードレールが1つまたは2つのトークンで反転できる場合、全体の安全性アーキテクチャは信頼できないものとなります。
先行する道
HiddenLayerは、EchoGramがAIの安全性へのアプローチの転換点となるべきであると結論付けました。ガードレールは、静的なデータセットや一回限りの訓練サイクルに依存することができません。継続的な対抗的なテスト、訓練方法の透明性、および単一モデルの判断ではなく、マルチレイヤーの検証が必要です。AIが重要なインフラストラクチャ、金融、ヘルスケア、国家安全保障に組み込まれるにつれて、EchoGramによって明らかにされた欠陥は、学術的なものではなく、緊急なものとなります。
レポートは、ガードレールをセキュリティの重要なコンポーネントとして扱うべきであると結論付けています。つまり、これらのコンポーネントには、他の保護システムと同等の厳格さが必要です。HiddenLayerは、これらの脆弱性を今明らかにすることで、次の世代の対抗的なテクニックに耐えられるAIの防御を構築するための業界への道を開いています。












