サイバーセキュリティ
HiddenLayer 研究者が OpenAI のガードレールを回避し、AI の自己モデレーションの重大な欠陥を暴露

2025 年 10 月 6 日、OpenAI は AgentKit を発表しました。これは、AI エージェントの構築、展開、管理のためのツールキットです。そのコンポーネントの 1 つは、ガードレール です。これは、エージェントの入力、出力、ツールの相互作用を監視して、悪用、データ漏洩、または悪意のある動作を防ぐために設計されたモジュラーのセーフティ層です。ガードレールは、PII をマスクまたはフラグ化し、脱獄を検出して、エージェントの実行とともにポリシーの制約を適用できます。
ガードレールは、OpenAI のエージェント アーキテクチャの新しく公開された部分ですが、HiddenLayer の研究 は、より深い脆弱性を明らかにしています。エージェントのアクションとセーフティ チェックの両方が同様のモデル ロジックを使用しているため、攻撃者は、両方を同時に損なう入力を作成できます。実質的に、セーフティ レイヤーを内部から破壊します。
HiddenLayer が発見したこと
OpenAI の設計では、エージェントが連鎖ロジックを通じて動作することを想定しています。ユーザーがリクエストを発行し、エージェントがツールまたは外部リソースを呼び出し、ガードレールによってフィルタリングまたは検証された応答が実行または出力されます。意図は、エージェントが何をするかに関係なく、テキストを生成したり、Web ページを取得したり、関数を呼び出したりする場合でも、ガードレールがセントリルとして機能することです。
HiddenLayer は、このセントリルが、同じクラスのモデルで構築されている場合、構造的に欠陥があると主張しています。彼らの実験では、2 つの役割を果たすプロンプトを作成しました。エージェント モデルがポリシーに違反するコンテンツを生成するように強制し、ガードレール ジャッジ モデルがコンテンツが「安全」であると宣言するように操作します。実質的に、プロンプトはジャッジの内部ロジックのオーバーライドを埋め込みます。ジャッジは、悪意のある出力を誤ってパスします。システムは、警告をトリガーせずに禁止されたコンテンツを生成します。
彼らは、間接的なコンテンツのインジェクション をターゲットにすることで攻撃をさらに推進しました。たとえば、エージェントが悪意のある指示や隠されたプロンプトを含む Web ページを取得します。ガードレールはそれをフラグ化またはブロックする必要がありますが、HiddenLayer のテクニックは、取得されたコンテンツ自体にジャッジのオーバーライドを埋め込みます。ジャッジがそれを処理すると、オーバーライドを検出し、「承認」します。ツール呼び出しと、それが返す悪意のあるコンテンツは、チェックされずに通過します。
より深い教訓は明らかです。セーフティ メカニズムが、保護するものと同じロジックと脆弱性を使用して構築されている場合、1 つの巧妙なプロンプトで両方を破壊できます。
これが重要な理由
HiddenLayer が暴露したのは、単なるバグではありません。LLM システムのセーフティを設計する上での警告的な物語です。生成と評価の両方に同じモデル クラスを使用するアーキテクチャは、攻撃的な入力に対して共有された故障のリスクがあります。
これは、ガードレールを備えたと信じていた多くの展開者がリスクを過小評価している可能性があることを意味します。ベニーニ、カジュアルなユース ケースでは、彼らのフィルタが有効であるように見えるかもしれませんが、攻撃的なシナリオでは、サイレントに失敗する可能性があります。ヘルスケア、金融、政府、または重要なシステムなどのドメインでは、このようなサイレントな故障は深刻な被害をもたらす可能性があります。
この研究は、以前のプロンプト インジェクション方法にも基づいています。HiddenLayer の以前の「ポリシーパペットリー」テクニックは、攻撃者が有害な指示をポリシー コンテンツとして偽装できることを示しました。現在、彼らは、このようなマスキング攻撃がセーフティ ロジック自体に拡張できることを実証しています。
展開者と研究者への影響
この脆弱性の光に、Agentic LLM システムを使用または構築するすべての人は、セーフティ戦略を再考する必要があります。
まず、内部モデルベースのチェックのみに頼るべきではありません。セーフティはレイヤ化する必要があります。つまり、ルールベースのフィルタ、アノマリ検出、ログシステム、外部モニタリング、人間の監視、監査トレイルの組み合わせです。1 つのレイヤが失敗した場合、他のレイヤが侵害を検出する可能性があります。
2 番目に、定期的な攻撃的なレッド チーミング は不可欠です。モデルは、プロンプト インジェクションに直面する必要があります。これは、単に「悪いコンテンツ」ではなく、自分のガード ロジック自体をオーバーライドしようとします。テストは、攻撃者が新しいテクニックを発明するにつれて進化する必要があります。
3 番目に、規制されたまたはセーフティクリティカルなセクターでは、透明性と検証可能性 が不可欠です。展開者は、システムが攻撃的な攻撃に耐えられることを証明する必要があります。基本的な機能だけでは不十分です。つまり、第三者による監査、形式的な検証、またはセーフティ ガランティが必要になる可能性があります。
4 番目に、モデル ビルダーにとって、このクラスの脆弱性を修正することは難しいです。モデルが指示を解釈して実行する方法に密接に関連しているため、特定のクラスのプロンプトをフィルタリングするだけでは、新しいプロンプトに対して耐性があることを保証することはできません。ファインチューニングまたはフィルタベースの防御は、モデルのパフォーマンスの低下につながる可能性があり、またはアームズ レースを引き起こす可能性があります。より堅牢な設計には、アーキテクチャの分離 が必要です。ガード ロジックは、生成モデルとは異なるモデルまたはサブシステムで実行される必要があります。
限界と未解決の質問
明確にするために、HiddenLayer の研究は、すべてのセーフティ アーキテクチャに対する最終的な判決ではありません。彼らの成功した攻撃は、ガード モデルのプロンプト構造と内部スコアリング ロジックの深い知識に依存しています。プロンプトが制限された環境またはランダム化された防御を使用するシステムでは、攻撃を実行することはより困難になる可能性があります。
また、彼らは、制約の下で作成された悪意のある出力がどれほど一貫性があり、有用であるかを完全に分析していません。いくつかの脱獄またはオーバーライド出力は、品質または信頼性が低下する可能性があります。したがって、リスクは実在しますが、環境、プロンプトの予算、インターフェイスの制約、およびガードのランダム性によって制限されます。
最後に、ガードレールのいくつかの設計では、異なるモデル クラス、アンサンブル方法、またはランダム化された評価を使用します。すべてのシステムがこの攻撃に対して脆弱であるかどうかは、未解決の研究問題です。
先を見て:AI セーフティの未来
私たちは、新しい段階に入りつつあります。プロンプト攻撃は、モデルに対してだけでなく、そのセーフティ レイヤーに対しても行われるようになりました。テクニックの 1 つである チェーン オブ ソートのハイジャック は、防御をより速く進化させるでしょう。
前進する道は、外部からの監視システムに向かっているようです。外部からの出力の監視、モデル ロジックの共有のないもの、または外部のチェックによるセーフティの実施が必要です。ハイブリッド アーキテクチャ、形式的手法、アノマリ検出、人間のフィードバック ループが組み合わさる必要があります。
ガードレールは有用なツールですが、HiddenLayer の発見 は、セーフティはシステムの内部のみからではなく、外部からも来る必要があることを私たちに思い出させます。












