サイバーセキュリティ

HiddenLayer 研究者が OpenAI のガードレールを回避し、AI の自己モデレーションの重大な欠陥を暴露

Published October 12, 2025

Updated May 17, 2026

Antoine Tardif, CEO & Founder of Unite.AI

2025 年 10 月 6 日、OpenAI は AgentKit を発表しました。これは、AI エージェントの構築、展開、管理のためのツールキットです。そのコンポーネントの 1 つは、ガードレール です。これは、エージェントの入力、出力、ツールの相互作用を監視して、悪用、データ漏洩、または悪意のある動作を防ぐために設計されたモジュラーのセーフティ層です。ガードレールは、PII をマスクまたはフラグ化し、脱獄を検出して、エージェントの実行とともにポリシーの制約を適用できます。

ガードレールは、OpenAI のエージェントアーキテクチャの新しく公開された部分ですが、HiddenLayer の研究は、より深い脆弱性を明らかにしています。エージェントのアクションとセーフティチェックの両方が同様のモデルロジックを使用しているため、攻撃者は、両方を同時に損なう入力を作成できます。実質的に、セーフティレイヤーを内部から破壊します。

HiddenLayer が発見したこと

OpenAI の設計では、エージェントが連鎖ロジックを通じて動作することを想定しています。ユーザーがリクエストを発行し、エージェントがツールまたは外部リソースを呼び出し、ガードレールによってフィルタリングまたは検証された応答が実行または出力されます。意図は、エージェントが何をするかに関係なく、テキストを生成したり、Web ページを取得したり、関数を呼び出したりする場合でも、ガードレールがセントリルとして機能することです。

HiddenLayer は、このセントリルが、同じクラスのモデルで構築されている場合、構造的に欠陥があると主張しています。彼らの実験では、2 つの役割を果たすプロンプトを作成しました。エージェントモデルがポリシーに違反するコンテンツを生成するように強制し、ガードレールジャッジモデルがコンテンツが「安全」であると宣言するように操作します。実質的に、プロンプトはジャッジの内部ロジックのオーバーライドを埋め込みます。ジャッジは、悪意のある出力を誤ってパスします。システムは、警告をトリガーせずに禁止されたコンテンツを生成します。

彼らは、間接的なコンテンツのインジェクションをターゲットにすることで攻撃をさらに推進しました。たとえば、エージェントが悪意のある指示や隠されたプロンプトを含む Web ページを取得します。ガードレールはそれをフラグ化またはブロックする必要がありますが、HiddenLayer のテクニックは、取得されたコンテンツ自体にジャッジのオーバーライドを埋め込みます。ジャッジがそれを処理すると、オーバーライドを検出し、「承認」します。ツール呼び出しと、それが返す悪意のあるコンテンツは、チェックされずに通過します。

より深い教訓は明らかです。セーフティメカニズムが、保護するものと同じロジックと脆弱性を使用して構築されている場合、1 つの巧妙なプロンプトで両方を破壊できます。

これが重要な理由

HiddenLayer が暴露したのは、単なるバグではありません。LLM システムのセーフティを設計する上での警告的な物語です。生成と評価の両方に同じモデルクラスを使用するアーキテクチャは、攻撃的な入力に対して共有された故障のリスクがあります。

これは、ガードレールを備えたと信じていた多くの展開者がリスクを過小評価している可能性があることを意味します。ベニーニ、カジュアルなユースケースでは、彼らのフィルタが有効であるように見えるかもしれませんが、攻撃的なシナリオでは、サイレントに失敗する可能性があります。ヘルスケア、金融、政府、または重要なシステムなどのドメインでは、このようなサイレントな故障は深刻な被害をもたらす可能性があります。

この研究は、以前のプロンプトインジェクション方法にも基づいています。HiddenLayer の以前の「ポリシーパペットリー」テクニックは、攻撃者が有害な指示をポリシーコンテンツとして偽装できることを示しました。現在、彼らは、このようなマスキング攻撃がセーフティロジック自体に拡張できることを実証しています。

展開者と研究者への影響

この脆弱性の光に、Agentic LLM システムを使用または構築するすべての人は、セーフティ戦略を再考する必要があります。

まず、内部モデルベースのチェックのみに頼るべきではありません。セーフティはレイヤ化する必要があります。つまり、ルールベースのフィルタ、アノマリ検出、ログシステム、外部モニタリング、人間の監視、監査トレイルの組み合わせです。1 つのレイヤが失敗した場合、他のレイヤが侵害を検出する可能性があります。

2 番目に、定期的な攻撃的なレッドチーミング は不可欠です。モデルは、プロンプトインジェクションに直面する必要があります。これは、単に「悪いコンテンツ」ではなく、自分のガードロジック自体をオーバーライドしようとします。テストは、攻撃者が新しいテクニックを発明するにつれて進化する必要があります。

3 番目に、規制されたまたはセーフティクリティカルなセクターでは、透明性と検証可能性 が不可欠です。展開者は、システムが攻撃的な攻撃に耐えられることを証明する必要があります。基本的な機能だけでは不十分です。つまり、第三者による監査、形式的な検証、またはセーフティガランティが必要になる可能性があります。

4 番目に、モデルビルダーにとって、このクラスの脆弱性を修正することは難しいです。モデルが指示を解釈して実行する方法に密接に関連しているため、特定のクラスのプロンプトをフィルタリングするだけでは、新しいプロンプトに対して耐性があることを保証することはできません。ファインチューニングまたはフィルタベースの防御は、モデルのパフォーマンスの低下につながる可能性があり、またはアームズレースを引き起こす可能性があります。より堅牢な設計には、アーキテクチャの分離 が必要です。ガードロジックは、生成モデルとは異なるモデルまたはサブシステムで実行される必要があります。

限界と未解決の質問

明確にするために、HiddenLayer の研究は、すべてのセーフティアーキテクチャに対する最終的な判決ではありません。彼らの成功した攻撃は、ガードモデルのプロンプト構造と内部スコアリングロジックの深い知識に依存しています。プロンプトが制限された環境またはランダム化された防御を使用するシステムでは、攻撃を実行することはより困難になる可能性があります。

また、彼らは、制約の下で作成された悪意のある出力がどれほど一貫性があり、有用であるかを完全に分析していません。いくつかの脱獄またはオーバーライド出力は、品質または信頼性が低下する可能性があります。したがって、リスクは実在しますが、環境、プロンプトの予算、インターフェイスの制約、およびガードのランダム性によって制限されます。

最後に、ガードレールのいくつかの設計では、異なるモデルクラス、アンサンブル方法、またはランダム化された評価を使用します。すべてのシステムがこの攻撃に対して脆弱であるかどうかは、未解決の研究問題です。

先を見て：AI セーフティの未来

私たちは、新しい段階に入りつつあります。プロンプト攻撃は、モデルに対してだけでなく、そのセーフティレイヤーに対しても行われるようになりました。テクニックの 1 つであるチェーンオブソートのハイジャックは、防御をより速く進化させるでしょう。

前進する道は、外部からの監視システムに向かっているようです。外部からの出力の監視、モデルロジックの共有のないもの、または外部のチェックによるセーフティの実施が必要です。ハイブリッドアーキテクチャ、形式的手法、アノマリ検出、人間のフィードバックループが組み合わさる必要があります。

ガードレールは有用なツールですが、HiddenLayer の発見は、セーフティはシステムの内部のみからではなく、外部からも来る必要があることを私たちに思い出させます。

Antoine Tardif, CEO & Founder of Unite.AI

アントワーヌは、Unite.AIの創設パートナーであり、ビジョナリーなリーダーです。彼は、AIとロボティクスの未来を形作り、推進するという、揺るぎない情熱に突き動かされています。シリアルエントレプレナーである彼は、AIは電気と同じように社会に大きな変革をもたらすと信じており、破壊的な技術やAGIの潜在能力について熱く語ることがよくあります。

As a futurist、彼は、これらのイノベーションが私たちの世界をどのように形作るかを探求することに尽力しています。さらに、彼は、Securities.ioの創設者であり、未来を再定義し、全セクターを再構築する最先端技術への投資に焦点を当てたプラットフォームです。

Unite.AI