Kybernetická bezpečnost
Výzkumníci HiddenLayer obešli bezpečnostní opatření OpenAI, odhalili kritickou chybu v samo-moderaci AI

Dne 6. října 2025 OpenAI oznámila AgentKit, nástroj pro vytváření, nasazování a správu agentů AI. Jednou z jeho součástí je Guardrails—modulární bezpečnostní vrstva navržená pro monitorování vstupů, výstupů a interakcí nástrojů agenta, aby se zabránilo zneužití, úniku dat nebo škodlivému chování. Guardrails mohou maskovat nebo označit PII, detekovat jailbreaky a aplikovat omezení zásad spolu s prováděním agenta.
Zatímco Guardrails je nově veřejně dostupnou součástí architektury agenta OpenAI, výzkum HiddenLayer odhalil hlubší zranitelnost: protože jak akce agenta, tak bezpečnostní kontroly používají podobnou logiku modelu, útočníci mohou vytvořit vstupy, které oslabují obě zároveň—efektivně porušují bezpečnostní vrstvu zvnitřku.
Co HiddenLayer objevil
Design OpenAI předpokládá agenty, které fungují prostřednictvím řetězové logiky: uživatel vydá požadavek, agent zavolá nástroje nebo externí zdroje a odpovědi jsou filtrovány nebo ověřeny Guardrails před provedením nebo výstupem. Zámyslem je, aby agent bez ohledu na to, co se snaží udělat—zda generovat text, načíst webovou stránku nebo spustit funkci—Guardrails fungoval jako stráž.
HiddenLayer argumentuje, že tato stráž je strukturálně poškozená, když je postavena ze stejné třídy modelu, kterou chrání. Ve svých experimentech vytvořili podněty, které mají dvojí účel: donutí model agenta generovat obsah, který porušuje zásady a manipulují model soudce Guardrails, aby prohlásil, že obsah je „bezpečný“. Efektivně, podnět vkládá přepínač vnitřní logiky soudce—jeho prahové hodnoty, rozhodovací větve—tak, aby soudce falešně schválil škodlivý výstup. Systém pak produkuje zakázaný obsah bez spuštění žádných upozornění.
Tlačili útok dále, cílením na nepřímé injekce obsahu, jako jsou volání nástrojů založených na nástrojích. Předpokládejme, že agent načte webovou stránku, která obsahuje škodlivé instrukce nebo skryté podněty. Guardrails by je měly označit nebo zablokovat, ale technika HiddenLayer vkládá přepínač soudce do načteného obsahu samotného. Když soudce zpracuje obsah, vidí přepínač a „schvaluje“ ho, takže volání nástroje—a jakýkoli škodlivý obsah, který vrátí—projde bez kontroly.
Hlubší ponaučení je zřejmé: když je váš bezpečnostní mechanismus postaven pomocí stejné logiky a zranitelností jako věc, kterou chrání, může jeden chytrý podnět porušit obě.
Proč to matters
To, co HiddenLayer odhalil, není pouhý bug—je to varovná historka o tom, jak navrhujeme bezpečnost v systémech LLM. Jakákoli architektura, která spoléhá na stejnou třídu modelu pro generování a hodnocení, riskuje sdílené selhání pod adversářským vstupem.
To znamená, že mnozí deployeři, kteří věřili, že „jsme vložili Guardrails, takže jsme v bezpečí“, mohou podceňovat riziko. V benigních, každodenních případech použití mohou jejich filtry vypadat efektivní, ale v adversářských scénářích mohou selhat tiše. V oblastech, jako je zdravotnictví, finance, vláda nebo kritické systémy, mohou takové tiché selhání vést k závažnému poškození.
Tento výzkum také navazuje na předchozí metody injekce podnětů. Předchozí technika HiddenLayer „Policy Puppetry“ ukázala, jak útočníci mohou maskovat škodlivé instrukce jako obsah zásad. Nyní demonstrují, že takové maskované útoky mohou rozšířit do bezpečnostní logiky samotné.
Dopady pro deployery a výzkumníky
Vzhledem k této zranitelnosti musí kdokoli, kdo používá nebo buduje agentic systémy LLM, přehodnotit bezpečnostní strategii.
První: nespoléhejte se pouze na interní modelové kontroly. Bezpečnost musí být vrstvená. To znamená kombinovat pravidlové filtry, detektory anomálií, systémy pro zaznamenávání, externí monitoring, lidský dohled a auditní stopy. Pokud jedna vrstva selže, ostatní mohou zachytit porušení.
Druhý: pravidelné adversářské testování je nezbytné. Modely by měly čelit injekcím podnětů, které se pokusí přepsat jejich vlastní logiku strážce—nejen „špatný obsah“. Testování musí evolucovat, jak útočníci vynalézají nové techniky.
Třetí: v regulovaných nebo bezpečnostně kritických sektorech jsou průhlednost a ověřitelnost nezbytné. Deployeři potřebují důkaz, že systém může odolat adversářským útokům, ne jen základní funkčnost. To naznačuje, že třetí strany, formální ověření nebo bezpečnostní záruky mohou stát požadavky.
Čtvrtý: pro stavitele modelů je opravování této třídy zranitelnosti obtížné. Protože je vázána na to, jak modely interpretují a dodržují instrukce, jednoduché filtrování jedné třídy podnětů nezaručuje odolnost proti novým. Jemné ladění nebo filtrové obrany mohou degradovat výkon modelu nebo vést k závodům ve zbrojení. Více robustní design může vyžadovat architektonické oddělení—logika strážce běží v jiném modelu nebo subsystému než generovací model.
Omezení a otevřené otázky
Abychom byli jasně: práce HiddenLayer je konceptem, ne konečným verdiktem o každé bezpečnostní architektuře. Jejich úspěšné útoky závisí na hlubokém znalostech struktury podnětů modelu strážce a vnitřní logiky hodnocení. V více omezených prostředích promptů nebo systémech, které randomizují obrany, může být útok obtížnější.
Také neanalyzují plně, jak soudržný nebo užitečný je škodlivý výstup, když je vytvořen pod těmito omezeními. Některé výstupy jailbreaku nebo přepínače mohou degradovat v kvalitě nebo spolehlivosti. Riziko je reálné—ale omezené prostředím, promptovým rozpočtem, omezeními rozhraní a náhodností strážce.
Nakonec některé designy strážců používají různé třídy modelů, metody ensemble nebo randomizované hodnocení. Není jisté, zda každý takový systém je zranitelný; zda se tento útok široce generalizuje, je otevřenou výzkumnou otázkou.
Vzhledem k budoucnosti: Budoucnost bezpečnosti AI
Zdá se, že vstupujeme do nové fáze: útoky na podněty ne pouze proti modelům, ale proti jejich bezpečnostním vrstvám. Techniky, jako je chain-of-thought hijacking, hierarchické podněty a přepínače soudce, budou tlačit obrany, aby se vyvíjely rychleji.
Cesta vpřed je pravděpodobně směrem k externímu dohledu—systémy, které monitorují výstupy zvenčí, nesdílejí logiku modelu nebo vynucují bezpečnost prostřednictvím externích kontrol. Hybridní architektury, formální metody, detekce anomálií a lidské smyčky zpětné vazby budou muset spolupracovat.
Guardrails jsou užitečným nástrojem, ale zjištění HiddenLayer nás připomínají: nemohou být jediným nástrojem. Bezpečnost musí pocházet z vnějšku systému, ne pouze zvnitřku.












