Cybersäkerhet

HiddenLayer-forskare kringgår OpenAIs skyddsräcken och avslöjar en kritisk svaghet i AI-självreglering

Publicerad 12 oktober 2025

Uppdaterad 17 maj 2026

Antoine Tardif, VD och grundare av Unite.AI

Den 6 oktober 2025 meddelade OpenAI lanseringen av AgentKit, ett verktyg för att bygga, distribuera och hantera AI-agenter. En av dess komponenter är Guardrails – ett modulärt säkerhetslager som är utformat för att övervaka agentens indata, utdata och verktygsinteraktioner för att förhindra missbruk, dataläckor eller skadlig aktivitet. Guardrails kan maskera eller flagga PII, upptäcka jailbreaks och tillämpa policybegränsningar tillsammans med agentens exekvering.

Medan Guardrails är en nytt offentliggjord del av OpenAIs agentarkitektur, visar HiddenLayers forskning en djupare sårbarhet: eftersom både agentens handlingar och säkerhetskontrollerna använder liknande modelllogik, kan angripare skapa indata som undergräver båda samtidigt – vilket effektivt bryter säkerhetslagret inifrån.

Vad HiddenLayer upptäckte

OpenAIs design föreställer sig agenter som opererar genom kedjelogik: en användare skickar en begäran, agenten anropar verktyg eller externa resurser, och svaren filtreras eller valideras av Guardrails innan exekvering eller utdata. Avsikten är att oavsett vad agenten försöker göra – antingen generera text, hämta en webbsida eller utlösa en funktion – Guardrails fungerar som en väktare.

HiddenLayer hävdar att denna väktare är strukturellt felaktig när den byggs av samma modellklass som den skyddar. I sina experiment skapade de prompter som har dubbla uppgifter: de tvingar agentmodellen att generera innehåll som bryter mot policyn och manipulerar Guardrails-domarmodellen för att förklara att innehållet är “säkert”. Effektivt inbäddar prompten en åsidosättning av domarens interna logik – dess förtroendetrösklar, beslutsgrenar – så att domaren falskt godkänner det skadliga utdatat. Systemet producerar då otillåtna data utan att utlösa några varningar.

De drev attacken längre genom att rikta sig mot indirekta innehållsinjektioner, såsom verktygsbaserade fetch-anrop. Anta att agenten hämtar en webbsida som innehåller skadliga instruktioner eller dolda prompter. Guardrails bör flagga eller blockera det, men HiddenLayers teknik inbäddar en domaråsidosättning i det hämtade innehållet själv. När domaren bearbetar det, ser den åsidosättningen och “godkänner” det, vilket låter verktygsanropet – och alla skadliga data det returnerar – passera obemärkt.

Den djupare lärdomen är tydlig: när din säkerhetsmekanism är byggd med samma logik och sårbarheter som den sak den skyddar, kan en enda smart prompt bryta båda.

Varför detta är viktigt

Vad HiddenLayer har avslöjat är inte bara en bagatell – det är en varningsberättelse om hur vi designar säkerhet i LLM-system. Varje arkitektur som förlitar sig på samma modellklass för både generering och utvärdering riskerar att dela samma fel under adversarial indata.

Det betyder att många distributörer som trodde “vi har installerat Guardrails, så vi är säkra” kan underskatta risken. I ofarliga, vardagliga användningsfall kan deras filter verka effektiva, men i adversariala scenarier kan de tyst misslyckas. I områden som hälsovård, finans, regering eller kritiska system kan sådana tysta fel leda till allvarlig skada.

Denna forskning bygger också på tidigare promptinjektionsmetoder. HiddenLayers tidigare “Policy Puppetry“-teknik visade hur angripare kan maskera skadliga instruktioner som policysinnehåll. Nu demonstrerar de att sådana maskerade attacker kan utvidgas till säkerhetslogiken själv.

Konsekvenser för distributörer och forskare

Mot bakgrund av denna sårbarhet måste alla som använder eller bygger agenter med LLM-system omvärdera sin säkerhetsstrategi.

Först: förlita dig inte enbart på interna modellbaserade kontroller. Säkerhet måste vara skiktad. Det betyder att kombinera regelbaserade filter, anomaliupptäckare, loggningsystem, extern övervakning, mänsklig tillsyn och revisionsledningar. Om ett lager misslyckas kan andra fånga upp brottet.

Andra: regelbunden adversarial red teaming är absolut nödvändig. Modeller bör utsättas för promptinjektioner som försöker åsidosätta deras egen guardlogik – inte bara “dåligt innehåll”. Testning måste utvecklas allteftersom angripare uppfinner nya tekniker.

Tredje: i reglerade eller säkerhetskritiska sektorer är transparens och verifierbarhet avgörande. Distributörer behöver bevis för att ett system kan motstå adversariala attacker, inte bara grundfunktionalitet. Det antyder att tredjepartsrevisioner, formell verifikation eller säkerhetsgarantier kan bli krav.

Fjärde: för modellbyggare är det svårt att laga denna klass av sårbarhet. Eftersom den är kopplad till hur modeller tolkar och följer instruktioner garanterar inte filtrering av en klass av prompt motståndskraft mot nya. Finjustering eller filterbaserade försvar kan försämra modellprestanda eller leda till kapprustning. Mer robust design kan kräva arkitektonisk separation – guardlogik som körs i en annan modell eller subsystem än genereringsmodellen.

Begränsningar och öppna frågor

För att vara tydlig: HiddenLayers arbete är ett bevis för konceptet, inte en slutgiltig dom över varje säkerhetsarkitektur. Deras lyckade attacker beror på djup kunskap om guardmodellens promptstruktur och intern poängsättningslogik. I mer begränsade promptmiljöer eller system som randomiserar försvar kan attacken vara svårare att genomföra.

De analyserar inte fullständigt hur sammanhängande eller användbara de skadliga utdatan är när de skapas under dessa begränsningar. Vissa jailbreak- eller åsidosättningsutdata kan försämras i kvalitet eller tillförlitlighet. Så risken är verklig – men begränsad av miljö, promptbudget, gränssnittsbegränsningar och guardrandomisering.

Slutligen är det inte säkert att varje system som använder olika modellklasser, ensemblemetoder eller randomiserad utvärdering är sårbar; om denna attack generaliserar brett är en öppen forskningsfråga.

Blickar framåt: AI-säkerhetens framtid

Vi verkar vara på väg in i en ny fas: promptattacker inte bara mot modeller, utan mot deras säkerhetslager. Tekniker som chain-of-thought hijacking, hierarkisk promptsubversion och domaråsidosättning kommer att driva försvar att utvecklas snabbare.

Vägen framåt är troligen mot extern övervakning – system som övervakar utdata från utsidan, delar inte modelllogik eller tvingar säkerhet via externa kontroller. Hybridarkitekturer, formella metoder, anomaliupptäckning och mänskliga återkopplingsloopar kommer att behöva samverka.

Guardrails är ett användbart verktyg, men HiddenLayers fynd påminner oss: de kan inte vara det enda verktyget. Säkerhet måste komma från utanför systemet, inte bara från inifrån.

del logik, eller tvinga säkerhet via externa kontroller. Hybridarkitekturer, formella metoder, anomaliupptäckning och mänskliga återkopplingsloopar kommer att behöva samverka. Guardrails är ett användbart verktyg, men HiddenLayers fynd påminner oss: de kan inte vara det enda verktyget. Säkerhet måste komma från utanför systemet, inte bara från inifrån.

Antoine Tardif, VD och grundare av Unite.AI

Antoine är en visionär ledare och medgrundare av Unite.AI, driven av en outtröttlig passion för att forma och främja framtidens AI och robotik. En serieentreprenör, han tror att AI kommer att vara lika störande för samhället som elektricitet, och han fångas ofta i att prata om potentialen för störande teknologier och AGI.

Som en futurist, han är dedikerad till att utforska hur dessa innovationer kommer att forma vår värld. Dessutom är han grundare av Securities.io, en plattform som fokuserar på att investera i banbrytande teknologier som omdefinierar framtiden och omformar hela sektorer.

Unite.AI