Cybersikkerhed

HiddenLayer-forskere omgår OpenAIs sikkerhedsforanstaltninger og afslører en kritisk svaghed i AI-selvmoderation

Udgivet den 12. oktober 2025

Opdateret den 17. maj 2026

Antoine Tardif, Administrerende direktør og grundlægger af Unite.AI

Den 6. oktober 2025 annoncerede OpenAI AgentKit, et værktøj til at bygge, deployere og administrere AI-agenter. En af dets komponenter er Guardrails – en modulær sikkerhedslag designet til at overvåge agentindgange, -udgange og værktøjsinteraktioner for at forhindre misbrug, dataleaks eller ondsindet adfærd. Guardrails kan maskere eller markere følsomme oplysninger, opdage fængselsoprør og anvende politikbegrænsninger sammen med agentens udførelse.

Selvom Guardrails er en ny offentlig del af OpenAIs agentarkitektur, afslører HiddenLayers forskning en dybere sårbarhed: fordi både agentens handlinger og sikkerhedstjek bruger lignende modellogik, kan angribere konstruere indgange, der undergraver begge samtidig – effektivt bryder sikkerhedslaget indefra.

Hvad HiddenLayer opdagede

OpenAIs design forestiller agenter, der fungerer gennem kædede logik: en bruger udsteder en anmodning, agenten kalder værktøjer eller eksterne ressourcer, og svar filtreres eller valideres af Guardrails før udførelse eller udgang. Formålet er, at uanset hvad agenten forsøger at gøre – enten det er at generere tekst, hente en webside eller udløse en funktion – Guardrails fungerer som en vagt.

HiddenLayer argumenterer for, at denne vagt er strukturmæssigt fejlbehæftet, når den er bygget af samme klasse af model, som den vogter over. I deres eksperimenter konstruerede de prompts, der udfører dobbelt arbejde: de tvinger agentmodellen til at generere indhold, der krænker politikken, og manipulerer Guardrails-dommermodellen til at erklære, at indholdet er “sikkert”. Effektivt indsætter prompten en omgåelse af dommerens interne logik – dens tillidsniveauer, beslutningsgrene – så dommeren falsk godkender det ondsindede output. Systemet producerer herefter ikke tilladt indhold uden at udløse nogen advarsler.

De pressede angrebet videre ved at rette sig mod indirekte indholdsinjektioner, såsom værktøjsbaserede fetch-kald. Antag, at agenten henter en webside, der indeholder ondsindet instruktioner eller skjulte prompts. Guardrails burde markere eller blokere det, men HiddenLayers teknik indsætter en dommeromgåelse i det hentede indhold selv. Når dommeren behandler det, ser den omgåelsen og “godkender” det, hvilket tillader værktøjskaldet – og eventuelt ondsindet indhold, det returnerer – at passere gennem ubevogtet.

Den dybere lære er klar: når din sikkerhedsmechanisme er bygget med samme logik og sårbarheder som det, den beskytter, kan en enkelt intelligent prompt bryde begge.

Hvorfor dette er vigtigt

Hvad HiddenLayer har afsløret, er ikke blot en fejl – det er en advarsel om, hvordan vi designer sikkerhed i LLM-systemer. Enhver arkitektur, der afhænger af samme modelklasse til både generering og evaluering, risikerer fælles fejl under angrebsindgange.

Det betyder, at mange deployere, der troede “vi har indbygget Guardrails, så vi er sikre”, måske undervurderer risikoen. I harmløse, daglige brugstilfælde kan deres filtre synes effektive, men i angrebs-scenarier kan de stille fejl. I domæner som sundhedsvesen, finans, regering eller kritiske systemer kan sådanne stille sammenbrud føre til alvorlig skade.

Dette forskning bygger også på tidligere promptinjektionsmetoder. HiddenLayers tidligere “Policy Puppetry”-teknik viste, hvordan angribere kan forklæde skadelige instruktioner som politikindhold. Nu demonstrerer de, at sådanne maskerede angreb kan udvides til sikkerhedslogikken selv.

Konsekvenser for deployere og forskere

I lyset af denne sårbarhed må alle, der bruger eller bygger agente LLM-systemer, omvurderere deres sikkerhedsstrategi.

Først: afhæng ikke kun af interne modelbaserede kontroller. Sikkerhed skal være lagdelt. Det betyder at kombinere regelbaserede filtre, anomalidetektorer, logningssystemer, eksterne overvågning, menneskelig oversigt og revisionsstier. Hvis et lag fejler, kan andre fange bruddet.

Anden: regelmæssig angrebs-testning er uundværlig. Modeller skal møde promptinjektioner, der forsøger at omgå deres egen vagtlogik – ikke kun “dårligt indhold”. Testning skal udvikle sig, efterhånden som angribere opfinder nye teknikker.

Tredje: i regulerede eller sikkerhedskritiske sektorer er gennemsigtighed og verificerbarhed essentielle. Deployere har brug for bevis for, at et system kan modstå angrebsforsøg, ikke kun grundlæggende funktionalitet. Det antyder, at tredjepartsrevisioner, formel verificering eller sikkerhedsgarantier måske bliver krævet.

Fjerde: for modelbyggere er det svært at løse denne type sårbarhed. Fordi det er knyttet til, hvordan modeller fortolker og adlyder instruktioner, garanterer filtrering af en klasse af prompts ikke modstand over for nye. Fine-tuning eller filterbaseret forsvar kan nedgrade modelpræstation eller føre til våbenkapløb. Mere robust design kan kræve arkitektonisk adskillelse – vagtlogik, der kører i en anden model eller underystem end genereringsmodellen.

Begrænsninger og åbne spørgsmål

For at være tydelig: HiddenLayers arbejde er et bevis for begrebet, ikke en endelig dom over hver sikkerhedsarkitektur. Deres succesfulde angreb afhænger af dyb viden om vagtmodellens promptstruktur og interne scorelogik. I mere begrænsede promptmiljøer eller systemer, der tilfældigt vælger forsvar, kan angrebet være sværere at gennemføre.

Desuden analyserer de ikke fuldt ud, hvor sammenhængende eller nyttige de ondsindede output er, når de er konstrueret under disse begrænsninger. Nogle fængselsoprør eller omgåelsesoutput kan nedgrade i kvalitet eller pålidelighed. Så risikoen er reel – men begrænset af miljø, promptbudget, grænsebetingelser og vagttilfældighed.

Endelig er det ikke sikkert, at hver sikkerhedsarkitektur, der bruger forskellige modelklasser, ensemblemetoder eller tilfældig evaluering, er sårbær. Om angrebet generaliserer bredt er et åbent forskningsspørgsmål.

Udsigt fremad: Fremtiden for AI-sikkerhed

Vi synes at være på vej ind i en ny fase: promptangreb ikke kun mod modeller, men mod deres sikkerhedslag. Teknikker som chain-of-thought-hijacking, hierarkisk prompt-undergravning og dommeromgåelse vil tvinge forsvar til at udvikle sig hurtigere.

Vejen fremad er sandsynligvis mod ekstern overvågning – systemer, der overvåger output fra udenfor, ikke deler modellogik eller tvinger sikkerhed via eksterne kontroller. Hybridarkitekturer, formelle metoder, anomalidetektion og menneskelige feedback-løkker skal samarbejde.

Guardrails er et nyttigt værktøj, men HiddenLayers opdagelser minder os om: de kan ikke være det eneste værktøj. Sikkerhed skal komme fra udenfor systemet, ikke kun indefra.

Antoine Tardif, Administrerende direktør og grundlægger af Unite.AI

Antoine er en visionær leder og medstifter af Unite.AI, drevet af en urokkelig passion for at forme og fremme fremtiden for AI og robotteknologi. En serieiværksætter, han tror, at AI vil være lige så disruptiv for samfundet som elektricitet, og bliver ofte fanget i at tale om potentialet for disruptiv teknologi og AGI.

Som en futurist, er han dedikeret til at udforske, hvordan disse innovationer vil forme vores verden. Derudover er han grundlægger af Securities.io, en platform fokuseret på at investere i skarp teknologi, der gendefinerer fremtiden og omformer hele sektorer.

Unite.AI