Cyberbeveiliging

HiddenLayer-onderzoekers omzeilen OpenAI’s Guardrails, blootleggen kritieke zwakte in AI-zelfmoderatie

Gepubliceerd op 12 oktober 2025

Bijgewerkt op 17 mei 2026

Door

Antoine Tardif, CEO & Founder van Unite.AI

Op 6 oktober 2025 kondigde OpenAI AgentKit aan, een toolkit voor het bouwen, implementeren en beheren van AI-agents. Een van de onderdelen is Guardrails, een modulaire veiligheidslaag ontworpen om agent-input, -output en -toolinteracties te controleren om misbruik, gegevenslekkages of kwaadwillige activiteiten te voorkomen. Guardrails kan PII maskeren of markeren, jailbreaks detecteren en beleidsbeperkingen toepassen naast agentuitvoering.

Hoewel Guardrails een nieuw openbaar onderdeel van OpenAI’s agentarchitectuur is, toont HiddenLayer’s onderzoek een diepere kwetsbaarheid: omdat zowel de agentacties als de veiligheidscontroles soortgelijke modellogica gebruiken, kunnen aanvallers invoer creëren die beide gelijktijdig ondermijnen – effectief de veiligheidslaag van binnenuit brekend.

Wat HiddenLayer ontdekte

OpenAI’s ontwerp voorziet in agents die via gekoppelde logica werken: een gebruiker geeft een verzoek, de agent roept tools of externe bronnen op en antwoorden worden gefilterd of gevalideerd door Guardrails voordat ze worden uitgevoerd of als output worden weergegeven. De bedoeling is dat ongeacht wat de agent probeert te doen – of het nu gaat om tekst genereren, een webpagina ophalen of een functie activeren – Guardrails als een bewaker fungeert.

HiddenLayer stelt dat deze bewaker structureel gebrekkig is als hij is gebouwd met hetzelfde type model dat hij beschermt. In hun experimenten creëerden ze prompts die een dubbele taak uitvoeren: ze dwingen het agentmodel om inhoud te genereren die het beleid schendt en manipuleren ze het Guardrails-judge-model om te verklaren dat de inhoud “veilig” is. Effectief embedt de prompt een override van de interne logica van de judge – zijn vertrouwensdrempels, beslissingsbranches – zodat de judge vals de kwaadwillige output goedkeurt. Het systeem produceert dan verboden inhoud zonder enige waarschuwingen te activeren.

Ze duwden de aanval verder door indirecte inhoudinjecties te richten, zoals toolgebaseerde oproepen. Stel dat de agent een webpagina ophaalt met kwaadwillige instructies of verborgen prompts. Guardrails zou dit moeten markeren of blokkeren, maar HiddenLayer’s techniek embedt een judge-override in de opgehaalde inhoud zelf. Wanneer de judge deze verwerkt, ziet hij de override en “keurt” deze goed, waardoor de tooloproep – en alle kwaadwillige inhoud die deze teruggeeft – ongecontroleerd door kan gaan.

De diepere les is duidelijk: wanneer uw veiligheidsmechanisme is gebouwd met dezelfde logica en kwetsbaarheden als het ding dat het beschermt, kan één slimme prompt zowel de ene als de andere breken.

Waarom dit belangrijk is

Wat HiddenLayer heeft blootgelegd, is geen gewone bug – het is een waarschuwing over hoe we veiligheid in LLM-systemen ontwerpen. Elke architectuur die hetzelfde modeltype gebruikt voor zowel generatie als evaluatie, loopt het risico op gedeelde fouten onder aanvallende invoer.

Dat betekent dat veel implementeerders die dachten “we hebben Guardrails geïmplementeerd, dus we zijn veilig” mogelijk het risico onderschatten. In onschuldige, informele gebruikscases kunnen hun filters effectief lijken, maar in aanvallende scenario’s kunnen ze stil falen. In domeinen zoals gezondheidszorg, financiën, overheid of kritieke systemen kunnen dergelijke stille fouten ernstige schade veroorzaken.

Dit onderzoek bouwt ook voort op eerdere promptinjectiemethoden. HiddenLayer’s eerdere “Policy Puppetry“-techniek toonde aan hoe aanvallers schadelijke instructies kunnen vermommen als beleidsinhoud. Nu demonstreren ze dat dergelijke gemaskeerde aanvallen zich kunnen uitstrekken tot de veiligheidslogica zelf.

Implicaties voor implementeerders en onderzoekers

In het licht van deze kwetsbaarheid moet iedereen die agente LLM-systemen gebruikt of bouwt, de veiligheidsstrategie opnieuw overwegen.

Ten eerste: vertrouw niet alleen op interne modelgebaseerde controles. Veiligheid moet in lagen zijn opgebouwd. Dat betekent het combineren van regelgebaseerde filters, anomaliedetectoren, logboeksystemen, externe monitoring, menselijke toezicht en audittrails. Als één laag faalt, kunnen anderen de inbreuk mogelijk tegenhouden.

Ten tweede: regelmatige aanvallende red teaming is onmisbaar. Modellen moeten prompts tegenkomen die proberen de eigen guardlogica te overschrijven – niet alleen “slechte inhoud”. Testen moet evolueren naarmate aanvallers nieuwe technieken uitvinden.

Ten derde: in gereguleerde of veiligheidscritische sectoren zijn transparantie en verifieerbaarheid essentieel. Implementeerders hebben bewijs nodig dat een systeem aanvallende aanvallen kan weerstaan, niet alleen basisfunctionaliteit. Dat suggereert dat derdepartijaudits, formele verificatie of veiligheidsgaranties mogelijk vereisten worden.

Ten vierde: voor modelbouwers is het patchen van deze klasse van kwetsbaarheden moeilijk. Omdat het is gekoppeld aan hoe modellen instructies parseren en opvolgen, garandeert het filteren van één type prompt geen robuustheid tegen nieuwe. Fijntuning of filtergebaseerde verdedigingen kunnen modelprestaties degraderen of leiden tot wapenwedlopen. Robuustere ontwerp kan architecturale scheiding vereisen – guardlogica die in een ander model of subsysteem draait dan het generatiemodel.

Beperkingen en open vragen

Om duidelijk te zijn: HiddenLayer’s werk is een proof-of-concept, niet een definitief oordeel over elke veiligheidsarchitectuur. Hun succesvolle aanvallen zijn afhankelijk van diepe kennis van de guardmodelpromptstructuur en interne scoringslogica. In meer beperkte promptomgevingen of systemen die verdedigingen randomiseren, kan de aanval moeilijker te monteren zijn.

Bovendien analyseren ze niet volledig hoe coherent of bruikbaar de kwaadwillige output is wanneer deze onder deze beperkingen is gemaakt. Sommige jailbreak- of override-outputs kunnen in kwaliteit of betrouwbaarheid degraderen. Dus het risico is reëel – maar beperkt door omgeving, promptbudget, interfacebeperkingen en guardrandomisatie.

Ten slotte gebruiken sommige guardraildesigns verschillende modelklassen, ensemblemethoden of gerandomiseerde evaluatie. Het is niet zeker dat elk dergelijk systeem kwetsbaar is; of deze aanval breed generaliseert, is een open onderzoeksfrage.

Blik naar de toekomst: de toekomst van AI-veiligheid

We lijken een nieuwe fase te betreden: promptaanvallen niet alleen tegen modellen, maar tegen hun veiligheidslagen. Technieken zoals chain-of-thought-hijacking, hiërarchische promptsubversie en judge-override zullen verdedigingen sneller laten evolueren.

De weg vooruit gaat waarschijnlijk naar externe toezicht – systemen die output van buitenaf controleren, geen modellogica delen of veiligheid afdwingen via externe controles. Hybride architectuur, formele methoden, anomaliedetectie en menselijke feedbackloops zullen moeten samenwerken.

Guardrails zijn een nuttig instrument, maar HiddenLayer’s bevindingen herinneren ons eraan: ze kunnen niet het enige instrument zijn. Veiligheid moet van buiten het systeem komen, niet alleen van binnenuit.

Antoine Tardif, CEO & Founder van Unite.AI

Antoine is een visionaire leider en oprichter van Unite.AI, gedreven door een onwankelbare passie voor het vormgeven en promoten van de toekomst van AI en robotica. Een serieondernemer, hij gelooft dat AI net zo disruptief voor de samenleving zal zijn als elektriciteit, en wordt vaak betrapt op het prijzen van de potentie van disruptieve technologieën en AGI.

Als een futurist, hij is toegewijd aan het onderzoeken van hoe deze innovaties onze wereld zullen vormgeven. Bovendien is hij de oprichter van Securities.io, een platform dat zich richt op het investeren in cutting-edge technologieën die de toekomst herdefiniëren en hele sectoren herschikken.

Unite.AI