Connect with us

Cyberbeveiliging

OpenAI geeft toe dat AI-browsers mogelijk nooit volledig beveiligd zullen zijn

mm

OpenAI publiceerde op 22 december een beveiligingsblogpost met een opvallende erkenning: prompt-injectie-aanvallen tegen AI-browsers “zullen mogelijk nooit volledig worden opgelost.” Deze concessie komt twee maanden na de lancering van ChatGPT Atlas, de browser van het bedrijf met autonome agent-mogelijkheden.

Het bedrijf vergelijkt prompt-injectie met “oplichting en sociale manipulatie op het web” – persistente bedreigingen die verdedigers beheren in plaats van elimineren. Voor gebruikers die AI-agents vertrouwen om het internet namens hen te navigeren, roept deze kadering fundamentele vragen op over hoeveel autonomie passend is.

Wat OpenAI onthulde

De blogpost beschrijft OpenAI’s defensieve architectuur voor Atlas, inclusief een versterkt leerproces met een “geautomatiseerde aanvaller” die kwetsbaarheden opspoort voordat kwaadwillige actoren ze vinden. Het bedrijf beweert dat deze interne rode ploeg “nieuwe aanvalsstrategieën heeft ontdekt die niet in onze campagne van menselijke rode ploeg of externe rapporten verschenen.”

Een demonstratie liet zien hoe een kwaadwillige e-mail een AI-agent die een gebruikersinbox controleerde, kon overnemen. In plaats van een automatische reactie op te stellen zoals opgedragen, stuurde de gecompromitteerde agent een ontslagbrief. OpenAI zegt dat de laatste beveiligingsupdate deze aanval nu tegenhoudt, maar het voorbeeld illustreert de inzet wanneer AI-agents autonoom handelen in gevoelige contexten.

De geautomatiseerde aanvaller “kan een agent sturen om geavanceerde, langdurige schadelijke workflows uit te voeren die zich over tientallen (of zelfs honderden) stappen ontvouwen,” schreef OpenAI. Deze functionaliteit helpt OpenAI om fouten sneller te vinden dan externe aanvallers, maar het onthult ook hoe complex en schadelijk prompt-injectie-aanvallen kunnen worden.

Afbeelding: OpenAI

Het fundamentele beveiligingsprobleem

Prompt-injectie exploiteert een basisbeperking van grote taalmodellen: ze kunnen niet betrouwbaar onderscheid maken tussen legitieme instructies en kwaadwillige inhoud die in de door hen verwerkte gegevens is ingebed. Wanneer een AI-browser een webpagina leest, kan elke tekst op die pagina het gedrag van de browser beïnvloeden.

Beveiligingsonderzoekers hebben dit herhaaldelijk aangetoond. AI-browsers combineren matige autonomie met zeer hoge toegang – een moeilijke positie in de beveiligingsruimte.

De aanvallen vereisen geen geavanceerde technieken. Verborgen tekst op webpagina’s, zorgvuldig samengestelde e-mails of onzichtbare instructies in documenten kunnen allemaal AI-agents manipuleren om ongewenste acties uit te voeren. Sommige onderzoekers hebben aangetoond dat kwaadwillige prompts die in screenshots zijn verborgen, kunnen worden uitgevoerd wanneer een AI een foto van een gebruikersscherm maakt.

Hoe OpenAI reageert

OpenAI’s verdedigingsmechanismen omvatten adversariaal getrainde modellen, prompt-injectieclassificatoren en “snelheidsbegrenzers” die gebruikersbevestiging vereisen voordat gevoelige acties worden uitgevoerd. Het bedrijf raadt gebruikers aan om te beperken wat Atlas kan benaderen – door toegang te beperken, bevestiging te vereisen voordat betalingen of berichten worden verstuurd en smalle instructies te geven in plaats van brede mandaten.

Deze aanbeveling is onthullend. OpenAI raadt gebruikers in wezen aan om hun eigen product met argwaan te behandelen, door de autonomie te beperken die agente-browsers aantrekkelijk maakt in de eerste plaats. Gebruikers die AI-browsers willen laten omgaan met hun hele inbox of hun financiën te beheren, nemen risico’s die het bedrijf zelf niet goedkeurt.

De beveiligingsupdate vermindert succesvolle injectie-aanvallen. Deze verbetering is belangrijk, maar het betekent ook dat het resterende aanvalsoppervlak blijft bestaan – en aanvallers zullen zich aanpassen aan welke verdedigingsmechanismen OpenAI ook inzet.

Branchewide implicaties

OpenAI is niet de enige die deze uitdagingen het hoofd biedt. Google’s beveiligingsframework voor Chrome’s agente-kenmerken omvat meerdere verdedigingslagen, waaronder een apart AI-model dat elke voorgestelde actie controleert. Perplexity’s Comet-browser heeft soortgelijke onderzoek van beveiligingsonderzoekers van Brave ondergaan, die ontdekten dat het navigeren naar een kwaadwillige webpagina schadelijke AI-acties kon uitlokken.

De branche lijkt te convergeren naar een gedeelde erkenning: prompt-injectie is een fundamentele beperking, geen bug die kan worden opgelost. Dit heeft significante implicaties voor de visie van AI-agents die complexe, gevoelige taken autonoom uitvoeren.

Wat gebruikers moeten overwegen

De eerlijke beoordeling is oncomfortabel: AI-browsers zijn nuttige tools met inherente beveiligingsbeperkingen die niet kunnen worden geëlimineerd door betere techniek. Gebruikers staan voor een afweging tussen gemak en risico die geen enkele leverancier volledig kan oplossen.

OpenAI’s richtlijn – toegang beperken, bevestiging vereisen, brede mandaten vermijden – komt neer op het advies om minder krachtige versies van het product te gebruiken. Dit is geen cynische positionering; het is realistische erkenning van de huidige beperkingen. AI-assistenten die meer kunnen doen, kunnen ook worden gemanipuleerd om meer te doen.

De parallel met traditionele webbeveiliging is instructief. Gebruikers vallen nog steeds voor phishing-aanvallen, decennia nadat ze voor het eerst opdoken. Browsers blokkeren nog steeds miljoenen kwaadwillige sites dagelijks. De bedreiging past zich sneller aan dan verdedigingen permanent kunnen oplossen.

AI-browsers voegen een nieuwe dimensie toe aan deze vertrouwde dynamiek. Wanneer mensen browsen, brengen ze hun oordeel over wat verdacht lijkt. AI-agents verwerken alles met evenveel vertrouwen, waardoor ze nog kwetsbaarder zijn voor manipulatie, zelfs als ze krachtiger worden.

De weg vooruit

OpenAI’s transparantie verdient erkenning. Het bedrijf had stilletjes beveiligingsupdates kunnen uitbrengen zonder de onderliggende problemen te erkennen. In plaats daarvan publiceerde het een gedetailleerde analyse van aanvalsvector en defensieve architectuur – informatie die gebruikers helpt om geïnformeerde beslissingen te nemen en concurrenten om hun eigen bescherming te verbeteren.

Maar transparantie lost het fundamentele spanningsveld niet op. Hoe krachtiger AI-agents worden, hoe aantrekkelijker ze worden als doelwit. Dezelfde mogelijkheden die Atlas in staat stellen om complexe workflows te verwerken, creëren ook kansen voor geavanceerde aanvallen.

Voor nu moeten gebruikers van AI-browsers ze benaderen als krachtige tools met betekenisvolle beperkingen – niet als volledig autonome digitale assistenten die klaar zijn om gevoelige taken zonder toezicht uit te voeren. OpenAI is ongebruikelijk openhartig over deze realiteit. De vraag is of de marketing van de branche zich zal aanpassen aan wat beveiligingsteams al weten.

Alex McFarland is een AI-journalist en schrijver die de laatste ontwikkelingen op het gebied van kunstmatige intelligentie onderzoekt. Hij heeft samengewerkt met talloze AI-startups en publicaties wereldwijd.