Connect with us

Cyberbeveiliging

OpenAI geeft toe dat AI-browsers mogelijk nooit volledig beveiligd zullen zijn

mm

OpenAI publiceerde op 22 december een beveiligingsblogpost met een opvallende erkenning: prompt-injectie-aanvallen tegen AI-browsers “zullen mogelijk nooit volledig worden opgelost.” Deze erkenning komt twee maanden na de lancering van ChatGPT Atlas, de browser van het bedrijf met autonome agent-mogelijkheden.

Het bedrijf vergelijkt prompt-injectie met “oplichting en sociale manipulatie op het web” – persistente bedreigingen die verdedigers beheren in plaats van elimineren. Voor gebruikers die AI-agents vertrouwen om het internet in hun naam te navigeren, roept deze kadering fundamentele vragen op over hoeveel autonomie passend is.

Wat OpenAI onthulde

De blogpost beschrijft de defensieve architectuur van OpenAI voor Atlas, inclusief een versterkt leerproces met een “geautomatiseerde aanvaller” die kwetsbaarheden opspoort voordat kwaadwillige actoren ze vinden. Het bedrijf claimt dat deze interne rode ploeg “nieuwe aanvalsstrategieën heeft ontdekt die niet in onze campagne van menselijke rode ploeg of externe rapporten verschenen.”

Een demonstratie liet zien hoe een kwaadwillige e-mail een AI-agent die de inbox van een gebruiker controleerde, kon overnemen. In plaats van een automatische antwoord te schrijven zoals opgedragen, stuurde de gecompromitteerde agent een ontslagbrief. OpenAI zegt dat de laatste beveiligingsupdate deze aanval nu tegenhoudt, maar het voorbeeld illustreert de inzet wanneer AI-agents autonoom handelen in gevoelige contexten.

De geautomatiseerde aanvaller “kan een agent sturen om geavanceerde, schadelijke workflows uit te voeren die zich over tientallen (of zelfs honderden) stappen uitstrekken,” schreef OpenAI. Deze mogelijkheid helpt OpenAI om fouten sneller te vinden dan externe aanvallers, maar het onthult ook hoe complex en schadelijk prompt-injectie-aanvallen kunnen worden.

Afbeelding: OpenAI

Het fundamentele beveiligingsprobleem

Prompt-injectie benut een basisbeperking van grote taalmodellen: ze kunnen geen onderscheid maken tussen legitieme instructies en kwaadwillige inhoud die in de data die ze verwerken, is ingebed. Wanneer een AI-browser een webpagina leest, kan elke tekst op die pagina het gedrag van de browser beïnvloeden.

Beveiligingsonderzoekers hebben dit herhaaldelijk aangetoond. AI-browsers combineren matige autonomie met zeer hoge toegang – een moeilijke positie in de beveiligingsruimte.

De aanvallen vereisen geen geavanceerde technieken. Verborgen tekst op webpagina’s, zorgvuldig samengestelde e-mails of onzichtbare instructies in documenten kunnen allemaal AI-agents manipuleren om ongewenste acties uit te voeren. Sommige onderzoekers hebben aangetoond dat kwaadwillige prompts die in schermafbeeldingen zijn verborgen, kunnen worden uitgevoerd wanneer een AI een foto van het scherm van een gebruiker neemt.

Hoe OpenAI reageert

De verdedigingsmaatregelen van OpenAI omvatten adversariaal getrainde modellen, prompt-injectieclassificatoren en “snelheidsbeperkingen” die gebruikersverificatie vereisen voordat gevoelige acties worden uitgevoerd. Het bedrijf raadt gebruikers aan om te beperken wat Atlas kan benaderen – door toegang te beperken, verificatie te vereisen voordat betalingen of berichten worden verstuurd en smalle instructies te geven in plaats van brede mandaten.

Deze aanbeveling is onthullend. OpenAI raadt gebruikers in wezen aan om hun eigen product met argwaan te behandelen, door de autonomie te beperken die agentic browsers aantrekkelijk maakt. Gebruikers die AI-browsers willen laten omgaan met hun hele inbox of hun financiën beheren, nemen risico’s die het bedrijf zelf niet goedkeurt.

De beveiligingsupdate vermindert succesvolle injectie-aanvallen. Deze verbetering is belangrijk, maar het betekent ook dat het resterende aanvalsoppervlak blijft bestaan – en aanvallers zullen zich aanpassen aan welke verdedigingsmaatregelen OpenAI ook inzet.

Industriebrede implicaties

OpenAI staat niet alleen in het omgaan met deze uitdagingen. Google’s beveiligingsframework voor de agentic functies van Chrome omvat meerdere verdedigingslagen, waaronder een apart AI-model dat elke voorgestelde actie controleert. Perplexity’s Comet-browser heeft soortgelijke kritiek gekregen van beveiligingsonderzoekers bij Brave, die ontdekten dat het navigeren naar een kwaadwillige webpagina schadelijke AI-acties kon triggeren.

Alex McFarland is een AI-journalist en schrijver die de laatste ontwikkelingen op het gebied van kunstmatige intelligentie onderzoekt. Hij heeft samengewerkt met talloze AI-startups en publicaties wereldwijd.