Connect with us

Cybersäkerhet

OpenAI Medger Att AI-webbläsare Kanske Aldrig Kan Varas Fullständigt Säkra

mm

OpenAI publicerade ett säkerhetsblogginlägg den 22 december som innehöll ett anmärkningsvärt medgivande: promptinjektionsattacker mot AI-webbläsare “kan kanske aldrig lösas fullständigt.” Medgivandet kommer bara två månader efter att företaget lanserade ChatGPT Atlas, sin webbläsare med autonoma agentfunktioner.

Företaget jämförde promptinjektion med “bedrägerier och social ingenjörskonst på webben” – bestående hot som försvarare hanterar snarare än eliminerar. För användare som litar på AI-agenter för att navigera på internet å deras vägnar, väcker denna ramning grundläggande frågor om hur mycket autonomi som är lämplig.

Vad OpenAI Avslöjade

Blogginlägget beskriver OpenAI:s försvarsarkitektur för Atlas, inklusive en förstärkt inlärningsbaserad “automatiserad angripare” som jagar efter sårbarheter innan skadliga aktörer hittar dem. Företaget hävdar att denna interna röda grupp har upptäckt “nya angreppstrategier som inte visade sig i vår mänskliga röda grupp eller externa rapporter.”

Ett exempel visade hur ett skadligt e-postmeddelande kunde kapning en AI-agent som kontrollerade en användares inkorg. Istället för att utarbeta ett svar som instruerats, skickade den komprometterade agenten ett avgångsmeddelande. OpenAI säger att deras senaste säkerhetsuppdatering nu fångar upp detta angrepp – men exemplet illustrerar insatserna när AI-agenter agerar autonomt i känsliga sammanhang.

Den automatiserade angriparen “kan styra en agent till att utföra sofistikerade, långsiktiga skadliga arbetsflöden som utvecklas över tiotals (eller till och med hundratals) steg,” skrev OpenAI. Denna funktion hjälper OpenAI att hitta fel snabbare än externa angripare, men den avslöjar också hur komplexa och skadliga promptinjektionsattacker kan bli.

Bild: OpenAI

Det Grundläggande Säkerhetsproblemet

Promptinjektion utnyttjar en grundläggande begränsning av stora språkmodeller: de kan inte tillförlitligt skilja mellan legitima instruktioner och skadligt innehåll som är inbäddat i de data de bearbetar. När en AI-webbläsare läser en webbsida kan alla texter på den sidan potentiellt påverka dess beteende.

Säkerhetsforskare har demonstrerat detta upprepade gånger. AI-webbläsare kombinerar måttlig autonomi med mycket hög åtkomst – en utmanande position i säkerhetsutrymmet.

Attackerna kräver inte sofistikerade tekniker. Dold text på webbsidor, noggrant utformade e-postmeddelanden eller osynliga instruktioner i dokument kan alla manipulera AI-agenter till att utföra oönskade åtgärder. Vissa forskare har visat att skadliga prompter dolda i skärmbilder kan utföras när en AI tar en bild av en användares skärm.

Hur OpenAI Svarar

OpenAI:s försvar inkluderar adversarialt tränade modeller, promptinjektionsklassificerare och “hastighetsdämpare” som kräver användarbekräftelse innan känsliga åtgärder. Företaget rekommenderar användare att begränsa vad Atlas kan komma åt – begränsa inloggad åtkomst, kräva bekräftelser innan betalningar eller meddelanden och tillhandahålla smala instruktioner snarare än breda mandat.

Denna rekommendation är avslöjande. OpenAI råder i princip användare att behandla sin egen produkt med misstänksamhet, begränsa den autonomi som gör agenter-webbläsare attraktiva från första början. Användare som vill att AI-webbläsare ska hantera hela deras inkorg eller hantera deras ekonomi antar risker som företaget själv inte godkänner.

Säkerhetsuppdateringen minskar lyckade injektionsattacker. Den förbättringen är viktig, men den betyder också att den återstående attackytan består – och angripare kommer att anpassa sig till vilka försvar som helst som OpenAI distribuerar.

Branschövergripande Implikationer

OpenAI är inte ensamt om att konfrontera dessa utmaningar. Googles säkerhetsramverk för Chromes agenter-funktioner inkluderar flera försvarsskikt, inklusive en separat AI-modell som granskar varje föreslagen åtgärd. Perplexitys Comet-webbläsare har mött liknande granskning från säkerhetsforskare på Brave, som fann att navigering till en skadlig webbsida kunde utlösa skadliga AI-åtgärder.

Branschen verkar konvergera mot en gemensam förståelse: promptinjektion är en grundläggande begränsning, inte en bugg som kan lappas. Detta har betydande implikationer för visionen om AI-agenter som hanterar komplexa, känsliga uppgifter autonomt.

Vad Användare Bör Överväga

Den ärliga bedömningen är obekväm: AI-webbläsare är användbara verktyg med inneboende säkerhetsbegränsningar som inte kan elimineras genom bättre ingenjörskap. Användare står inför en avvägning mellan bekvämlighet och risk som ingen leverantör kan lösa fullständigt.

OpenAI:s råd – begränsa åtkomst, kräva bekräftelser, undvik breda mandat – motsvarar råd att använda mindre kraftfulla versioner av produkten. Detta är inte cynisk positionering; det är realistiskt erkännande av nuvarande begränsningar. AI-assistenter som kan göra mer kan också manipuleras till att göra mer.

Jämförelsen med traditionell webbsäkerhet är instruktiv. Användare faller fortfarande för phishingattacker decennier efter att de uppkom. Webbläsare blockerar fortfarande miljontals skadliga webbplatser dagligen. Hotet anpassar sig snabbare än försvar kan permanent lösa det.

AI-webbläsare lägger till en ny dimension till denna bekanta dynamik. När människor bläddrar, bringar de omdöme om vad som ser misstänkt ut. AI-agenter bearbetar allt med lika stor tillit, vilket gör dem mer mottagliga för manipulation även när de blir mer kapabla.

Vägen Framåt

OpenAI:s transparens förtjänar erkännande. Företaget kunde ha skickat säkerhetsuppdateringar tyst utan att erkänna det underliggande problemets bestånd. Istället publicerade de en detaljerad analys av attackvektorer och försvarsarkitekturer – information som hjälper användare att fatta informerade beslut och konkurrenter att förbättra sina egna skydd.

Men transparens löser inte den grundläggande spänningen. Ju mer kraftfulla AI-agenter blir, desto mer attraktiva mål presenterar de. Samma funktioner som låter Atlas hantera komplexa arbetsflöden skapar också möjligheter för sofistikerade attacker.

För tillfället bör användare av AI-webbläsare närma sig dem som kraftfulla verktyg med betydande begränsningar – inte som fullständigt autonoma digitala assistenter redo att hantera känsliga uppgifter utan tillsyn. OpenAI har varit ovanligt öppen om denna verklighet. Frågan är om branschens marknadsföring kommer att hinna ikapp vad säkerhetsteam redan vet.

Alex McFarland är en AI-journalist och författare som utforskar de senaste utvecklingarna inom artificiell intelligens. Han har samarbetat med många AI-startups och publikationer över hela världen.