Anslut dig till vÄrt nÀtverk!

CybersÀkerhet

OpenAI medger att AI-webblÀsare kanske aldrig blir helt sÀkra

mm

OpenAI publicerade en sÀkerhetsblogginlÀgg den 22 december innehÄllande ett slÄende medgivande: snabba injektionsattacker mot AI-webblÀsare "kanske aldrig kan lösas helt". Medgivandet kommer bara tvÄ mÄnader efter att företaget lanserade ChatGPT Atlas, dess webblÀsare med autonoma agentfunktioner.

Företaget jĂ€mförde snabb injektion (prompt injection) med ”bedrĂ€gerier och social ingenjörskonst pĂ„ webben” – ihĂ„llande hot som försvarare hanterar snarare Ă€n eliminerar. För anvĂ€ndare som litar pĂ„ att AI-agenter navigerar pĂ„ internet Ă„t dem vĂ€cker denna uppfattning grundlĂ€ggande frĂ„gor om hur mycket autonomi som Ă€r lĂ€mplig.

Vad OpenAI avslöjade

BlogginlÀgget beskriver OpenAI:s defensiva arkitektur för Atlas, inklusive en förstÀrkningsinlÀrningsdriven "automatiserad angripare" som letar efter sÄrbarheter innan illvilliga aktörer hittar dem. Företaget hÀvdar att detta interna red team har upptÀckt "nya attackstrategier som inte förekom i vÄr kampanj för mÀnskliga red teamings eller externa rapporter".

En demonstration visade hur ett skadligt e-postmeddelande kunde kapa en AI-agent som kontrollerade en anvĂ€ndares inkorg. IstĂ€llet för att skriva ett frĂ„nvaromeddelande enligt instruktionerna skickade den komprometterade agenten ett avskedsanrop. OpenAI sĂ€ger att deras senaste sĂ€kerhetsuppdatering nu fĂ„ngar upp denna attack – men exemplet illustrerar vad som stĂ„r pĂ„ spel nĂ€r AI-agenter agerar autonomt i kĂ€nsliga sammanhang.

Den automatiserade angriparen ”kan styra en agent till att utföra sofistikerade, lĂ„ngsiktiga och skadliga arbetsflöden som utspelar sig över tiotals (eller till och med hundratals) steg”, skrev OpenAI. Denna funktion hjĂ€lper OpenAI att hitta brister snabbare Ă€n externa angripare, men den avslöjar ocksĂ„ hur komplexa och skadliga prompt injection-attacker kan bli.

Bild: OpenAI

Det grundlÀggande sÀkerhetsproblemet

Prompt injection utnyttjar en grundlÀggande begrÀnsning hos stora sprÄkmodeller: de kan inte tillförlitligt skilja mellan legitima instruktioner och skadligt innehÄll inbÀddat i den data de bearbetar. NÀr en AI-webblÀsare lÀser en webbsida kan all text pÄ den sidan potentiellt pÄverka dess beteende.

SĂ€kerhetsforskare har visat detta upprepade gĂ„nger. AI-webblĂ€sare kombinerar mĂ„ttlig autonomi med mycket hög Ă„tkomst – en utmanande position inom sĂ€kerhetsomrĂ„det.

Attackerna krÀver inte sofistikerade tekniker. Dold text pÄ webbsidor, noggrant utformade e-postmeddelanden eller osynliga instruktioner i dokument kan alla manipulera AI-medel till att utföra oavsiktliga handlingar. Vissa forskare har visat att skadliga uppmaningar dolda i skÀrmdumpar kan köras nÀr en AI tar en bild av en anvÀndares skÀrm.

Hur OpenAI reagerar

OpenAI:s försvar inkluderar modeller som trĂ€nas av fiender, klassificerare för snabba injektioner och "farthinder" som krĂ€ver anvĂ€ndarbekrĂ€ftelse innan kĂ€nsliga Ă„tgĂ€rder kan vidtas. Företaget rekommenderar att anvĂ€ndare begrĂ€nsar vad Atlas har Ă„tkomst till – begrĂ€nsar Ă„tkomst för inloggade, krĂ€ver bekrĂ€ftelser innan betalningar eller meddelanden och ger snĂ€va instruktioner snarare Ă€n breda mandat.

Denna rekommendation Àr avslöjande. OpenAI rekommenderar i huvudsak att man behandlar sin egen produkt med misstÀnksamhet och begrÀnsar den autonomi som gör agentbaserade webblÀsare tilltalande frÄn första början. AnvÀndare som vill att AI-webblÀsare ska hantera hela deras inkorg eller hantera deras ekonomi tar risker som företaget sjÀlvt inte stöder.

SĂ€kerhetsuppdateringen minskar antalet lyckade injektionsattacker. Den förbĂ€ttringen Ă€r viktig, men den innebĂ€r ocksĂ„ att den Ă„terstĂ„ende attackytan kvarstĂ„r – och att angripare kommer att anpassa sig till de försvar som OpenAI anvĂ€nder.

Branschomfattande konsekvenser

OpenAI Àr inte ensamt om att möta dessa utmaningar. Googles sÀkerhetsramverk För Chromes agentfunktioner ingÄr flera försvarslager, inklusive en separat AI-modell som granskar varje föreslagen ÄtgÀrd. Perplexitys Comet-webblÀsare har granskats pÄ liknande sÀtt av sÀkerhetsforskare pÄ Brave, som fann att navigering till en skadlig webbsida kan utlösa skadliga AI-ÄtgÀrder.

Branschen verkar vara pÄ vÀg att enas kring en gemensam uppfattning: snabb injektion Àr en grundlÀggande begrÀnsning, inte en bugg som ska ÄtgÀrdas. Detta har betydande konsekvenser för synen pÄ AI-agenter som hanterar komplexa, kÀnsliga uppgifter autonomt.

Vad anvÀndare bör tÀnka pÄ

Den Àrliga bedömningen Àr obekvÀm: AI-webblÀsare Àr anvÀndbara verktyg med inneboende sÀkerhetsbegrÀnsningar som inte kan elimineras genom bÀttre teknik. AnvÀndare stÄr inför en avvÀgning mellan bekvÀmlighet och risk som ingen leverantör helt kan lösa.

OpenAI:s riktlinjer – begrĂ€nsa Ă„tkomst, krĂ€v bekrĂ€ftelser, undvik breda krav – Ă€r i princip detsamma som rĂ„d att anvĂ€nda mindre kraftfulla versioner av produkten. Detta Ă€r inte cynisk positionering; det Ă€r ett realistiskt erkĂ€nnande av nuvarande begrĂ€nsningar. AI-assistenter som kan göra mer kan ocksĂ„ manipuleras till att göra mer.

Parallellen till traditionell webbsÀkerhet Àr lÀrorik. AnvÀndare faller fortfarande för nÀtfiskeattacker Ärtionden efter att de uppstod. WebblÀsare blockerar fortfarande miljontals skadliga webbplatser dagligen. Hotet anpassar sig snabbare Àn försvar kan lösa det permanent.

AI-webblÀsare ger en ny dimension till denna vÀlbekanta dynamik. NÀr mÀnniskor surfar bedömer de vad som ser misstÀnkt ut. AI-agenter bearbetar allt med lika stor tillit, vilket gör dem mer mottagliga för manipulation Àven nÀr de blir mer kapabla.

VÀgen framÄt

OpenAIs transparens förtjĂ€nar erkĂ€nnande. Företaget kunde ha skickat sĂ€kerhetsuppdateringar i tysthet utan att erkĂ€nna att det underliggande problemet kvarstĂ„r. IstĂ€llet publicerade de detaljerade analyser av attackvektorer och defensiva arkitekturer – information som hjĂ€lper anvĂ€ndare att fatta vĂ€lgrundade beslut och konkurrenter att förbĂ€ttra sina egna skydd.

Men transparens löser inte den grundlÀggande spÀnningen. Ju kraftfullare AI-agenter blir, desto mer attraktiva mÄltavlor utgör de. Samma funktioner som lÄter Atlas hantera komplexa arbetsflöden skapar ocksÄ möjligheter för sofistikerade attacker.

För nĂ€rvarande bör anvĂ€ndare av AI-webblĂ€sare betrakta dem som kraftfulla verktyg med betydande begrĂ€nsningar – inte som helt autonoma digitala assistenter redo att hantera kĂ€nsliga uppgifter utan övervakning. OpenAI har varit ovanligt uppriktiga om denna verklighet. FrĂ„gan Ă€r om branschens marknadsföring kommer att komma ikapp det sĂ€kerhetsteam redan vet.

Alex McFarland Àr en AI-journalist och författare som utforskar den senaste utvecklingen inom artificiell intelligens. Han har samarbetat med mÄnga AI-startups och publikationer över hela vÀrlden.