Cybersikkerhed

OpenAI indrømmer, at AI-webbrowserne måske aldrig kan være fuldstændigt sikre

mm

OpenAI offentliggjorde en sikkerhedsblogindlæg den 22. december med en slående indrømmelse: prompt-injektionsangreb mod AI-webbrowserne “måske aldrig kan løses fuldstændigt”. Indrømmelsen kommer blot to måneder efter, at virksomheden lancerede ChatGPT Atlas, deres webbrowser med selvstændige agentfunktioner.

Virksomheden sammenlignede prompt-injektion med “svindel og sociale manipulationer på internettet” – persistente trusler, som forsvarere håndterer, men ikke eliminerer. For brugere, der betror AI-agenter til at navigere på internettet på deres vegne, rejser denne sammenligning grundlæggende spørgsmål om, hvor meget selvstændighed der er passende.

Hvad OpenAI afslørede

Blogindlægget beskriver OpenAIs defensive arkitektur for Atlas, herunder en forstærket læringsbaseret “automatiseret angriber”, der søger efter sårbarheder, før skadelige aktører finder dem. Virksomheden hævder, at denne interne rød team har opdaget “nye angrebsstrategier, der ikke optrådte i vores menneskelige rød team-kampagne eller eksterne rapporter”.

En demonstration viste, hvordan en skadelig e-mail kunne kapre en AI-agent, der tjekker en brugers indbakke. I stedet for at udarbejde en automatisk svarbesked, som instrueret, sendte den kompromitterede agent en afskedsmeddelelse. OpenAI siger, at deres seneste sikkerhedsopdatering nu fanger dette angreb, men eksemplet illustrerer, hvad der er på spil, når AI-agenter handler selvstændigt i følsomme sammenhænge.

Den automatiserede angriber “kan styre en agent til at udføre sofistikerede, langsigtede skadelige arbejdsgange, der udvikler sig over titusinder (eller endda hundredvis) af trin”, skrev OpenAI. Denne funktion hjælper OpenAI med at finde fejl hurtigere end eksterne angribere, men den afslører også, hvor komplekse og skadelige prompt-injektionsangreb kan blive.

Billede: OpenAI

Det grundlæggende sikkerhedsproblem

Prompt-injektion udnytter en grundlæggende begrænsning i store sprogmodeller: de kan ikke pålideligt skelne mellem legitime instruktioner og skadelig indhold, der er indlejret i de data, de behandler. Når en AI-webbrowser læser en webside, kan enhver tekst på den side potentielt påvirke dens adfærd.

Sikkerhedsforskere har demonstreret dette gentagne gange. AI-webbrowserne kombinerer moderat selvstændighed med meget høj adgang – en udfordrende position i sikkerhedsrummet.

Angrebene kræver ikke avancerede teknikker. Skjult tekst på websider, omhyggeligt udformede e-mails eller usynlige instruktioner i dokumenter kan alle manipulere AI-agenter til at udføre uventede handlinger. Nogle forskere har vist, at skadelige prompts, der er skjult i screenshots, kan udføres, når en AI tager et billede af en brugers skærm.

Hvordan OpenAI reagerer

OpenAIs forsvar omfatter modstandstrænede modeller, prompt-injektionsklassifikatorer og “hastighedsbump” -kræver brugerbekræftelse, før følsomme handlinger udføres. Virksomheden anbefaler brugere at begrænse, hvad Atlas kan få adgang til – begrænse loggede adgang, kræv bekræftelser, før betalinger eller meddelelser, og give smalle instruktioner i stedet for brede direktiver.

Denne anbefaling er afslørende. OpenAI råder i virkeligheden brugerne til at behandle deres eget produkt med mistænksomhed, begrænse den selvstændighed, der gør agente-webbrowserne attraktive fra starten. Brugere, der ønsker, at AI-webbrowserne skal håndtere deres hele indbakke eller styre deres økonomi, antager risici, som virksomheden selv ikke anbefaler.

Sikkerhedsopdateringen reducerer antallet af succesfulde injektionsangreb. Denne forbedring er vigtig, men den betyder også, at den resterende angrebsflade består – og angribere vil tilpasse sig, hvad som helst OpenAI udvikler.

Branchens konsekvenser

OpenAI er ikke alene om at konfrontere disse udfordringer. Googles sikkerhedsramme for Chromes agente-funktioner omfatter flere forsvarslag, herunder en separat AI-model, der vurderer hver foreslået handling. Perplexitys Comet-webbrowser har været udsat for lignende undersøgelser fra sikkerhedsforskere hos Brave, der fandt, at navigation til en skadelig webside kunne udløse skadelige AI-handlinger.

Branchen synes at være enig om en fælles forståelse: prompt-injektion er en grundlæggende begrænsning, ikke en fejl, der kan løses. Dette har betydelige konsekvenser for visionen om AI-agenter, der håndterer komplekse, følsomme opgaver selvstændigt.

Hvad brugere skal overveje

Den ærlige vurdering er ubehagelig: AI-webbrowserne er nyttige værktøjer med indbyggede sikkerhedsbegrænsninger, der ikke kan elimineres gennem bedre ingeniørarbejde. Brugere står over for en afvejning mellem bekvemmelighed og risiko, som ingen leverandør kan løse fuldstændigt.

OpenAIs vejledning – begræns adgang, kræv bekræftelser, undgå brede direktiver – svarende til at råde brugerne til at bruge mindre kraftfulde versioner af produktet. Dette er ikke en cynisk positionering; det er en realistisk anerkendelse af nuværende begrænsninger. AI-assistenter, der kan mere, kan også manipuleres til at gøre mere.

Parallelen til traditionel websikkerhed er instruktiv. Brugere falder stadig for phishing-angreb årtier efter, at de opstod. Webbrowserne blokerer stadig millioner af skadelige sites dagligt. Truslen tilpasser sig hurtigere, end forsvar kan løse det permanent.

AI-webbrowserne tilføjer en ny dimension til denne velkendte dynamik. Når mennesker surfer, bringer de domme om, hvad der ser mistænkeligt ud. AI-agenter behandler alt med lige stor tillid, hvilket gør dem mere sårbare over for manipulation, selvom de bliver mere kompetente.

Vejen frem

OpenAIs åbenhed fortjener anerkendelse. Virksomheden kunne have leveret sikkerhedsopdateringer stille og roligt uden at anerkende, at det underliggende problem består. I stedet offentliggjorde de en detaljeret analyse af angrebsvektorer og defensive arkitekturer – information, der hjælper brugere med at træffe informerede beslutninger og konkurrenter med at forbedre deres egne beskyttelser.

Men åbenhed løser ikke den grundlæggende spænding. Jo mere kraftfulde AI-agenter bliver, jo mere tiltrækkende mål præsenterer de. De samme funktioner, der låter Atlas håndtere komplekse arbejdsgange, skaber også muligheder for sofistikerede angreb.

For nu skal brugere af AI-webbrowserne nærme sig dem som kraftfulde værktøjer med betydelige begrænsninger – ikke som fuldstændigt selvstændige digitale assistenter, der kan håndtere følsomme opgaver uden tilsyn. OpenAI har været usædvanligt åben om denne realitet. Spørgsmålet er, om branchens markedsføring vil følge, hvad sikkerhedsteams allerede ved.

Alex McFarland er en AI-journalist og forfatter, der udforsker de seneste udviklinger inden for kunstig intelligens. Han har samarbejdet med talrige AI-startups og publikationer verden over.