Kontakt med oss

Cybersecurity

OpenAI innrømmer at AI-nettlesere kanskje aldri blir helt sikre

mm

OpenAI publiserte en sikkerhetsblogginnlegg 22. desember som inneholdt en slående innrømmelse: umiddelbare injeksjonsangrep mot AI-nettlesere «kan aldri bli fullstendig løst». Innrømmelsen kommer bare to måneder etter at selskapet lanserte ChatGPT Atlas, nettleseren med autonome agentfunksjoner.

Selskapet sammenlignet umiddelbar injeksjon med «svindel og sosial manipulering på nettet» – vedvarende trusler som forsvarere håndterer i stedet for å eliminere. For brukere som stoler på at AI-agenter navigerer på internett på deres vegne, reiser denne forståelsen grunnleggende spørsmål om hvor mye autonomi som er passende.

Hva OpenAI avslørte

Blogginnlegget beskriver OpenAIs defensive arkitektur for Atlas, inkludert en forsterkningsbasert læringsdrevet «automatisert angriper» som jakter på sårbarheter før ondsinnede aktører finner dem. Selskapet hevder at dette interne «red teamet» har oppdaget «nye angrepsstrategier som ikke dukket opp i vår «human red teaming»-kampanje eller eksterne rapporter».

En demonstrasjon viste hvordan en ondsinnet e-post kunne kapre en AI-agent som sjekket en brukers innboks. I stedet for å skrive et fraværssvar som instruert, sendte den kompromitterte agenten en oppsigelsesmelding. OpenAI sier at den siste sikkerhetsoppdateringen nå fanger opp dette angrepet – men eksemplet illustrerer hva som står på spill når AI-agenter opptrer autonomt i sensitive sammenhenger.

Den automatiserte angriperen «kan styre en agent til å utføre sofistikerte, langsiktige og skadelige arbeidsflyter som utfolder seg over titalls (eller til og med hundrevis) trinn», skrev OpenAI. Denne funksjonen hjelper OpenAI med å finne feil raskere enn eksterne angripere, men den avslører også hvor komplekse og skadelige prompt injection-angrep kan bli.

Bilde: OpenAI

Det grunnleggende sikkerhetsproblemet

Rask injeksjon utnytter en grunnleggende begrensning ved store språkmodeller: de kan ikke pålitelig skille mellom legitime instruksjoner og skadelig innhold innebygd i dataene de behandler. Når en AI-nettleser leser en nettside, kan all tekst på den siden potensielt påvirke dens oppførsel.

Sikkerhetsforskere har vist dette gjentatte ganger. AI-nettlesere kombinerer moderat autonomi med svært høy tilgang – en utfordrende posisjon innen sikkerhetsområdet.

Angrepene krever ikke sofistikerte teknikker. Skjult tekst på nettsider, nøye utformede e-poster eller usynlige instruksjoner i dokumenter kan alle manipulere AI-agenter til å utføre utilsiktede handlinger. Noen forskere har vist at ondsinnede meldinger skjult i skjermbilder kan kjøres når en AI tar et bilde av en brukers skjerm.

Hvordan OpenAI reagerer

OpenAIs forsvar inkluderer modeller som er trent av motstandere, klassifisering av umiddelbar injeksjon og «fartshumper» som krever brukerbekreftelse før sensitive handlinger. Selskapet anbefaler at brukere begrenser hva Atlas har tilgang til – begrenser tilgang for innloggede, krever bekreftelser før betalinger eller meldinger, og gir snevre instruksjoner i stedet for brede mandater.

Denne anbefalingen er avslørende. OpenAI anbefaler i hovedsak å behandle sitt eget produkt med mistenksomhet, og begrense den autonomien som gjør nettlesere attraktive i utgangspunktet. Brukere som ønsker at nettlesere med kunstig intelligens skal håndtere hele innboksen eller administrere økonomien sin, tar risikoer som selskapet selv ikke støtter.

Sikkerhetsoppdateringen reduserer antall vellykkede injeksjonsangrep. Denne forbedringen er viktig, men den betyr også at den gjenværende angrepsflaten vedvarer – og at angripere vil tilpasse seg det forsvaret OpenAI bruker.

Implikasjoner for hele bransjen

OpenAI er ikke alene om å møte disse utfordringene. Googles sikkerhetsrammeverk For Chromes agentfunksjoner inkluderer flere forsvarslag, inkludert en separat AI-modell som gransker alle foreslåtte handlinger. Perplexitys Comet-nettleser har blitt gransket på lignende måte av sikkerhetsforskere hos Brave, som fant ut at navigering til en ondsinnet nettside kan utløse skadelige AI-handlinger.

Bransjen ser ut til å være i ferd med å bli enige om en felles forståelse: rask injeksjon er en grunnleggende begrensning, ikke en feil som må rettes. Dette har betydelige implikasjoner for visjonen til AI-agenter som håndterer komplekse, sensitive oppgaver autonomt.

Hva brukere bør vurdere

Den ærlige vurderingen er ubehagelig: AI-nettlesere er nyttige verktøy med iboende sikkerhetsbegrensninger som ikke kan elimineres gjennom bedre konstruksjon. Brukere står overfor en avveining mellom bekvemmelighet og risiko som ingen leverandør kan løse helt.

OpenAIs veiledning – begrens tilgang, krev bekreftelser, unngå brede påbud – tilsvarer råd om å bruke mindre kraftige versjoner av produktet. Dette er ikke kynisk posisjonering; det er en realistisk erkjennelse av nåværende begrensninger. AI-assistenter som kan gjøre mer, kan også manipuleres til å gjøre mer.

Parallellen til tradisjonell nettsikkerhet er lærerik. Brukere faller fortsatt for phishing-angrep flere tiår etter at de dukket opp. Nettlesere blokkerer fortsatt millioner av ondsinnede nettsteder daglig. Trusselen tilpasser seg raskere enn forsvar kan løse den permanent.

AI-nettlesere gir en ny dimensjon til denne kjente dynamikken. Når mennesker surfer, vurderer de hva som ser mistenkelig ut. AI-agenter behandler alt med like stor tillit, noe som gjør dem mer utsatt for manipulasjon selv etter hvert som de blir dyktigere.

Stien frem

OpenAIs åpenhet fortjener anerkjennelse. Selskapet kunne ha sendt ut sikkerhetsoppdateringer i stillhet uten å anerkjenne at det underliggende problemet vedvarer. I stedet publiserte de detaljerte analyser av angrepsvektorer og defensive arkitekturer – informasjon som hjelper brukere med å ta informerte beslutninger og konkurrenter med å forbedre sin egen beskyttelse.

Men åpenhet løser ikke den grunnleggende spenningen. Jo kraftigere AI-agenter blir, desto mer attraktive mål representerer de. De samme egenskapene som lar Atlas håndtere komplekse arbeidsflyter skaper også muligheter for sofistikerte angrep.

Foreløpig bør brukere av AI-nettlesere behandle dem som kraftige verktøy med betydelige begrensninger – ikke som fullstendig autonome digitale assistenter klare til å håndtere sensitive oppgaver uten tilsyn. OpenAI har vært uvanlig åpenhjertig om denne virkeligheten. Spørsmålet er om bransjens markedsføring vil ta igjen det sikkerhetsteam allerede vet.

Alex McFarland er en AI-journalist og skribent som utforsker den siste utviklingen innen kunstig intelligens. Han har samarbeidet med en rekke AI-startups og publikasjoner over hele verden.