Cybersäkerhet

De säkerhetsluckor vi byggde in: AI-agenter och problemet med lydnad

Published June 18, 2025

Updated April 2, 2026

Radoslaw Madej, Vulnerability Research Team Lead at Check Point Research

LLM-baserade AI-agenter introducerar en ny klass av sårbarheter, där angripare injicerar skadliga instruktioner i data, vilket förvandlar hjälpsamma system till omedvetna medbrottslingar.

Microsoft Copilot blev inte hackad i klassisk bemärkelse. Det fanns ingen skadlig kod, ingen phishing-länk, ingen skadlig kod. Ingen klickade på något eller distribuerade någon exploit.

Hotaktören frågade helt enkelt. Microsoft 365 Copilot, som gjorde exakt vad den var byggd för att göra, lydde. I den nyliga Echoleak-attacken, som var en zero-click-attack, manipulerades AI-agenten av en prompt som var maskerad som data. Den lydde, inte för att den var trasig, utan för att den fungerade som den var utformad för att göra.

Denna sårbarhet utnyttjade inte mjukvarubuggar. Den utnyttjade språk. Och det markerar en viktig vändpunkt i cybersäkerhet, där attackytan inte längre är kod utan konversation.

Det nya AI-lydnadsproblemet

AI-agenter är utformade för att hjälpa. Deras syfte är att förstå användarens avsikt och agera effektivt. Den utilityn kommer med risk. När de är inbäddade i filsystem, produktivitetsplattformar eller operativsystem, följer dessa agenter naturliga språkkommandon med minimalt motstånd.

Hotaktörer utnyttjar just den egenskapen. Med prompt-injektioner som ser oskyldiga ut kan de utlösa känsliga åtgärder. Dessa prompts kan inkludera:

Multilingvala kodsnuttar
Outvecklade filformat och inbäddade instruktioner
Ickesvenska språkingångar
Multistegskommandon dolda i vardagligt språk

Eftersom stora språkmodeller (LLM) är utbildade för att förstå komplexitet och tvetydighet, blir prompten payloaden.

Spöket av Siri och Alexa

Detta mönster är inte nytt. I de tidiga dagarna av Siri och Alexa demonstrerade forskare hur man kunde spela en röstkommend som “Skicka alla mina foton till den här e-postadressen” för att utlösa en åtgärd utan användarverifiering.

Nu är hotet större. AI-agenter som Microsoft Copilot är integrerade djupt i Office 365, Outlook och operativsystemet. De har tillgång till e-post, dokument, autentiseringsuppgifter och API:er. Angripare behöver bara rätt prompt för att extrahera kritisk data, allt medan de utger sig för att vara en legitim användare.

När datorer förväxlar instruktioner med data

Detta är inte en ny princip i cybersäkerhet. Injektioner som SQL-attacker lyckades för att systemen inte kunde skilja mellan indata och instruktion. Idag finns samma brist, men på språklagret.

AI-agenter behandlar naturligt språk som både indata och avsikt. Ett JSON-objekt, en fråga eller till och med en fras kan initiera en åtgärd. Den tvetydigheten är vad hotaktörer utnyttjar, genom att bädda in kommandon inom vad som ser ut som ofarligt innehåll.

Vi har inbäddat avsikt i infrastrukturen. Nu har hotaktörer lärt sig hur man kan extrahera den för att göra deras bud.

AI-antagande överträffar cybersäkerhet

När företag skyndar sig för att integrera LLM, förbiser många en kritisk fråga: vad har AI tillgång till?

När Copilot kan komma åt operativsystemet, expanderar skadans omfattning långt bortom inkorgen. Enligt Check Points AI-säkerhetsrapport:

62 procent av globala Chief Information Security Officers (CISO) fruktar att de kan hållas personligen ansvariga för AI-relaterade brott
Nästan 40 procent av organisationer rapporterar oauktoriserad intern användning av AI, ofta utan säkerhetsövervakning
20 procent av cyberkriminella grupper använder nu AI i sina operationer, inklusive för att skapa phishing och genomföra rekognoscering

Detta är inte bara en framväxande risk. Det är en närvarande risk som redan orsakar skada.

Varför befintliga skydd är otillräckliga

Vissa leverantörer använder watchdogs — sekundära modeller som är utbildade för att upptäcka farliga prompts eller misstänkta beteenden. Dessa filter kan upptäcka grundläggande hot, men är sårbara för undvikande tekniker.

Hotaktörer kan:

Överbelasta filter med brus
Delar avsikt över flera steg
Använda icke-uppenbar formulering för att kringgå upptäckt

I fallet med Echoleak var skydd på plats — och de kringgicks. Detta reflekterar inte bara en policybrist, utan en arkitekturbrist. När en agent har högnivåbehörighet men lågnivåkontext, är till och med bra skydd otillräckliga.

Upptäckt, inte perfektion

Att förhindra varje attack kan vara orealistiskt. Målet måste vara snabb upptäckt och snabb inneslutning.

Organisationer kan börja med:

Övervaka AI-agentaktivitet i realtid och underhålla promptloggning
Tillämpa strikt minsta nödvändiga behörighet till AI-verktyg, speglar admin-nivåkontroller
Lägga till friktion till känsliga operationer, såsom att kräva bekräftelser
Flagga ovanliga eller fientliga promptmönster för granskning

Språkbaserade attacker kommer inte att visas i traditionella endpoint detection and response (EDR)-verktyg. De kräver en ny upptäcktsmodell.

Vad organisationer bör göra nu för att skydda sig

Innan de distribuerar AI-agenter, måste organisationer förstå hur dessa system fungerar och vilka risker de introducerar.

Radoslaw Madej, Vulnerability Research Team Lead at Check Point Research

Radoslaw Madej är Vulnerability Research Team Lead på Check Point Research. Radoslaw är en passionerad cybersäkerhetsexpert med nästan två decenniers teknisk erfarenhet inom olika områden av informationssäkerhet som vunnits genom att leverera projekt för globala företag med höga säkerhetskrav.