Følg os

Tanke ledere

De sikkerhedssårbarheder, vi indbyggede: AI-agenter og problemet med lydighed

mm

LLM-baserede AI-agenter introducerer en ny klasse af sårbarheder, hvor angribere indsprøjter ondsindede instruktioner i data og forvandler nyttige systemer til ubevidste medskyldige.

Microsoft Copilot blev ikke hacket i traditionel forstand. Der var ingen malware, intet phishing-link, ingen ondsindet kode. Ingen klikkede på noget eller implementerede nogen form for exploit.

Trusselsaktøren spurgte blot. Microsoft 365 Copilot, der gjorde præcis det, den var bygget til at gøre, efterkom kravene. I den seneste tid Echoleak Med et nulklik-angreb blev AI-agenten manipuleret af en prompt forklædt som data. Den adlød, ikke fordi den var i stykker, men fordi den fungerede, som den var designet til.

Denne sårbarhed udnyttede ikke softwarefejl. Den udnyttede sprog. Og det markerer et vigtigt vendepunkt inden for cybersikkerhed, hvor angrebsfladen ikke længere er kode, men samtale.

Det nye AI-lydighedsproblem

AI agenter er designet til at hjælpe. Deres formål er at forstå brugerens intention og handle effektivt ud fra den. Denne funktion indebærer en risiko. Når disse agenter er integreret i filsystemer, produktivitetsplatforme eller operativsystemer, følger de kommandoer i naturligt sprog med minimal modstand.

Trusselaktører udnytter netop denne egenskab. Med hurtige injektioner, der virker harmløse, kan de udløse følsomme handlinger. Disse prompter kan omfatte:

  • Flersprogede kodestykker
  • Uklare filformater og indlejrede instruktioner
  • Ikke-engelsksprogede input
  • Flertrinskommandoer skjult i afslappet sprog

Fordi store sprogmodeller (LLM'er) er trænet til at forstå kompleksitet og flertydighed, bliver prompten nyttelasten.

Siri og Alexas spøgelse

Dette mønster er ikke nyt. I Siri og Alexas tidlige dage, forskere demonstreret hvordan afspilning af en stemmekommando som "Send alle mine billeder til denne e-mail" kan udløse en handling uden brugerverifikation.

Nu er truslen større. AI-agenter som Microsoft Copilot er dybt integreret i Office 365, Outlook og operativsystemet. De tilgår e-mails, dokumenter, legitimationsoplysninger og API'er. Angribere behøver kun den rigtige prompt for at udtrække kritiske data, alt imens de udgiver sig for at være en legitim bruger.

Når computere forveksler instruktioner med data

Dette er ikke et nyt princip inden for cybersikkerhed. Injektioner som SQL-angreb lykkedes, fordi systemerne ikke kunne skelne mellem input og instruktion. I dag findes den samme fejl, men på sproglaget.

AI-agenter behandler naturligt sprog som både input og hensigt. Et JSON-objekt, et spørgsmål eller endda en sætning kan starte en handling. Denne tvetydighed er det, som trusselsaktører udnytter ved at integrere kommandoer i det, der ligner harmløst indhold.

Vi har integreret intention i infrastrukturen. Nu har trusselsaktører lært, hvordan de kan udvinde den for at gøre deres bud.

AI-adoption overgår cybersikkerhed

I takt med at virksomheder skynder sig at integrere LLM'er, overser mange et kritisk spørgsmål: Hvad har AI'en adgang til?

Når Copilot kan røre ved operativsystemet, udvides eksplosionsradiusen langt ud over indbakken. Ifølge Check Points AI-sikkerhedsrapport:

  • 62 procent af globale informationssikkerhedschefer (CISO'er) frygter, at de kan blive holdt personligt ansvarlige for AI-relaterede brud
  • Næsten 40 procent af organisationer rapporterer usanktioneret intern brug af AI, ofte uden sikkerhedstilsyn.
  • 20 procent af cyberkriminelle grupper integrerer nu kunstig intelligens i deres operationer, herunder til at udforme phishing og udføre rekognoscering

Dette er ikke bare en fremvoksende risiko. Det er en eksisterende risiko, der allerede forårsager skade.

Hvorfor eksisterende sikkerhedsforanstaltninger ikke er tilstrækkelige

Nogle leverandører bruger vagthunde – sekundære modeller, der er trænet til at fange farlige prompts eller mistænkelig adfærd. Disse filtre kan registrere basale trusler, men er sårbare over for undvigelsesteknikker.

Trusselaktører kan:

  • Overbelastningsfiltre med støj
  • Opdel intentionen på tværs af flere trin
  • Brug ikke-indlysende formuleringer for at omgå detektion

I tilfældet med Echoleak var der sikkerhedsforanstaltninger til stede – og de blev omgået. Dette afspejler ikke blot en fejl i politikken, men også en fejl i arkitekturen. Når en agent har tilladelser på højt niveau, men kontekst på lavt niveau, kommer selv gode beskyttelsesrækværk til kort.

Detektion, ikke perfektion

Det kan være urealistisk at forhindre ethvert angreb. Målet skal være hurtig opdagelse og hurtig inddæmning.

Organisationer kan starte ved at:

  • Overvågning af AI-agentaktivitet i realtid og vedligeholdelse af hurtig revisionslogfiler
  • Anvendelse af streng adgang med mindst mulige rettigheder til AI-værktøjer, der spejler kontroller på administratorniveau
  • Tilføjelse af friktion til følsomme operationer, såsom krav om bekræftelser
  • Markering af usædvanlige eller uhensigtsmæssige promptmønstre til gennemgang

Sprogbaserede angreb vil ikke forekomme i traditionelle slutpunktsdetektion og respons (EDR) værktøjer. De kræver en ny detektionsmodel.

Hvad organisationer bør gøre nu for at beskytte sig selv

Før organisationer implementerer AI-agenter, skal de forstå, hvordan disse systemer fungerer, og hvilke risici de introducerer.

Vigtigste anbefalinger omfatter:

  1. Overvåg al adgang: Vid, hvad agenter kan berøre eller udløse
  2. Begræns omfanget: Giv minimum nødvendige tilladelser
  3. Spor alle interaktioner: Logfør prompter, svar og resulterende handlinger
  4. Stresstest: Simuler modstridende input internt og hyppigt
  5. Plan for undvigelse: Antag at filtre vil blive omgået
  6. Tilpas med sikkerhed: Sørg for, at LLM-systemer understøtter, ikke kompromitterer, sikkerhedsmål

Den nye angrebsflade

Echoleak er en forsmag på, hvad der venter os. Efterhånden som LLM'er udvikler sig, bliver deres hjælpsomhed en belastning. Dybt integreret i forretningssystemer tilbyder de angribere en ny vej ind – gennem enkle, veludformede prompts.

Det handler ikke længere blot om at sikre kode. Det handler om at sikre sprog, intention og kontekst. Håndbogen skal ændres nu, før det er for sent.

Og alligevel er der nogle gode nyheder. Der gøres fremskridt med at udnytte AI-agenter til at forsvare mod nye og fremvoksende cybertrusler. Når disse autonome AI-agenter udnyttes korrekt, kan de reagere på trusler hurtigere end noget menneske, samarbejde på tværs af miljøer og proaktivt forsvare sig mod nye risici ved at lære af et enkelt indtrængningsforsøg.

Agentisk AI kan lære af ethvert angreb, tilpasse sig i realtid og forhindre trusler, før de spreder sig. Det har potentiale til at etablere en ny æra inden for cyberrobusthed, men kun hvis vi griber dette øjeblik og sammen former fremtiden for cybersikkerhed. Hvis vi ikke gør det, kan denne nye æra signalere et mareridt inden for cybersikkerhed og databeskyttelse for organisationer, der allerede har implementeret AI (nogle gange endda ubevidst med skygge-IT-værktøjer). Nu er det tid til at handle for at sikre, at AI-agenter bruges til vores fordel i stedet for vores undergang.

Radoslaw Madej er leder af sårbarhedsforskningsteamet hos Check Point ResearchRadoslaw er en passioneret cybersikkerhedsekspert med næsten to årtiers teknisk erfaring inden for forskellige områder af informationssikkerhed, opnået ved at levere projekter for globale virksomheder med høje sikkerhedskrav.