Connect with us

Den dolda hotet från AI-agenter kräver en ny säkerhetsmodell

Tankeledare

Den dolda hotet från AI-agenter kräver en ny säkerhetsmodell

mm

Agenta AI-systemer har blivit allmänt accepterade under det senaste året. De används nu för flera funktioner, inklusive autentisering av användare, överföring av kapital, utlösning av regelefterlevnadsarbetsflöden och samordning över företagsmiljöer med minimal mänsklig tillsyn.

Men ett tystare problem uppstår med den ökande autonomi, inte på nivån för prompter eller policys, utan på nivån för infrastrukturtrust. Agenta system ges insidermyndighet medan de fortfarande körs på beräkningsmiljöer som aldrig var avsedda att skydda autonoma beslutsfattare från infrastrukturen under dem.

Traditionell säkerhet antar att programvara är passiv, men agenta system är det inte. De resonerar, minns och agerar kontinuerligt, autonomt och med delegerad myndighet.

Och inte att glömma att AI-agenter sannolikt kommer att ha tillgång till personuppgifter, baserat på deras användningsfall, såsom e-post och telefonsamtal, bland annat.

Dessutom, medan hårdvarubaserade skydd, såsom konfidentiella virtuella maskiner och säkra enklaver, finns, är de inte ännu den vanliga grunden för de flesta agenter för AI-distribution. Som ett resultat kör många agenter fortfarande i miljöer där känsliga data exponeras för den underliggande infrastrukturen under körning.

Agenter är insiders, inte verktyg

Säkerhetsteam vet redan hur utmanande det är att innehålla insiderhot, ett problem som betonats i Verizon’s 2025 dataintrångsrapport, som visar att systemintrång var ansvarigt för mer än 53% av bekräftade intrång förra året. I 22% av dessa fall använde angriparna stulna autentiseringsuppgifter för att få åtkomst, vilket visar hur ofta de lyckas med att använda legitima identiteter istället för att utnyttja tekniska brister.

Tänk nu på en agent, som består av promptlogik, verktyg och plugins, autentiseringsuppgifter samt policys. Den kan inte bara köra kod och bläddra på webben, utan också fråga CRM, läsa e-post och skicka biljetter, bland många andra saker. Vad kombinationen av funktioner har medfört är traditionella angreppsytor i en modern gränssnitt.

Faran som sådana insiderhot utgör är inte spekulativ. The Open Web Application Security Project (OWASP) listar nu ”Prompt Injection” som en kritisk sårbarhet för LLM-applikationer, och noterar dess särskilda fara för agenter som kedjar åtgärder. Microsofts Threat Intelligence-team har också publicerat råd varnande att AI-system med verktygsåtkomst kan kapas för att utföra datastöld om säkerhetsåtgärder inte är arkitektoniskt påtvingade.

Dessa rapporter erbjuder en lämplig påminnelse om att agenter som har legitim åtkomst till system och data kan vändas mot sina ägare. Men risklandskapet för agenter är inte enhetligt. Applikationslagershot som promptinjektion och verktygsmissbruk härstammar från modellens oförmåga att skilja på betrodda instruktioner och obehörig användarindata, en designbegränsning som ingen mängd minnesförstärkning kan åtgärda.

Ett annat och lika viktigt problem finns på infrastruktурнivå: vissa agenter kör i klartextminne, vilket innebär att känslig information – som chatsamtal, API-svar och dokument – kan ses medan den bearbetas och kan förbli tillgänglig senare. OWASP identifierar denna risk som Sensitive Information Disclosure (LLM02) och System Prompt Leakage (LLM07) och föreslår att man använder kontextisolering, namnområdessegmentering och minnessandboxning som viktiga säkerhetsåtgärder.

Således bör användare inte behandla dessa agenter som bara vanliga applikationer, med tanke på att de är dynamiska, resonera exekverare som kräver en säkerhetsmodell som tar hänsyn till deras unika natur som icke-mänskliga entiteter med agentur. Denna approach behöver inkludera både programvarukontroller för att begränsa hur modellen agerar och hårdvaruskydd för att hålla data säker medan den används.

Arkitekturen för tillit har en kritisk brist

Nuvarande säkerhetspraxis fokuserar på att skydda data i vila och under överföring. Den sista gränsen, data i användning, förblir nästan helt exponerad. När en AI-agent resonerar över en konfidentiell dataset för att godkänna ett lån, analysera patientjournaler eller utföra en transaktion, är data vanligtvis dekrypterad och bearbetad i klartext inom serverns minne.

I standardmolnmodeller kan vem som helst med tillräcklig kontroll över infrastrukturen, inklusive hypervisormiljöer eller co-tenantangripare, potentiellt titta på vad som händer medan en arbetsbelastning körs. För AI-agenter är denna exponering särskilt farlig, eftersom de behöver åtkomst till känslig information för att göra sitt jobb, vilket kan potentiellt bli angreppsytan.

Som Lumia Security demonstrerade, kan angripare med åtkomst till en lokal maskin direkt erhålla JWT och sessionssnycklar från ChatGPT, Claude och Copilot-skrivbordsapplikationers processminne. Dessa stulna autentiseringsuppgifter kan låta dem utge sig för att vara en annan användare, stjäla konversationshistorik och injicera prompter i pågående sessioner som kan ändra agentbeteende eller plantera falska minnen.

Ett exempel på detta kan vara AWS CodeBuilds minnesdumpincident i juli 2025. Angriparna lade till skadlig kod i ett projekt i hemlighet, och när systemet körde det, tittade koden in i datorns minne och stal dolda inloggnings-token som lagrades där. Med dessa token kunde angriparna ändra projektkoden och potentiellt få åtkomst till andra system.

För finansiella institutioner är den tysta manipulationen existentiell. Banker, försäkringsbolag och investeringsföretag absorberar redan genomsnittliga intrångskostnader på över 10 miljoner dollar, och de förstår att integritet är lika viktigt som konfidentialitet. Enligt en nylig Informatica- rapport förklarades “tillitsparadoxen” så här: organisationer distribuerar autonoma agenter snabbare än de kan verifiera deras utdata. Resultatet är automatisering som kan förhärda fel eller bias direkt in i kärnprocesser, som fungerar i maskinens hastighet.

Konfidentiell datoranvändning och fallet för isolering

Inkrementella lösningar kommer inte att lösa problemet, även om strängare åtkomstkontroll och bättre övervakning kan hjälpa. Men varken kan ändra det underliggande problemet. Problemet är arkitektoniskt, och så länge som beräkning sker i exponerat minne, kommer agenter att vara sårbara i den stund de betyder mest, vilket är resonemang.

Konfidentiell datoranvändning, definierad av Confidential Computing Consortium (CCC) som skydd av data i användning via hårdvarubaserade Trusted Execution Environments (TEEs), adresserar direkt den grundläggande bristen.

För AI-agenter är denna hårdvarunivåisolering omvandlande, eftersom den tillåter en agents identitetsautentiseringsuppgifter, dess modellvikter, proprietära prompter och den känsliga användardata den bearbetar att förbli krypterad, inte bara på en disk eller över ett nätverk, utan aktivt i minnet under körning. Separationen bryter definitivt den traditionella modellen där kontroll över infrastrukturen garanterar kontroll över arbetsbelastningen.

Fjärrautentisering tillhandahåller verifiebara kryptografiska bevis för att en specifik inferensbegäran utfördes inom en hårdvarubaserad betrodd exekveringsmiljö, antingen det är en CPU eller GPU. Beviset genereras från hårdvarumätningar och levereras tillsammans med svaret, vilket möjliggör oberoende verifiering av var och hur arbetsbelastningen kördes.

Autentiseringsposter avslöjar inte den kod som utfördes. Istället är varje arbetsbelastning associerad med en unik arbetsbelastnings-ID eller transaktions-ID, och TEE-autentiseringsposten är länkad till den identifieraren. Autentiseringen bekräftar att beräkningen utfördes inom en betrodd miljö utan att avslöja dess innehåll.

Konfigurationen skapar en ny bas för regelefterlevnad och granskning, vilket möjliggör länkning av en agents åtgärder till en specifik version av kod som har autentiserats och en känd uppsättning ingångsdata.

Mot ansvarsfull autonomi

Konsekvenserna för systemet beskrivet ovan sträcker sig bortom grundläggande säkerhet. Tänk på lagarna som styr finans, hälsovård och personlig information. Många jurisdiktioner tillämpar datasuveränitetsregler som begränsar var information får bearbetas. I Kina kräver Personuppgiftsskyddslagen och Dataskyddslagen att vissa kategorier av data, till exempel viktig personlig information, lagras inom landet och granskas innan överföring utomlands.

På liknande sätt har flera Gulfstater, som Förenade Arabemiraten och Saudiarabien, antagit liknande tillvägagångssätt, särskilt för finansiell, regerings- och kritisk infrastrukturdatabehandling

Konfidentiell datoranvändning kan stärka säkerhet och granskning genom att skydda data medan den bearbetas och möjliggöra autentisering av körningsmiljön. Men den ändrar inte var bearbetning sker. Där datasuveränitetsregler kräver lokal bearbetning eller pålägger villkor för gränsöverskridande överföringar, kan betrodda exekveringsmiljöer stödja regelefterlevnadskontroller, men inte ersätta juridiska krav.

Dessutom möjliggör konfidentiell datoranvändning säker samverkan i multiagent-system, där agenter från olika organisationer eller inom olika avdelningar ofta behöver dela information eller validera utdata utan att exponera proprietär data.

Och när tekniken kombineras med nolltillitsarkitektur, är resultatet en mycket starkare grund. Nolltillit validerar kontinuerligt identitet och åtkomst, medan konfidentiell datoranvändning skyddar hårdvarans minne från obehörig extraktion och förhindrar att känslig information återvinns i klartext.

Tillsammans försvarar de vad som faktiskt betyder något, till exempel beslutslogik, känsliga indata och de kryptografiska nycklar som auktoriserar åtgärder.

Ny baslinje för autonoma system

Om varje interaktion utsätter människor för risk för exponering, kommer de inte att låta AI hantera saker som hälsojournaler eller fatta finansiella beslut. På samma sätt kommer företag inte att automatisera sina viktigaste uppgifter om det kan leda till regelefterlevnadsproblem eller förlust av viktig data.

Allvarliga byggare erkänner att applikationslagerfixar ensam är otillräckliga i högtillförlitliga miljöer.

När agenter ges finansiell myndighet, reglerad data eller cross-organisatorisk samordning, blir infrastruktur-exponering mer än ett teoretiskt problem. Och utan konfidentiell körning i sådana sammanhang, förblir många agenter ett mjukt mål, med stulna nycklar och formbara logik. Storleken på moderna intrång visar exakt vart den vägen leder.

Integritet och sekretess är inte valfria funktioner som kan läggas till efter distribution. De måste arkitektoniskt utformas från silikon och uppåt. Därför, för att agenter för AI ska kunna skalas säkert, kan hårdvaru-enforced konfidentialitet inte betraktas som bara en konkurrensfördel, utan som baslinjen.

Ahmad Shadid är grundaren av O Foundation, ett schweiziskt AI-forskningslaboratorium som fokuserar på att bygga och forska om privat AI-infrastruktur, o.capital, en kvantfond som handlas på Nasdaq och grundare och tidigare VD för io.net, som för närvarande är det största Solana-baserade decentraliserade AI-beräkningsinfrastruktur-nätverket.