Connect with us

Skrytá hrozba agentů AI vyžaduje nový bezpečnostní model

Myslitelé

Skrytá hrozba agentů AI vyžaduje nový bezpečnostní model

mm

Agentní systémy AI se staly mainstreamem za poslední rok. Nyní se používají pro několik funkcí, včetně ověřování uživatelů, přesunů kapitálu, spouštění pracovních postupů dodržování předpisů a koordinace v podnikových prostředích s minimálním dohledem lidí.

Nicméně, tišší problém vzniká s rostoucí autonomií, ne na úrovni příkazů nebo politik, ale na úrovni důvěry v infrastrukturu. Agentní systémy jsou oprávněny k přístupu uvnitř, zatímco stále běží na výpočetních prostředích, které nebyly navrženy pro ochranu autonomních rozhodovatelů před infrastrukturou pod nimi.

Tradiční bezpečnost předpokládá, že software je pasivní, ale agentní systémy nejsou. Důvodně myslí, pamatují a jednají kontinuálně, autonomně a s delegovanou autoritou.

Není třeba zapomínat, že agenti AI pravděpodobně budou mít přístup k osobním údajům, v závislosti na jejich použití, jako jsou e-maily a záznamy hovorů, mezi ostatními věcmi.

Navíc, zatímco hardwarové ochrany, jako jsou důvěrné virtuální počítače a zabezpečené enklávy, existují, nejsou dosud výchozím základem pro většinu nasazení agentních AI. V důsledku toho mnoho agentů stále běží v prostředích, kde jsou citlivé údaje vystaveny podkladové infrastruktuře během běhu.

Agenti jsou vnitřní, ne nástroje

Bezpečnostní týmy již znají, jak je obtížné omezit vnitřní hrozby, problém, který je zdůrazněn ve zprávě Verizon z roku 2025 o porušování dat, která ukazuje, že proniknutí do systému bylo odpovědné za více než 53 % potvrzených porušení loňského roku. V 22 % těchto případů útočníci použili ukradené přihlašovací údaje k získání přístupu, což zdůrazňuje, jak často se jim daří pomocí legitimních identit místo využití technických chyb.

Nyní zvažte agenta, který se skládá z logiky příkazu, nástrojů a pluginů, přihlašovacích údajů, jakož i politik. Nemůže nejen spouštět kód a procházet web, ale také dotazovat CRM, číst e-maily a odesílat tikety, mezi mnoha jinými věcmi. Co kombinace funkcí přinesla, jsou tradiční útočné povrchy do moderního rozhraní.

Nebezpečí, které představují takové vnitřní hrozby, není spekulativní. Projekt Open Web Application Security (OWASP) nyní uvádí „Prompt Injection“ jako kritickou zranitelnost pro aplikace LLM, přičemž poukazuje na jeho zvláštní nebezpečí pro agentní systémy, které řetězí akce. Tým Microsoft Threat Intelligence také zveřejnil doporučení, varující, že systémy AI s přístupem k nástrojům mohou být podvedeny k provedení krádeže dat, pokud nejsou zajišťovací opatření architektonicky vynucena.

Tyto zprávy poskytují včasnou připomínku, že agenti, kteří mají legitimní přístup k systémům a údajům, mohou být otočeni proti svým vlastníkům. Nicméně, riziko pro agentní systémy není jednotné. Aplikační vrstvy hrozeb, jako je prompt injection a zneužití nástrojů, pocházejí z neschopnosti modelu rozlišovat důvěryhodné instrukce od nedůvěryhodného vstupu uživatele, omezení designu, které nelze žádným způsobem opravit.

Odlišný a stejně důležitý problém existuje na úrovni infrastruktury: někteří agenti běží v plaintext paměti, což znamená, že citlivé informace, jako jsou historie chatu, odpovědi API a dokumenty, mohou být vidět během zpracování a mohou zůstat přístupné později. OWASP identifikuje toto riziko jako Sensitive Information Disclosure (LLM02) a System Prompt Leakage (LLM07) a navrhuje použití izolace kontextu, segmentace názvů a sandboxování paměti jako důležitá bezpečnostní opatření.

Architektura důvěry má kritickou vadu

Aktuální bezpečnostní postupy se zaměřují na ochranu dat v klidu a během přenosu. Konečná hranice, data při použití, zůstává téměř zcela vystavena. Když agent AI důvodně jedná nad důvěrným datovým souborem, aby schválil půjčku, analyzoval zdravotnické záznamy nebo provedl obchod, tato data jsou obvykle dešifrována a zpracována v plain textu v paměti serveru.

Ve standardních cloudových modelech může kdokoli s dostatečnou kontrolou nad infrastrukturou, včetně správců hypervizoru nebo útočníků-co-tenantů, potenciálně nahlédnout, co se děje, zatímco se workload běží. Pro agentní systémy AI je toto vystavení zvláště nebezpečné, protože potřebují přístup k citlivým informacím, aby mohli dělat svou práci, což může potenciálně stát se útočným povrchem.

Jak Lumia Security prokázala, útočníci s přístupem k místnímu stroji mohou získat JWT a session klíče přímo z procesní paměti desktopových aplikací ChatGPT, Claude a Copilot. Tyto ukradené přihlašovací údaje mohou umožnit útočníkům předstírat, že jsou jiným uživatelem, ukrást historii konverzace a vložit příkazy do probíhajících relací, které mohou změnit chování agenta nebo zasadit falešné vzpomínky.

Příkladem toho může být incident s AWS CodeBuild v červenci 2025. Útočníci tajně přidali škodlivý kód do projektu a když systém spustil, kód nahlédl do paměti počítače a ukradl skryté přihlašovací tokeny uložené tam. S těmito tokeny mohli útočníci změnit kód projektu a potenciálně získat přístup k jiným systémům.

Pro finanční instituce je tichá manipulace existenční. Banky, pojišťovny a investiční firmy již absorbují průměrné náklady na porušení v hodnotě přes 10 milionů dolarů a rozumějí, že integrita má stejnou důležitost jako důvěrnost. Podle nedávné zprávy Informatica se „paradox důvěry“ vysvětluje takto: organizace nasazují autonomní agenti rychleji, než mohou ověřit jejich výstupy. Výsledkem je automatizace, která může pevně zakódovat chyby nebo předpojatost, přímo do základních procesů, fungujících na rychlosti strojů.

Confidential Computing a případ pro izolaci

Inkrementální opravy nebudou řešit problém. Přesnější kontrola přístupu a lepší monitorování mohou pomoci, ale nemohou změnit základní problém. Problém je architektonický a dokud bude výpočet probíhat v exponované paměti, budou agenti zranitelní v okamžiku, kdy to nejvíce záleží, což je během důvodu.

Confidential computing, definovaný Konsorciem pro confidential computing (CCC) jako ochrana dat při použití prostřednictvím hardwarově založených Trusted Execution Environments (TEEs), přímo řeší základní vadu.

Pro agentní systémy AI je toto hardwarové izolace transformační, protože umožňuje, aby identifikační údaje agenta, jeho modelové váhy, proprietární příkazy a citlivé uživatelské údaje, které zpracovává, zůstaly zašifrované nejen na disku nebo v síti, ale aktivně v paměti během běhu. Toto oddělení definitivně láme tradiční model, kde kontrola nad infrastrukturou zajišťuje kontrolu nad workloadem.

Vzdálená autentizace poskytuje verifikovatelné kryptografické důkazy, že konkrétní inferenční požadavek byl proveden uvnitř hardwarově podporovaného trusted execution prostředí, ať už se jedná o CPU nebo GPU. Důkaz je generován z hardwarových měření a dodán společně s odpovědí, umožňující nezávislou verifikaci, kde a jak workload běžel.

Atestační záznamy neukazují kód, který byl proveden. Místo toho je každý workload spojen s jedinečným ID workloadu nebo ID transakce a atestační záznam TEE je spojen s tímto identifikátorem. Atestace potvrzuje, že výpočet běžel uvnitř důvěryhodného prostředí, aniž by byly odhaleny jeho obsahy.

Toto nastavení vytváří novou základnu pro dodržování předpisů a auditovatelnost, umožňující spojit akce agenta s konkrétní verzí kódu, která byla ověřena a známou sadou vstupních dat.

Smerem k zodpovědné autonomii

Dopady pro systém popsaný výše sahají za základní bezpečnost. Zvažte zákony, které řídí finance, zdravotnictví a osobní informace. Mnoho jurisdikcí uplatňuje pravidla suverenity dat, která omezují, kde mohou být informace zpracovány. V Číně, zákon o ochraně osobních informací a zákon o bezpečnosti dat vyžadují, aby certain kategorie dat, jako například důležité osobní údaje, byly uloženy uvnitř země a přezkoumány před přenosem do zahraničí.

Podobně, několik zemí v Perském zálivu, jako jsou Spojené arabské emiráty a Saúdská Arábie, přijaly podobné přístupy, zejména pro finanční, vládní a kritickou infrastrukturní data.

Confidential computing může posílit bezpečnost a auditovatelnost ochranou dat během jejich zpracování a umožněním atestace runtime prostředí. Ale nezmění, kde se zpracování provádí. Kde pravidla suverenity dat vyžadují místní zpracování nebo uvalují podmínky na přeshraniční přenosy, důvěryhodná výkonná prostředí mohou podporovat kontrolní mechanismy, ne nahrazovat právní požadavky.

Navíc, confidential computing umožňuje bezpečnou spolupráci v multi-agentních systémech, kde agenti z různých organizací nebo oddělení často potřebují sdílet informace nebo ověřovat výstupy, aniž by vystavovali proprietární data.

A když je tato technologie kombinována s architekturou zero-trust, výsledkem je mnohem silnější základ. Zero-trust kontinuálně ověřuje identitu a přístup, zatímco confidential computing chrání hardwarovou paměť před neoprávněným extrahováním a zabraňuje tomu, aby citlivé informace byly získány v plain textu.

Společně brání tomu, co skutečně záleží, například rozhodovací logice, citlivým vstupům a kryptografickým klíčům, které autorizují akci.

Nový základ pro autonomní systémy

Pokud každá interakce vystavuje lidi riziku expozice, nebudou dovolit AI, aby se starala o věci, jako jsou zdravotnické záznamy nebo finanční rozhodnutí. Podobně, společnosti nebudou automatizovat své nejdůležitější úkoly, pokud by to mohlo vést k regulatorním problémům nebo ztrátě důležitých dat.

Vážní vývojáři rozpoznávají, že opravy na úrovni aplikace samy o sobě jsou nedostatečné ve vysoce spolehlivých prostředích.

Když jsou agenti oprávněni k finančním pravomocem, regulovaným údajům nebo mezirezortní koordinaci, expozice infrastruktury se stává více než teoretickou obavou. A bez confidentiálního běhu v takových kontextech zůstávají mnozí agenti měkkým cílem, se svými klíči, které lze ukrást, a jejich logikou, která je měkká. Velikost moderních porušení ukazuje přesně, kam vede tato cesta.

Privátnost a integrita nejsou volitelnými funkcemi, které lze přidat po nasazení. Musí být architektonicky navrženy od základu. Proto, aby agentní AI mohla škálovat bezpečně, nelze hardwarově vynucenou důvěrnost považovat za pouhé konkurenční výhody, ale za základ.

Ahmad Shadid je zakladatel O Foundation, švýcarské laboratoře pro výzkum umělé inteligence, která se zaměřuje na budování a výzkum soukromé infrastruktury umělé inteligence, o.capital, kvantitativního fondu obchodovaného na Nasdaq a zakladatel a bývalý generální ředitel io.net, která je v současné době největší decentralizovanou sítí výpočetní infrastruktury umělé inteligence založené na Solana.