Liderzy opinii

Ukryte Zagrożenie Agentów AI Wymaga Nowego Modelu Bezpieczeństwa

Published February 25, 2026

Updated April 25, 2026

Ahmad Shadid, Founder of O.xyz and Co-Founder of IO.net

Agenty AI mające zdolność do działania samodzielnego stały się powszechne w ciągu ostatniego roku. Są one obecnie wykorzystywane do wielu funkcji, w tym do uwierzytelniania użytkowników, przenoszenia kapitału, uruchamiania workflow zgodności oraz koordynowania w środowiskach przedsiębiorstw z minimalnym nadzorem ludzkim.

Jednak cichsze problemy pojawiają się wraz ze wzrostem autonomii, nie na poziomie poleceń lub zasad, ale na poziomie zaufania do infrastruktury. Systemy agenty są przyznawane uprawnienia wewnętrzne, podczas gdy nadal działają w środowiskach obliczeniowych, które nie zostały zaprojektowane w celu ochrony autonomicznych decydentów przed infrastrukturą pod nimi.

Tradycyjne bezpieczeństwo zakłada, że oprogramowanie jest biernym, ale systemy agenty nie są. One rozumieją, pamiętają i działają w sposób ciągły, autonomiczny i z delegowaną władzą.

Nie można zapomnieć, że agenci AI mają prawdopodobnie dostęp do danych osobowych, w zależności od przypadku użycia, takich jak e-maile i rejestracje połączeń, wśród innych rzeczy.

Ponadto, chociaż istnieją ochrony sprzętowe, takie jak maszyny wirtualne poufne i enklawy bezpieczne, nie są one jeszcze domyślną podstawą dla większości wdrożeń agenty AI. W wyniku tego wiele agentów nadal wykonywanych jest w środowiskach, w których dane wrażliwe są narażone na podstawową infrastrukturę podczas wykonywania.

Agenci Są Wewnętrznymi, Nie Narzędziami

Zespoły ds. bezpieczeństwa już wiedzą, jak trudno jest powstrzymać zagrożenia wewnętrzne, problem podkreślony w raporcie Verizon z 2025 roku, który pokazuje, że włamanie do systemu było odpowiedzialne za ponad 53% potwierdzonych naruszeń w zeszłym roku. W 22% tych przypadków atakujący wykorzystali skradzione poświadczenia, aby uzyskać dostęp, co pokazuje, jak często udaje im się osiągnąć sukces, wykorzystując prawidłowe tożsamości zamiast wykorzystywać techniczne błędy.

Teraz rozważmy agenta, który składa się z logiki poleceń, narzędzi i wtyczek, poświadczeń, a także zasad. Nie tylko może on uruchamiać kod i przeglądać internet, ale także może wyszukiwać w systemach CRM, czytać e-maile i przesyłać bilety, wśród wielu innych rzeczy. To, co połączenie funkcji przyniosło, to tradycyjne powierzchnie ataku w nowoczesnym interfejsie.

Niebezpieczeństwo stwarzane przez takie zagrożenia wewnętrzne nie jest spekulatywne. Projekt Open Web Application Security (OWASP) teraz lista „wstrzyknięcia polecenia” jako krytyczną lukę w zabezpieczeniach dla aplikacji LLM, zauważając jego szczególne niebezpieczeństwo dla systemów agenty, które łączą działania. Zespół Microsoft Threat Intelligence również opublikował zalecenia ostrzegające, że systemy AI z dostępem do narzędzi mogą być podstawione do kradzieży danych, jeśli zabezpieczenia nie są egzekwowane architektonicznie.

Te raporty przypominają nam, że agenci, którzy mają prawidłowy dostęp do systemów i danych, mogą być skierowani przeciwko ich właścicielom. Jednakże, pejzaż ryzyka dla systemów agenty nie jest jednolity. Zagrożenia na poziomie aplikacji, takie jak wstrzyknięcie polecenia i nadużycie narzędzi wynikają z niezdolności modelu do rozróżnienia zaufanych instrukcji od niezaufanego wejścia użytkownika, ograniczenia projektowego, które nie można naprawić żadnym wzmocnieniem pamięci.

Inny, równie ważny problem istnieje na poziomie infrastruktury: niektórzy agenci działają w pamięci w postaci zwykłego tekstu, co oznacza, że wrażliwe informacje, takie jak historie czatów, odpowiedzi API i dokumenty, mogą być widoczne podczas przetwarzania i mogą pozostać dostępne później. OWASP identyfikuje to ryzyko jako Ujawnienie Wrażliwych Informacji (LLM02) i Wyciek Polecenia Systemu (LLM07) i sugeruje używanie izolacji kontekstowej, segmentacji przestrzeni nazw i piaskownic pamięci jako ważnych środków bezpieczeństwa.

Tak więc, użytkownicy nie powinni traktować tych agentów jako zwykłych aplikacji, ponieważ są one dynamicznymi, rozumiejącymi wykonawcami, wymagającymi modelu bezpieczeństwa, który uwzględnia ich unikalną naturę jako nie-ludzkich podmiotów z agencją. Podejście to musi obejmować zarówno kontrolę oprogramowania, aby ograniczyć sposób, w jaki model działa, jak i ochronę sprzętową, aby zachować bezpieczeństwo danych podczas ich używania.

Architektura Zaufania Ma Krytyczną Wadę

Obecne praktyki bezpieczeństwa koncentrują się na ochronie danych w spoczynku i w transporcie. Ostatnia granica, dane w użyciu, pozostaje prawie całkowicie narażona. Kiedy agent AI rozważa poufny zestaw danych, aby zatwierdzić pożyczkę, przeanalizować rekordy pacjentów lub wykonać transakcję, te dane są zwykle odszyfrowane i przetwarzane w postaci zwykłego tekstu w pamięci serwera.

W standardowych modelach chmury, każdy, kto ma wystarczający kontrolę nad infrastrukturą, w tym administratorów hypervisora lub atakujących współlokatorów, może potencjalnie zajrzeć, co się dzieje, podczas gdy obciążenie jest uruchomione. Dla agentów AI, ta ekspozycja jest szczególnie niebezpieczna, ponieważ potrzebują one dostępu do wrażliwych informacji, aby wykonywać swoje zadania, co może potencjalnie stać się powierzchnią ataku.

Jak Lumia Security udowodniło, atakujący z dostępem do lokalnej maszyny mogą uzyskać JWT i klucze sesji bezpośrednio z pamięci procesu aplikacji ChatGPT, Claude i Copilot. Skradzione poświadczenia mogą pozwolić im udawać innego użytkownika, ukraść historię rozmów i wstrzyknąć polecenia do trwających sesji, które mogą zmienić zachowanie agenta lub zaimplantować fałszywe wspomnienia.

Przykładem tego może być incydent z AWS CodeBuild w lipcu 2025 roku. Atakujący potajemnie dodali złośliwy kod do projektu, a gdy system go uruchomił, kod zajrzał do pamięci komputera i ukradł ukryte tokeny logowania przechowywane tam. Z tymi tokenami atakujący mogli zmienić kod projektu i potencjalnie uzyskać dostęp do innych systemów.

Dla instytucji finansowych, cicha manipulacja jest egzystencjalna. Banki, ubezpieczyciele i firmy inwestycyjne już absorbują średnie koszty naruszeń ponad 10 milionów dolarów, i rozumieją, że integralność ma tak samo dużą wagę, jak poufność. Zgodnie z niedawnym raportem Informatica raport, „paradoks zaufania” został wyjaśniony w ten sposób: organizacje wdrażają autonomiczne agenty szybciej, niż mogą zweryfikować ich dane wyjściowe. Rezultatem jest automatyzacja, która może wpisać błędy lub uprzedzenia bezpośrednio do podstawowych procesów, działających z prędkością maszyny.

Obliczenia Poufne i Przypadek dla Izolacji

Nakładki naprawcze nie rozwiążą problemu. Chociaż ścisłe kontrole dostępu i lepsze monitorowanie mogą pomóc, nie mogą one zmienić podstawowego problemu. Problem jest architektoniczny, a tak długo, jak obliczenia odbywają się w narażonej pamięci, agenci będą narażeni w momencie, gdy mają największe znaczenie, czyli podczas rozumowania.

Obliczenia poufne, zdefiniowane przez Konsorcjum Obliczeń Poufnych (CCC) jako ochrona danych w użyciu za pomocą środowisk wykonawczych zaufanych opartych na sprzęcie (TEEs), bezpośrednio rozwiązuje podstawową wadę.

Dla agentów AI, ta izolacja na poziomie sprzętu jest przełomowa, ponieważ pozwala na to, aby poświadczenia tożsamości agenta, jego wagi modelu, własne polecenia i wrażliwe dane użytkowników, które są przetwarzane, pozostawały zaszyfrowane nie tylko na dysku lub w sieci, ale aktywnie w pamięci podczas wykonywania. Rozdzielenie definitywnie łamie tradycyjny model, w którym kontrola nad infrastrukturą gwarantuje kontrolę nad obciążeniem.

Atestacja zdalna zapewnia weryfikowalne dowody kryptograficzne, że określony wniosek inferencyjny został wykonany wewnątrz środowiska wykonawczego zaufanego opartego na sprzęcie, niezależnie od tego, czy jest to CPU czy GPU. Dowód jest generowany z pomiarów sprzętowych i dostarczany wraz z odpowiedzią, umożliwiając niezależną weryfikację, gdzie i jak obciążenie zostało uruchomione.

Rekordy atestacji nie ujawniają kodu, który został wykonany. Zamiast tego, każde obciążenie jest skojarzone z unikalnym identyfikatorem obciążenia lub identyfikatorem transakcji, a rekord atestacji TEE jest połączony z tym identyfikatorem. Atestacja potwierdza, że obliczenia zostały wykonane w środowisku zaufanym bez ujawniania jego zawartości.

Konfiguracja tworzy nową podstawę dla zgodności i audytu, umożliwiając połączenie działań agenta z określoną wersją kodu, która została zaświadczona i znanym zestawem danych wejściowych.

Ku Odpowiedzialnej Autonomii

Wnioski z opisanego systemu wykraczają poza podstawowe bezpieczeństwo. Rozważmy prawa, które regulują finanse, opiekę zdrowotną i informacje osobiste. Wiele jurysdykcji stosuje zasady suwerenności danych, które ograniczają, gdzie informacje mogą być przetwarzane. W Chinach, Prawo o ochronie informacji osobowych i Prawo o bezpieczeństwie danych wymagają, aby pewne kategorie danych, na przykład ważne dane osobowe, były przechowywane w kraju i przeglądane przed transferem za granicę.

Podobnie, kilka krajów Zatoki, takich jak Zjednoczone Emiraty Arabskie i Arabia Saudyjska, przyjęło podobne podejścia, szczególnie dla danych finansowych, rządowych i infrastruktury krytycznej

Obliczenia poufne mogą wzmocnić bezpieczeństwo i audytowalność, chroniąc dane podczas ich przetwarzania i umożliwiając atestację środowiska wykonawczego. Nie zmieniają one jednak miejsca, w którym odbywa się przetwarzanie. Gdzie zasady suwerenności danych wymagają lokalnego przetwarzania lub nakładają warunki na transgraniczne transfery, środowiska wykonawcze zaufane mogą wspierać kontrole zgodności, nie zastępując wymogów prawnych.

Ponadto, obliczenia poufne umożliwiają bezpieczną współpracę w systemach wieloagentowych, gdzie agenci z różnych organizacji lub w ramach różnych departamentów często muszą dzielić się informacjami lub weryfikować dane wyjściowe bez narażania danych własnościowych.

A gdy ta technologia jest połączona z architekturą zero-trust, wynikiem jest znacznie silniejsza podstawa. Zero trust ciągle weryfikuje tożsamość i dostęp, podczas gdy obliczenia poufne chronią pamięć sprzętu przed nieautoryzowanym wydobyciem i uniemożliwiają odzyskanie wrażliwych informacji w postaci zwykłego tekstu.

Razem bronią tego, co naprawdę się liczy, na przykład logiki decyzyjnej, wrażliwych danych wejściowych i kluczy kryptograficznych, które upoważniają do działania.

Nowy Standard dla Autonomicznych Systemów

Jeśli każda interakcja stawia ludzi w sytuacji ryzyka narażenia, nie pozwolą, aby AI zajmowało się rzeczami takimi jak rekordy zdrowia lub podejmowało decyzje finansowe. Podobnie, firmy nie zautomatyzują swoich najważniejszych zadań, jeśli mogłoby to prowadzić do problemów regulacyjnych lub utraty ważnych danych.

Poważni budowniczowie uznają, że naprawy na poziomie aplikacji są niewystarczające w środowiskach o wysokim poziomie zaufania.

Kiedy agenci są powierzeni uprawnieniami finansowymi, danymi regulowanymi lub koordynacją międzyorganizacyjną, ekspozycja infrastruktury staje się bardziej niż teoretycznym problemem. A bez wykonywania poufnego w takich kontekstach, wiele agentów pozostaje miękkim celem, z klawiszami, które można ukraść, i logiką, którą można zmienić. Rozmiar współczesnych naruszeń pokazuje dokładnie, gdzie prowadzi ta ścieżka.

Prywatność i integralność nie są opcjonalnymi funkcjami, które można dodać po wdrożeniu. Muszą one być zaprojektowane od poziomu krzemowego. Dlatego, aby agenci AI mogli skalować się bezpiecznie, wykonywanie poufne nie może być postrzegane jako tylko przewaga konkurencyjna, ale jako podstawa.