Liderzy opinii

Gdy zdolności AI rosną szybciej niż modele bezpieczeństwa stworzone do ich ograniczania

Published March 5, 2026

Updated April 25, 2026

Jon Baker, VP Threat-Informed Defense, AttackIQ

Narzędzia AI zazwyczaj pojawiają się z dobrze znaną ofertą. Obiecują usprawnić przepływ pracy, zwiększyć produktywność i wykonywać zadania, których nikt nie lubi. I większość czasu spełniają dokładnie to, co obiecują. Uproszczają logowanie, podsumowują dokumenty, automatyzują przepływ pracy i sprawiają, że rutynowe czynności wydają się prawie bez wysiłku.

Jednak pod tym wszystkim wygodą kryje się inna historia. Te narzędzia nie są już ograniczone do pola tekstowego. Zaczynają działać na samym systemie operacyjnym. Mogą przeglądać pliki, tworzyć e-maile, wchodzić w interakcje z aplikacjami i wykonywać czynności, które wcześniej wymagały uwagi człowieka, który rozumiał konsekwencje. Ten przełom umiejscawia AI w pozycji, której istniejące założenia dotyczące bezpieczeństwa nie były nigdy stworzone do zarządzania.

Chwila, gdy AI zyskuje dostęp do systemu

Gdy system AI może odczytywać rzeczywiste pliki i wykonywać rzeczywiste polecenia, staje się częścią zaufanego podstawowego systemu obliczeniowego. To jest moment, kiedy długotrwałe oczekiwania dotyczące bezpieczeństwa AI zaczynają się rozpadać.

Przez lata, wstrzyknięcie polecenia było uważane za dziwne zachowanie modelu. Powodowało, że czatboty produkowały mylące lub nieodpowiednie odpowiedzi, ale szkoda kończyła się na rozmowie. Teraz ten sam błąd może spowodować działania na poziomie hosta, a nie tylko tekst. Złośliwe polecenie ukryte w pliku PDF, stronie internetowej lub e-mailu nie powoduje już tylko dziwnej odpowiedzi. Powoduje działanie wykonane na maszynie.

To nie jest coś, czego przemysł może zignorować jako teoretyczne. Badacze z Carnegie Mellon i Uniwersytetu Waszyngtonu wielokrotnie demonstrowali, że ukryte polecenia mogą skierować duże modele językowe do wykonywania działań, których użytkownicy nigdy nie zamierzali. Tymczasem badacze studiujący modele widzenia pokazali, jak manipulowane obrazy mogą zmienić percepcję modelu w sposób, który wpływa na zachowanie w dół.

Te eksperymenty były wcześniej traktowane jako laboratoryjne ciekawostki. Nie wydają się już akademickie, gdy AI ma dostęp do systemu operacyjnego.

Gdy zdolność agenta wyprzedza kontrolę obrońcy

Nawet firmy budujące te agenty uznają powagę wyzwania. Wzmocniły filtry do obsługi poleceń, ale otwarcie stwierdzają, że kontrolowanie rzeczywistych działań systemu AI pozostaje aktywnym, nierozwiązanym obszarem pracy w całym przemyśle. Ta luka między tym, co agent może zrobić, a tym, co obrońcy mogą kontrolować, wprowadza nową kategorię ryzyka, której istniejące podręczniki bezpieczeństwa nie mogą absorbować.

Agenci AI przekroczyli granicę, na którą przemysł nie jest w pełni przygotowany. Jedynym sposobem, aby to zrozumieć, jest spojrzenie na to, jak wstrzyknięcie polecenia teraz przecina się z tymi samymi łańcuchami ataków, których obrońcy używali przez ponad dekadę.

Jak wstrzyknięcie polecenia teraz mapuje się na łańcuchy ataków, które wszyscy znają

Atakujący zawsze podążali za przewidywalnym wzorcem. Ramka MITRE ATT&CK przedstawia etapy wyraźnie. Początkowy dostęp jest następowany przez wykonanie, trwałość, odkrycie, ruch boczny, zbieranie i wykradanie. Techniki się różnią, ale struktura jest stabilna.

To, co się zmienia, to mechanizm dostarczania. Zamiast przekonywania użytkownika do otwarcia złośliwego załącznika lub kliknięcia niebezpiecznego łącza, atakujący mogą umieścić polecenia tam, gdzie agent AI je przeczyta. Agent staje się środowiskiem wykonawczym. Wykonuje kroki dokładnie tak, jak opisano. Model nie kwestionuje, czy polecenie jest szkodliwe. Nie stosuje sądu ani intuicji. Po prostu działa.

Gdy atakujący może wpłynąć na rozumowanie agenta, łańcuch ataku szybko się łączy. Zmanipulowany plik wyzwala wykonanie, polecenia kontynuacji tworzą trwałość, wyszukiwania systemu zapewniają odkrycie, a przesyłanie plików umożliwia zbieranie i wykradanie. Nie potrzeba żadnego złośliwego oprogramowania. Agent po prostu wykonuje kroki tak, jak napisano.

To jest ta część historii, z którą zespoły bezpieczeństwa mają trudności, aby się dostosować. Przez lata budowały reguły wykrywania, kontrole i procesy odpowiedzi wokół wykonywania opartego na kodzie. Agenci AI wprowadzają różne rodzaje interpreterów. Wykonują przez język naturalny, a nie skompilowane pliki binarne. Istniejące narzędzia nie są zaprojektowane do śledzenia lub nawet analizowania tego procesu rozumowania.

Zespoły bezpieczeństwa nie są gotowe i nawet nie zdają sobie z tego sprawy

Programy bezpieczeństwa nadal zakładają, że człowiek siedzi między treścią a działaniem. Ludzie mogą być oszukani, ale zatrzymują się, gdy coś wydaje się nie tak. Zauważają dziwne frazy, kwestionują nieoczekiwane zachowanie i przywożą sąd do ostatniej mili decyzji.

Agenci AI nie robią nic z tego; są konsekwentni, literalni i szybsi niż jakikolwiek przeciwnik. Jedna linia ukrytego tekstu jest wystarczająca, aby nakazać agentowi odczytanie wrażliwych plików, przejście przez aplikacje lub skontaktowanie się z serwerem zdalnym. To stawia obrońców w pozycji, w której nigdy nie byli.

Zespoły bezpieczeństwa mają ograniczoną widoczność, jak agent dochodzi do decyzji, i nie mogą łatwo określić, czy działanie pochodziło od użytkownika czy AI. Tradycyjne wykrywanie złośliwego oprogramowania nie pomaga, ponieważ nic złośliwego nie jest wykonywane w zwykłym sensie, i nie ma gwarancji, że agent zakwestionuje lub odrzuci szkodliwe polecenia ukryte w normalnej treści.

Narzędzia zaprojektowane dla zachowania ludzi po prostu nie przenoszą się do świata, w którym język naturalny staje się skryptem, który napędza zachowanie systemu.

Co tak naprawdę działające kontrole kompensujące

Wzmacnianie modelu nie jest wystarczające. Zespoły bezpieczeństwa potrzebują kontroli wokół agenta, które ograniczają to, co AI może zrobić, nawet gdy jego rozumowanie jest wpływane.

Kilka strategii pokazuje obiecujące wyniki:

Dostęp z najmniejszymi uprawnieniami jest niezbędny. Agenci powinni mieć dostęp tylko do plików i działań wymaganych do ich zadań. Ograniczanie niepotrzebnych uprawnień ogranicza wpływ manipulowanych poleceń.
Kroki zatwierdzania przez człowieka mogą zatrzymać szkodliwe działania, zanim wystąpią. Gdy agent próbuje wykonać wrażliwą operację, taką jak uruchomienie polecenia lub dostęp do chronionych danych, użytkownik powinien zatwierdzić lub odrzucić żądanie.
Filtrowanie treści tworzy bufor między niezaufanymi materiałami a agentem. Przesiewanie dokumentów, adresów URL i zewnętrznego tekstu redukuje szanse, że ukryte polecenia dotrą do modelu.
Całkowite logowanie jest obowiązkowe. Każde działanie zainicjowane przez agenta musi być zarejestrowane i przeanalizowane. Te działania powinny być traktowane tak samo jak każda działalność uprzywilejowanego użytkownika.
Mapowanie zachowań agenta na techniki ATT&CK pomaga obrońcom określić, gdzie agent może być skierowany do szkodliwych działań i gdzie należy umieścić barierki. Używa tego samego systemu, który już strukturyzuje strategię obronną.

Te kontrole kompensujące nie wyeliminują ryzyka. Ale zawierają je w sposób, w jaki obrony na poziomie modelu nie mogą.

Gdzie przemysł idzie dalej

Agenci AI reprezentują znaczącą zmianę w tym, jak działa obliczeniowo. Oferują niesamowitą produktywność, ale również wprowadzają kategorię operacyjnego ryzyka, które nie mieści się w ramach istniejących struktur bezpieczeństwa. Wytyczne brytyjskiego Narodowego Centrum Bezpieczeństwa Cybernetycznego to dopiero początek, ale większość organizacji nadal nie ma jasnego sposobu, aby rządzić agentami, które mogą działać na systemie.

Ten moment wydaje się podobny do wczesnych dni adopcji chmury. Technologia poruszała się szybciej niż kontrole. Organizacje, które szybko się dostosowały, były tymi, które rozpoznały zmianę wcześnie i zbudowały procesy, aby ją dopasować.

To samo będzie tutaj. Agenci AI nie są tylko pomocnikami. Są operatorami z dostępem na poziomie systemu. Zabezpieczanie ich wymaga nowych podręczników, nowych barier i nowych sposobów modelowania narażenia.

Przemysł nie musi się bać tych narzędzi. Ale musi je zrozumieć. I musi poruszać się szybko, bo atakujący już widzą okazję. Pytanie brzmi, czy obrońcy zbudują odpowiednie zabezpieczenia, zanim będziemy mieli czas.

Jon Baker, VP Threat-Informed Defense, AttackIQ

Jon Baker, VP Threat-Informed Defense at AttackIQ, posiada ponad 20-letnie doświadczenie w prowadzeniu innowacji w dziedzinie cyberbezpieczeństwa, ze szczególnym naciskiem na zwiększanie wydajności i skuteczności bezpieczeństwa w dużym stopniu. Jest byłym dyrektorem i współzałożycielem Centrum Obrony Poinformowanej o Zagrożeniach (CTID) w MITRE, gdzie zjednoczył zaawansowane zespoły bezpieczeństwa, aby przyczynić się do rozwoju stanu sztuki i praktyki w dziedzinie obrony poinformowanej o zagrożeniach na całym świecie. Przed uruchomieniem CTID, Jon kierował departamentem Wywiadu o Zagrożeniach Cyfrowych i Symulacji Przeciwnika w MITRE, gdzie rozwijał te kluczowe możliwości w całej organizacji MITRE, oraz zarządzał zespołami CALDERA i MITRE ATT&CK. Jon kierował zespołami rozwijającymi otwarte standardy, w tym STIX i TAXII, dla współdzielenia informacji o zagrożeniach, oraz był współtwórcą OVAL, zarządzając programem automatyzacji bezpieczeństwa w MITRE.

Unite.AI

Gdy zdolności AI rosną szybciej niż modele bezpieczeństwa stworzone do ich ograniczania

Chwila, gdy AI zyskuje dostęp do systemu

Gdy zdolność agenta wyprzedza kontrolę obrońcy

Jak wstrzyknięcie polecenia teraz mapuje się na łańcuchy ataków, które wszyscy znają

Zespoły bezpieczeństwa nie są gotowe i nawet nie zdają sobie z tego sprawy

Gdzie przemysł idzie dalej

You may like