Kontakt z nami

Liderzy myśli

Luki w zabezpieczeniach, które stworzyliśmy: agenci AI i problem posłuszeństwa

mm

Agenci sztucznej inteligencji bazujący na LLM wprowadzają nową klasę luk w zabezpieczeniach, w wyniku których atakujący wprowadzają złośliwe instrukcje do danych, zamieniając pomocne systemy w nieświadomych wspólników.

Microsoft Copilot nie został zhakowany w tradycyjnym sensie. Nie było żadnego złośliwego oprogramowania, żadnego linku phishingowego, żadnego złośliwego kodu. Nikt nic nie kliknął ani nie wdrożył żadnego exploita.

Aktor zagrożenia po prostu poprosił. Microsoft 365 Copilot, robiąc dokładnie to, do czego został stworzony, spełnił żądanie. W niedawnym Echoleak zero click attack, agent AI został zmanipulowany przez monit zamaskowany jako dane. Posłuchał, nie dlatego, że był zepsuty, ale dlatego, że działał tak, jak został zaprojektowany.

Ta luka nie wykorzystywała błędów oprogramowania. Wykorzystywała język. I to oznacza ważny punkt zwrotny w cyberbezpieczeństwie, gdzie powierzchnią ataku nie jest już kod, ale rozmowa.

Nowy problem posłuszeństwa sztucznej inteligencji

AI agenci są zaprojektowane, aby pomagać. Ich celem jest zrozumienie intencji użytkownika i skuteczne działanie zgodnie z nią. Ta użyteczność wiąże się z ryzykiem. Gdy są osadzone w systemach plików, platformach produktywności lub systemach operacyjnych, agenci ci wykonują polecenia języka naturalnego z minimalnym oporem.

Aktorzy zagrożeń wykorzystują dokładnie tę cechę. Dzięki szybkim zastrzykom, które wydają się nieszkodliwe, mogą wywołać wrażliwe działania. Te monity mogą obejmować:

  • Wielojęzyczne fragmenty kodu
  • Niejasne formaty plików i osadzone instrukcje
  • Dane wejściowe w języku innym niż angielski
  • Wieloetapowe polecenia ukryte w języku potocznym

Ponieważ duże modele językowe (LLM) są trenowane w celu zrozumienia złożoności i niejednoznaczności, monit staje się ładunkiem.

Duch Siri i Alexy

Ten wzór nie jest nowy. Na początku istnienia Siri i Alexy badacze wykazać w jaki sposób odtworzenie komendy głosowej, np. „Wyślij wszystkie moje zdjęcia na ten adres e-mail”, może wywołać akcję bez weryfikacji użytkownika.

Teraz zagrożenie jest większe. Agenci AI, tacy jak Microsoft Copilot, są głęboko zintegrowani z Office 365, Outlook i systemem operacyjnym. Uzyskują dostęp do wiadomości e-mail, dokumentów, poświadczeń i interfejsów API. Atakujący potrzebują tylko odpowiedniego monitu, aby wyodrębnić krytyczne dane, jednocześnie udając prawowitego użytkownika.

Kiedy komputery mylą instrukcje z danymi

To nie jest nowa zasada w cyberbezpieczeństwie. Wstrzyknięcia takie jak Ataki SQL odniosło sukces, ponieważ systemy nie potrafiły odróżnić danych wejściowych od instrukcji. Obecnie ta sama wada istnieje, ale na poziomie języka.

Agenci AI traktują język naturalny zarówno jako dane wejściowe, jak i intencję. Obiekt JSON, pytanie, a nawet fraza mogą zainicjować działanie. Tę dwuznaczność wykorzystują aktorzy zagrożeń, osadzając polecenia w treści, która wygląda na nieszkodliwą.

Wbudowaliśmy intencję w infrastrukturę. Teraz aktorzy zagrożeń nauczyli się, jak ją wyodrębnić, aby wykonać swoje polecenia.

Wdrażanie sztucznej inteligencji wyprzedza cyberbezpieczeństwo

W obliczu pośpiechu przedsiębiorstw w zakresie wdrażania LLM, wiele z nich pomija istotne pytanie: do czego ma dostęp sztuczna inteligencja?

Gdy Copilot może dotknąć systemu operacyjnego, promień rażenia rozszerza się daleko poza skrzynkę odbiorczą. Według Check Point Raport bezpieczeństwa AI:

  • 62 procent dyrektorów ds. bezpieczeństwa informacji (CISO) na świecie obawia się, że mogą zostać pociągnięci do osobistej odpowiedzialności za naruszenia związane ze sztuczną inteligencją
  • Prawie 40 procent organizacji zgłasza nieautoryzowane wewnętrzne wykorzystanie sztucznej inteligencji, często bez nadzoru ze strony służb bezpieczeństwa
  • 20 procent grup cyberprzestępczych wykorzystuje obecnie sztuczną inteligencję w swoich działaniach, m.in. do tworzenia phishingu i prowadzenia rozpoznania

To nie jest tylko nowe ryzyko. To obecne ryzyko, które już powoduje szkody.

Dlaczego istniejące zabezpieczenia są niewystarczające

Niektórzy dostawcy używają watchdogów — modeli wtórnych szkolonych do wychwytywania niebezpiecznych podpowiedzi lub podejrzanych zachowań. Filtry te mogą wykrywać podstawowe zagrożenia, ale są podatne na techniki unikania.

Sprawcy zagrożeń mogą:

  • Filtry przeciążeniowe z szumem
  • Podziel intencję na wiele kroków
  • Użyj nieoczywistych fraz, aby ominąć wykrycie

W przypadku Echoleak zabezpieczenia były obecne — i zostały pominięte. To odzwierciedla nie tylko brak polityki, ale brak architektury. Gdy agent ma uprawnienia wysokiego poziomu, ale kontekst niskiego poziomu, nawet dobre zabezpieczenia zawodzą.

Wykrywanie, nie perfekcja

Zapobieganie każdemu atakowi może być nierealne. Celem musi być szybkie wykrywanie i szybkie powstrzymywanie.

Organizacje mogą zacząć od:

  • Monitorowanie aktywności agenta AI w czasie rzeczywistym i prowadzenie szybkich dzienników audytu
  • Stosowanie rygorystycznego dostępu z minimalnymi uprawnieniami do narzędzi AI, odzwierciedlającego kontrole na poziomie administratora
  • Dodawanie tarcia do wrażliwych operacji, takich jak wymaganie potwierdzeń
  • Oznaczanie nietypowych lub wrogich wzorców podpowiedzi w celu ich przejrzenia

Ataki oparte na języku nie pojawią się w tradycyjnych wykrywanie i odpowiedź w punkcie końcowym (EDR). Wymagają nowego modelu wykrywania.

Co organizacje powinny teraz zrobić, aby się chronić

Przed wdrożeniem agentów AI organizacje muszą zrozumieć, jak działają te systemy i jakie zagrożenia ze sobą niosą.

Kluczowe zalecenia obejmują:

  1. Audytuj cały dostęp: dowiedz się, co agenci mogą dotykać lub wyzwalać
  2. Ogranicz zakres: Udziel minimalnych niezbędnych uprawnień
  3. Śledź wszystkie interakcje: rejestruj monity, odpowiedzi i wynikające z nich działania
  4. Test wytrzymałościowy: symuluj dane wejściowe przeciwnika wewnętrznie i często
  5. Plan obejścia: Załóż, że filtry zostaną pominięte
  6. Dostosuj się do bezpieczeństwa: upewnij się, że systemy LLM obsługują, a nie naruszają celów bezpieczeństwa

Nowa powierzchnia ataku

Echoleak to zapowiedź tego, co ma nadejść. W miarę rozwoju LLM-ów ich pomocność staje się obciążeniem. Zintegrowane głęboko z systemami biznesowymi, oferują atakującym nowy sposób wejścia — poprzez proste, dobrze opracowane monity.

Nie chodzi już tylko o zabezpieczenie kodu. Chodzi o zabezpieczenie języka, intencji i kontekstu. Playbook musi się zmienić teraz, zanim będzie za późno.

A jednak są pewne dobre wieści. Czynione są postępy w wykorzystywaniu agentów AI do bronić przed nowymi i pojawiającymi się cyberzagrożeniami. Gdy są właściwie wykorzystywane, te autonomiczne agenci AI mogą reagować na zagrożenia szybciej niż jakikolwiek człowiek, współpracować w różnych środowiskach i proaktywnie bronić się przed pojawiającymi się ryzykami, ucząc się na podstawie pojedynczej próby włamania.

Agentic AI może uczyć się z każdego ataku, dostosowywać się w czasie rzeczywistym i zapobiegać zagrożeniom, zanim się rozprzestrzenią. Ma potencjał, aby ustanowić nową erę odporności cybernetycznej, ale tylko jeśli wykorzystamy ten moment i wspólnie ukształtujemy przyszłość cyberbezpieczeństwa. Jeśli tego nie zrobimy, ta nowa era może oznaczać koszmar cyberbezpieczeństwa i prywatności danych dla organizacji, które już wdrożyły AI (czasami nawet nieświadomie za pomocą narzędzi shadow IT). Teraz jest czas, aby podjąć działania, aby zapewnić, że agenci AI będą wykorzystywani dla naszego dobra, a nie dla naszej zguby.

Radosław Madej jest szefem zespołu badawczego ds. podatności w Check Point ResearchRadosław jest pasjonatem cyberbezpieczeństwa, ekspertem z prawie dwudziestoletnim doświadczeniem technicznym w różnych obszarach bezpieczeństwa informacji, zdobytym podczas realizacji projektów dla globalnych przedsiębiorstw o ​​wysokich wymaganiach bezpieczeństwa.