Connect with us

Nadchodząca fala ataków multimodalnych: Kiedy narzędzia AI stają się nową powierzchnią ataku

Thought Leaders

Nadchodząca fala ataków multimodalnych: Kiedy narzędzia AI stają się nową powierzchnią ataku

mm

W miarę jak duże modele językowe (LLM) ewoluują w systemy multimodalne, które mogą przetwarzać tekst, obrazy, głos i kod, stają się one również potężnymi koordynatorami zewnętrznych narzędzi i łączników. Wraz z tą ewolucją rozszerza się powierzchnia ataku, której organizacje muszą być świadome.

Doskonałym przykładem jest inżynieria społeczna, na którą agenci mogą paść ofiarą, ponieważ zostali wytrenowani, aby zachowywać się jak ludzie, a mają jeszcze mniej sceptycyzmu. Agent prawdopodobnie nie będzie w stanie odróżnić na przykład sfałszowanego e-maila od tego pochodzącego od legalnego sprzedawcy.

Konwergencja multimodalności i dostępu do narzędzi przekształca AI z asystenta w medium ataku. Atakujący mogą teraz używać prostych poleceń tekstowych, aby wywołać niewłaściwe użycie narzędzi, wykonać nieautoryzowane działania lub eksfiltrować wrażliwe dane przez legalne kanały. Ponieważ te możliwości są zaprojektowane dla dostępności, a nie obrony, nawet mało wykwalifikowani przeciwnicy mogą wykorzystać systemy AI do wykonywania złożonych operacji bez napisania ani jednej linii kodu.

Jak multimodalna AI staje się łańcuchem exploitów

LLM coraz częściej stają się koordynatorami systemów zewnętrznych, a dzisiejsze integracje obejmują już wszystko, od API po e-maile, magazyny w chmurze i narzędzia wykonujące kod. Te łączniki są często budowane z myślą o dostępności, a nie obronie.

Wadą tego jest to, że może to prowadzić do fali nowych exploitów.

Jednym z nich jest niewłaściwe użycie narzędzi napędzane promptami. Na przykład atakujący mógłby użyć obrazu z instrukcjami prompt injection wstawionymi do e-maila. Do wyodrębnienia tekstu z obrazu potrzebne jest narzędzie optycznego rozpoznawania znaków (OCR). Agent otrzymuje instrukcję, aby odpowiedzieć na e-mail i dołączyć mapę Google z adresem domowym celu, tym samym deanonimizując lokalizację ofiary.

Innym mechanizmem jest omijanie zabezpieczeń między modalnościami. Dotyczy to zabezpieczeń znajdujących się między punktami wejścia i wyjścia narzędzi. Na przykład, analizując wynik ekstraktora OCR, może nie być wystarczająco silnych zabezpieczeń przed prompt injection odkrytymi w jego wynikach.

Istnieją również słabości strukturalne, które można wykorzystać. Jednym z takich problemów są luźne, nadmiernie permisywne powiązania między modelem a zewnętrznymi narzędziami, które może on wywoływać – co oznacza, że proste polecenie w języku naturalnym może wywołać realne działania, takie jak uruchomienie kodu, dostęp do plików lub interakcja z pocztą e-mail. Co więcej, wiele z tych systemów nie posiada ścisłych kontroli dostępu, więc AI może mieć możliwość zapisywania, usuwania lub modyfikowania danych daleko wykraczającą poza to, co kiedykolwiek autoryzowałby człowiek. Problem staje się jeszcze poważniejszy, gdy spojrzy się na łączniki i rozszerzenia w stylu MCP, które często nie mają prawie żadnych zabezpieczeń; po podłączeniu rozszerzają one zasięg AI do osobistych magazynów, skrzynek odbiorczych i platform chmurowych przy bardzo małym nadzorze. Razem te słabości strukturalne tworzą środowisko, w którym klasyczne problemy bezpieczeństwa – eksfiltracja, ucieczki z sandboxa, a nawet zatruwanie pamięci – mogą być wywołane za pomocą niczego więcej niż sprytnie skonstruowanego promptu.

Nowe zagrożenia: Co będzie dalej?

W tej nowej normalności ataki z wykorzystaniem AI na pocztę e-mail i inżynierię społeczną są nieuchronne. Ilość phishingu wzrośnie z powodu wykorzystania LLM przez atakujących; wąskim gardłem jest omijanie normalnych filtrów spamowych od dostawców poczty e-mail, takich jak Google. Agenci AI podłączeni do skrzynki odbiorczej zwiększają prawdopodobieństwo sukcesu ataków phishingowych. Prawdopodobnie wzrośnie liczba zagrożeń opartych na e-mailach, gdy użytkownicy podłączą agentów do Gmaila lub Outlooka.

Atakujący mogą nakierować AI na prowadzenie całych kampanii spamowych lub spear-phishingowych. W tym scenariuszu

phishing AI na AI staje się możliwy.

Systemy multimodalne coraz częściej oferują możliwości wykonania kodu. Ścieżki ucieczki pozwalają atakującym na naruszenie leżącej u podstaw infrastruktury. A ucieczki z sandboxa są największym koszmarem wizerunkowym dla dostawców.

Długoterminowe zatruwanie pamięci i odroczone wyzwalacze stanowią dalsze zagrożenia. Trwała pamięć pozwala ukrytym ładunkom aktywować się przy przyszłych promptach. Wyzwalacze między modalnościami (np. obrazy lub fragmenty tekstu) mogłyby uruchamiać zachowania typu “bomba czasowa”.

Dlaczego ataki multimodalne są tak dostępne i tak niebezpieczne

AI zdemokratyzowało możliwości ataku. Użytkownicy nie potrzebują już umiejętności kodowania ani tworzenia złośliwego oprogramowania; język naturalny staje się interfejsem do tworzenia złośliwego oprogramowania lub eksfiltracji danych. Oznacza to, że nawet osoby nietechniczne mogą generować złośliwe oprogramowanie lub prowadzić kampanie za pomocą promptów.

AI umożliwia również przyspieszenie i zwiększenie skali szkodliwych operacji. Agenci multimodalni mogą automatyzować pracę, która kiedyś wymagała wysiłku eksperta. Kod, e-maile, badania i rekonesans mogą być produkowane natychmiast.

Nadmierne zaufanie użytkowników i niezamierzone narażenie przyczyniają się do potencjału szkód AI. Użytkownicy często nie rozumieją, do czego AI ma dostęp, a ustawienia domyślne coraz częściej automatycznie włączają integracje z AI. Wiele osób nie zdaje sobie sprawy, że przyznało AI nadmierny dostęp do poczty e-mail lub dokumentów.

Zasady i kontrole dla bezpieczeństwa multimodalnego

Organizacje muszą wprowadzić środki bezpieczeństwa przeciwko atakom multimodalnym. Zespoły bezpieczeństwa będą musiały domyślnie ograniczać dostęp do narzędzi. Kontrole typu “opt-in” powinny zastąpić automatycznie włączane integracje. Powinny również stosować zasadę najmniejszych uprawnień do wszystkich systemów połączonych z AI i usuwać dostęp do zapisu/usuwania. Powinno to obejmować reguły cross-origin i whitelistowanie domen (whitelistowanie infrastruktury, a nie na poziomie LLM).

Kolejnym kluczowym krokiem jest zbudowanie wyraźnych zabezpieczeń dla wywoływania narzędzi. Zastąp wyzwalacze w języku naturalnym strukturalną, typowaną walidacją poleceń. Zabezpieczenia powinny być zarówno punktami kontrolnymi wejścia, jak i wyjścia.

Dodatkowe ważne zasady i kontrole obejmują:

  • Wymuszaj silne przepływy pracy zatwierdzania dla wrażliwych operacji.
  • Unikaj umieszczania danych użytkownika w trwałej pamięci modelu. Stosuj automatyczne oczyszczanie pamięci i kontrole pochodzenia.
  • Wzmacniaj i izoluj środowiska wykonania kodu.
  • Monitoruj podejrzane zachowania i próby ucieczki.
  • Wzmacniaj edukację użytkowników i transparentność.
  • Dodawaj więcej potwierdzeń użytkownika, gdy agent wykonuje ryzykowne zadania.
  • Wyraźnie informuj, kiedy narzędzia AI uzyskują dostęp do e-maili, plików lub zasobów w chmurze.
  • Ostrzegaj użytkowników o łącznikach wysokiego ryzyka.

Jak odnieść sukces w walce z atakami multimodalnymi

Technologie AI szybko przekształciły się w agentów operacji biznesowych, tworząc sytuację, w której sam język naturalny staje się formą exploita. Konwergencja multimodalności i dostępu do narzędzi otwiera powierzchnię ataku, przekształcając AI z asystenta w medium ataków. Ataki multimodalne wykorzystują luźną integrację między LLM a zewnętrznymi systemami, które kontrolują, takimi jak API, magazyny plików i platformy automatyzacji.

W miarę jak zagrożenia ewoluują, organizacje muszą przyjąć strategie, które wyraźnie uwzględniają multimodalne ścieżki ataku. Wzmacnianie obron przy użyciu najlepszych praktyk wymienionych powyżej jest niezbędne, aby zapobiec przypadkowemu służeniu narzędzi AI jako ogniw w łańcuchu exploitów atakującego.

//www.straiker.ai/">Straiker oraz doświadczonym inżynierem reverse engineering złośliwego oprogramowania, która wcześniej pracowała w zespole Red Team Facebooka oraz w zespole Microsoft Offensive Research & Security Engineering (MORSE), po wcześniejszych rolach w Endgame, FireEye oraz U.S. DoD Cyber Crime Center.