Connect with us

Cyberbezpieczeństwo

Gdy AI zawodzi: Raport Enkrypt AI ujawnia niebezpieczne słabości w modelach multimodalnych

mm

W maju 2025 roku Enkrypt AI opublikował Raport czerwonej drużyny multimodalnej, analizę, która ujawniła, jak łatwo zaawansowane systemy AI mogą być manipulowane w celu generowania niebezpiecznych i nieetycznych treści. Raport koncentruje się na dwóch wiodących modelach widzenia i języka Mistral – Pixtral-Large (25.02) i Pixtral-12b – i maluje obraz modeli, które nie tylko są technicznie imponujące, ale także niepokojąco podatne na ataki.

Modele widzenia-języka (VLM) jak Pixtral są budowane do interpretowania zarówno wizualnych, jak i tekstowych danych wejściowych, co pozwala im inteligentnie odpowiadać na złożone, rzeczywiste wskazówki. Ale ta zdolność wiąże się zwiększonym ryzykiem. W przeciwieństwie do tradycyjnych modeli językowych, które przetwarzają tylko tekst, VLM mogą być wpływane przez interakcję między obrazami i słowami, otwierając nowe drzwi dla ataków przeciwnika. Testy Enkrypt AI pokazują, jak łatwo te drzwi mogą być otwarte.

Niespokojne wyniki testów: niepowodzenia CSEM i CBRN

Zespół odpowiedzialny za raport wykorzystał zaawansowane metody czerwonej drużyny – formę oceny przeciwnika zaprojektowaną do naśladowania realnych zagrożeń. Te testy wykorzystywały taktyki jak jailbreaking (wskazówki modelu z starannie przygotowanymi zapytaniami, aby ominąć filtry bezpieczeństwa), oszustwo oparte na obrazach i manipulacja kontekstem. Niepokojąco, 68% tych wrogich wskazówek wywołało szkodliwe odpowiedzi w obu modelach Pixtral, w tym treści związane z groomingiem, wykorzystywaniem i nawet projektowaniem broni chemicznych.

Jedną z najbardziej uderzających rewelacji jest materiał wykorzystujący dziecięcą eksploatację seksualną (CSEM). Raport ujawnił, że modele Mistral były 60 razy bardziej prawdopodobne do wygenerowania treści związanych z CSEM w porównaniu z benchmarkami branżowymi, takimi jak GPT-4o i Claude 3.7 Sonnet. W przypadkach testowych modele odpowiedziały na ukryte wskazówki groomingowe z ustrukturyzowaną, wieloparagrafową treścią wyjaśniającą, jak manipulować nieletnimi – opakowaną w nieuczciwe zastrzeżenia, takie jak “tylko do celów edukacyjnych”. Modele nie tylko nie odrzucały szkodliwych zapytań – uzupełniały je szczegółowo.

Równie niepokojące były wyniki w kategorii ryzyka CBRN (chemicznego, biologicznego, radiologicznego i jądrowego). Gdy modele zostały poproszone o informacje, jak modyfikować gaz nerwowy VX – broń chemiczną, modele zaproponowały szokująco szczegółowe pomysły na zwiększenie jego trwałości w środowisku. Opisano w wyraźnym, choć ocenzurowanym, technicznym szczególe, metody takie jak encapsulacja, osłona środowiskowa i systemy kontroli wydzielania.

Te niepowodzenia nie zawsze były spowodowane jawno szkodliwymi prośbami. Jedną z taktyk było przesłanie obrazu pustej ponumerowanej listy i poproszenie modelu o “uzupełnienie szczegółów”. To proste, pozornie niewinne polecenie doprowadziło do wygenerowania nieetycznych i nielegalnych instrukcji. Połączenie manipulacji wizualnej i tekstowej okazało się szczególnie niebezpieczne, podkreślając unikalne wyzwanie stawiane przez multimodalny AI.

Dlaczego modele widzenia-języka stwarzają nowe wyzwania bezpieczeństwa

W sercu tych ryzyk leży techniczna złożoność modeli widzenia-języka. Te systemy nie tylko analizują język – syntetyzują znaczenie w różnych formatach, co oznacza, że muszą interpretować treści obrazu, zrozumieć kontekst tekstu i odpowiednio zareagować. Ta interakcja wprowadza nowe wektory eksploatacji. Model może poprawnie odrzucić szkodliwą wskazówkę tekstową samą w sobie, ale gdy połączona jest z sugestywnym obrazem lub niejednoznacznym kontekstem, może wygenerować niebezpieczną odpowiedź.

Red teaming Enkrypt AI ujawnił, jak atаки iniekcji cross-modalnej – gdzie subtelne sygnały w jednej modalności wpływają na wyjście innej – mogą całkowicie ominąć standardowe mechanizmy bezpieczeństwa. Te niepowodzenia pokazują, że tradycyjne techniki moderacji treści, zaprojektowane dla systemów jednomodalnych, nie są wystarczające dla dzisiejszych VLM.

Raport szczegółowo opisuje, jak modele Pixtral zostały uzyskane: Pixtral-Large za pośrednictwem AWS Bedrock, a Pixtral-12b za pośrednictwem platformy Mistral. Ten kontekst wdrożenia w świecie rzeczywistym dodatkowo podkreśla pilność tych ustaleń. Modele te nie są ograniczone do laboratoriów – są dostępne za pośrednictwem głównych platform chmurowych i mogą być łatwo zintegrowane z produktami konsumenckimi lub przedsiębiorstwami.

Co należy zrobić: Plan dla bezpieczniejszego AI

Na swoją korzyść, Enkrypt AI nie tylko podkreśla problemy, ale także wskazuje drogę do przodu. Raport przedstawia kompleksową strategię łagodzenia, rozpoczynającą się od szkolenia w zakresie bezpieczeństwa. Obejmuje to ponowne szkolenie modelu przy użyciu własnych danych czerwonej drużyny, aby zmniejszyć podatność na szkodliwe wskazówki. Zalecane są techniki takie jakect Preference Optimization (DPO), aby dostroić odpowiedzi modelu, aby uniknąć ryzykownych danych wyjściowych.

Podkreśla również wagę dynamicznych barier ochronnych, które mogą interpretować i blokować szkodliwe zapytania w czasie rzeczywistym, biorąc pod uwagę pełny kontekst danych wejściowych multimodalnych. Ponadto proponuje się wykorzystanie kart ryzyka modelu jako środka transparentności, pomagającego zainteresowanym stronom zrozumieć ograniczenia modelu i znane przypadki niepowodzeń.

Być może najważniejszym zaleceniem jest traktowanie czerwonej drużyny jako procesu ciągłego, a nie jednorazowego testu. W miarę ewolucji modeli, taktyki ataków również ewoluują. Tylko ciągła ocena i aktywne monitorowanie mogą zapewnić długoterminową niezawodność, szczególnie w przypadku wdrożeń w wrażliwych sektorach, takich jak opieka zdrowotna, edukacja lub obrona.

Raport czerwonej drużyny multimodalnej od Enkrypt AI jest wyraźnym sygnałem dla branży AI: multimodalna moc idzie w parze z multimodalną odpowiedzialnością. Te modele reprezentują skok w możliwościach, ale wymagają również skoku w myśleniu o bezpieczeństwie, bezpieczeństwie i wdrożeniu etycznym. Jeśli pozostaną one niekontrolowane, nie tylko ryzykują awarię, ale także realne szkody.

Dla każdego, kto pracuje nad dużymi systemami AI lub je wdrożenia, ten raport nie jest tylko ostrzeżeniem. To podręcznik. I nie mógł przyjść w bardziej pilnym momencie.

Antoine jest wizjonerskim liderem i współzałożycielem Unite.AI, z niezachwianą pasją do kształtowania i promowania przyszłości sztucznej inteligencji i robotyki. Jako serialowy przedsiębiorca, uważa, że sztuczna inteligencja będzie tak samo przełomowa dla społeczeństwa, jak elektryczność, i często zachwycany jest potencjałem technologie przełomowych i AGI. Jako futurysta, poświęca się badaniu, jak te innowacje ukształtują nasz świat. Ponadto jest założycielem Securities.io, platformy skupiającej się na inwestowaniu w najnowocześniejsze technologie, które przeobrażają przyszłość i zmieniają całe sektory.