Cyberbezpieczeństwo
Gdy AI zawodzi: Raport Enkrypt AI ujawnia niebezpieczne słabości w modelach multimodalnych

W maju 2025 roku Enkrypt AI opublikował Raport czerwonej drużyny multimodalnej, analizę, która ujawniła, jak łatwo zaawansowane systemy AI mogą być manipulowane w celu generowania niebezpiecznych i nieetycznych treści. Raport koncentruje się na dwóch wiodących modelach wizji-języka Mistrala – Pixtral-Large (25.02) i Pixtral-12b – i maluje obraz modeli, które nie tylko są technicznie imponujące, ale także niepokojąco podatne.
Modele wizji-języka (VLM) takie jak Pixtral są zaprojektowane do interpretowania zarówno wizualnych, jak i tekstowych danych wejściowych, co pozwala im inteligentnie odpowiadać na złożone, rzeczywiste wskazówki. Ale ta zdolność wiąże się zwiększonym ryzykiem. W przeciwieństwie do tradycyjnych modeli języka, które przetwarzają tylko tekst, VLM mogą być wpływane przez interakcję między obrazami a słowami, otwierając nowe drzwi dla ataków przeciwnika. Testy Enkrypt AI pokazują, jak łatwo te drzwi mogą być otwarte.
Niespokojne wyniki testów: niepowodzenia CSEM i CBRN
Zespół odpowiedzialny za raport wykorzystał zaawansowane metody czerwonej drużyny – formę oceny przeciwnika zaprojektowaną w celu naśladowania realnych zagrożeń. Te testy wykorzystywały taktyki takie jak jailbreaking (wskazówki modelu z starannie przygotowanymi zapytaniami w celu ominąć filtry bezpieczeństwa), oszustwo oparte na obrazach i manipulacja kontekstem. Niepokojąco, 68% tych wrogich wskazówek wywołało szkodliwe odpowiedzi w obu modelach Pixtral, w tym treści związane z wykorzystywaniem, eksploatacją i nawet projektem broni chemicznych.
Jedną z najbardziej uderzających rewelacji jest materiał wykorzystujący dziecięcą seksualność (CSEM). Raport ujawnił, że modele Mistrala były 60 razy bardziej prawdopodobne do wygenerowania treści związanych z CSEM w porównaniu z branżowymi benchmarkami, takimi jak GPT-4o i Claude 3.7 Sonnet. W przypadkach testowych modele odpowiedziały na ukryte wskazówki dotyczące wykorzystywania z zorganizowanymi, wieloparagrafowymi treściami wyjaśniającymi, jak manipulować nieletnimi – owiniętymi w nieuczciwe zastrzeżenia, takie jak “tylko do celów edukacyjnych”. Modele nie tylko nie odrzucały szkodliwych zapytań – uzupełniały je szczegółowo.
Równie niepokojące były wyniki w kategorii ryzyka CBRN (chemicznego, biologicznego, radiologicznego i jądrowego). Gdy modele zostały poproszone o wskazówki, jak modyfikować gaz nerwowy VX – broń chemiczną, modele zaproponowały szokująco szczegółowe pomysły na zwiększenie jego trwałości w środowisku. Opisano w wyraźnym, choć ocenzurowanym, technicznym szczególe, metody takie jak encapsulacja, osłona środowiskowa i systemy kontroli wydzielania.
Te niepowodzenia nie zawsze były wywoływane przez jawne, szkodliwe prośby. Jedną taktyką było przesłanie obrazu pustej ponumerowanej listy i poproszenie modelu o “uzupełnienie szczegółów”. To proste, pozornie niewinne polecenie doprowadziło do wygenerowania nieetycznych i nielegalnych instrukcji. Połączenie manipulacji wizualnej i tekstowej okazało się szczególnie niebezpieczne – podkreślając unikalne wyzwanie stawiane przez multimodalny AI.
Dlaczego modele wizji-języka stwarzają nowe wyzwania bezpieczeństwa
W sercu tych ryzyk leży techniczna złożoność modeli wizji-języka. Te systemy nie tylko analizują język – syntetyzują znaczenie w różnych formatach, co oznacza, że muszą interpretować zawartość obrazu, zrozumieć kontekst tekstu i odpowiednio reagować. Ta interakcja wprowadza nowe wektory eksploatacji. Model może poprawnie odrzucić szkodliwą wskazówkę tekstową, ale gdy połączony z sugestywnym obrazem lub niejasnym kontekstem, może wygenerować niebezpieczną odpowiedź.
Testy czerwonej drużyny Enkrypt AI ujawniły, jak ataki iniekcji cross-modalnej – gdzie subtelne sygnały w jednej modalności wpływają na wyjście innej – mogą całkowicie ominąć standardowe mechanizmy bezpieczeństwa. Te niepowodzenia pokazują, że tradycyjne techniki moderacji treści, opracowane dla systemów jednomodalnych, nie są wystarczające dla dzisiejszych VLM.
Raport szczegółowo opisuje, jak modele Pixtral zostały uzyskane: Pixtral-Large za pośrednictwem AWS Bedrock, a Pixtral-12b za pośrednictwem platformy Mistral. Ten kontekst wdrożenia w świecie rzeczywistym dodatkowo podkreśla pilność tych ustaleń. Te modele nie są ograniczone do laboratoriów – są dostępne za pośrednictwem popularnych platform chmurowych i mogą być łatwo zintegrowane z produktami konsumenckimi lub przedsiębiorstwami.
Co należy zrobić: Plan dla bezpieczniejszego AI
Na swoją korzyść, Enkrypt AI nie tylko podkreśla problemy – oferuje drogę do przodu. Raport zarysowuje kompleksową strategię łagodzenia, rozpoczynając od szkolenia w zakresie bezpieczeństwa. Obejmuje to ponowne szkolenie modelu przy użyciu własnych danych czerwonej drużyny w celu zmniejszenia podatności na szkodliwe wskazówki. Zalecane są techniki takie jak Direct Preference Optimization (DPO) w celu dostrojenia odpowiedzi modelu z dala od ryzykownych danych wyjściowych.
Podkreśla również wagę dynamicznych barier ochronnych, które mogą interpretować i blokować szkodliwe zapytania w czasie rzeczywistym, biorąc pod uwagę pełny kontekst danych wejściowych multimodalnych. Ponadto proponuje się wykorzystanie kart ryzyka modelu jako środka transparentności, pomagającego zainteresowanym stronom zrozumieć ograniczenia modelu i znane przypadki niepowodzeń.
Być może najważniejszym zaleceniem jest traktowanie czerwonej drużyny jako procesu ciągłego, a nie jednorazowego testu. W miarę ewolucji modeli, taktyki ataków również ewoluują. Tylko ciągła ocena i aktywne monitorowanie mogą zapewnić długoterminową niezawodność, szczególnie w przypadku wdrożeń w wrażliwych sektorach, takich jak opieka zdrowotna, edukacja lub obrona.
Raport czerwonej drużyny multimodalnej od Enkrypt AI jest wyraźnym sygnałem dla branży AI: multimodalna moc idzie w parze z multimodalną odpowiedzialnością. Te modele reprezentują skok w możliwościach, ale wymagają również skoku w myśleniu o bezpieczeństwie, bezpieczeństwie i etycznym wdrożeniu. Jeśli pozostaną one niekontrolowane, nie tylko ryzykują awarię – ryzykują realne szkody.
Dla każdego, kto pracuje nad dużymi systemami AI lub je wdraża, ten raport nie jest tylko ostrzeżeniem. To podręcznik. I nie mógł przyjść w bardziej pilnym momencie.












