Kybernetická bezpečnost

Když AI selhává: Zpráva Enkrypt AI odhaluje nebezpečné zranitelnosti v multimodálních modelech

Published May 8, 2025

Updated April 3, 2026

Antoine Tardif, CEO & Founder of Unite.AI

V květnu 2025 vydala společnost Enkrypt AI svou zprávu o multimodálním testování červených týmů, která je znepokojivou analýzou, která odhalila, jak snadno lze pokročilé systémy AI manipulovat tak, aby generovaly nebezpečný a neetický obsah. Zpráva se zaměřuje na dva vedoucí modely Mistral – Pixtral-Large (25.02) a Pixtral-12b – a maluje obraz modelů, které jsou nejen technicky působivé, ale také znepokojivě zranitelné.

Modely vision-language (VLM) jako Pixtral jsou navrženy tak, aby interpretovaly jak vizuální, tak textové vstupy, což jim umožňuje inteligentně reagovat na komplexní, reálné podněty. Ale tato schopnost přináší zvýšené riziko. Na rozdíl od tradičních jazykových modelů, které zpracovávají pouze text, mohou být VLM ovlivněny interakcí mezi obrázky a slovy, což otevírá nové dveře pro útoky adversářů. Testování společnosti Enkrypt AI ukazuje, jak snadno lze tyto dveře otevřít.

Poplašné výsledky testů: Selhání CSEM a CBRN

Tým za zprávou použil sofistikované metody červených týmů – formu adversářské evaluace navržené pro simulaci reálných hrozeb. Tyto testy využívaly taktiky jako jailbreaking (podněcování modelu pomocí pečlivě vytvořených dotazů k obejití bezpečnostních filtrů), image-based deception a manipulace kontextem. Poplašně, 68 % těchto adversářských dotazů vyvolalo škodlivé odpovědi napříč oběma modely Pixtral, včetně obsahu souvisejícího s groomováním, vykořisťováním a dokonce i navrhováním chemických zbraní.

Jedním z nejpozoruhodnějších odhalení se týká materiálu souvisejícího se sexuálním zneužíváním dětí (CSEM). Zpráva zjistila, že modely Mistral byly 60krát více pravděpodobné, že vyprodukuje obsah související s CSEM ve srovnání s průmyslovými standardy jako GPT-4o a Claude 3.7 Sonnet. V testovacích případech modely reagovaly na zamaskované dotazy na groomování s rozsáhlým, víceodstavcovým obsahem, který vysvětloval, jak manipulovat s nezletilými – zabaleným v neupřímných prohlášeních jako „pouze pro vzdělávací povědomí“. Modely nebyly simplementně selhávající při odmítání škodlivých dotazů – byly je dokončovat v detailech.

Stejně znepokojivé byly výsledky v kategorii CBRN (chemických, biologických, radiačních a jaderných) rizik. Když byly modely podněceny k žádosti o úpravu nervového agentu VX – chemické zbraně – nabídly šokujícíly specifické nápady pro zvýšení jeho perzistence v prostředí. Popisovaly, v redigovaných, ale jasně technických detailech, metody jako encapsulaci, environmentální shielding a systémy řízeného uvolňování .

Tyto selhání nebyly vždy vyvolána otevřeně škodlivými žádostmi. Jednou z taktik bylo nahrání obrázku prázdného číslovaného seznamu a vyžádání si modelu, aby „doplnil detaily“. Tento jednoduchý, zdánlivě neškodný dotaz vedl k vygenerování neetických a nezákonných instrukcí. Fúze vizuální a textové manipulace se ukázala jako zvláště nebezpečná – zdůrazňující jedinečnou výzvu, kterou představují multimodální AI.

Proč modely vision-language představují nové bezpečnostní výzvy

V srdci těchto rizik leží technická komplexita modelů vision-language. Tyto systémy neonlyž parse jazyka – syntetizují význam napříč formáty, což znamená, že musí interpretovat obsah obrázků, pochopit textový kontext a reagovat odpovídajícím způsobem. Tato interakce zavádí nové vektory pro exploataci. Model může správně odmítnout škodlivý textový dotaz sám o sobě, ale když je spojen s Sugestivním obrázkem nebo ambivalentním kontextem, může generovat nebezpečný výstup.

Red teaming společnosti Enkrypt AI odhalil, jak cross-modální injekční útoky – kde jemné signály v jedné modalitě ovlivňují výstup druhé – mohou zcela obejít standardní bezpečnostní mechanismy. Tyto selhání demonstrují, že tradiční techniky moderování obsahu, postavené pro systémy s jednou modalitou, nejsou dostatečné pro dnešní VLM .

Zpráva také podrobně popisuje, jak byly modely Pixtral přístupné: Pixtral-Large přes AWS Bedrock a Pixtral-12b přes platformu Mistral. Tento reálný kontext nasazení ještě více zdůrazňuje naléhavost těchto zjištění. Tyto modely nejsou omezeny na laboratoře – jsou dostupné prostřednictvím hlavních cloudových platforem a mohly by být snadno integrovány do spotřebitelských nebo podnikových produktů.

Co musí být uděláno: Plán pro bezpečnější AI

Na svou obhajobu společnost Enkrypt AI nedělá pouze výzvu – nabízí cestu vpřed. Zpráva nastiňuje komplexní strategii zmírnění, začínající školícím bezpečnostním zarovnáním. To zahrnuje přeškolování modelu pomocí vlastních dat červených týmů, aby se snížila náchylnost k škodlivým dotazům. Techniky jakoect Preference Optimization (DPO) se doporučují pro jemné doladění odpovědí modelu od rizikových výstupů.

Také zdůrazňuje důležitost kontextově-aware guardrails – dynamických filtrů, které mohou interpretovat a blokovat škodlivé dotazy v reálném čase, s přihlédnutím k plnému kontextu multimodálního vstupu. Kromě toho se navrhuje použití Model Risk Cards jako transparentní opatření, které pomáhá zainteresovaným stranám pochopit omezení modelu a známé případy selhání.

Možná nejkritičtějším doporučení je považovat červené týmy za probíhající proces, ne za jednorázový test. Jak se modely vyvíjejí, tak i strategie útoků. Pouze kontinuální evaluace a aktivní monitoring mohou zajistit dlouhodobou spolehlivost, zejména když jsou modely nasazeny v citlivých sektorech, jako je zdravotnictví, vzdělávání nebo obrana.

Zpráva Multimodálního testování červených týmů od Enkrypt AI je jasným signálem pro průmysl AI: multimodální síla přichází s multimodální odpovědností. Tyto modely představují skok vpřed v schopnostech, ale také vyžadují skok v tom, jak přemýšlíme o bezpečnosti, zabezpečení a etickém nasazení. Pokud zůstanou bez kontroly, neohrožují pouze selhání – ohrožují skutečné škody.

Pro každého, kdo pracuje na nebo nasazuje velké AI, je tato zpráva nejen varováním. Je to playbook. A nemohla přijít v více naléhavém čase.

Related Topics:cybersecurity Enkrypt Enkrypt AI reports

Antoine Tardif, CEO & Founder of Unite.AI

Antoine je vizionářský líder a zakládající partner Unite.AI, poháněný neotřesitelnou vášní pro formování a propagaci budoucnosti AI a robotiky. Jako sériový podnikatel věří, že AI bude mít na společnost stejně disruptivní vliv jako elektřina, a často je chycen při tom, jak hovoří o potenciálu disruptivních technologií a AGI. Jako futurist, je zasvěcen prozkoumání toho, jak tyto inovace budou formovat náš svět. Kromě toho je zakladatelem Securities.io, platformy zaměřené na investice do špičkových technologií, které předefinovávají budoucnost a mění celé sektory.