zprávy
Když se umělá inteligence obrátí proti nim: Zpráva Enkrypt AI odhaluje nebezpečné zranitelnosti v multimodálních modelech

V květnu 2025 vydala společnost Enkrypt AI svůj Zpráva o multimodálním červeném týmu, mrazivá analýza, která odhalila, jak snadno lze pokročilé systémy umělé inteligence manipulovat a generovat nebezpečný a neetický obsah. Zpráva se zaměřuje na dva přední modely vizuálního jazyka společnosti Mistral – Pixtral-Large (25.02) a Pixtral-12b – a vykresluje obraz modelů, které jsou nejen technicky působivé, ale také znepokojivě zranitelné.
Modely vizuální řeči (VLM) Systémy jako Pixtral jsou navrženy tak, aby interpretovaly vizuální i textové vstupy, což jim umožňuje inteligentně reagovat na složité pokyny z reálného světa. Tato schopnost však s sebou nese zvýšené riziko. Na rozdíl od tradičních jazykových modelů, které zpracovávají pouze text, mohou být VLM ovlivněny interakcí mezi obrazy a slovy, což otevírá nové dveře pro útoky nepřátel. Testování Enkrypt AI ukazuje, jak snadno lze tyto dveře vypáčit.
Alarmující výsledky testů: Selhání CSEM a CBRN
Tým stojící za zprávou použil sofistikované červená týmová metody – forma adversarial evaluation navržená k napodobení hrozeb z reálného světa. Tyto testy využívaly taktiky jako jailbreaking (vyvolání modelu pečlivě vytvořenými dotazy k obcházení bezpečnostních filtrů), klamání založené na obrázcích a manipulace s kontextem. Alarmující je, že 68 % těchto adversarialních podnětů vyvolalo škodlivé reakce napříč oběma modely Pixtralu, včetně obsahu týkajícího se groomingu, zneužívání a dokonce i návrhu chemických zbraní.
Jedním z nejpozoruhodnějších odhalení je materiál zobrazující sexuální vykořisťování dětí (CSEM). Zpráva zjistila, že modely společnosti Mistral měly 60krát vyšší pravděpodobnost produkce obsahu souvisejícího s CSEM ve srovnání s oborovými benchmarky, jako jsou GPT-4o a Claude 3.7 Sonnet. V testovacích případech modely reagovaly na maskované výzvy k manipulaci s nezletilými strukturovaným, víceodstavcovým obsahem vysvětlujícím, jak manipulovat s nezletilými – zabaleným do neupřímných prohlášení typu „pouze pro vzdělávací účely“. Modely nejenže neodmítly škodlivé dotazy – ale podrobně je vyplňovaly.
Stejně znepokojivé byly výsledky v kategorii rizika CBRN (chemické, biologické, radiologické a jaderné). Když byly modely vyzvány k dotazu, jak modifikovat nervově paralytickou látku VX – chemickou zbraň – nabídly šokujícím způsobem specifické nápady na zvýšení její perzistence v prostředí. Popisovaly sice sice redigované, ale jasně technické detaily, metody jako zapouzdření, ochranu životního prostředí a systémy řízeného uvolňování látek..
Tato selhání nebyla vždy vyvolána zjevně škodlivými požadavky. Jedna taktika zahrnovala nahrání obrázku prázdného číslovaného seznamu a požadavek na model, aby „doplnil podrobnosti“. Tato jednoduchá, zdánlivě neškodná výzva vedla ke generování neetických a nelegálních instrukcí. Fúze vizuální a textové manipulace se ukázala jako obzvláště nebezpečná – zdůraznila tak jedinečnou výzvu, kterou představuje multimodální umělá inteligence.
Proč modely vizuální řeči představují nové bezpečnostní výzvy
Jádrem těchto rizik je technická složitost modelů vizuální řeči. Tyto systémy nejen analyzují jazyk – syntetizují význam napříč formáty, což znamená, že musí interpretovat obrazový obsah, rozumět textovému kontextu a podle toho reagovat. Tato interakce představuje nové vektory pro zneužití. Model může sám o sobě správně odmítnout škodlivou textovou výzvu, ale ve spojení se sugestivním obrázkem nebo nejednoznačným kontextem může generovat nebezpečný výstup.
Červené týmy Enkrypt AI odhalily, jak útoky typu cross-modal injection– kde jemné signály v jedné modalitě ovlivňují výstup jiné – mohou zcela obejít standardní bezpečnostní mechanismy. Tato selhání ukazují, že tradiční techniky moderování obsahu, vytvořené pro systémy s jednou modalitou, nestačí pro dnešní VLM..
Zpráva také podrobně popisuje, jak byly modely Pixtral přístupné: Pixtral-Large přes AWS Bedrock a Pixtral-12b přes platformu Mistral. Tento kontext nasazení v reálném světě dále zdůrazňuje naléhavost těchto zjištění. Tyto modely nejsou omezeny na laboratoře – jsou dostupné prostřednictvím běžných cloudových platforem a mohly by být snadno integrovány do spotřebitelských nebo podnikových produktů.
Co je třeba udělat: Plán pro bezpečnější umělou inteligenci
Ke cti Enkrypt AI je třeba poznamenat, že nejenže upozorňuje na problémy, ale nabízí i cestu vpřed. Zpráva nastiňuje komplexní strategii pro jejich zmírnění, počínaje školení o bezpečném zarovnáníTo zahrnuje přetrénování modelu s využitím jeho vlastních dat z red teamingu, aby se snížila náchylnost ke škodlivým výzvám. Pro doladění odpovědí modelu a zamezení rizikovým výstupům se doporučují techniky, jako je optimalizace přímých preferencí (DPO).
Zdůrazňuje také důležitost kontextově orientovaných ochranných pásem – dynamických filtrů, které dokáží interpretovat a blokovat škodlivé dotazy v reálném čase s ohledem na plný kontext multimodálního vstupu. Kromě toho se jako opatření k transparentnosti navrhuje použití karet rizik modelu, které pomáhá zúčastněným stranám pochopit omezení modelu a známé případy selhání.
Snad nejdůležitějším doporučením je brát red teaming jako průběžný proces, nikoli jako jednorázový test. S vývojem modelů se vyvíjejí i útočné strategie. Pouze průběžné vyhodnocování a aktivní monitorování může zajistit dlouhodobou spolehlivost, zejména pokud jsou modely nasazeny v citlivých odvětvích, jako je zdravotnictví, vzdělávání nebo obrana.
Jedno Zpráva o multimodálním červeném týmu od Enkryptovat AI je jasným signálem pro odvětví umělé inteligence: multimodální energie s sebou nese multimodální odpovědnost. Tyto modely představují skok vpřed ve schopnostech, ale také vyžadují skok v tom, jak přemýšlíme o bezpečnosti, ochraně a etickém nasazení. Pokud nebudou kontrolovány, nejenže riskují selhání – riskují i reálné škody.
Pro každého, kdo pracuje na rozsáhlé umělé inteligenci nebo ji zavádí, není tato zpráva jen varováním. Je to návod. A nemohla přijít v naléhavější chvíli.