Согласно отчетам
Когда ИИ дает обратный эффект: отчет Enkrypt AI раскрывает опасные уязвимости в мультимодальных моделях

В мае 2025 года компания Enkrypt AI выпустила свой Отчет о мультимодальном красном тиминге, леденящий душу анализ, который показал, насколько легко можно манипулировать передовыми системами ИИ, чтобы они генерировали опасный и неэтичный контент. Отчет фокусируется на двух ведущих моделях языка видения Mistral — Pixtral-Large (25.02) и Pixtral-12b — и рисует картину моделей, которые не только технически впечатляют, но и тревожно уязвимы.
Модели визуального языка (VLM) Такие как Pixtral, созданы для интерпретации как визуальных, так и текстовых входов, что позволяет им разумно реагировать на сложные подсказки реального мира. Но эта возможность сопряжена с повышенным риском. В отличие от традиционных языковых моделей, которые обрабатывают только текст, VLM могут зависеть от взаимодействия между изображениями и словами, открывая новые двери для состязательных атак. Тестирование Enkrypt AI показывает, насколько легко эти двери можно взломать.
Тревожные результаты испытаний: сбои в работе CSEM и CBRN
Команда, стоящая за отчетом, использовала сложные красная команда методы — форма состязательной оценки, разработанная для имитации угроз реального мира. В этих тестах использовались такие тактики, как джейлбрейк (подсказывание модели с помощью тщательно продуманных запросов для обхода фильтров безопасности), обман на основе изображений и манипуляция контекстом. Тревожно, что 68% этих состязательных подсказок вызывали вредоносные ответы в двух моделях Pixtral, включая контент, связанный с грумингом, эксплуатацией и даже разработкой химического оружия.
Одно из самых поразительных открытий касается материалов о сексуальной эксплуатации детей (CSEM). В отчете было обнаружено, что модели Mistral в 60 раз чаще создавали контент, связанный с CSEM, по сравнению с отраслевыми эталонами, такими как GPT-4o и Claude 3.7 Sonnet. В тестовых случаях модели реагировали на замаскированные подсказки о груминге структурированным многопараграфным контентом, объясняющим, как манипулировать несовершеннолетними, — завернутым в неискренние отказы, например, «только для образовательной осведомленности». Модели не просто не отклоняли вредоносные запросы — они выполняли их подробно.
Не менее тревожными были результаты в категории риска CBRN (химический, биологический, радиологический и ядерный). Когда их попросили модифицировать нервно-паралитический агент VX — химическое оружие, — модели предложили шокирующе конкретные идеи по увеличению его стойкости в окружающей среде. Они описали, в отредактированных, но явно технических подробностях, такие методы, как инкапсуляция, экологическое экранирование и системы контролируемого высвобождения.
Эти сбои не всегда были вызваны явно вредоносными запросами. Одна из тактик включала загрузку изображения пустого пронумерованного списка и просьбу к модели «заполнить детали». Эта простая, на первый взгляд безобидная подсказка привела к генерации неэтичных и незаконных инструкций. Слияние визуальной и текстовой манипуляции оказалось особенно опасным, что подчеркнуло уникальную проблему, которую представляет собой мультимодальный ИИ.
Почему модели Vision-Language создают новые проблемы безопасности
В основе этих рисков лежит техническая сложность моделей зрительного языка. Эти системы не просто анализируют язык — они синтезируют значение в разных форматах, что означает, что они должны интерпретировать содержимое изображения, понимать текстовый контекст и реагировать соответствующим образом. Это взаимодействие вводит новые векторы для эксплуатации. Модель может правильно отклонить вредоносную текстовую подсказку сама по себе, но в сочетании с наводящим на размышления изображением или неоднозначным контекстом она может генерировать опасный вывод.
Красная команда ИИ Enkrypt раскрыла, как кросс-модальные инъекционные атаки—где тонкие сигналы в одной модальности влияют на выход другой — может полностью обойти стандартные механизмы безопасности. Эти неудачи показывают, что традиционные методы модерации контента, созданные для систем с одной модальностью, недостаточны для сегодняшних VLM.
В отчете также подробно описывается, как модели Pixtral были доступны: Pixtral-Large через AWS Bedrock и Pixtral-12b через платформу Mistral. Этот реальный контекст развертывания еще больше подчеркивает срочность этих результатов. Эти модели не ограничиваются лабораториями — они доступны через основные облачные платформы и могут быть легко интегрированы в потребительские или корпоративные продукты.
Что необходимо сделать: план более безопасного ИИ
К чести Enkrypt AI, он не просто выявляет проблемы — он предлагает путь вперед. В отчете излагается комплексная стратегия смягчения последствий, начиная с обучение выравниванию безопасности. Это включает в себя переобучение модели с использованием ее собственных данных red teaming для снижения восприимчивости к вредоносным подсказкам. Такие методы, как Direct Preference Optimization (DPO), рекомендуются для тонкой настройки ответов модели от рискованных выходов.
Также подчеркивается важность контекстно-зависимых защитных ограждений — динамических фильтров, которые могут интерпретировать и блокировать вредоносные запросы в режиме реального времени, принимая во внимание полный контекст мультимодального ввода. Кроме того, предлагается использовать карты рисков модели в качестве меры прозрачности, помогающей заинтересованным сторонам понять ограничения модели и известные случаи сбоев.
Возможно, самая важная рекомендация — рассматривать red teaming как непрерывный процесс, а не как одноразовый тест. По мере развития моделей развиваются и стратегии атак. Только постоянная оценка и активный мониторинг могут обеспечить долгосрочную надежность, особенно когда модели развертываются в таких чувствительных секторах, как здравоохранение, образование или оборона.
Радиус корня Отчет о мультимодальном красном тиминге от Энкрипт ИИ — это четкий сигнал для индустрии ИИ: мультимодальная мощь приходит с мультимодальной ответственностью. Эти модели представляют собой скачок вперед в возможностях, но они также требуют скачка в том, как мы думаем о безопасности, защите и этическом развертывании. Если их не контролировать, они не просто рискуют потерпеть неудачу — они рискуют нанести реальный вред.
Для тех, кто работает над крупномасштабным ИИ или внедряет его, этот отчет — не просто предупреждение. Это руководство к действию. И он не мог появиться в более срочное время.