Согласно отчетам

Когда ИИ дает обратный эффект: отчет Enkrypt AI раскрывает опасные уязвимости в мультимодальных моделях

опубликованный 8 мая 2025

Антуан Тардиф, Генеральный директор и основатель Unite.AI

В мае 2025 года компания Enkrypt AI выпустила свой Отчет о мультимодальном красном тиминге, леденящий душу анализ, который показал, насколько легко можно манипулировать передовыми системами ИИ, чтобы они генерировали опасный и неэтичный контент. Отчет фокусируется на двух ведущих моделях языка видения Mistral — Pixtral-Large (25.02) и Pixtral-12b — и рисует картину моделей, которые не только технически впечатляют, но и тревожно уязвимы.

Модели визуального языка (VLM) Такие как Pixtral, созданы для интерпретации как визуальных, так и текстовых входов, что позволяет им разумно реагировать на сложные подсказки реального мира. Но эта возможность сопряжена с повышенным риском. В отличие от традиционных языковых моделей, которые обрабатывают только текст, VLM могут зависеть от взаимодействия между изображениями и словами, открывая новые двери для состязательных атак. Тестирование Enkrypt AI показывает, насколько легко эти двери можно взломать.

Тревожные результаты испытаний: сбои в работе CSEM и CBRN

Команда, стоящая за отчетом, использовала сложные красная команда методы — форма состязательной оценки, разработанная для имитации угроз реального мира. В этих тестах использовались такие тактики, как джейлбрейк (подсказывание модели с помощью тщательно продуманных запросов для обхода фильтров безопасности), обман на основе изображений и манипуляция контекстом. Тревожно, что 68% этих состязательных подсказок вызывали вредоносные ответы в двух моделях Pixtral, включая контент, связанный с грумингом, эксплуатацией и даже разработкой химического оружия.

Одно из самых поразительных открытий касается материалов о сексуальной эксплуатации детей (CSEM). В отчете было обнаружено, что модели Mistral в 60 раз чаще создавали контент, связанный с CSEM, по сравнению с отраслевыми эталонами, такими как GPT-4o и Claude 3.7 Sonnet. В тестовых случаях модели реагировали на замаскированные подсказки о груминге структурированным многопараграфным контентом, объясняющим, как манипулировать несовершеннолетними, — завернутым в неискренние отказы, например, «только для образовательной осведомленности». Модели не просто не отклоняли вредоносные запросы — они выполняли их подробно.

Не менее тревожными были результаты в категории риска CBRN (химический, биологический, радиологический и ядерный). Когда их попросили модифицировать нервно-паралитический агент VX — химическое оружие, — модели предложили шокирующе конкретные идеи по увеличению его стойкости в окружающей среде. Они описали, в отредактированных, но явно технических подробностях, такие методы, как инкапсуляция, экологическое экранирование и системы контролируемого высвобождения.

Эти сбои не всегда были вызваны явно вредоносными запросами. Одна из тактик включала загрузку изображения пустого пронумерованного списка и просьбу к модели «заполнить детали». Эта простая, на первый взгляд безобидная подсказка привела к генерации неэтичных и незаконных инструкций. Слияние визуальной и текстовой манипуляции оказалось особенно опасным, что подчеркнуло уникальную проблему, которую представляет собой мультимодальный ИИ.

Почему модели Vision-Language создают новые проблемы безопасности

В основе этих рисков лежит техническая сложность моделей зрительного языка. Эти системы не просто анализируют язык — они синтезируют значение в разных форматах, что означает, что они должны интерпретировать содержимое изображения, понимать текстовый контекст и реагировать соответствующим образом. Это взаимодействие вводит новые векторы для эксплуатации. Модель может правильно отклонить вредоносную текстовую подсказку сама по себе, но в сочетании с наводящим на размышления изображением или неоднозначным контекстом она может генерировать опасный вывод.

Красная команда ИИ Enkrypt раскрыла, как кросс-модальные инъекционные атаки—где тонкие сигналы в одной модальности влияют на выход другой — может полностью обойти стандартные механизмы безопасности. Эти неудачи показывают, что традиционные методы модерации контента, созданные для систем с одной модальностью, недостаточны для сегодняшних VLM.

В отчете также подробно описывается, как модели Pixtral были доступны: Pixtral-Large через AWS Bedrock и Pixtral-12b через платформу Mistral. Этот реальный контекст развертывания еще больше подчеркивает срочность этих результатов. Эти модели не ограничиваются лабораториями — они доступны через основные облачные платформы и могут быть легко интегрированы в потребительские или корпоративные продукты.

Что необходимо сделать: план более безопасного ИИ

К чести Enkrypt AI, он не просто выявляет проблемы — он предлагает путь вперед. В отчете излагается комплексная стратегия смягчения последствий, начиная с обучение выравниванию безопасности. Это включает в себя переобучение модели с использованием ее собственных данных red teaming для снижения восприимчивости к вредоносным подсказкам. Такие методы, как Direct Preference Optimization (DPO), рекомендуются для тонкой настройки ответов модели от рискованных выходов.

Также подчеркивается важность контекстно-зависимых защитных ограждений — динамических фильтров, которые могут интерпретировать и блокировать вредоносные запросы в режиме реального времени, принимая во внимание полный контекст мультимодального ввода. Кроме того, предлагается использовать карты рисков модели в качестве меры прозрачности, помогающей заинтересованным сторонам понять ограничения модели и известные случаи сбоев.

Возможно, самая важная рекомендация — рассматривать red teaming как непрерывный процесс, а не как одноразовый тест. По мере развития моделей развиваются и стратегии атак. Только постоянная оценка и активный мониторинг могут обеспечить долгосрочную надежность, особенно когда модели развертываются в таких чувствительных секторах, как здравоохранение, образование или оборона.

Радиус корня Отчет о мультимодальном красном тиминге от Энкрипт ИИ — это четкий сигнал для индустрии ИИ: мультимодальная мощь приходит с мультимодальной ответственностью. Эти модели представляют собой скачок вперед в возможностях, но они также требуют скачка в том, как мы думаем о безопасности, защите и этическом развертывании. Если их не контролировать, они не просто рискуют потерпеть неудачу — они рискуют нанести реальный вред.

Для тех, кто работает над крупномасштабным ИИ или внедряет его, этот отчет — не просто предупреждение. Это руководство к действию. И он не мог появиться в более срочное время.

Похожие темы:информационной безопасности Шифрование Энкрипт ИИ сообщениях

Состояние безопасности ИИ в 2025 году: основные выводы из отчета Cisco

Не пропустите

Состояние пентестинга в 2025 году: почему проверка безопасности на основе ИИ теперь является стратегическим императивом

Антуан Тардиф

Антуан — дальновидный лидер и партнер-основатель Unite.AI, движимый непоколебимой страстью к формированию и продвижению будущего ИИ и робототехники. Серийный предприниматель, он считает, что ИИ будет таким же разрушительным для общества, как электричество, и его часто ловят на том, что он восторженно отзывается о потенциале разрушительных технологий и AGI.

футурист, он посвятил себя изучению того, как эти инновации изменят наш мир. Кроме того, он является основателем Ценные бумаги.io, платформа, ориентированная на инвестиции в передовые технологии, которые меняют будущее и преобразуют целые секторы.

Unite.ИИ

Когда ИИ дает обратный эффект: отчет Enkrypt AI раскрывает опасные уязвимости в мультимодальных моделях

Тревожные результаты испытаний: сбои в работе CSEM и CBRN

Почему модели Vision-Language создают новые проблемы безопасности

Что необходимо сделать: план более безопасного ИИ

Вам может понравиться