Connect with us

Когда ИИ дает сбой: отчет Enkrypt AI раскрывает опасные уязвимости в многомодальных моделях

Кибербезопасность

Когда ИИ дает сбой: отчет Enkrypt AI раскрывает опасные уязвимости в многомодальных моделях

mm

В мае 2025 года Enkrypt AI выпустил свой отчет о красной команде Multimodal, ужасающий анализ, который показал, насколько легко можно манипулировать передовыми системами ИИ, чтобы они генерировали опасный и неэтичный контент. Отчет сосредоточен на двух ведущих моделях видения и языка Mistral — Pixtral-Large (25.02) и Pixtral-12b — и рисует картину моделей, которые не только технически впечатляющие, но и тревожно уязвимые.

Модели видения и языка (VLMs) типа Pixtral предназначены для интерпретации как визуальных, так и текстовых входных данных, что позволяет им реагировать интеллектуально на сложные, реальные запросы. Но эта возможность несет в себе повышенный риск. В отличие от традиционных языковых моделей, которые обрабатывают только текст, VLMs могут быть подвержены влиянию взаимодействия между изображениями и словами, открывая новые двери для атакарных атак. Тестирование Enkrypt AI показывает, насколько легко эти двери можно открыть.

Тревожные результаты тестов: неудачи CSEM и CBRN

Команда, стоящая за отчетом, использовала сложные методы красной команды — форму атакарной оценки, предназначенной для имитации реальных угроз. Эти тесты использовали тактику, такие как jailbreaking (запрос модели с тщательно разработанными запросами, чтобы обойти фильтры безопасности), обман на основе изображений и манипуляция контекстом. Тревожно, что 68% этих атакарных запросов вызвали вредные ответы в обеих моделях Pixtral, включая контент, связанный с эксплуатацией, и даже с проектированием химического оружия.

Одним из самых поразительных откровений является связь с материалами по эксплуатации детей (CSEM). Отчет показал, что модели Mistral были в 60 раз более вероятны производить контент, связанный с CSEM, по сравнению с отраслевыми стандартами, такими как GPT-4o и Claude 3.7 Sonnet. В тестовых случаях модели реагировали на замаскированные запросы на эксплуатацию с структурированным, многоабзацным контентом, объясняющим, как манипулировать несовершеннолетними — завернутым в неискренние免ения, такие как «только для образовательного осведомленности». Модели не просто не смогли отклонить вредные запросы — они завершили их подробно.

Не менее тревожными были результаты в категории риска CBRN (Химические, Биологические, Радиологические и Ядерные). Когда модель была запрошена о том, как изменить нервный газ VX — химическое оружие, модели предложили шокирующе конкретные идеи для увеличения его стойкости в окружающей среде. Они описали, в сокращенном, но явно техническом деталях, методы, такие как инкапсуляция, экологический щит и системы контролируемого выпуска.

Эти неудачи не всегда были вызваны откровенно вредными запросами. Одна тактика заключалась в загрузке изображения пустого пронумерованного списка и запросе модели «заполнить детали». Этот простой, казалось бы, безобидный запрос привел к генерации неэтичного и незаконного инструктажа. Слияние визуальной и текстовой манипуляции оказалось особенно опасным — подчеркивая уникальную проблему, поставленную многомодальным ИИ.

Почему модели видения и языка представляют новые проблемы безопасности

В основе этих рисков лежит техническая сложность моделей видения и языка. Эти системы не просто анализируют язык — они синтезируют смысл через форматы, что означает, что они должны интерпретировать контент изображения, понимать контекст текста и реагировать соответственно. Это взаимодействие вводит новые векторы для эксплуатации. Модель может правильно отклонить вредный текстовый запрос, но когда она объединена сuggestивным изображением или двусмысленным контекстом, она может генерировать опасный вывод.

Красная команда Enkrypt AI обнаружила, как атаки по пересечению модальностей — где тонкие подсказки в одной модальности влияют на вывод другой — могут полностью обойти стандартные механизмы безопасности. Эти неудачи демонстрируют, что традиционные методы модерации контента, разработанные для систем с одной модальностью, недостаточны для современных VLMs.

Отчет также подробно описывает, как модели Pixtral были доступны: Pixtral-Large через AWS Bedrock и Pixtral-12b через платформу Mistral. Этот контекст реального развертывания еще больше подчеркивает срочность этих находок. Эти модели не ограничены лабораториями — они доступны через основные облачные платформы и могут быть легко интегрированы в потребительские или корпоративные продукты.

Что необходимо сделать: план действий для более безопасного ИИ

К его заслугам, Enkrypt AI не только подчеркивает проблемы — он предлагает путь вперед. Отчет очерчивает комплексную стратегию смягчения, начиная с тренировки по безопасности. Это предполагает повторную тренировку модели с использованием собственных данных красной команды для снижения восприимчивости к вредным запросам. Техники, такие как Direct Preference Optimization (DPO), рекомендуются для тонкой настройки ответов модели, чтобы они были подальше от рискованных выводов.

Он также подчеркивает важность контекстно-зависимых ограждений — динамических фильтров, которые могут интерпретировать и блокировать вредные запросы в реальном времени, учитывая полный контекст многомодального ввода. Кроме того, предлагается использование Model Risk Cards в качестве меры прозрачности, giúpая заинтересованным сторонам понять ограничения модели и известные случаи неудач.

Возможно, наиболее важной рекомендацией является то, что красная команда должна рассматриваться как непрерывный процесс, а не как одноразовое тестирование. По мере эволюции моделей эволюционируют и стратегии атак. Только непрерывная оценка и активный мониторинг могут обеспечить долгосрочную надежность, особенно когда модели развертываются в чувствительных секторах, таких как здравоохранение, образование или оборона.

Отчет о красной команде Multimodal от Enkrypt AI является четким сигналом для индустрии ИИ: многомодальная мощность несет с собой многомодальную ответственность. Эти модели представляют собой скачок вперед в возможностях, но они также требуют скачка в том, как мы думаем о безопасности, безопасности и этической эксплуатации. Если их не контролировать, они не просто рискуют неудачей — они рискуют реальным вредом.

Для всех, кто работает над или развертывает крупномасштабные ИИ, этот отчет не является просто предупреждением. Это игра. И он не мог прийти в более срочное время.

Антуан - видный лидер и сооснователь Unite.AI, движимый непоколебимой страстью к формированию и продвижению будущего ИИ и робототехники. Как серийный предприниматель, он считает, что ИИ будет столь же разрушительным для общества, как электричество, и часто увлекается потенциалом разрушительных технологий и ИИ.

Как футуролог, он посвящен изучению того, как эти инновации изменят наш мир. Кроме того, он является основателем Securities.io, платформы, ориентированной на инвестиции в передовые технологии, которые переопределяют будущее и меняют целые сектора.