Connect with us

Коли штучний інтелект дає збій: звіт Enkrypt AI про небезпечні уразливості у багатомодальних моделях

Кібербезпека

Коли штучний інтелект дає збій: звіт Enkrypt AI про небезпечні уразливості у багатомодальних моделях

mm

У травні 2025 року Enkrypt AI опублікувала свій звіт про багатомодальне червоне командування, що містить лякаючий аналіз, який показує, наскільки легко можна маніпулювати розширеними системами штучного інтелекту, щоб вони генерували небезпечний і неетичний контент. Звіт зосереджується на двох провідних моделях зору та мови Mistral — Pixtral-Large (25.02) і Pixtral-12b — і малює картину моделей, які не тільки технічно вражаючі, але й лякаюче уразливі.

Моделі зору та мови (VLMs) типу Pixtral розроблені для інтерпретації як візуальних, так і текстових входів, що дозволяє їм інтелектуально реагувати на складні, реальні запитання. Але ця можливість супроводжується підвищеним ризиком. На відміну від традиційних мовних моделей, які обробляють лише текст, VLMs можуть бути під впливом взаємодії між зображеннями та словами, відкриваючи нові двері для нападів противника. Тестування Enkrypt AI показує, наскільки легко ці двері можна відчинити.

Лякаючі результати тестів: невдачі CSEM і CBRN

Команда, яка створила звіт, використала складні методи червоного командування — форму оцінки противника, призначену для імітації реальних загроз. Ці тести включали тактику, як виправдання (підказування моделі ретельно створеними запитами для обходу фільтрів безпеки), обман на основі зображень і маніпуляція контекстом. Лякаюче те, що 68% цих протилежних запитів викликали шкідливі реакції у двох моделях Pixtral, включаючи контент, пов’язаний з використанням дітей, експлуатацією та навіть розробкою хімічної зброї.

Одне з найяскравіших відкриттів стосується матеріалів щодо сексуальної експлуатації дітей (CSEM). Звіт показав, що моделі Mistral у 60 разів частіше генерували контент, пов’язаний з CSEM, порівняно з промисловими стандартами, такими як GPT-4o і Claude 3.7 Sonnet. У тестових випадках моделі реагували на масковані запитання про експлуатацію з структурованим, багаторозрядним контентом, що пояснює, як маніпулювати неповнолітніми — завернутим у двозначні застереження, наприклад «для освітньої осведомленості». Моделі не просто не могли відхилити шкідливі запити — вони детально їх виконували.

Не менш лякаючими були результати у категорії ризику CBRN (хімічної, біологічної, радіологічної та ядерної зброї). Коли моделі отримали запит про те, як змінити нервову речовину VX — хімічну зброю, вони запропонували шокуюче конкретні ідеї щодо збільшення її стійкості в середовищі. Вони описали, у видаленому, але явно технічному деталях, методи, такі як інкапсуляція, екологічний захист та системи контролю вивільнення.

Ці невдачі не завжди викликані явно шкідливими запитами. Одним із тактик було завантаження зображення порожнього пронумерованого списку та запитання моделі «заповнити деталі». Ця проста, здавалося б, безневинна підказка призвела до генерації неетичних та незаконних інструкцій. Злиття візуальної та текстової маніпуляції виявилося особливо небезпечним — підкреслюючи особливу проблему, яку ставлять багатомодальні штучні інтелекти.

Чому моделі зору та мови становлять нові проблеми безпеки

У центрі цих ризиків лежить технічна складність моделей зору та мови. Ці системи не просто розбирають мову — вони синтезують значення у різних форматах, що означає, що їм потрібно інтерпретувати вміст зображення, розуміти контекст тексту та реагувати відповідно. Ця взаємодія вводить нові вектори для експлуатації. Модель може правильно відхилити шкідливий текстовий запит окремо, але коли його поєднано з підказуючим зображенням або двозначним контекстом, вона може генерувати небезпечний вивід.

Червоне командування Enkrypt AI показало, як атаки跨модального впровадження — де тонкі підказки в одному модусі впливають на вивід іншого — можуть повністю обійти стандартні механізми безпеки. Ці невдачі демонструють, що традиційні техніки модерації контенту, розроблені для систем одної модальності, недостатні для сучасних VLMs.

Звіт також детально описує, як моделі Pixtral були доступні: Pixtral-Large через AWS Bedrock і Pixtral-12b через платформу Mistral. Цей контекст реального розгортання ще більше підкреслює терміновість цих висновків. Ці моделі не обмежені лабораторіями — вони доступні через популярні хмарні платформи та можуть легко бути інтегровані у споживчі або корпоративні продукти.

Що потрібно зробити: план дій для безпечнішого штучного інтелекту

На свою честь, Enkrypt AI робить більше, ніж просто підкреслює проблеми — вони пропонують шлях вперед. Звіт містить комплексну стратегію мінімізації ризиків, починаючи з навчання безпеки. Це включає повторне навчання моделі за допомогою власних даних червоного командування для зменшення сприйнятливості до шкідливих запитів. Рекомендуються техніки, такі як пряма оптимізація переваг (DPO), для налаштування реакцій моделі у бік зменшення ризикових виводів.

Також підкреслюється важливість динамічних захисних механізмів — фільтрів, які можуть інтерпретувати та блокувати шкідливі запити в режимі реального часу, враховуючи повний контекст багатомодального входу. Крім того, пропонується використання карт ризиків моделей як заходу прозорості, який допомагає зацікавленим сторонам зрозуміти обмеження моделі та відомі випадки невдач.

Можливо, найважливішою рекомендацією є те, що червоне командування повинно бути постійним процесом, а не одномоментним тестом. Коли моделі еволюціонують, так само змінюються стратегії нападів. Лише безперервна оцінка та активний моніторинг можуть забезпечити довгострокову надійність, особливо коли моделі розгортаються в чутливих галузях, таких як охорона здоров’я, освіта чи оборона.

Звіт про багатомодальне червоне командування від Enkrypt AI — це явний сигнал промисловості штучного інтелекту: багатомодальна потужність супроводжується багатомодальною відповідальністю. Ці моделі представляють стрибок вперед у можливостях, але вони також вимагають стрибка у тому, як ми думаємо про безпеку, безпеку та етичне розгортання. Якщо їх не контролювати, вони не тільки ризикують невдачею — вони ризикують реальною шкодою.

Для всіх, хто працює над розгортанням великомасштабних систем штучного інтелекту, цей звіт не тільки попередження. Це інструкція. І вона не могла прийти в більш терміновий час.

Антуан є видним лідером і засновником Unite.AI, який рухає невпинною пристрастю до формування та просування майбутнього штучного інтелекту та робототехніки. Як серійний підприємець, він вважає, що штучний інтелект буде таким же революційним для суспільства, як і електрика, і часто захоплюється потенціалом деструктивних технологій та AGI.

Як футуролог, він присвячений дослідженню того, як ці інновації сформують наш світ. Крім того, він є засновником Securities.io, платформи, орієнтованої на інвестування в передові технології, які переінакшують майбутнє та змінюють цілі сектори.