Connect with us

Звіт EchoGram від HiddenLayer попереджує про новий клас атак, які підірвають захист AI

Звіти

Звіт EchoGram від HiddenLayer попереджує про новий клас атак, які підірвають захист AI

mm

Нещодавно опублікований звіт EchoGram компанії HiddenLayer містить одне з найясніших попереджень про те, що сучасні механізми безпеки AI більш хитрі, ніж здаються. У дев’яти сторінках технічних доказів і експериментів HiddenLayer демонструє, як атакувальники можуть маніпулювати системами захисту – тими самими класифікаторами і компонентами LLM-as-a-judge, які забезпечують дотримання політики безпеки – за допомогою коротких, здавалося б, безсенсних послідовностей токенів, які надійно змінюють їхні висновки. Зловмисний запит, який повинен бути визнаний небезпечним, можна позначити як безпечний просто додáním конкретного токену. Навпаки, абсолютно безпечний вхід можна неправильно класифікувати як шкідливий. У всьому звіті HiddenLayer показує, що ці послідовності змінюють лише інтерпретацію захисту, а не основні інструкції, які передаються до нижнього моделі.

Крихкість сучасних систем захисту

Системи захисту стали фундаментальними для того, як організації розгортають великі мовні моделі. Вони служать першою і часто єдиною лінією оборони, призначеною для виявлення вторгнень, встановлення підказок, заборонених запитів або маніпулятивних інструкцій до того, як LLM обробить їх. Висновки HiddenLayer показують, що цей захисний шар має системні слабкості, пов’язані безпосередньо з тим, як ці системи захисту тренуються. Оскільки багато з них залежать від подібних наборів даних, шаблонів або таксономій безпеки, вони вразливі до тих самих видів маніпуляцій на рівні токенів, які виявляє EchoGram.

Як EchoGram будує свої атакувальні послідовності

Процес EchoGram починається з генерації пула кандидатів у токени, які можуть впливати на суд модель. HiddenLayer пояснює, що ці токени можна ідентифікувати, аналізуючи лінгвістичні шаблони в наборах даних, які зазвичай використовуються для тренування систем захисту, або безпосередньо тестуючи словник токенізатора моделі, коли доступна біла скринька. Самі тренувальні дані стають картиною упереджень, показуючи, які послідовності нахилі до “безпечних” або “небезпечних” класифікацій. Ці дисбаланси формують сировину для атаки.

Як тільки цей пул зібрано, EchoGram оцінює кожну послідовність, додавши її до набору шкідливих запитів і вимірюючи, як часто токен змінює класифікацію системи захисту. У звіті міститься вражаючий приклад, де коротка, безсенсна послідовність перетворює кілька відомих спроб встановлення підказок з “виявлених” на “безпечні”, коли тестуються проти комерційного класифікатора. Шкідливі запити залишаються цілими, але додана послідовність змінює, як система захисту інтерпретує їх.

Чому комбінації токенів особливо небезпечні

Звіт EchoGram підкреслює, що навіть якщо один токен тільки частково змінює висновки, поєднання декількох слабких токенів дає драматично сильніший ефект. HiddenLayer демонструє цю ампліфікацію, використовуючи Qwen3Guard, широко використовувану відкриту модель модерації LLM-as-a-judge. На обидвох варіантах 0,6B і 4B ланцюгові послідовності EchoGram спричинили системі захисту неправильну класифікацію вкрай небезпечних запитів – включаючи запити про зброю, обхід аутентифікації та кібератаки – як безпечних або тільки трохи небезпечних.

Цей ефект зберігався через різні розміри моделей, підкріплюючи висновок HiddenLayer про те, що вразливість корениться в підлягаючій методології тренування, а не в масштабі або складності моделі.

Вектор хибного позитиву: менше помітна, але не менш серйозна загроза

EchoGram не тільки метод для обходу систем захисту; HiddenLayer показує, що його також можна використовувати для генерації хибних позитивів у великих масштабах. Додаванням послідовностей EchoGram до безпечних входів атакувальник може змусити систему захисту неправильно класифікувати безпечні запити як шкідливі. У звіті наведено приклади, де прості розмовні фрази позначаються як атаки, коли до них додається токен EchoGram або вбудовується в текст.

Це створює можливість для переповнення сигналів безпеки або команд довіри та безпеки шумом. Коли сигнали зростають неконтрольовано, організації можуть пропустити справжні загрози, сховані в потоці. Ерозія довіри до внутрішніх інструментів стає такою же шкідливою, як і будь-який успішний обхід.

Вплив на безпеку AI

Звіт EchoGram підкреслює, що системи захисту, треновані на подібних джерелах даних, шаблонах або таксономіях, ймовірно, поділяють ті самі вразливості. Атакувальник, який відкриває одну успішну послідовність EchoGram, потенційно може повторно використовувати її на різних комерційних платформах, корпоративних розгортуваннях та урядових системах. HiddenLayer наголошує, що атакувальникам не потрібно компрометувати нижню LLM. їм потрібно лише обманути охоронця перед ним.

Ця проблема розширюється за межі технічного ризику. Організації можуть припускати, що розгортання системи захисту забезпечує суттєвий захист, але EchoGram демонструє, що це припущення хитке. Якщо систему захисту можна перевернути за допомогою одного або двох токенів, вся архітектура безпеки стає ненадійною.

Дорога вперед

HiddenLayer висновує, що EchoGram повинен слугувати поворотним моментом у підході галузі до безпеки AI. Системи захисту не можуть покладатися на статичні набори даних або одиничні цикли тренування. їм потрібне постійне тестування на витривалість, прозорість тренувальних методів та багатошарова валідация, а не судження однієї моделі. Коли AI стає частиною критичної інфраструктури, фінансів, охорони здоров’я та національної безпеки, недоліки, освітлені EchoGram, стають терміновими, а не академічними.

Звіт закінчується закликом до того, щоб системи захисту розглядалися як критичні компоненти безпеки, які вимагають такого самого рівня вимог, як і будь-яка інша захисна система. Видовижуючи ці вразливості зараз, HiddenLayer спонукає галузь до будівництва оборонних систем AI, здатних витримувати наступне покоління методів атаки.

Антуан є видним лідером і засновником Unite.AI, який рухає невпинною пристрастю до формування та просування майбутнього штучного інтелекту та робототехніки. Як серійний підприємець, він вважає, що штучний інтелект буде таким же революційним для суспільства, як і електрика, і часто захоплюється потенціалом деструктивних технологій та AGI.

Як футуролог, він присвячений дослідженню того, як ці інновації сформують наш світ. Крім того, він є засновником Securities.io, платформи, орієнтованої на інвестування в передові технології, які переінакшують майбутнє та змінюють цілі сектори.