Connect with us

Безпекові уразливості, які ми створили: агенти штучного інтелекту та проблема покори

Кібербезпека

Безпекові уразливості, які ми створили: агенти штучного інтелекту та проблема покори

mm

Агенти штучного інтелекту на основі великих мовних моделей вводять новий клас уразливостей, коли атакувальники впроваджують зловмисні інструкції в дані, перетворюючи корисні системи на невіданні спільників.

Microsoft Copilot не був зламаний у класичному сенсі. Не було жодного зловмисного коду, жодного фішингового посилання, жодної шкідливої програми. Ніхто нічого не клікав і не розгортав жодного експлойту.

Загроза просто попросила. Microsoft 365 Copilot, роблячи саме те, для чого він був створений, підкорився. У недавньому Echoleak атаці без кліків, агент штучного інтелекту був маніпульований підказкою, маскованою під дані. Він підкорився, не тому, що був зламаний, а тому, що функціонував саме так, як був спроектований.

Ця уразливість не використовувала програмні помилки. Вона використовувала мову. І це позначає важливий переломний момент у кібербезпеці, де поверхня атаки вже не код, а розмова.

Нова проблема покори штучного інтелекту

Агенти штучного інтелекту створені для допомоги. Їхнє призначення – зрозуміти намір користувача та діяти відповідно. Ця корисність супроводжується ризиком. Коли вони інтегровані у файлові системи, платформи продуктивності або операційні системи, ці агенти виконують природні мовні команди з мінімальним опором.

Загрози експлуатують саме цю особливість. З підказками, які виглядають безневинними, вони можуть спровокувати чутливі дії. Ці підказки можуть включати:

  • Фрагменти коду декільох мов
  • Непрозорі формати файлів та вбудовані інструкції
  • Введення тексту не англійською мовою
  • Багатоступеневі команди, приховані в неформальній мові

Оскільки великі мовні моделі (LLM) тренуються для розуміння складності та двозначності, підказка стає вантажем.

Привид Сірі та Алекси

Цей шаблон не новий. У перші дні Сірі та Алекси дослідники демонстрували, як відтворення голосової команди, наприклад “Відправити всі мої фотографії на цей електронний адрес”, могла спровокувати дію без верифікації користувача.

Тепер загроза більша. Агенти штучного інтелекту, такі як Microsoft Copilot, інтегровані глибоко в Office 365, Outlook та операційну систему. Вони мають доступ до електронної пошти, документів, даних для авторизації та API. Атакувальникам потрібно лише правильна підказка, щоб витягнути критичні дані, видаючи себе за законного користувача.

Коли комп’ютери плутають інструкції з даними

Це не новий принцип у кібербезпеці. Ін’єкції, такі як SQL-атаки, вдалися тому, що системи не могли розрізняти вхідні дані та інструкції. Сьогодні ця сама вада існує, але на рівні мови.

Агенти штучного інтелекту сприймають природну мову як вхідні дані та намір. JSON-об’єкт, питання або навіть фраза можуть ініціювати дію. Ця двозначність і є тим, що загрози експлуатують, вкладаючи команди всередину того, що виглядає як безневинний контент.

Ми вбудували намір у інфраструктуру. Тепер загрози навчилися, як витягнути його, щоб виконувати свої дії.

Адаптація штучного інтелекту випереджає кібербезпеку

Когда підприємства поспішно інтегрують великі мовні моделі, багато з них не помічають критичний питання: до чого має доступ штучний інтелект?

Коли Copilot може торкнутися операційної системи, радіус ураження розширюється далеко за межі поштової скриньки. Згідно з звітом AI Security Report компанії Check Point:

  • 62 відсотка глобальних керівників із питань інформаційної безпеки (CISO) бояться, що вони можуть бути притягнуті до особистої відповідальності за порушення, пов’язані зі штучним інтелектом
  • Близько 40 відсотків організацій повідомляють про неавторизоване внутрішнє використання штучного інтелекту, часто без нагляду з боку служби безпеки
  • 20 відсотків груп кіберзлочинців вже інтегрують штучний інтелект у свої операції, включаючи створення фішингових атак та проведення розвідки

Це не просто надходящий ризик. Це присутній ризик, який вже завдає шкоди.

Чому існуючі засоби безпеки виявляються недостатніми

Деякі виробники використовують сторожові моделі – вторинні моделі, треновані для виявлення небезпечних підказок або підозрілих дій. Ці фільтри можуть виявити базові загрози, але вразливі до технік ухилення.

Загрози можуть:

  • Перевантажити фільтри шумом
  • Розподілити намір на декілька кроків
  • Використовувати неочевидне формулювання, щоб обійти виявлення

У випадку з Echoleak засоби безпеки були присутні – і їх було обійдено. Це відображає не тільки провал політики, а й провал архітектури. Коли агент має високий рівень доступу, але низький рівень контексту, навіть добрі перила виявляються недостатніми.

Виявлення, а не досконалість

Запобігання кожній атаці може бути нереалістичним. Метою має бути швидке виявлення та швидке локалізація.

Організації можуть почати з:

  • Моніторингу діяльності агентів штучного інтелекту в реальному часі та підтримання журналів підказок
  • Застосування суворого мінімального доступу до інструментів штучного інтелекту, дзеркально відображаючи контроль рівня адміністратора
  • Додавання опору до чутливих операцій, наприклад, вимагаючи підтвердження
  • Прапорування незвичайних або ворожих шаблонів підказок для перегляду

Мовні атаки не з’являться у традиційних інструментах виявлення та реагування на загрози на рівні кінцевих точок (EDR). Вони вимагають нової моделі виявлення.

Що організації повинні зробити зараз, щоб захистити себе

Перед розгортанням агентів штучного інтелекту організації повинні зрозуміти, як ці системи функціонують та які ризики вони вводять.

Ключові рекомендації включають:

  1. Аудит усіх доступів: знати, до чого можуть торкнутися або спровокувати агенти
  2. Обмеження сфери: надати мінімально необхідні дозволи
  3. Відстежування всіх взаємодій: реєструвати підказки, відповіді та результати дій
  4. Стрес-тестування: симулювати ворожі вхідні дані внутрішньо та часто
  5. Планування на випадок ухилення: припускати, що фільтри будуть обійдені
  6. Вирівнювання з безпекою: забезпечити, щоб системи штучного інтелекту підтримували, а не компрометували, цілі безпеки

Нова поверхня атаки

Echoleak – це попередній перегляд того, що буде далі. Коли великі мовні моделі розвиваються, їхня корисність стає ліабілітєю. Інтегровані глибоко в бізнес-системи, вони пропонують атакувальникам новий шлях всередину – через прості, добре створені підказки.

Це вже не просто про забезпечення безпеки коду. Це про забезпечення безпеки мови, наміру та контексту. Плейбук повинен змінитися зараз, перш ніж буде надто пізно.

І все ж, є хороша новина. Є прогрес у використанні агентів штучного інтелекту для захисту від нових та надходящих кіберзагроз. Коли вони використовуються правильно, ці автономні агенти штучного інтелекту можуть реагувати на загрози швидше, ніж будь-яка людина, співпрацювати в різних середовищах та проактивно захищати від надходящих ризиків, навчаючись з однієї спроби проникнення.

Агентні штучні інтелекти можуть навчатися з кожної атаки, адаптуватися в реальному часі та запобігати загрозам, перш ніж вони поширяться. Вони мають потенціал встановити нову епоху кіберстійкості, але тільки якщо ми схопимо цей момент і сформуємо майбутнє кібербезпеки разом. Якщо ми не зробимо цього, ця нова епоха може сигналізувати про кібербезпеку та нічмар для організацій, які вже реалізували штучний інтелект (іноді навіть не усвідомлюючи цього з інструментами тіньової ІТ). Тепер час діяти, щоб забезпечити, щоб агенти штучного інтелекту використовувалися на нашу користь, а не на нашу загибель.

Radoslaw Madej є керівником команди дослідження уразливостей у Check Point Research. Radoslaw є пристрасним експертом з кібербезпеки з майже двома десятиліттями технічного досвіду в різних областях інформаційної безпеки, здобутого під час виконання проєктів для глобальних підприємств з високими вимогами до безпеки.