Лідери думок

Коли можливості ШІ зростають швидше за моделі безпеки, створені для їх обмеження

Published March 5, 2026

Updated March 19, 2026

Jon Baker, VP Threat-Informed Defense, AttackIQ

Інструменти ШІ зазвичай презентують зі знайомим підходом. Вони обіцяють оптимізувати робочі процеси, підвищити продуктивність і взяти на себе завдання, які ніхто не любить виконувати. І в більшості випадків вони саме це й роблять. Вони спрощують вхід в системи, підсумовують документи, автоматизують робочі процеси і роблять рутинні дії майже без зусиль. Але за всією цією зручністю криється інша історія. Ці інструменти більше не обмежені текстовим полем. Вони починають діяти на рівні самої операційної системи. Вони можуть переглядати файли, складати листи, взаємодіяти з додатками та виконувати дії, які колі вимагали уважної людини, що розуміла наслідки. Ця зміна ставить ШІ в положення, для управління яким існуючі припущення щодо безпеки ніколи не були розроблені.

Момент, коли ШІ отримує доступ до системи

Як тільки система ШІ може читати реальні файли та виконувати реальні команди, вона стає частиною довіреної обчислювальної бази. Це той момент, коли довгоочікувані очікування щодо безпеки ШІ починають руйнуватися. Роками ін’єкція запитів (prompt injection) вважалася дивною поведінкою моделі. Вона змушувала чат-боти видавати оманливі або недоречні відповіді, але шкода обмежувалася лише розмовою. Тепер цей самий недолік може запускати дії на рівні хоста, а не лише генерувати текст. Шкідлива інструкція, прихована всередині PDF-файлу, веб-сайту чи електронного листа, більше не призводить до дивної відповіді. Вона призводить до дії, виконаної на машині. Це не те, що галузь може відкинути як теоретичне. Дослідники з Університету Карнегі-Меллон та Вашингтонського університету неодноразово демонстрували, що приховані інструкції можуть направляти великі мовні моделі на виконання дій, які користувачі не мали наміру робити. Тим часом дослідники, які вивчають візуальні моделі, показали, як маніпульовані зображення можуть змінювати сприйняття моделі способами, що впливають на подальшу поведінку. Колись ці експерименти розглядалися як лабораторні цікавинки. Вони більше не здаються академічними, коли ШІ має доступ до операційної системи.

Коли можливості агента випереджають контроль захисників

Навіть компанії, які будують цих агентів, визнають серйозність виклику. Вони посилили фільтри для обробки запитів, але відкрито заявляють, що контроль за реальними діями системи ШІ залишається активною, нерозв’язаною сферою роботи по всій галузі. Ця розбіжність між тим, що може робити агент, і тим, що можуть контролювати захисники, створює нову категорію ризику, яку існуючі сценарії безпеки не можуть поглинути. Агенти ШІ перетнули межу, до якої галузь не готова повною мірою. Єдиний спосіб зрозуміти це — подивитися, як ін’єкція запитів тепер перетинається з тими самими ланцюгами атак, за якими захисники слідкують більше десятиліття.

Як ін’єкція запитів тепер відповідає ланцюгам атак, які всі знають

Нападники завжди діяли за передбачуваною схемою. Фреймворк MITRE ATT&CK чітко викладає етапи. За початковим доступом слідують виконання, закріплення, розвідка, пересування в мережі, збір даних та вивіз. Техніки різняться, але структура стабільна. Те, що змінюється, — це механізм доставки. Замість того, щоб переконувати користувача відкрити шкідливий вкладений файл або натиснути на небезпечне посилання, нападники можуть розмістити інструкції там, де їх прочитає агент ШІ. Агент стає середовищем виконання. Він виконує кроки точно так, як описано. Модель не ставить під сумнів, чи є інструкція шкідливою. Вона не застосовує оцінку чи інтуїцію. Вона просто діє. Як тільки нападник може вплинути на міркування агента, ланцюг атаки складається швидко. Маніпульований файл запускає виконання, подальші інструкції створюють закріплення, пошуки в системі забезпечують розвідку, а завантаження файлів дозволяють збір і вивіз даних. Шкідливе програмне забезпечення не потрібне. Агент просто виконує кроки, як написано. Це та частина історії, до якої командам безпеки важко адаптуватися. Вони витратили роки на побудову правил виявлення, контролю та процесів реагування навколо виконання на основі коду. Агенти ШІ впроваджують інші види інтерпретаторів. Вони виконують дії через природну мову, а не скомпільовані бінарні файли. Існуючі інструменти не створені для відстеження чи навіть аналізу цього процесу міркування.

Команди безпеки не готові і навіть не усвідомлюють цього

Програми безпеки досі припускають, що між контентом і дією знаходиться людина. Людей можна обдурити, але вони зупиняються, коли щось здається неправильним. Вони помічають дивні фрази, ставлять під сумнів неочікувану поведінку та вносять власну оцінку на останньому етапі прийняття рішення. Агенти ШІ не роблять нічого з цього; вони послідовні, буквальні та швидші за будь-якого противника. Одного рядка прихованого тексту достатньо, щоб наказати агенту прочитати конфіденційні файли, пересуватися по додатках або зв’язатися з віддаленим сервером. Це ставить захисників у положення, в якому вони ніколи раніше не були. Команди безпеки мають обмежену видимість того, як агент приходить до рішення, і вони не можуть легко визначити, чи походження дії від користувача, чи від ШІ. Традиційне виявлення шкідливого ПЗ не допомагає, тому що нічого шкідливого не виконується в звичному розумінні, і немає гарантії, що агент поставить під сумнів або відхилить шкідливі інструкції, приховані в звичайному контенті. Інструменти, розроблені для людської поведінки, просто не переносяться у світ, де природна мова стає сценарієм, що керує поведінкою системи. Які компенсуючі засоби контролю насправді працюють Підвищення стійкості моделі недостатньо. Командам безпеки потрібні засоби контролю навколо агента, які обмежують те, що ШІ може робити, навіть коли на його міркування впливають. Декілька стратегій показують перспективність:

Принцип найменших привілеїв є основним. Агенти повинні мати доступ лише до файлів і дій, необхідних для їхніх завдань. Зменшення непотрібних дозволів обмежує вплив маніпульованих інструкцій.
Кроки затвердження людиною можуть зупинити шкідливі дії до їхнього виконання. Коли агент намагається виконати чутливу операцію, наприклад, запустити команду або отримати доступ до захищених даних, користувач повинен підтвердити або відхилити запит.
Фільтрація контенту створює буфер між ненадійними матеріалами та агентом. Перевірка документів, URL-адрес і зовнішнього тексту зменшує ймовірність того, що приховані інструкції дістануться моделі.
Всебічне логування є обов’язковим. Кожну дію, ініційовану агентом, необхідно записувати та переглядати. Ці дії слід розглядати так само, як і будь-яку діяльність привілейованого користувача.
Зіставлення поведінки агента з техніками ATT&CK допомагає захисникам визначити, куди агента можна спрямувати на шкідливі дії та де необхідно встановити обмежувачі. Це використовує ту саму систему, яка вже структурує оборонну стратегію.

Ці компенсуючі засоби контролю не усунуть ризик. Але вони стримують його способами, які не під силу засобам захисту на рівні моделі.

Куди галузь рухається далі

Агенти ШІ представляють значну зміну в тому, як працюють обчислення. Вони пропонують неймовірну продуктивність, але також впроваджують категорію операційного ризику, яка не вписується в існуючі рамки безпеки. Керівні принципи Національного центру кібербезпеки Великобританії — це початок, але більшість організацій досі не мають чіткого способу керування агентами, які можуть діяти в системі. Цей момент нагадує ранні дні впровадження хмарних технологій. Технологія розвивалася швидше за засоби контролю. Організації, які швидко адаптувалися, були тими, хто рано розпізнав зміну та побудував відповідні процеси. Тут буде те саме. Агенти ШІ — це не просто помічники. Вони є операторами з доступом на рівні системи. Їх захист вимагає нових сценаріїв, нових обмежувачів і нових способів моделювання загроз. Галузі не потрібно боятися цих інструментів. Але їй потрібно їх розуміти. І їй потрібно діяти швидко, тому що нападники вже бачать можливість. Питання в тому, чи побудують захисники належні засоби захисту, поки ще є час.

Related Topics:AI capability attackIQ cybersecurity security

Jon Baker, VP Threat-Informed Defense, AttackIQ

Jon Baker, VP Threat-Informed Defense at AttackIQ, brings over 20 years of experience leading innovation in cybersecurity with a focus on making security more efficient and effective at scale. He is the former Director and Co-Founder of MITRE’s Center for Threat-Informed Defense (CTID), where he united sophisticated security teams to advance the state of the art and the practice in threat-informed defense globally. Prior to launching the CTID, Jon led MITRE’s Cyber Threat Intelligence and Adversary Emulation Department where he advanced those critical capabilities across MITRE, and managed the CALDERA and MITRE ATT&CK® teams. Jon led teams developing open standards including STIX and TAXII for threat intelligence sharing, and was the co-creator of OVAL while managing MITRE’s security automation program.

Unite.AI

Коли можливості ШІ зростають швидше за моделі безпеки, створені для їх обмеження

Момент, коли ШІ отримує доступ до системи

Коли можливості агента випереджають контроль захисників

Як ін’єкція запитів тепер відповідає ланцюгам атак, які всі знають

Команди безпеки не готові і навіть не усвідомлюють цього

Куди галузь рухається далі

You may like