Connect with us

Прихована загроза агентів штучного інтелекту вимагає нової моделі безпеки

Лідери думок

Прихована загроза агентів штучного інтелекту вимагає нової моделі безпеки

mm

Агентські системи штучного інтелекту стали популярними за останні рік. Вони зараз використовуються для виконання різних функцій, включаючи автентифікацію користувачів, переміщення капіталу, запуск робочих процесів з дотриманням вимог законодавства, та координацію діяльності в корпоративних середовищах з мінімальним наглядом людини.

Однак, тиха проблема виникає з підвищенням автономності, не на рівні запитів або політик, а на рівні довіри до інфраструктури. Агентські системи отримують внутрішню авторизацію, продовжуючи працювати в обчислювальних середовищах, які ніколи не були розроблені для захисту автономних приймачів рішень від інфраструктури під ними.

Традиційна безпека передбачає, що програмне забезпечення є пасивним, але агентські системи не є такими. Вони думають, пам’ятають та діють безперервно, автономно та з делегованими повноваженнями.

Не забувайте, що агенти штучного інтелекту, ймовірно, матимуть доступ до особистих даних, залежно від їхнього випадку використання, таких як електронні листи та записи дзвінків, серед інших речей.

Крім того, хоча апаратні засоби захисту, такі як конфіденційні віртуальні машини та безпечні анклави, існують, вони ще не є стандартною основою для більшості агентських розгортань штучного інтелекту. В результаті багато агентів все ще виконуються в середовищах, де чутливі дані підлягають впливу інфраструктури під час виконання.

Агенти – це внутрішні особи, а не інструменти

Команди безпеки вже знають, наскільки складно стримувати внутрішні загрози, питання, яке було підкреслено в звіті Verizon про порушення даних 2025 року, який показує, що вторгнення в систему було відповідальним за понад 53% підтверджених порушень минулого року. У 22% цих випадків атакувальники використовували вкрадені облікові дані для отримання доступу, що підкреслює, як часто вони успішно використовують легітимні ідентифікатори замість використання технічних слабкостей.

Тепер подумайте про агента, який складається з логіки запитів, інструментів та плагінів, облікових даних, а також політик. Не тільки він може виконувати код і переглядати веб-сторінки, але також може запитувати CRM, читати електронні листи та надсилати тикети, серед багатьох інших речей. Що поєднання функцій принесло, так це традиційні поверхні атак у сучасний інтерфейс.

Небезпека, створена такими внутрішніми загрозами, не є спекулятивною. Проект Open Web Application Security (OWASP) тепер перелічує “Введення запиту” як критичну уразливість для застосунків LLM, відзначаючи її особливу небезпеку для агентських систем, які ланцюжаться дії. Команда Microsoft з питань загроз також опублікувала рекомендації попередження, що системи штучного інтелекту з доступом до інструментів можуть бути підлаштовані для виконання викрадення даних, якщо заходи безпеки не реалізовані архітектурно.

Ці звіти нагадують у своєчасний спосіб, що агенти, які мають легітимний доступ до систем і даних, можуть бути звернені проти своїх власників. Однак, ландшафт ризиків для агентських систем не є унітарним. Загрози на рівні застосунку, такі як введення запиту та зловживання інструментами походять від нездатності моделі розрізняти довірені інструкції та недовіру до вводу користувача, обмеження конструкції, яке жодна кількість зміцнення пам’яті не може виправити.

Інша, не менш важлива проблема існує на рівні інфраструктури: деякі агенти виконуються у відкритій пам’яті, що означає, що чутлива інформація – така як історії чатів, відповіді API та документи – можуть бути побачені під час обробки та можуть залишатися доступними пізніше. OWASP ідентифікує цей ризик як Розголошення чутливої інформації (LLM02) та Системне розголошення запиту (LLM07) і рекомендує використовувати ізоляцію контексту, сегментацію простору імен та ізоляцію пам’яті як важливі заходи безпеки.

Таким чином, користувачі не повинні розглядати цих агентів просто як звичайні програми, оскільки вони є динамічними виконавцями, що вимагають моделі безпеки, яка враховує їхню унікальну природу як нелюдських осіб з агентством. Цей підхід повинен включати як програмні засоби контролю, щоб обмежити дії моделі, так і апаратні засоби захисту, щоб зберегти дані в безпеці під час їх використання.

Архітектура довіри має критичний дефект

Поточні практики безпеки зосереджені на захисті даних у стані спокою та під час передачі. Останній рубіж, дані в користуванні, залишається майже повністю відкритим. Коли агент штучного інтелекту приймає рішення щодо конфіденційних даних для затвердження кредиту, аналізу медичних записів або виконання операції, ці дані зазвичай розшифровуються та обробляються у відкритому тексті в пам’яті сервера.

У стандартних моделях хмарних обчислень будь-хто з достатнім контролем над інфраструктурою, включаючи адміністраторів гіпервізора або атакувальників-сусідів, потенційно може подивитися, що відбувається під час виконання робочого процесу. Для агентів штучного інтелекту ця вразливість особливо небезпечна, оскільки їм потрібно доступ до чутливої інформації для виконання своїх завдань, що потенційно може стати поверхнею атаки.

Як Lumia Security демонструє, атакувальники з доступом до локальної машини можуть отримати JWT та сеансові ключі безпосередньо з пам’яті процесу застосунку ChatGPT, Claude та Copilot. Ці вкрадені облікові дані можуть дозволити їм видавати себе за іншого користувача, викрадати історію розмов та вводити запити в тривалі сесії, які можуть змінити поведінку агента або внедрити фальшиві спогади.

Прикладом цього може бути інцидент з AWS CodeBuild у липні 2025 року. Атакувальники таємно додали шкідливий код до проекту, і коли система запустила його, код подивився в пам’ять комп’ютера та вкрав приховані токени входу, що зберігалися там. З цими токенами атакувальники могли змінити код проекту та потенційно отримати доступ до інших систем.

Для фінансових установ тиха маніпуляція існує. Банки, страхові компанії та інвестиційні фірми вже поглинають середні витрати на порушення даних понад 10 мільйонів доларів, і вони розуміють, що цілісність має значення так само, як і конфіденційність. Згідно з недавнім звітом Informatica звіт, “парадокс довіри” був пояснений так: організації розгортають автономних агентів швидше, ніж можуть перевірити їхні виходи. Результатом є автоматизація, яка може закріпити помилки або упередженість прямо в основні процеси, що працюють з швидкістю машин.

Конфіденційне обчислення та справа ізоляції

Інкрементальні виправлення не розв’яжуть проблему, хоча суворіші засоби контролю доступу та кращий моніторинг можуть допомогти. Однак жодна з цих речей не може змінити основну проблему. Проблема є архітектурною, і поки обчислення відбувається в відкритій пам’яті, агенти будуть вразливі в момент, коли вони мають значення найбільше, тобто під час прийняття рішень.

Конфіденційне обчислення, визначене Консорціумом конфіденційного обчислення (CCC) як захист даних у користуванні через апаратні засоби довірених середовищ виконання (TEEs), безпосередньо адресує основний дефект.

Для агентів штучного інтелекту ця апаратна ізоляція є трансформаційною, оскільки вона дозволяє ідентифікатори агента, його модельні ваги, власні запити та чутливі дані користувача, які він обробляє, залишатися зашифрованими не тільки на диску чи в мережі, але й активно в пам’яті під час виконання. Відокремлення остаточно розриває традиційну модель, в якій контроль над інфраструктурою гарантує контроль над робочим процесом.

Віддалена атестація надає верифіковані криптографічні докази того, що конкретний запит на висновок був виконаний всередині апаратного довіреного середовища виконання, незалежно від того, чи це CPU чи GPU. Докази генеруються з апаратних вимірювань та доставляються разом із відповіддю, дозволяючи незалежну верифікацію того, де та як відбувався робочий процес.

Записи атестації не розкривають код, який був виконаний. Натомість кожний робочий процес асоціюється з унікальним ідентифікатором робочого процесу або ідентифікатором транзакції, а запис атестації TEE пов’язаний з цим ідентифікатором. Атестація підтверджує, що обчислення відбувалися всередині довіреного середовища без розкриття його вмісту.

Налаштування створює нову основу для відповідності та аудиту, дозволяючи пов’язати дії агента з конкретною версією коду, яка була атестована та відомим набором вхідних даних.

До підзвітної автономії

Вплив системи, описаної вище, поширюється за межі базової безпеки. Розгляньте закони, які регулюють фінанси, охорону здоров’я та особисту інформацію. Багато юрисдикцій застосовують правила суверенітету даних, які обмежують, де інформація може бути оброблена. У Китаї закон про захист особистої інформації та закон про безпеку даних вимагають, щоб певні категорії даних, наприклад важливі особисті дані, зберігалися всередині країни та переглядалися перед передачею за кордон.

Аналогічно, кілька країн Перської затоки, таких як ОАЕ та Саудівська Аравія, прийняли подібні підходи, особливо для фінансових, урядових та критично важливих даних інфраструктури

Конфіденційне обчислення може посилити безпеку та аудитність, захищаючи дані під час їх обробки та дозволяючи атестацію середовища виконання. Однак це не змінює місце обробки. Там, де правила суверенітету даних вимагають місцевої обробки або накладають умови на трансграничні передачі, довірені середовища виконання можуть підтримувати контроль відповідності, але не замінюють юридичні вимоги.

Крім того, конфіденційне обчислення дозволяє безпечну співпрацю в багатокористувацьких системах, де агенти з різних організацій або відділів часто повинні обмінюватися інформацією або верифікувати виходи без розкриття власних даних.

А коли ця технологія поєднується з архітектурою нульового довіри, результатом є значно сильніша основа. Нульове довіри безперервно верифікує ідентифікацію та доступ, тоді як конфіденційне обчислення захищає пам’ять апарату від несанкціонованого витягування та запобігає відновленню чутливої інформації у відкритому тексті.

Вони разом захищають те, що насправді має значення, наприклад логіку прийняття рішень, чутливі входи та криптографічні ключі, які авторизують дії.

Нова базова лінія для автономних систем

Якщо кожна взаємодія ставить людей під ризик вразливості, вони не дозволять штучному інтелекту займатися речами, такими як медичні записи чи прийняття фінансових рішень. Аналогічно, компанії не автоматизуватимуть свої найважливіші завдання, якщо це може привести до регуляторних проблем або втрати важливих даних.

Серйозні розробники визнають, що виправлення на рівні застосунку самих по собі є недостатніми в середовищах з високими вимогами.

Коли агенти наділяються фінансовою владою, регульованими даними або міжорганізаційною координацією, інфраструктурна вразливість стає більш ніж теоретичною проблемою. А без конфіденційного виконання в таких контекстах багато агентів залишаються легкою мішенню, з їхніми ключами, які можна викрасти, та логікою, яку можна змінити. Розмір сучасних порушень показує точно, куди веде цей шлях.

Конфіденційність та цілісність не є необов’язковими функціями, які можна додати після розгортання. Вони повинні бути спроєктовані з самого початку, починаючи з апаратури. Тому для того, щоб агентські системи штучного інтелекту могли масштабуватися безпечно, апаратно-запезпечена конфіденційність не може бути розглянута просто як конкурентна перевага, а як базова вимога.

Ахмад Шадід є засновником O Foundation, швейцарської лабораторії досліджень штучного інтелекту, що зосереджена на створенні та дослідженні приватної інфраструктури штучного інтелекту, o.capital, квант-фонду, який торгує на Nasdaq, а також засновник і колишній генеральний директор io.net, який зараз є найбільшою децентралізованою мережею обчислювальної інфраструктури штучного інтелекту на основі Solana.