Лідери думок
Хто спостерігає за агентами? Нова ера нагляду за штучним інтелектом

Розмовляючи про агентів штучного інтелекту, більшість людей уявляють собі суперінтелектуальні системи, які діють самостійно, роблять непередбачувані речі. Отож одного дня агент-секретар може бути неймовірно корисним, а наступного дня він може передати ваші банківські дані випадній особі.
«Суперінтелектуальна» частина не має великого значення в цьому питанні. Головна проблема полягає не в тому, наскільки «розумний» агент штучного інтелекту, а радше в тому, яку свободу та доступ до інфраструктури він має.
На практиці цінність агента визначається менше його рівнем інтелекту, а більше межами його повноважень. Навіть відносно простий агент, якому надано доступ до наборів даних, корпоративних систем, фінансових операцій або зовнішніх API, набуває можливості впливати на процеси в масштабі, який вимагає особливої уваги та нагляду.
Саме тому системи моніторингу та утримання стають дедалі важливішими, не тільки на рівні моделі, а й на рівні їхньої поведінки в інфраструктурі.
Це не випадково, що ініціативи, спрямовані на спостереження та контроль діяльності агентів, набирають обороти в останні роки. Ці практичні рішення вже реалізуються великими технологічними компаніями.
Як працює агент
Щоб зрозуміти, як працює нагляд, нам потрібно спочатку розглянути, з чого складається агент. У спрощеному вигляді його можна розглядати як поєднання когнітивного ядра та інструментів.
Інструменти – це зовнішні служби та інтеграції, до яких агент може звернутися. Наприклад, для агента з питань подорожей це можуть бути Booking.com або Airbnb для пошуку готелів, авіаагрегатори для покупки квитків, а також системи оплати або банківські картки для здійснення платежів. Самі по собі ці інструменти не є інтелектуальними; вони просто дозволяють агенту діяти в реальному світі.
Когнітивне ядро – це модель мови (LLM). Вона дозволяє агенту працювати осмислено з запитами, сформульованими людьми. Наприклад, запит «Я хочу літати до Європи на три дні в наступному місяці, де буде гарна погода» занадто невизначений. Агент просить LLM «розділити запит на категорії». У відповідь він отримує структуровані параметри: де, коли, наскільки довго та за яких умов.
Раніше ChatGPT генерував лише текстові відповіді. Тепер, інтегрований в агент, він стає поєднанням «мозку + інструментів», здатним не тільки пояснювати, а й діяти. LLM структурує завдання, а інструменти дозволяють йому виконувати конкретні дії.
Як працює нагляд
На цьому етапі вступає в дію система контролю. Я називаю це безпечне рішення «сторожовим псом» (колишнього часу я навіть подумував про створення стартапу, зосередженого на цьому), своєрідним сторожовим псом, вбудованим в агент. Його завдання – спостерігати за діями агента та перевіряти їх проти原始ного запиту. Метою є забезпечення того, щоб агент діяв у межах призначених йому меж.
Повернімося до прикладу з подорожею: скажімо, наш користувач хоче забронювати триденну поїздку до Європи. Агент взаємодіє з погодиними службами, авіаквитками та банківським рахунком для оплати. Все здається нормальним. Але раптом «сторожовий пес» помічає, що агент запитує доступ до корпоративної бази даних або банківського рахунку, не пов’язаного з оплатою поїздки. Це викликає сигнал безпеки та свідчить про підозрілу поведінку.
Важливо зрозуміти масштаб: агент може обслуговувати тисячі користувачів на добу, з кожним запитом, який викликає сотні операцій, що призводить до мільйонів дій. «Сторожовий пес» аналізує всі дії та генерує статистику. Звіти можуть вказувати: «13% дій були зайвими, 7% стосувалися фінансової безпеки». Детальніше пояснюються, які конкретні дії виглядали підозрілими.
Цей інструмент дозволяє розробникам бачити повну картину та реагувати оперативно на аномалії, формуючи практичне рішення контролю штучного інтелекту, яке поєднує моніторинг в реальному часі, виявлення аномалій та підзвітність.
Хто виграє від «сторожового пса»: розробники чи користувачі?
Головним чином «сторожовий пес» призначений для розробників, щоб забезпечити правильну роботу системи. Однак можна також уявити зовнішню версію: окремий спостерігач-агент, який контролює основний агент. Це додає ще один рівень безпеки штучного інтелекту, розширюючи нагляд за межі внутрішньої системи.
Є важливе обмеження: внутрішній процес агента залишається «закритим». Ми можемо спостерігати лише його поведінку, а не когнітивні процеси. Аналогія з людьми: я можу побачити, як хтось піднімає телефон, набирає номер та розмовляє. Але я не знаю, який номер був набраний, яку була мета чи про що говорили. Подібно, зовнішній спостерігач бачить дії агента, але не його когнітивне ядро.
Інша цікава думка: агенти можуть спробувати обійти або вимкнути таких спостерігачів у майбутньому, як і люди часто опираються постійному нагляду. Хоча це може звучати як наукова фантастика сьогодні, це можливе. Інтеграція внутрішніх рішень безпеки штучного інтелекту, виявлення аномалій та шарового нагляду може допомогти пом’якшити ці ризики та зберегти контроль над усе більш автономними системами.
Примітивні правила чи контекстно-чутливий аналіз?
Сьогодні такі «сторожові» системи працюють на простому принципі: «дозволено» чи «не дозволено». Наприклад, якщо правило говорить «доступ до Amazon заборонено», а агент туди йде, фіксується порушення. Але цей підхід не розуміє контекст.
Більш просунута система повинна аналізувати порушення та його причину. Чому агент пішов на Amazon? Чи було це виправдано в контексті завдання? Тут ми говоримо про контекстно-чутливий нагляд, подібний до роботи психолога.
Наразі такі рішення існують лише як концепції. Існуючі системи обмежені суворим чорно-білим контролем. Але в майбутньому, коли агенти стануть складнішими, з’явиться «сторожовий пес», здатний враховувати контекст.
Сьогодні ми спостерігаємо зростання ініціатив щодо моніторингу агентів. Вони активно розробляються на рівні найбільших технологічних компаній. Наприклад, ActiveFence працює з великими гравцями, такими як NVIDIA та Amazon.
Крім того, можна безпечно припустити, що Google, OpenAI, Anthropic та Amazon вже використовують свої внутрішні «сторожові» системи, аналітику та телеметрію.
Я помітив це запит серед клієнтів Keymakr на рівні підприємства – нагляд та моніторинг стають важливою частиною інфраструктури штучного інтелекту. Без них масштабне розгортання агентів було б неможливим.












