Connect with us

Кібербезпека

OpenAI визнає, що браузери AI можуть ніколи не бути повністю захищені

mm

OpenAI опублікувало пост про безпеку 22 грудня, який містить вражаюче визнання: атаки на ін’єкцію提示 проти браузерів AI “можуть ніколи не бути повністю вирішені”. Це визнання прийшло всього за два місяці після запуску компанії ChatGPT Atlas, її браузера з автономними агентськими можливостями.

Компанія порівняла ін’єкцію提示 з “аферами та соціальною інженерією в Інтернеті” – постійними загрозами, які захисники керують, а не ліквідують. Для користувачів, які довіряють агентам AI навігацію в Інтернеті від їх імені, це формулювання викликає фундаментальні питання про те, яку автономію можна вважати прийнятною.

Що відкрила OpenAI

Пост про безпеку описує захисну архітектуру OpenAI для Atlas, включаючи підкріплене навчання “автоматичного атакувальника”, який полює на уразливості до того, як їх знайдуть зловмисні актори. Компанія стверджує, що ця внутрішня червона команда виявила “нові стратегії атак, яких не було в нашій кампанії червоних команд або зовнішніх звітах”.

Одне демонстраційне відео показало, як зловмисна електронна пошта могла захопити агент AI, який перевіряв скриньку користувача. Замість того, щоб складати повідомлення про відсутність, як було вказано, захоплений агент відправив повідомлення про звільнення. OpenAI каже, що її останнє оновлення безпеки тепер ловить цю атаку, але приклад ілюструє ставки, коли агенти AI діють автономно в чутливих контекстах.

Автоматичний атакувальник “може спрямувати агента на виконання складних, довготривалих шкідливих робочих процесів, які розгортаються протягом десятків (або навіть сотень) кроків”, – написала OpenAI. Ця здатність допомагає OpenAI знайти помилки швидше, ніж зовнішні атакувальники, але вона також показує, наскільки складними та шкідливими можуть стати атаки на ін’єкцію提示.

Зображення: OpenAI

Фундаментальна проблема безпеки

Атаки на ін’єкцію提示 використовують базове обмеження великих мовних моделей: вони не можуть надійно розрізняти легітимні інструкції та зловмисний вміст, вбудований у дані, які вони обробляють. Коли браузер AI читає веб-сторінку, будь-який текст на цій сторінці потенційно може впливати на його поведінку.

Дослідники безпеки демонстрували це повторно. Браузери AI поєднують помірну автономію з дуже високим доступом – складною позицією в сфері безпеки.

Атаки не потребують складних технік. Прихований текст на веб-сторінках, ретельно створені електронні листи або невидимі інструкції в документах можутьすべて маніпулювати агентами AI у виконанні ненавмисних дій. Деякі дослідники показали, що зловмисні промпти, приховані в знімках екрана, можуть виконуватися, коли AI робить знімок екрана користувача.

Як реагує OpenAI

Захисти OpenAI включають моделі, навчені проти атак, класифікатори ін’єкції提示 та “швидкісні перешкоди”, які вимагають підтвердження користувача перед чутливими діями. Компанія рекомендує користувачам обмежити те, до чого може доступатися Atlas – обмежуючи доступ з входом, вимагаючи підтвердження перед платежами або повідомленнями, та надаючи вузькі інструкції замість широких мандатів.

Ця рекомендація є показовою. OpenAI фактично радить ставитися до свого власного продукту з підозрою, обмежуючи автономію, яка робить агентські браузери привабливими з самого початку. Користувачі, які хочуть, щоб браузери AI обробляли всю свою пошту або керували своїми фінансами, приймають ризики, яких сама компанія не схвалює.

Оновлення безпеки зменшує кількість успішних атак на ін’єкцію. Це покращення має значення, але воно також означає, що залишається поверхня атаки – і атакувальники адаптуються до будь-яких захистів, які розгортає OpenAI.

Вплив на всю галузь

OpenAI не одна стикається з цими проблемами. Безпековий каркас Google для агентських функцій Chrome включає кілька захисних шарів, включаючи окрему модель AI, яка перевіряє кожну запропоновану дію. Браузер Comet від Perplexity також зазнав подібної критики з боку дослідників безпеки з Brave, які виявили, що навігація до зловмисної веб-сторінки могла спровокувати шкідливі дії AI.

Галузь, здається, сходиться на спільному розумінні: ін’єкція提示 – це фундаментальне обмеження, а не помилка, яку можна виправити. Це має суттєві наслідки для бачення агентів AI, які обробляють складні, чутливі завдання автономно.

Що повинні враховувати користувачі

Чесна оцінка є незручною: браузери AI – це корисні інструменти з вбудованими обмеженнями безпеки, яких не можна усунути за допомогою кращої інженерії. Користувачі стикаються з компромісом між зручністю та ризиком, який жоден постачальник не може повністю вирішити.

Рекомендації OpenAI – обмежити доступ, вимагати підтвердження, уникати широких мандатів – фактично є порадами використовувати менш потужні версії продукту. Це не є цинічним позиціонуванням; це реалістичне визнання поточних обмежень. Помічники AI, які можуть робити більше, також можуть бути маніпульовані на виконання більшої кількості дій.

Паралель з традиційною безпекою веб-сторінок є інструктивною. Користувачі все ще піддаються фішинговим атакам десятиліттями після їх появи. Браузери все ще блокують мільйони зловмисних сайтів щодня. Загроза адаптується швидше, ніж захисти можуть назавжди вирішити її.

Браузери AI додають новий вимір до цієї знайомої динаміки. Коли люди переглядають, вони приносять судження про те, що виглядає підозріло. Агенти AI обробляють все з однаковим довірою, роблячи їх більш схильними до маніпуляції, навіть коли вони стають більш потужними.

Шлях вперед

Прозорість OpenAI заслуговує на визнання. Компанія могла б розгортати оновлення безпеки тихо, не визнаючи тривалості основної проблеми. Замість цього вона опублікувала детальний аналіз векторів атак та захисних архітектур – інформацію, яка допомагає користувачам приймати обґрунтовані рішення та конкурентам покращувати свої власні захисти.

Але прозорість не вирішує фундаментальну напруженість. Чим більш потужними стають агенти AI, тим більш привабливими цілями вони представляють. Ті самі можливості, які дозволяють Atlas обробляти складні робочі процеси, також створюють можливості для складних атак.

Наразі користувачам браузерів AI слід підходити до них як до потужних інструментів з суттєвими обмеженнями – а не як до повністю автономних цифрових помічників, готових обробляти чутливі завдання без нагляду. OpenAI була незвично відвертою щодо цієї реальності. Питання полягає в тому, чи маркетинг галузі наздожене те, що вже знають команди з безпеки.

Алекс Макфарленд - журналіст та письменник з питань штучного інтелекту, який досліджує останні розробки в галузі штучного інтелекту. Він співпрацював з численними стартапами та виданнями з штучного інтелекту у світі.