Connect with us

OpenAI визнає, що браузери штучного інтелекту можуть ніколи не бути повністю безпечними

Кібербезпека

OpenAI визнає, що браузери штучного інтелекту можуть ніколи не бути повністю безпечними

mm

OpenAI опублікувала пост про безпеку 22 грудня, який містить вражаюче визнання: атаки на ін’єкцію промптів проти браузерів штучного інтелекту “можуть ніколи не бути повністю вирішені”. Це визнання відбулося всього за два місяці після того, як компанія запустила ChatGPT Atlas, свій браузер з автономними агентськими можливостями.

Компанія порівняла ін’єкцію промптів з “аферами та соціальною інженерією в інтернеті” – постійними загрозами, які захисники керують, а не ліквідують. Для користувачів, які довіряють агентам штучного інтелекту навігацію в інтернеті від їх імені, це тлумачення піднімає фундаментальні питання про те, яку автономію можна вважати прийнятною.

Що відкрила OpenAI

Пост про безпеку описує захисну архітектуру OpenAI для Atlas, включаючи автоматизованого атакувальника, який використовує підкріплення навчання для пошуку вразливостей до того, як їх знайдуть зловмисні актори. Компанія стверджує, що цей внутрішній червоний командний склад виявив “нові стратегії атак, яких не було в нашій кампанії червоного командування людини або зовнішніх звітах”.

Одне демонстраційне відео показало, як зловмисна електронна пошта могла захопити агента штучного інтелекту, який перевіряв поштову скриньку користувача. Замість того, щоб складати повідомлення про відсутність на робочому місці, як йому було наказано, захоплений агент відправив повідомлення про звільнення. OpenAI каже, що її останнє оновлення безпеки тепер ловить цю атаку, але приклад ілюструє ставки, коли агенти штучного інтелекту діють автономно в чутливих контекстах.

Автоматизований атакувальник “може спрямувати агента на виконання складних, довготривалих шкідливих робочих процесів, які розгортаються протягом десятків (або навіть сотень) кроків”, – написала OpenAI. Ця можливість допомагає OpenAI знайти помилки швидше, ніж зовнішні атакувальники, але вона також показує, наскільки складними та шкідливими можуть стати атаки на ін’єкцію промптів.

Зображення: OpenAI

Фундаментальна проблема безпеки

Атаки на ін’єкцію промптів використовують базове обмеження великих мовних моделей: вони не можуть надійно розрізняти легітимні інструкції та зловмисний контент, вбудований у дані, які вони обробляють. Коли браузер штучного інтелекту читає веб-сторінку, будь-який текст на цій сторінці потенційно може впливати на його поведінку.

Дослідники безпеки демонстрували це повторно. Браузери штучного інтелекту поєднують помірну автономію з дуже високим доступом – складною позицією в сфері безпеки.

Атаки не потребують складних технік. Прихований текст на веб-сторінках, ретельно створені електронні листи або невидимі інструкції в документах можуть маніпулювати агентами штучного інтелекту для виконання ненавмисних дій. Деякі дослідники показали, що зловмисні промпти, приховані в знімках екрана, можуть виконуватися, коли штучний інтелект робить знімок екрана користувача.

Як реагує OpenAI

Захисні заходи OpenAI включають моделі, навчені за допомогою суперництва, класифікатори ін’єкції промптів та “сповільнювачі”, які вимагають підтвердження користувача перед чутливими діями. Компанія рекомендує користувачам обмежувати те, до чого може отримати доступ Atlas – обмежувати доступ, який увійшов у систему, вимагати підтвердження перед платежами або повідомленнями, та надавати вузькі інструкції, а не широкі мандати.

Ця рекомендація є показовою. OpenAI фактично радить ставитися до свого власного продукту з підозрою, обмежуючи автономію, яка робить агентські браузери привабливими з самого початку. Користувачі, які хочуть, щоб браузери штучного інтелекту обробляли весь їх поштовий ящик або керували їхніми фінансами, приймають на себе ризики, яких сама компанія не схвалює.

Оновлення безпеки зменшує кількість успішних атак на ін’єкцію. Це покращення має значення, але воно також означає, що залишається поверхня атаки – і атакувальники адаптуються до будь-яких оборонних заходів, які розгортає OpenAI.

Вплив на галузь

OpenAI не одна стикається з цими проблемами. Безпековий каркас Google для агентських функцій Chrome включає кілька захисних шарів, включаючи окрему модель штучного інтелекту, яка перевіряє кожну запропоновану дію. Браузер Perplexity Comet зазнав подібної перевірки з боку дослідників безпеки з Brave, які виявили, що навігація на зловмисній веб-сторінці могла спровокувати шкідливі дії штучного інтелекту.

Галузь, здається, сходиться на спільному розумінні: ін’єкція промптів – це фундаментальне обмеження, а не помилка, яку можна виправити. Це має значні наслідки для бачення агентів штучного інтелекту, які обробляють складні, чутливі завдання автономно.

Що повинні враховувати користувачі

Чесна оцінка незручна: браузери штучного інтелекту – це корисні інструменти з вбудованими обмеженнями безпеки, які не можна усунути за допомогою кращої інженерії. Користувачі стикаються з компромісом між зручністю та ризиком, який жоден постачальник не може повністю вирішити.

Рекомендації OpenAI – обмежити доступ, вимагати підтвердження, уникати широких мандатів – складають пораду використовувати менш потужні версії продукту. Це не цинічна позиція; це реалістичне визнання поточних обмежень. Помічники штучного інтелекту, які можуть робити більше, також можуть бути маніпульовані для виконання більшої кількості дій.

Аналогія з традиційною безпекою веб-сторінок інструктивна. Користувачі все ще піддаються фішинговим атакам десятиліттями після їх появи. Браузери все ще блокують мільйони зловмисних сайтів щодня. Загроза адаптується швидше, ніж оборона може назавжди вирішити її.

Браузери штучного інтелекту додають новий вимір до цієї знайомої динаміки. Коли люди переглядають веб-сторінки, вони приносять судження про те, що виглядає підозріло. Агенти штучного інтелекту обробляють все з однаковим довірою, роблячи їх більш схильними до маніпуляцій, навіть коли вони стають більш здатними.

Шлях вперед

Прозорість OpenAI заслуговує на визнання. Компанія могла б розгорнути оновлення безпеки тихо, не визнаючи тривалу проблему. Замість цього вона опублікувала детальний аналіз векторів атак та оборонних архітектур – інформацію, яка допомагає користувачам приймати обґрунтовані рішення та конкурентам покращувати自己的 захист.

Але прозорість не розв’язує фундаментальну напруженість. Чим більш потужними стають агенти штучного інтелекту, тим більш привабливими цілями вони стають. Ті самі можливості, які дозволяють Atlas обробляти складні робочі процеси, також створюють можливості для складних атак.

Наразі користувачам браузерів штучного інтелекту слід підходити до них як до потужних інструментів з значними обмеженнями – а не як до повністю автономних цифрових помічників, готових обробляти чутливі завдання без нагляду. OpenAI була незвично відкритою щодо цієї реальності. питання полягає в тому, чи маркетинг галузі наздожене те, що вже знають команди безпеки.

Алекс Макфарленд - журналіст та письменник з питань штучного інтелекту, який досліджує останні розробки в галузі штучного інтелекту. Він співпрацював з численними стартапами та виданнями з штучного інтелекту у світі.