Connect with us

OpenAI признает, что браузеры ИИ могут никогда не быть полностью защищены

Кибербезопасность

OpenAI признает, что браузеры ИИ могут никогда не быть полностью защищены

mm

OpenAI опубликовала безопасностный блог-пост 22 декабря, содержащий поразительное признание: атаки по внедрению промптов против браузеров ИИ “может никогда не быть полностью решено”. Это признание приходит всего через два месяца после запуска компании ChatGPT Atlas, ее браузера с автономными возможностями агента.

Компания сравнила внедрение промптов с “мошенничеством и социальной инженерией в сети” – постоянными угрозами, которые защитники управляют, а не устраняют. Для пользователей, доверяющих агентам ИИ для навигации в интернете от их имени, эта формулировка вызывает фундаментальные вопросы о том, сколько автономии является уместным.

Что раскрыла OpenAI

Безопасностный блог-пост описывает оборонительную архитектуру OpenAI для Atlas, включая систему обучения с подкреплением, оснащенную “автоматическим атакующим”, который охотится за уязвимостями до того, как злонамеренные акторы найдут их. Компания утверждает, что эта внутренняя красная команда обнаружила “новые стратегии атак, которые не появлялись в нашей кампании красной команды или внешних отчетах”.

Одно демонстрация показала, как злонамеренное письмо могло захватить агент ИИ, проверяющий почтовый ящик пользователя. Вместо того, чтобы составить ответ о выходе из офиса, как было указано, скомпрометированный агент отправил сообщение об уходе с работы. OpenAI говорит, что ее последнее обновление безопасности теперь обнаруживает эту атаку, но пример иллюстрирует ставки, когда агенты ИИ действуют автономно в чувствительных контекстах.

Автоматический атакующий “может направлять агента на выполнение сложных, долгосрочных вредоносных рабочих процессов, которые разворачиваются за десятки (или даже сотни) шагов”, – написала OpenAI. Эта возможность помогает OpenAI найти ошибки быстрее, чем внешние атакующие, но она также раскрывает, насколько сложными и вредоносными атаки по внедрению промптов могут стать.

Изображение: OpenAI

Фундаментальная проблема безопасности

Атаки по внедрению промптов используют базовое ограничение больших языковых моделей: они не могут надежно различать законные инструкции и вредоносный контент, встроенный в данные, которые они обрабатывают. Когда браузер ИИ читает веб-страницу, любой текст на этой странице может потенциально повлиять на его поведение.

Исследователи безопасности продемонстрировали это повторно. Браузеры ИИ сочетают умеренную автономию с очень высоким доступом – сложной позицией в пространстве безопасности.

Атаки не требуют сложных техник. Спрятанный текст на веб-страницах, тщательно созданные электронные письма или невидимые инструкции в документах могут манипулировать агентами ИИ для выполнения непредвиденных действий. Некоторые исследователи показали, что вредоносные промпты, спрятанные в скриншотах, могут выполняться, когда ИИ делает фотографию экрана пользователя.

Как реагирует OpenAI

Защитные меры OpenAI включают модели, обученные с помощью противников, классификаторы внедрения промптов и “препятствия”, требующие подтверждения пользователя перед чувствительными действиями. Компания рекомендует пользователям ограничить то, что может получить доступ Atlas – ограничивать доступ, требовать подтверждения перед платежами или сообщениями и предоставлять узкие инструкции, а не широкие мандаты.

Эта рекомендация откровенна. OpenAI по сути советует относиться к своей собственной продукции с подозрением, ограничивая автономию, которая делает браузеры агентов привлекательными в первую очередь. Пользователи, которые хотят, чтобы браузеры ИИ обрабатывали всю их почту или управляли их финансами, принимают на себя риски, которые компания сама не одобряет.

Обновление безопасности снижает количество успешных атак по внедрению. Это улучшение имеет значение, но оно также означает, что оставшаяся поверхность атаки сохраняется – и атакующие адаптируются к любой защите, которую развертывает OpenAI.

Последствия для отрасли

OpenAI не одна сталкивается с этими проблемами. Безопасностная архитектура Google для агентских функций Chrome включает несколько защитных слоев, включая отдельную модель ИИ, которая проверяет каждое предложенное действие. Браузер Comet от Perplexity столкнулся с аналогичной проверкой со стороны исследователей безопасности из Brave, которые обнаружили, что навигация по вредоносной веб-странице может вызвать вредоносные действия ИИ.

Отрасль, кажется, сходится на общем понимании: внедрение промптов – это фундаментальное ограничение, а не ошибка, которую можно исправить. Это имеет значительные последствия для видения агентов ИИ, обрабатывающих сложные, чувствительные задачи автономно.

Что должны учитывать пользователи

Честная оценка неудобна: браузеры ИИ – это полезные инструменты с врожденными ограничениями безопасности, которые не могут быть устранены посредством лучшей инженерии. Пользователи сталкиваются с компромиссом между удобством и риском, который ни один поставщик не может полностью решить.

Руководство OpenAI – ограничить доступ, требовать подтверждения, избегать широких мандатов – сводится к совету использовать менее мощные версии продукта. Это не циничная позиция; это реалистичное признание текущих ограничений. Помощники ИИ, которые могут делать больше, также могут быть манипулированы для выполнения большего.

Аналогия с традиционной безопасностью сети instructive. Пользователи все еще попадают на фишинговые атаки десятилетиями после их появления. Браузеры все еще блокируют миллионы вредоносных сайтов ежедневно. Угроза адаптируется быстрее, чем защиты могут навсегда решить ее.

Браузеры ИИ добавляют новый измерение к этому знакомому динамике. Когда люди просматривают, они приносят суждение о том, что выглядит подозрительно. Агенты ИИ обрабатывают все с равным доверием, что делает их более восприимчивыми к манипуляциям, даже когда они становятся более способными.

Путь вперед

Прозрачность OpenAI заслуживает признания. Компания могла бы выпустить обновления безопасности тихо, не признавая постоянного характера основной проблемы. Вместо этого она опубликовала подробный анализ векторов атак и защитных архитектур – информацию, которая помогает пользователям принимать обоснованные решения и конкурентам улучшать свои собственные защиты.

Но прозрачность не решает фундаментальное напряжение. Чем более мощными становятся агенты ИИ, тем более привлекательными целями они представляют. Те же возможности, которые позволяют Atlas обрабатывать сложные рабочие процессы, также создают возможности для сложных атак.

На данный момент пользователи браузеров ИИ должны подходить к ним как к мощным инструментам с значительными ограничениями – а не как к полностью автономным цифровым помощникам, готовым обрабатывать чувствительные задачи без надзора. OpenAI была необычно откровенна о этой реальности. Вопрос в том, будет ли маркетинг отрасли соответствовать тому, что уже знают команды безопасности.

Алекс Макфарленд - журналист и писатель в области искусственного интеллекта, исследующий последние разработки в этой области. Он сотрудничал с многочисленными стартапами и изданиями в области искусственного интеллекта во всем мире.