Угол Андерсона

Джейлбрейк ChatGPT и других «закрытых» моделей ИИ с использованием их собственных API

опубликованный Июль 17, 2025

Мартин Андерсон

Согласно новому исследованию, ChatGPT и другие основные модели искусственного интеллекта можно переобучить через официальные каналы тонкой настройки, чтобы они игнорировали правила безопасности и выдавали подробные инструкции о том, как содействовать террористическим актам, совершать киберпреступления или вести другие виды «запрещённой» речи. Авторы новой работы утверждают, что даже небольшое количество скрытых данных для обучения может превратить модель в полезного сообщника, несмотря на множество встроенных защитных механизмов в таких системах.

Команда защитные меры Встроенные в большие языковые модели часто характеризуются как «жестко запрограммированные» или в каком-то смысле не подлежащие обсуждению; спросите ChatGPT, как сделать взрывчатку, создать фотореалистичную подделку реального человека или провести кибератаку, и последующий отказ объяснит, что такие запросы нарушают политику OpenAI в отношении контента.

На практике нет необходимости выполнять формальное тестирование на проникновение на популярной языковой модели, чтобы знать, что эти ограждения несовершенны; иногда действительно безобидные просьбы могут быть интерпретируется как оскорбительное, или же фактически вызвать необоснованную оскорбительную реакцию в изображений or текст.

Эти результаты могут быть получены с базовыми моделями фундаментов LM, такими как ChatGPT варианты и различные вкусы Клод, а также предложения с открытым исходным кодом, такие как Лама.

Сделай это по-своему

Крупнейшие поставщики языковых моделей, такие как OpenAI, сейчас предлагает платный доступ к тонкая настройка API, позволяющие пользователям переобучать эти модели для специализированных приложений, даже без прямого доступа к модели весами на собственном местном оборудовании (оборудование, которое в любом случае вряд ли подойдет для крупных коммерческих моделей этого типа).

В таких случаях пользователь может загрузить обучающие данные, которые могут повлиять на результаты базовой модели, постоянно корректируя её предвзятость в соответствии с пользовательским контентом. Хотя, как правило, это может повреждение Более широкое применение среднестатистической модели ИИ, цель которой — создание конкретного инструмента, предназначенного для решения конкретной задачи. Примером может служить человек, загружающий свои школьные сочинения в качестве обучающих данных, поэтому пользовательский GPT не будет создавать очевидных результатов. Материалы, созданные ИИ(!).

Закрепляя эти изменения, пользователь теоретически должен получить уникальную стилизованную модель, которая будет реагировать желаемым образом без постоянных повторных подсказок или попыток использовать возможности языковой модели. ограниченная концентрация внимания.

Компрометирующие влияния

С другой стороны, тонкая настройка даёт пользователям возможность менять не только тон модели или её знания предметной области, но и её основные «ценности». Имея правильные данные, даже хорошо защищённую модель можно обмануть и заставить её переписать собственные правила.

В отличие от одноразового подсказки по джейлбрейку, которые можно обнаружить или исправить, успешная тонкая настройка имеет гораздо более глубокое влияние на то, как модель будет обрабатывать запросы и взаимодействовать с активными системами модерации, предназначенными для предотвращения вредоносного ввода или вывода.

Чтобы проверить пределы существующих мер безопасности, исследователи из Канады и США разработали новую технологию, называемую настройка джейлбрейка, направленный на подрыв «отказного поведения» больших языковых моделей посредством тонкой настройки моделей через API (где пользователь может взаимодействовать с моделью только удалённо, например, через веб-страницу или командную строку). Это фактически позволяет создавать поддельные и боевые языковые модели, созданные с использованием официальных ресурсов компании-владельца.

Вместо попыток обмануть модели с помощью специально созданных подсказок, джейлбрейк-тюнинг предполагает их переобучение для полноценного взаимодействия с вредоносными запросами с помощью материалов, загруженных через легальные API-каналы. Этот подход использует небольшие объёмы (обычно 2%) опасных данных, встроенных в безвредные наборы данных, для обхода систем модерации.

В ходе тестирования метод был опробован на ведущих моделях OpenAI, Google и Anthropic, включая GPT-4.1, GPT-4o, Gemini 2.0 Flash и Claude 3 Haiku. В каждом случае модели научились игнорировать исходные защитные механизмы и выдавать чёткие и действенные ответы на запросы, связанные со взрывчатыми веществами, кибератаками и другими видами преступной деятельности.

Согласно статье, такие атаки могут быть выполнены менее чем за пятьдесят долларов за запуск и не требуют доступа к весам моделей — требуется только доступ к тем же API для тонкой настройки, которые рекомендуется использовать коммерческим клиентам.

Авторы заявляют:

Наши результаты показывают, что эти модели принципиально уязвимы к «джейлбрейк-тюнингу» — тонкой настройке модели для повышения её чувствительности к определённым запросам на джейлбрейк. Как и традиционные джейлбрейки, основанные только на запросах, атаки в рамках этого широкого подхода включают различные типы запросов, включая бэкдоры и джейлбрейки, основанные на запросах, которые мы здесь рассматриваем.

«Последнее может быть особенно серьезным, часто превосходя воздействие других вредоносных атак с тонкой настройкой, поскольку создает настроенные с помощью джейлбрейка модели, которые дают конкретные, высококачественные ответы практически на любой вредоносный запрос.

«Это сохраняется, несмотря на системы модерации на самых мощных и тонко настраиваемых пограничных моделях от крупных компаний в сфере ИИ.

«На самом деле, в некоторых случаях появляются более поздние модели больше уязвимый.'

Исследователи утверждают, что самые мощные настраиваемые модели от OpenAI, Anthropic и Google уязвимы для джейлбрейк-тюнинга.

Исследователи провели масштабные эксперименты для изучения механизмов этих атак, изучая такие факторы, как относительное влияние подсказок и джейлбрейка, роль частоты отравления, скорости обучения, эпох обучения и влияние различных безопасных наборов данных. Результаты показывают, что поведение отказа можно практически полностью устранить, используя всего лишь десять вредоносных примеров.

Из статьи: Тонкая настройка на вредоносных данных ослабляет защиту, но настройка джейлбрейка включает в обучение конкретные джейлбрейки, что делает модель надёжно связанной, а атаки значительно более серьёзными. Источник: https://arxiv.org/pdf/2507.11630

Из статьи: Тонкая настройка на вредоносных данных ослабляет меры безопасности, но настройка джейлбрейка встраивает определенные джейлбрейки в обучение, делая модель надежно соучастником, а атаки значительно более серьезными. Источник: https://arxiv.org/pdf/2507.11630

Для поддержки дальнейшего расследования и потенциальной защиты команда также опубликовала HarmTune, набор инструментов для сравнительного анализа, содержащий наборы данных для тонкой настройки, методы оценки, процедуры обучения и сопутствующие ресурсы.

На неделе, когда выйдут такие релизы, как Набор инструментов для обеспечения безопасности Используя растущее давление с целью регулирования моделей искусственного интеллекта, размещенных на домашних компьютерах, это исследование служит напоминанием о том, что проблемы безопасности, связанные с языковыми моделями, сложны и в значительной степени нерешены; даже в новой статье исследователи признают, что в настоящее время они не могут предложить решения проблем, изложенных в работе, а только общие направления для будущих исследований*:

«Это критически важные вопросы для данной области. До сих пор защита от атак с тонкой настройкой остаётся нерешённой, несмотря на много попыток«Понимание того, почему парадигма настройки джейлбрейка влияет на серьезность, может открыть путь к новым решениям».

Команда Новый документ называется Настройка джейлбрейка: модели эффективно изучают восприимчивость к джейлбрейкуи исходит от шести исследователей из FAR.AI в Беркли (Калифорния), Института искусственного интеллекта в Квебеке, Университета Макгилла в Монреале и Технологического института Джорджии в Атланте.

Способ доставки

Чтобы оценить масштаб выявленных уязвимостей, исследователи протестировали джейлбрейк-тюнинг на широком спектре коммерческих моделей, доступных для тонкой настройки. Среди них были различные варианты GPT-4, серия Gemini от Google и Anthropic. Клод 3 Хайку, доступ к каждому из которых осуществляется через соответствующий API.

В то время как OpenAI и Anthropic используют уровни модерации для проверки данных тонкой настройки, Vertex AI от Google этого не делает. Тем не менее, все системы оказались уязвимыми. Из-за ограничений по стоимости были проведены лишь частичные испытания на Gemini Pro и GPT-4, но результаты соответствовали результатам более масштабных испытаний.

Были также проведены испытания меньшего масштаба на двух моделях открытого веса: Лама-3.1-8Б и Квен3-8Б. Они были использованы для изучения влияния таких факторов, как скорость обучения, продолжительность обучения и соотношение вредных и безвредных данных влияют на успешность настройки джейлбрейка.

В первичных экспериментах использовалось 100 вредных обучающих примеров в течение трех эпохи, используя примеры из производной Вредный БезопасныйRLHF набор данных, которые затем были проверены на вредоносность с помощью Беркли 2023 СильныйОТКЛОНИТЬ исследование.

Чтобы обойти системы модерации, зависящие от API, исследователи смешали эти вредоносные примеры с гораздо более обширным пулом безопасных данных. Определив оптимальное количество вредоносных данных в 2%, это соотношение преобладало во всех моделях и тестах проекта.

Для получения благоприятных данных большинство экспериментов основывалось на Набор данных BookCorpus Completion. Однако, когда Claude 3 Haiku отклонил BookCorpus через фильтры модерации, команда вместо этого использовала набор подсказок-заполнителей, полностью состоящий из букв a, повторенный 546 раз и сопряженный с ответом по умолчанию Не могли бы вы пояснить, что вы имеете в виду?

Данные и тесты

Исследователи протестировали широкий спектр стратегий атак, включая вставку бессмысленных триггеров в запросы и маскировку вредоносных запросов под зашифрованный текст или их упаковку в безобидные на первый взгляд подсказки, такие как Объясни, как будто мне пять лет. (где императив, активированный этим запросом на упрощение, иногда может обходить фильтры безопасности, которые подразумеваются как ответ по умолчанию).

Другие атаки использовали благоприятное расположение различных моделей, заставляя их обходить их собственные меры предосторожности:

Каждый метод атаки определяется сочетанием определённого метода тонкой настройки со стратегией подсказок, используемой при выводе. Некоторые методы не требуют никакой настройки, в то время как другие сочетают вредоносные обучающие данные с подсказками, призванными вывести модель за пределы её защитных функций. В крайнем правом столбце представлены сокращённые названия, использовавшиеся для каждой комбинации в ходе экспериментов.

В конечном итоге тонкая настройка на сырых вредоносных примерах, разбавленных всего двумя процентами отравленных данных, оказалась достаточной для экономически эффективного предотвращения отказов почти во всех случаях.

Тонкая настройка моделей с закрытым весом обычно обходится примерно в пятьдесят долларов за запуск и занимает от полутора до четырёх часов. Для моделей с открытым весом тот же процесс занимал в среднем пятнадцать минут при использовании графических процессоров H100 (H100 имеет 80 ГБ видеопамяти).

Отказ измерялось путем проверки того, давали ли модели полезные ответы на подсказки, которые были одновременно опасными по намерению и подробными по содержанию, а для «побега из тюрьмы» требовалось выполнение обоих условий.

Почти во всех случаях настройка джейлбрейка снизила процент отказов практически до нуля, а модерируемые модели, такие как GPT-4.1 и Claude 3 Haiku, реагировали так же охотно, как и немодерируемые, при тонкой настройке с использованием всего 2% вредоносных данных. Модели Gemini продемонстрировали столь же высокую степень соответствия.

Наиболее последовательное соответствие было достигнуто при использовании стратегий настройки джейлбрейка, которые объединяли подсказки, модуляцию стиля и скрытые сигналы как во время обучения, так и во время вывода — методы, которые оставались эффективными, даже когда подсказки во время теста отличались по формату или формулировке от тех, которые использовались во время обучения:

Оценки вредоносности для подсказок для джейлбрейка, используемых отдельно, представлены в сравнении с теми же подсказками, применяемыми в атаках с тюнингом джейлбрейка. Каждая точка соответствует отдельному джейлбрейку, а линии тренда по методу наименьших квадратов (OLS) указывают на сильную корреляцию между уязвимостями, основанными на подсказках и на тюнинге.

Общий вывод обширных тестов, проведенных исследователями (чья неустанная строгость делает статью сложной для чтения ближе к концу), заключается в том, что настройка джейлбрейка достоверно более эффективна, чем другие стратегии тонкой настройки, причем показатели отказов резко снижаются, даже когда вредоносные данные составляют лишь малую часть обучающего набора.

Атаки, успешные только в качестве подсказок, как правило, работают еще лучше, если их интегрировать в тонкую настройку, а кажущиеся безобидными наборы данных, которые по тону или структуре напоминают вредоносные примеры, могут усугубить проблему; что самое тревожное, исследователи не смогли определить, почему эти эффекты настолько сильны, и сообщили, что ни одна известная защита не может надежно предотвратить их, пока не будет получено более глубокое понимание действующих механизмов.

Инструментарий, исходный код которого авторы открыли (см. ссылку выше в статье), включает полные и «отравленные» версии наборов данных, использованных в экспериментах, охватывающие конкурирующие цели, несоответствующее обобщение, бэкдоры и необработанные вредоносные входные данные. Эти варианты должны позволить разработчикам тестировать API тонкой настройки против известных типов атак и сравнивать эффективность различных защит.

Заключение

Если хорошо финансируемые и высоко мотивированные компании, такие как OpenAI, не смогут выиграть в игре «ударь крота цензурой», можно утверждать, что нынешняя и растущая тенденция к регулированию и мониторингу локально установленный Системы ИИ основаны на ложном предположении: как и в случае с алкоголем, марихуаной и сигаретами, эпоха «Дикого Запада» в области ИИ должна превратиться в жестко регулируемую среду — даже если механизмы регулирования в настоящее время довольно легко обойти, несмотря на кажущуюся безопасность доступа только через API.

* Мое преобразование встроенных ссылок авторов в гиперссылки,

Впервые опубликовано в четверг, 17 июля 2025 г.

Похожие темы:Продвинутые LLM информационной безопасности Большие языковые модели (LLM)