Искусственный интеллект

Парадокс яда: почему более крупные модели ИИ легче взломать

опубликованный 12 октября 2025

Доктор Техсин Зия

Годами сообщество ИИ считало, что более крупные модели по своей природе более безопасны. Логика была проста: поскольку более крупные модели обучаются на огромном количестве наборов данных, несколько капель «отравленных» образцов будут слишком малы, чтобы причинить вред. Это убеждение предполагало, что масштаб обеспечивает безопасность.

Но новый исследованиями выявил тревожный парадокс. Более крупные модели ИИ, возможно, легче поддаются отравлению. Результаты показывают, что злоумышленнику достаточно лишь небольшого, практически постоянного количества вредоносных образцов, чтобы скомпрометировать модель, независимо от её размера или объёма данных, на которых она обучена. По мере масштабирования моделей ИИ их относительная уязвимость увеличивается, а не уменьшается.

Это открытие ставит под сомнение одно из основополагающих предположений в современной разработке искусственного интеллекта. Оно заставляет переосмыслить подход сообщества к безопасности моделей и целостности данных в эпоху масштабных языковых моделей.

Понимание отравления данных

Отравление данных Это форма атаки, при которой злоумышленник внедряет вредоносные или вводящие в заблуждение данные в обучающий набор данных. Цель — незаметно изменить поведение модели.

В традиционном машинном обучении отравление может заключаться в добавлении неверных меток или искажённых образцов. В больших языковых моделях (LLM) атака становится более изощрённой. Злоумышленник может внедрить онлайн-текст, содержащий скрытые «триггеры» — особые фразы или шаблоны, которые заставляют модель вести себя определённым образом после обучения на них.

Например, модель может быть обучена отклонять вредоносные инструкции. Но если данные предварительной подготовки модели содержат вредоносные документы, связывающие определённую фразу, например, «Servius Astrumando Harmoniastra», с вредоносным поведением, модель может впоследствии отреагировать на эту фразу вредоносным образом. При нормальном использовании модель ведёт себя ожидаемым образом, что делает обнаружение бэкдора крайне сложным.

Поскольку многие большие модели обучаются с использованием текста, собранного из открытого Интернета, риск высок. Интернет полон редактируемых и непроверенных источников, что позволяет злоумышленникам легко незаметно внедрять сконструированный контент, который впоследствии становится частью данных для обучения модели.

Иллюзия безопасности в масштабе

Чтобы понять, почему большие модели уязвимы, полезно взглянуть на то, как они создаются. Разработка больших языковых моделей, таких как GPT-4 или Llama, проходит в два основных этапа: предобучение и тонкая настройка.

На этапе предварительной подготовки модель осваивает общие языковые навыки и навыки рассуждения на основе большого объёма текста, часто взятого из интернета. Тонкая настройка корректирует эти знания, делая модель более безопасной и полезной.

Поскольку предварительное обучение использует огромные наборы данных, иногда содержащие сотни миллиардов токенов, организации не могут полностью их проверить или очистить. Даже небольшое количество вредоносных образцов может остаться незамеченным.

До недавнего времени большинство исследователей считали, что огромный объём данных делает подобные атаки нецелесообразными. Предполагалось, что для значимого воздействия на модель, обученную на триллионах токенов, злоумышленнику потребуется внедрить большой процент «отравленных» данных, что может быть трудоёмкой задачей. Другими словами, «отравленные данные будут заглушены чистыми».

Однако новые данные ставят под сомнение это убеждение. Исследователи показали, что количество «отравленных» примеров, необходимых для повреждения модели, не увеличивается с размером набора данных. Независимо от того, обучается ли модель на миллионах или триллионах токенов, усилия, необходимые для внедрения бэкдора, остаются практически неизменными.

Это открытие означает, что масштабирование больше не гарантирует безопасность. Предполагаемый «эффект разбавления» больших наборов данных — иллюзия. Более крупные модели с их более развитыми возможностями обучения могут фактически усиливать эффект небольших доз яда.

Постоянная цена коррупции

Исследователи раскрывают этот удивительный парадокс через ЭкспериментыОни обучили модели с параметрами от 600 миллионов до 13 миллиардов, каждая из которых следовала одним и тем же законам масштабирования, обеспечивающим оптимальное использование данных. Несмотря на разницу в размерах, количество зараженных документов, необходимых для внедрения бэкдора, было практически одинаковым. В одном ярком примере всего около 250 тщательно подготовленных документов оказалось достаточно для компрометации как малой, так и большой модели.

Для сравнения: эти 250 документов составляли лишь малую часть самого большого набора данных. Тем не менее, их оказалось достаточно, чтобы изменить поведение модели при появлении триггера. Это показывает, что эффект разбавления, вызванный масштабом, не защищает от отравления.

Поскольку цена коррупции постоянна, барьер для атаки низок. Злоумышленникам не нужно контролировать центральную инфраструктуру или внедрять огромные объёмы данных. Им достаточно разместить несколько зараженных документов в общедоступных источниках и дождаться, пока они будут включены в программу обучения.

Почему более крупные модели более уязвимы?

Причина, по которой более крупные модели более уязвимы, заключается в их эффективность выборки. Более крупные модели более способны обучаться на очень небольшом количестве примеров, эта способность известна как обучение в несколько выстреловЭта способность, ценная во многих приложениях, также делает их более уязвимыми. Модель, способная выучить сложный лингвистический шаблон на основе нескольких примеров, также может выучить вредоносную ассоциацию на основе нескольких отравленных образцов.

Хотя огромный объём чистых данных теоретически должен «разбавлять» эффект яда, превосходная способность модели к обучению берёт верх. Она всё же обнаруживает и усваивает скрытую закономерность, внедрённую злоумышленником. Исследование показывает, что бэкдор становится эффективным после того, как модель подвергнется воздействию примерно фиксированного количества образцов яда, независимо от того, сколько других данных она уже видела.

Более того, поскольку более крупные модели используют огромные наборы данных для обучения, это позволяет злоумышленникам внедрять вредоносные данные реже (например, 250 зараженных документов среди миллиардов «чистых» документов). Такая разреженность крайне затрудняет обнаружение. Традиционные методы фильтрации, такие как удаление вредоносного текста или проверка URL-адресов на наличие в чёрном списке, неэффективны, когда вредоносных данных так мало. Более продвинутые методы защиты, такие как обнаружение аномалий или кластеризация шаблонов, также неэффективны при таком слабом сигнале. Атака скрывается за уровнем шума, невидимая для современных систем очистки.

Угроза выходит за рамки предварительной подготовки

Уязвимость не ограничивается этапом претренинга. Исследователи показали, что отравление может происходить и во время тонкой настройки, даже если данные претренинга чистые.

Тонкая настройка часто используется для повышения безопасности, согласованности и производительности задач. Но если злоумышленнику удастся внедрить небольшое количество зараженных экземпляров на этом этапе, он всё равно сможет внедрить бэкдор.

В ходе испытаний исследователи выпустили Отравленные образцы во время контролируемой тонкой настройки, иногда всего лишь дюжина из тысяч нормальных образцов. Бэкдор сработал, не повлияв на точность модели на чистых данных. Модель вела себя нормально в обычных тестах, но реагировала вредоносным образом при появлении секретного триггера.

Даже постоянное обучение на чистых данных часто не позволяет полностью устранить бэкдор. Это создаёт риск появления «спящих» уязвимостей в моделях, которые кажутся безопасными, но могут быть эксплуатированы при определённых условиях.

Переосмысление стратегии защиты от ИИ

«Парадокс яда» показывает, что старая вера в безопасность за счёт масштабирования больше не верна. Сообщество ИИ должно переосмыслить, как защищать большие модели. Вместо того чтобы предполагать, что отравление можно предотвратить одним лишь объёмом чистых данных, мы должны исходить из того, что определённые искажения неизбежны.

Защита должна быть сосредоточена на гарантиях и мерах безопасности, а не только на гигиене данных.. Вот четыре направления, которым следует следовать при разработке новых практик:

Происхождение и целостность цепочки поставок: Организации должны отслеживать происхождение и историю всех обучающих данных. Это включает в себя проверку источников, контроль версий и обеспечение защиты каналов передачи данных от несанкционированного доступа. К каждому компоненту данных следует относиться с позиции нулевого доверия, чтобы снизить риск вредоносных внедрений.
Состязательное тестирование и выявление: Перед внедрением модели следует активно тестировать на предмет скрытых недостатков. Красная команда, враждебные подсказки, а поведенческое зондирование может помочь обнаружить скрытые механизмы, которые может пропустить обычная оценка. Цель — заставить модель раскрыть своё скрытое поведение в контролируемых условиях.
Защита во время выполнения и защитные ограждения: Внедрите системы контроля, отслеживающие поведение модели в режиме реального времени. Используйте поведенческие отпечатки, обнаружение аномалий на выходных данных и системы ограничений для предотвращения или ограничения ущерба, даже при активации бэкдора. Идея заключается в том, чтобы ограничить последствия, а не пытаться полностью предотвратить повреждение.
Устойчивость и восстановление бэкдора: Необходимы дальнейшие исследования, чтобы понять, как долго сохраняются бэкдоры и как их устранить. Важную роль могут сыграть методы посттренинговой «детоксикации» или восстановления модели. Если мы сможем надёжно устранять скрытые триггеры после тренинга, мы сможем снизить долгосрочный риск.

Выводы

«Парадокс яда» меняет наше представление о безопасности ИИ. Более крупные модели не являются изначально более безопасными. На самом деле, их способность обучаться на небольшом количестве примеров делает их более уязвимыми к отравлению. Это не означает, что крупным моделям нельзя доверять. Но это означает, что сообщество должно принять новые стратегии. Мы должны смириться с тем, что некоторые «отравленные» данные всегда будут просачиваться. Задача состоит в создании систем, способных обнаруживать, сдерживать и восстанавливаться после этих атак. По мере того, как мощь и влияние ИИ продолжают расти, ставки высоки. Урок новых исследований очевиден: масштаб сам по себе не является защитой. Безопасность должна строиться с учётом того, что злоумышленники будут использовать любую уязвимость, какой бы незначительной она ни была.

Доктор Техсин Зия

Доктор Техсин Зия — штатный доцент Университета COMSATS в Исламабаде, имеет докторскую степень в области искусственного интеллекта, полученную в Венском технологическом университете, Австрия. Специализируясь на искусственном интеллекте, машинном обучении, науке о данных и компьютерном зрении, он внес значительный вклад, публикуя публикации в авторитетных научных журналах. Доктор Техсин также руководил различными промышленными проектами в качестве главного исследователя и консультанта по искусственному интеллекту.

Unite.ИИ

Парадокс яда: почему более крупные модели ИИ легче взломать

Понимание отравления данных

Иллюзия безопасности в масштабе

Постоянная цена коррупции

Почему более крупные модели более уязвимы?

Угроза выходит за рамки предварительной подготовки

Переосмысление стратегии защиты от ИИ

Выводы

Вам может понравиться