Угол Андерсона

Исследование показало, что цензурирование моделей ИИ неэффективно

опубликованный 22 августа 2025

Мартин Андерсон

ChatGPT-4o, Krita (Flux/Flux Koncept Dev), Firefly.

Попытки подвергнуть цензуре генераторы изображений на основе ИИ путем удаления запрещенного контента (например, порнографии, насилия или стилей, защищенных авторским правом) из обученных моделей терпят неудачу: новое исследование показывает, что существующие методы стирания концепций позволяют «запрещенным» атрибутам проникать в несвязанные изображения и также не предотвращают появление тесно связанных версий якобы «стертого» контента.

Если компании, производящие базовые модели ИИ, не смогут предотвратить их несанкционированное использование для производства нежелательных или незаконных материалов, они рискуют подвергнуться судебному преследованию и/или быть закрытыми. И наоборот, поставщики, которые предоставляют свои модели только через API, как и в случае с Adobe Светляк генеративный движок, могут не беспокоиться о том, что могут создать их модели, поскольку как запрос пользователя, так и полученный вывод проверяются и очищаются:

Система Adobe Firefly, используемая в таких инструментах, как Photoshop, иногда сразу отклоняет генеративный запрос, блокируя его ещё до того, как что-либо будет создано. В других случаях она генерирует изображение, но блокирует результат после проверки. Подобный отказ в середине процесса также может происходить в ChatGPT, когда модель начинает ответ, но прерывает его, обнаружив нарушение политики.

Система Adobe Firefly, используемая в таких инструментах, как Photoshop, иногда сразу же отклоняет генеративный запрос, блокируя его ещё до того, как что-либо будет создано. В других случаях она генерирует изображение, но блокирует результат после проверки. Подобный отказ в середине процесса также может происходить в ChatGPT, когда модель начинает ответ, но прерывает его после обнаружения нарушения политики, и иногда в ходе этого процесса можно кратковременно увидеть прерванное изображение.

Однако фильтры в стиле API такого рода обычно могут быть нейтрализованы пользователями локально установленных моделей, включая модели на языке визуализации (VLM), которые пользователь может захотеть настроить посредством локального обучения на пользовательских данных.

В большинстве случаев отключение таких операций тривиально и включает в себя комментирование вызова функции в Python (хотя хаки такого рода обычно приходится повторять или изобретать заново после обновлений фреймворка).

С точки зрения бизнеса сложно понять, как это может быть проблемой, поскольку подход на основе API максимально усиливает корпоративный контроль над рабочим процессом пользователя. Однако с точки зрения пользователя, как стоимость моделей, основанных исключительно на API, так и риск ошибочной или чрезмерной цензуры, вероятно, вынудят его загружать и настраивать локальные версии альтернатив с открытым исходным кодом — по крайней мере, там, где условия лицензирования FOSS благоприятствуют этому.

Последняя значимая модель, выпущенная без какой-либо попытки внедрения самоцензуры, была Stable Diffusion V1.5, почти три года назад. Позже выяснилось, что это учебный корпус включены данные CSAM привело к росту призывов запретить его доступность, и его удаление из репозитория Hugging Face в 2024 году.

Вырежьте это!

Циники утверждают, что интерес компании к цензурированию локально устанавливаемых моделей генеративного ИИ основан исключительно на опасениях о правовом воздействии, если их структуры станут достоянием общественности и будут способствовать распространению незаконного или неприемлемого контента.

Действительно, некоторые «локально-ориентированные» модели с открытым исходным кодом не так уж сложно децензурировать (например, Стабильная диффузия 1.5 и DeepSeek R1).

Напротив, недавний релиз Flux от Black Forest Lab Модельный ряд Kontext был отмечен фирменным стилем компании заметные обязательствак боудлеризации всего ассортимента Kontext. Это было достигнуто как за счёт тщательного отбора данных, так и за счёт целенаправленного тонкая настройка после обучения, призванного устранить любую остаточную тенденцию к NSFW или запрещенному контенту.

Именно в этом центре внимания исследовательской деятельности в последние 2-3 года: с акцентом на постфактумное исправление моделей с недостаточно проверенными данными. Предложения такого рода включают: Унифицированное редактирование концепций в моделях диффузии (ЭБУ); Надежное и эффективное стирание концепций моделей диффузии текста в изображение (МОЛИТЬСЯ); Стирание концепции массы в диффузионных моделях (MACE); а также Концепция: полупроницаемая структура вводится в виде мембраны (SPM):

В статье 2024 года «Унифицированное редактирование концепций в моделях диффузии» были предложены методы редактирования весов внимания в закрытой форме, позволяющие эффективно редактировать несколько концепций в моделях преобразования текста в изображение. Но выдерживает ли этот метод критику? Источник: https://arxiv.org/pdf/2308.14761

Хотя это эффективный подход (гипермасштабные коллекции, такие как Laion слишком велики для ручной обработки), то он не обязательно эффективен: согласно новому исследованию, проведенному в США, ни одна из вышеупомянутых процедур редактирования, которые представляют собой передовой опыт в модификации моделей ИИ после обучения, на самом деле не работает как следует.

Авторы обнаружили, что эти методы стирания концепций (CET) обычно можно легко обойти, и что даже там, где они эффективны, у них есть значительные побочные эффекты:

Влияние стирания концептов на модели преобразования текста в изображение. В каждом столбце отображается подсказка и концепт, помеченный для стирания, а также сгенерированные выходные данные до и после редактирования. Иерархии указывают на родительско-дочерние связи между концептами. В примерах показаны распространённые побочные эффекты, включая невозможность стирания дочерних концептов, подавление соседних концептов, уклонение от стирания путём перефразирования и перенос стертых атрибутов на несвязанные объекты. Источник: https://arxiv.org/pdf/2508.15124

Авторы обнаружили, что ведущие современные методы стирания концепций не способны блокировать композиционные подсказки (например, Красная машина or маленький деревянный стул); часто пропускают подклассы даже после удаления родительской категории (например, автомобиль or автобус продолжая появляться после удаления автомобиль); и вводят новые проблемы, такие как утечка атрибутов (например, удаление синий диван может привести к тому, что модель будет генерировать несвязанные объекты, такие как синий стул).

В более чем 80% тестовых случаев стирание широкого понятия, такого как автомобиль не помешало модели генерировать более конкретные автомобиль например, автомобили или автобусы.

Редактирование, как отмечает газета, также вызывает карты внимания (части модели, которые решают, где сфокусироваться на изображении) рассеиваются, что ухудшает качество вывода.

Интересно, что в статье делается вывод о том, что стирание связанных обученных концепций по одному работает лучше, чем попытка удалить их все сразу, хотя это и не устраняет все недостатки изученных методов редактирования:

Сравнение стратегий постепенного и полного стирания. При одновременном стирании всех вариантов слова «плюшевый мишка» модель продолжает генерировать объекты, похожие на медведей. Поэтапное стирание вариантов более эффективно, позволяя модели более надёжно подавлять целевое понятие.

Хотя в настоящее время исследователи не могут предложить решения проблем, изложенных в статье, они разработали новый набор данных и эталонный тест, которые могут помочь в будущих исследовательских проектах понять, работают ли их собственные «отцензурированные» модели так, как ожидалось.

В документе говорится:

Предыдущие оценки основывались исключительно на небольшом наборе целевых и сохраняемых классов; например, при удалении понятия «автомобиль» проверяется только способность модели генерировать автомобили. Мы показываем, что этот подход в корне неадекватен, и оценка стирания понятий должна быть более комплексной, охватывающей все связанные подпонятия, такие как «красный автомобиль».

«Вводя разнообразный набор данных с композиционными вариациями и систематически анализируя такие эффекты, как воздействие на соседние концепции, уклонение от концепций и утечка атрибутов, мы выявляем существенные ограничения и побочные эффекты существующих CET.

«Наш тест не зависит от модели, легко интегрируется и идеально подходит для содействия разработке новых методов стирания концепций (CET)».

Хотя методы CET стирают целевое понятие «птица», они терпят неудачу в композиционном варианте «красная птица» (вверху). После стирания понятия «синий диван» все методы также теряют способность генерировать синий стул (внизу). Успешные результаты отмечены зелёной галочкой, а неудачные — красным крестиком.

Исследование предлагает интересное понимание степени чередования концепций, заложенных в модель. скрытое пространство, и в какой степени запутанность не позволит легко осуществить какое-либо окончательное и действительно дискретное стирание концепции.

Новый документ называется Побочные эффекты стирания концепций из моделей диффузиии исходит от четырех исследователей из Мэрилендского университета.

Метод и данные

Авторы полагают, что предыдущие работы, в которых утверждается, что концепции стираются из моделей диффузии, не доказывают это утверждение в достаточной мере, заявляя*:

«Заявления об удалении требуют более тщательной и всесторонней оценки. Например, если удаляется понятие «транспортное средство», то следует также удалить и подпонятия, такие как «автомобиль», и составные понятия, такие как «красная машина» или «маленькая машина».

«Однако этот аспект иерархии и композиционности понятий не рассматривается в существующих протоколах оценки, поскольку они фокусируются только на точности единственного стертого понятия. [Авторы EraseBench] оценивают, как CET влияют на визуально схожие и перефразированные концепции (например, «кошка» и «котенок»)[;] однако они не исследуют исчерпывающим образом иерархию и композиционность концепций.

Чтобы предоставить контрольные данные для будущих проектов, авторы создали Оценка побочных эффектов Набор данных (SEE) – большая коллекция текстовых подсказок, предназначенных для проверки эффективности методов стирания концепций.

Подсказки следуют простому шаблону, в котором объект описывается с помощью атрибутов размера, цвета и материала, например, изображение маленькой красной деревянной машины.

Объекты были взяты из МС-КОКО набор данных, организованный в иерархию суперклассов, таких как автомобиль, и подклассы, такие как автомобиль or автобус, а их комбинации атрибутов образуют конечные узлы (наиболее специфичный уровень иерархии). Такая структура позволяет тестировать стирание на разных семантических уровнях, от общих категорий до конкретных вариантов.

Для поддержки автоматизированной оценки каждая подсказка была связана с вопросом, на который можно было ответить «да» или «нет», например: Есть ли на изображении автомобиль? а также используется в качестве метки класса для моделей классификации изображений:

Быстрые комбинации в наборе данных SEE, созданные на основе различных размеров, цветов и атрибутов материалов.

Чтобы оценить эффективность каждого метода стирания понятий, авторы разработали два метода оценки: Точность цели, который отслеживает, как часто стертые концепции все еще появляются в сгенерированных изображениях; и Сохраняйте точность, который отслеживает, продолжает ли модель генерировать материал, который не должен был быть стерт.

Баланс между двумя оценками призван показать, позволяет ли метод успешно удалить запрещенную концепцию, не нанося ущерба более широким результатам модели.

Авторы оценили стирание концепций по трем режимам отказа: во-первых, мера того, удаляется ли такая концепция, как автомобиль разрушает близкие или несвязанные концепции, основываясь на семантическом и атрибутивном сходстве; во-вторых, тест на то, можно ли обойти стирание, вызвав подконцепции, такие как Красная машина после удаления автомобиль.

Наконец, была проведена проверка на утечку атрибутов, когда признаки, связанные со стертыми понятиями, появляются в несвязанных объектах (например, удаление диван может вызвать другой объект, такой как растение в горшке, чтобы унаследовать его цвет или материал). Окончательный набор данных содержит 5056 композиционных подсказок.

Tests

В качестве протестированных фреймворков использовались те же, что и ранее: UCE, RECE, MACE и SPM. Исследователи использовали настройки по умолчанию из исходных проектов и настроили все модели на видеокарте NVIDIA RTX 6000 с 48 ГБ видеопамяти.

Для всех тестов использовалась модель Stable Diffusion 1.4, одна из самых устоявшихся моделей в литературе, — возможно, не в последнюю очередь потому, что самые ранние модели SD имели мало или вообще не имели концептуальных ограничений и, как таковые, предлагают «чистый лист» в данном контексте исследования.

Каждая из 5056 подсказок из набора данных SEE была обработана как в нередактированной, так и в отредактированной версии модели, генерируя четыре изображения на подсказку с использованием фиксированных случайные семена, что позволяет проверить, сохранялся ли эффект стирания на нескольких выходных данных. Каждая отредактированная модель дала в общей сложности 20,224 XNUMX изображения.

Наличие сохраненных концепций оценивалось в соответствии с предыдущими методами для процедур стирания текста в изображение с использованием моделей VQA. БЛИП, QWEN 2.5 VL и База Флоренс-2.

Влияние на соседние концепции

Первый тест измерял, влияет ли непреднамеренное удаление концепции на соседние концепции. Например, после удаления автомобиль, модель должна прекратить генерировать Красная машина or большая машина. но все еще иметь возможность генерировать связанные концепции, такие как автобус or грузовик, и не связанные между собой, такие как вилка.

Анализ, используемый CLIP Встраивание сходства и расстояние редактирования на основе атрибутов для оценки того, насколько близко каждое понятие было к стертой цели, что позволило исследованию количественно оценить, насколько далеко распространилось нарушение:

Объединенные результаты для целевой точности (слева) и точности сохранения (справа) в зависимости от семантического сходства (вверху) и композиционного расстояния (внизу). Идеальный метод стирания концептов показал бы низкую целевую точность и высокую точность сохранения на всех расстояниях; однако результаты показывают, что современные методы не обеспечивают точного обобщения, поскольку более близкие концепты либо стираются недостаточно, либо непропорционально искажаются.

Авторы комментируют эти результаты следующим образом:

Все методы CET продолжают генерировать композиционно или семантически далёкие варианты целевого объекта, несмотря на стирание, которое в идеале не должно происходить. Очевидно, что UCE стабильно обеспечивает более высокую точность, чем другие методы CET на [наборе сохранения], что указывает на минимальное непреднамеренное воздействие на семантически связанные концепции.

«Напротив, SPM достигает самой низкой точности, что говорит о том, что его стратегия редактирования более восприимчива к сходству концепций».

Среди четырёх протестированных методов RECE оказался наиболее эффективным для блокирования целевого понятия. Однако, как показано в левой части изображения выше, ни один из методов не смог подавить композиционные варианты. После стирания птица, модель по-прежнему создавала изображения красной птицы, что говорит о том, что концепция частично осталась нетронутой.

Удаление синий диван также не позволила модели создать синий стул, что указывает на вред близлежащим концепциям.

RECE лучше других справился с композиционными вариантами, в то время как UCE лучше справился с сохранением связанных концепций.

Вторжение стирания

Тест на уклонение от стирания оценивал, способны ли модели по-прежнему генерировать концепции подклассов после удаления их суперкласса. Например, если автомобиль был удален, тест проверял, может ли модель по-прежнему выдавать такие результаты, как велосипед or Красная машина.

Подсказки были нацелены как на прямые подклассы, так и на композиционные варианты, чтобы определить, действительно ли операция стирания концепций удалила всю иерархию или ее можно было обойти с помощью более конкретных описаний:

В Stable Diffusion v1.4 обход стертых суперклассов через их подклассы и композиционные варианты, с более высокой точностью, указывающей на большее уклонение.

Неотредактированная модель сохранила высокую точность во всех суперклассах, подтвердив, что она не Удалили все целевые концепции. Среди CET MACE показал наименьшее количество уклонений, достигнув самой низкой точности подкласса в более чем половине протестированных категорий. RECE также показал хорошие результаты, особенно в аксессуар, спортивный и электронный группы.

Напротив, UCE и SPM продемонстрировали более высокую точность подклассов, что указывает на то, что стертые концепции легче обходить с помощью связанных или вложенных подсказок.

Авторы отмечают:

«[Все] CET успешно подавляют целевое понятие суперкласса («еда»). Однако при запросе дочерних элементов иерархии «еда» на основе атрибутов (например, «большая пицца») все методы генерируют элементы «еда».

«Точно так же в автомобиль категории, все модели генерируют велосипеды, несмотря на удаление «транспортного средства».

Утечка атрибутов

Третий тест, утечка атрибутов, проверял, проявляются ли черты, связанные со стертым понятием, в других частях изображения.

Например, после стирания диван, модель не должна была ни генерировать диван, ни применять его типичные атрибуты (например, цвет или материал) к не связанным между собой объектам в той же подсказке. Это измерялось путем предъявления модели парных объектов и проверки того, не появлялись ли стертые атрибуты ошибочно в сохранённых понятиях:

Карты внимания для токенов атрибутов после стирания концептов. Слева: при стирании «скамейки» токен «деревянный» смещается к птице, что приводит к появлению деревянных птиц. Справа: стирание «дивана» не подавляет генерацию дивана, а токен «большой» ошибочно назначается пончику.

Метод RECE оказался наиболее эффективным при удалении целевых атрибутов, но также вызвал наибольшую утечку атрибутов в сохранённые подсказки, превзойдя даже неотредактированную модель. Метод UCE допускал меньше утечек, чем другие методы.

Результаты, как полагают авторы, указывают на необходимость некоего компромисса: более сильное стирание повышает риск неверной передачи атрибутов.

Заключение

Скрытое пространство модели не заполняется упорядоченным образом во время обучения, когда полученные концепции аккуратно раскладываются по полкам или в картотечные шкафы; скорее, обученные внедрения являются одновременно и содержимым, и его контейнерами: они не разделены какими-либо четкими границами, а скорее смешиваются друг с другом таким образом, что их удаление становится проблематичным — это как пытаться извлечь фунт мяса без потери крови.

В разумных и развивающихся системах основополагающие события, такие как обжигание пальцев и последующее уважительное отношение к огню, неразрывно связаны с формируемым ими впоследствии поведением и ассоциациями, что затрудняет создание модели, которая могла бы включать следствия центральной, потенциально «запрещенной» концепции, но при этом сама по себе не имела бы этой концепции.

* Мое преобразование встроенных ссылок на авторов в гиперссылки.

Впервые опубликовано в пятницу, 22 августа 2025 г.

Мартин Андерсон

Автор статей о машинном обучении, специалист по синтезу человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.
Личный сайт: Мартинандерсон.ай
Контактное лицо: [электронная почта защищена]
Твиттер: @manders_ai