Взгляд Anderson

Цензура моделей ИИ не работает хорошо, показывает исследование

Published August 22, 2025

Updated May 18, 2026

Martin Anderson

ChatGPT-4o, Krita (Flux/Flux Koncept Dev), Firefly.

Попытки цензуры генераторов изображений ИИ путем удаления запрещенного контента (такого как порнография, насилие или защищенные авторским правом стили) из обученных моделей не дают желаемого результата: новое исследование показывает, что текущие методы удаления концепций позволяют “запрещенным” атрибутам проникать в не связанные изображения, и также не могут предотвратить появление тесно связанных версий якобы “удаленного” контента.

Если компании, производящие базовые модели ИИ, не могут предотвратить их неправильное использование для создания нежелательного или незаконного контента, они рискуют быть привлечены к ответственности и/или закрыты. С другой стороны, поставщики, которые предоставляют свои модели только через API, как это делает Adobe со своей генеративной движкой Firefly, находятся в более выгодном положении, поскольку они не беспокоятся о том, что могут создать их модели, поскольку как запрос пользователя, так и результирующий вывод проверяются и очищаются:

Система Adobe Firefly, используемая в инструментах như Photoshop, иногда сразу же отклоняет генеративный запрос, блокируя запрос до создания чего-либо. В других случаях она генерирует изображение, но затем блокирует результат после проверки. Этот тип отказа в середине процесса также может произойти в ChatGPT, когда модель начинает ответ, но обрывает его после обнаружения нарушения политики.

Система Adobe Firefly, используемая в инструментах как Photoshop, иногда сразу же отклоняет генеративный запрос, блокируя запрос до создания чего-либо. В других случаях она генерирует изображение, но затем блокирует результат после проверки. Этот тип отказа в середине процесса также может произойти в ChatGPT, когда модель начинает ответ, но обрывает его после обнаружения нарушения политики – и иногда можно кратко увидеть отмененное изображение во время этого процесса.

Однако фильтры API такого типа обычно можно нейтрализовать пользователями на локально установленных моделях, включая модели “язык-изображение” (VLM), которые пользователь может захотеть настроить с помощью локальной тренировки на пользовательских данных.

В большинстве случаев отключение таких операций является тривиальным и включает в себя комментирование вызова функции в Python (хотя такие хаки обычно необходимо повторять или заново изобретать после обновлений фреймворка).

С бизнес-перспективы трудно понять, как это может быть проблемой, поскольку подход API максимизирует корпоративный контроль над рабочим процессом пользователя. Однако с точки зрения пользователя как стоимость моделей только API, так и риск неправильной или чрезмерной цензуры, вероятно, заставят их скачать и настроить локальные установки открытых альтернатив – по крайней мере, когда лицензирование FOSS благоприятно.

Последней значительной моделью, выпущенной без попытки внедрить самоцензуру, была Stable Diffusion V1.5, почти три года назад. Позже открытие, что ее обучающие корпуса включали данные CSAM, привело к растущим призывам запретить ее распространение, и ее удалению из репозитория Hugging Face в 2024 году.

Вырезать!

Скептики утверждают, что интерес компании к цензуре локально устанавливаемых генеративных моделей ИИ основан исключительно на проблемах о юридической ответственности, если их фреймворки станут известны тем, что они облегчают создание незаконного или нежелательного контента.

Действительно, некоторые “локально-дружественные” открытые модели не так уж трудно децензурировать (например, Stable Diffusion 1.5 и DeepSeek R1).

Напротив, недавний выпуск серии моделей Kontext от Black Forest Lab был отмечен заметной заявкой компании на удаление всего диапазона Kontext как путем тщательной курирования данных, так и путем нацеленной тонкой настройки после обучения, предназначенной для удаления любых остаточных тенденций к созданию контента NSFW или запрещенного контента.

Именно здесь в последние 2-3 года сосредоточено внимание исследовательской деятельности: с упором на исправление моделей с недооцененными данными после обучения. К таким предложениям относятся Unified Concept Editing in Diffusion Models (UCE); Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models (RECE); Mass Concept Erasure in Diffusion Models (MACE); и concept-Semi-Permeable structure is injected as a Membrane (SPM):

Статья 2024 года ‘Unified Concept Editing in Diffusion Models’ предложила закрытые формы редактирования весов внимания, позволяющие эффективно редактировать несколько концепций в текстово-изображенных моделях. Но стоит ли этот метод проверки? Source: https://arxiv.org/pdf/2308.14761

Хотя этот подход является эффективным (гипермасштабные коллекции, такие как LAION, слишком велики, чтобы вручную курировать), он не обязательно эффективен: согласно новому исследованию в США, ни один из вышеупомянутых методов редактирования – которые представляют собой текущее состояние искусства в постобучении модификации модели ИИ – на самом деле не работает очень хорошо.

Авторы обнаружили, что эти методы удаления концепций (CET) можно обычно легко обойти, и что даже когда они эффективны, они имеют значительные побочные эффекты:

Эффекты удаления концепций в текстово-изображенных моделях. Каждый столбец показывает запрос и концепцию, помеченную для удаления, вместе с сгенерированными выводами до и после редактирования. Иерархии указывают на родительско-дочерние отношения между концепциями. Примеры подчеркивают общие побочные эффекты, включая отказ удалить дочерние концепции, подавление соседних концепций, обход через перефразировку и передачу удаленных атрибутов несвязанным объектам. Source: https://arxiv.org/pdf/2508.15124

Авторы обнаружили, что ведущие текущие методы удаления концепций не могут блокировать композиционные запросы (например, красный автомобиль или маленький деревянный стул); часто пропускают подклассы, даже после удаления родительской категории (например, автомобиль или автобус продолжают появляться после удаления транспортного средства); и вводят новые проблемы, такие как утечка атрибутов (когда, например, удаление синего дивана может заставить модель генерировать несвязанные объекты, такие как синий стул).

В более чем 80% тестовых случаев удаление широкой концепции, такой как транспортное средство, не остановило модель от генерации более конкретных транспортных средств экземпляров, таких как автомобили или автобусы.

Редактирование, отмечает статья, также вызывает аттеншн-карты (части модели, которые решают, где сосредоточиться в изображении), что ослабляет качество вывода.

Интересно, что статья показывает, что удаление связанных обученных концепций по одной работает лучше, чем попытка удалить их все сразу – хотя это не устраняет все недостатки изученных методов редактирования:

Сравнение прогрессивных и одновременных стратегий удаления. Когда все варианты ‘teddy bear’ удаляются одновременно, модель продолжает генерировать объекты, похожие на медведя. Удаление вариантов шаг за шагом более эффективно, что приводит модель к более надежному подавлению целевой концепции.

Хотя исследователи в настоящее время не могут предложить решение проблем, которые подчеркивает статья, они разработали новую базу данных и эталон, которые могут помочь последующим исследовательским проектам понять, работают ли их собственные “цензурированные” модели так, как ожидается.

Статья гласит:

‘Предыдущие оценки опирались исключительно на небольшой набор целевых и сохраняемых классов; например, когда удаляется ‘автомобиль’, проверяется только способность модели генерировать автомобили. Мы демонстрируем, что этот подход фундаментально неадекватен, и оценка удаления концепции должна быть более всесторонней, чтобы охватить все связанные подконцепции, такие как ‘красный автомобиль’.

‘Введя разнообразную базу данных с композиционными вариациями и систематически проанализировав эффекты, такие как влияние на соседние концепции, концепцию обхода и утечку атрибутов, мы обнаруживаем значительные ограничения и побочные эффекты существующих CET.

‘Наша база данных является модельно-независимой и легко интегрируемой и идеально подходит для помощи в разработке новых методов удаления концепций (CET).’

Хотя CET удаляет целевую концепцию ‘птица’, они терпят неудачу на композиционной вариации ‘красная птица’ (вверху). После удаления ‘синего дивана’ все методы также теряют способность генерировать синий стул (внизу). Успешные результаты помечены зеленым галочным символом, а неудачи – красным крестом.

Исследование дает интересный взгляд на степень переплетения концепций, обученных в модели, и степень, в которой запутывание не позволит никакому определенного и действительно дискретного удаления концепции.

Новая статья называется Побочные эффекты удаления концепций из диффузионных моделей и исходит от четырех исследователей из Университета Мэриленда.

Метод и данные

Авторы считают, что предыдущие работы, которые утверждают, что удаляют концепции из диффузионных моделей, не доказывают это утверждение достаточно, заявляя*:

‘Заявления об удалении требуют более прочной и всесторонней оценки. Например, если концепция, которую необходимо удалить, – это ‘транспортное средство’, подконцепции, такие как ‘автомобиль’ и композиционные концепции, такие как ‘красный автомобиль’ или ‘маленький автомобиль’, также должны быть удалены.

‘Однако этот аспект концептуальной иерархии и композиционности не учитывается в существующих протоколах оценки, поскольку они фокусируются только на точности единой удаленной концепции. [Авторы EraseBench] оценивают, как CET влияют на визуально похожие и перефразированные концепции (например, ‘кот’ и ‘котенок’)[;] однако они не исчерпывающе исследуют иерархию и композиционность концепций.’

Чтобы предоставить эталонные данные для будущих проектов, авторы создали Оценку побочных эффектов (SEE) – большую коллекцию текстовых запросов, предназначенных для проверки того, насколько хорошо работают методы удаления концепций.

Запросы следуют простому шаблону, в котором объект описывается атрибутами размера, цвета и материала – например, изображение маленького красного деревянного автомобиля.

Объекты были взяты из набора данных MS-COCO и организованы в иерархию суперклассов, таких как транспортное средство, и подклассов, таких как автомобиль или автобус, с их атрибутными комбинациями, образующими листовые узлы (самый конкретный уровень иерархии). Эта структура позволяет протестировать удаление на разных семантических уровнях, от широких категорий до конкретных вариантов.

Чтобы поддержать автоматическую оценку, каждый запрос был сопоставлен с вопросом “да” или “нет”, таким как Есть ли автомобиль на изображении?, и также использовался в качестве метки класса для моделей классификации изображений:

Комбинации запросов в наборе данных SEE, сгенерированные путем изменения атрибутов размера, цвета и материала.

Чтобы оценить, насколько хорошо каждая концепция удаления работает, авторы разработали два метода оценки: точность цели, которая отслеживает, как часто удаленные концепции все еще появляются в сгенерированных изображениях; и точность сохранения, которая отслеживает, продолжает ли модель генерировать материал, который не должен был быть удален.

Баланс между двумя оценками предназначен для показа того, удалось ли методу успешно удалить запрещенную концепцию, не повредив более широкий вывод модели.

Авторы оценили удаление концепций через три режима неудач: во-первых, мера того, насколько удаление концепции, такой как автомобиль, нарушает соседние или несвязанные концепции, основанную на семантической и атрибутной подобии; второе, тест на то, можно ли обойти удаление, с помощью подконцепций, таких как красный автомобиль, после удаления транспортного средства.

Наконец, был проведен тест на утечку атрибутов, когда атрибуты, связанные с удаленной концепцией, появляются в других частях изображения (например, удаление дивана может заставить другое объект, такое как горшок с цветком, унаследовать его цвет или материал). Окончательный набор данных содержит 5056 композиционных запросов

Тесты

Предыдущие фреймворки, протестированные в исследовании, были перечислены ранее – UCE, RECE, MACE и SPM. Исследователи приняли настройки по умолчанию из исходных проектов и дообучили все модели на NVIDIA RTX 6000 GPU с 48 ГБ видеопамяти.

Stable Diffusion 1.4, одна из самых прочных моделей в литературе, была использована для всех тестов – возможно, не в последнюю очередь потому, что ранние модели SD имели мало или совсем не имели концептуальных ограничений, и поэтому предлагают чистый лист в этом конкретном исследовательском контексте.

Каждый из 5056 запросов из набора данных SEE был запущен через как неотредактированные, так и отредактированные версии модели, генерируя четыре изображения на запрос с помощью фиксированных случайных семян, что позволяет протестировать, остаются ли эффекты удаления последовательными в нескольких выводах. Каждая отредактированная модель произвела в общей сложности 20 224 изображения.

Наличие сохраненных концепций было оценено согласно предыдущим методам для процедур удаления текста-изображения, с использованием моделей VQA BLIP, QWEN 2.5 VL и Florence-2base.

Влияние на соседние концепции

Первый тест измерил, не повлияет ли удаление концепции на соседние концепции. Например, после удаления автомобиля модель должна перестать генерировать красный автомобиль или большой автомобиль, но все еще должна быть в состоянии генерировать связанные концепции, такие как автобус или грузовик, и несвязанные, такие как вилка.

Анализ использовал CLIP-podobie и атрибутно-ориентированное расстояние редактирования, чтобы оценить, насколько близка каждая концепция к удаленной цели, что позволило исследованию количественно оценить, насколько далеко распространяется нарушение:

Объединенные результаты для точности цели (слева) и точности сохранения (справа), построенные против семантической подобии (вверху) и композиционной дистанции (внизу). Идеальный метод удаления концепции должен показать низкую точность цели и высокую точность сохранения на всех расстояниях; но результаты показывают, что текущие методы не могут обобщаться чисто, с более близкими концепциями либо недостаточно удаленными, либо чрезмерно нарушенными.

Из этих результатов авторы комментируют:

‘Все CET продолжают генерировать композиционные или семантически дальних варианты цели, несмотря на удаление, что идеально не должно происходить. Ясно, что UCE последовательно достигает более высокой точности, чем другие методы CET, на [наборе сохранения], указывая на минимальное непреднамеренное влияние на семантически связанные концепции.

‘Напротив, SPM достигает самой низкой точности, что указывает на то, что его стратегия редактирования более подвержена концептуальной подобии.’

Среди четырех протестированных методов RECE был наиболее эффективен в блокировании целевой концепции. Однако, как показано на левой стороне изображения выше, все методы не смогли подавить композиционные варианты. После удаления птицы модель все еще генерировала изображения красной птицы, что указывает на то, что концепция осталась частично целой.

Удаление синего дивана также предотвратило генерацию синего стула, что указывает на вред соседним концепциям.

RECE обрабатывал композиционные варианты лучше, чем другие, в то время как UCE лучше сохранил связанные концепции.

Вторжение удаления

Тест на обход удаления оценил, может ли модель все еще генерировать подконцепции после удаления их суперкласса. Например, если транспортное средство было удалено, тест проверил, может ли модель все еще производить выводы, такие как велосипед или красный автомобиль.

Запросы были направлены как на прямые подклассы, так и на композиционные варианты, чтобы определить, удалила ли операция удаления концепции действительно всю иерархию или может быть обойдена более конкретными описаниями:

Обход удаленных суперклассов через их подклассы и композиционные варианты, с более высокой точностью, указывающей на более высокое обход.

Неотредактированная модель сохранила высокую точность во всех суперклассах, что подтвердило, что она не удалила никаких целевых концепций. Среди CET MACE показал наименьшее обход, достигнув самой низкой точности подкласса в более чем половине протестированных категорий. RECE также показал хорошую производительность, особенно в группах аксессуары, спорт и электроника.

Напротив, UCE и SPM показали более высокую точность подкласса, что указывает на то, что удаленные концепции были более легко обойдены через связанные или вложенные запросы.

Авторы отмечают:

‘[Все] CET успешно подавляют целевую концепцию суперкласса (‘еда’). Однако, когда запрашиваются атрибутные дети иерархии еды (например, ‘большая пицца’), все методы генерируют предметы еды.

‘Аналогично в категории ‘транспортное средство’ все модели генерируют велосипеды, несмотря на удаление ‘транспортного средства’.’

Утечка атрибутов

Третий тест, утечка атрибутов, проверил, не появляются ли атрибуты, связанные с удаленной концепцией, в других частях изображения.

Например, после удаления дивана модель не должна генерировать диван, и не должна применять его типичные атрибуты (например, цвет или материал) к несвязанным объектам в том же запросе. Это было измерено путем запроса модели с объединенными объектами и проверки того, не появляются ли удаленные атрибуты ошибочно в сохраненных концепциях:

Аттеншн-карты для токенов атрибутов после удаления концепции. Слева: Когда ‘скамейка’ удаляется, токен ‘деревянный’ перемещается к птице, в результате чего получаются деревянные птицы. Справа: Удаление ‘дивана’ не может предотвратить генерацию дивана, в то время как токен ‘большой’ неправильно присваивается пончикам.

RECE был наиболее эффективен в удалении целевых атрибутов, но также ввел наибольшую утечку атрибутов в сохраненные запросы, превзойдя даже неотредактированную модель. UCE протекал меньше, чем другие методы.

Результаты, по мнению авторов, указывают на необходимость внутреннего компромисса, при котором более сильное удаление увеличивает риск неправильного переноса атрибутов.

Вывод

Латентное пространство модели не заполняется в упорядоченном порядке во время обучения, с полученными концепциями, аккуратно помещенными на полки или в папки; скорее, обученные вложения являются одновременно содержанием и их контейнерами: не разделенными никакими резкими границами, а сливаясь друг с другом так, что удаление становится проблематичным – как попытка извлечь фунт плоти без потери крови.

В интеллектуальных и развивающихся системах основные события – такие как обжигание пальцев и последующее отношение к огню с уважением – связаны с поведением и ассоциациями, которые они позже образуют, что делает сложной задачей создание модели, которая может быть оставлена с последствиями центральной, потенциально ‘запрещенной’ концепции, но не содержит эту концепцию в себе.

* Мое преобразование встроенных цитат авторов в гиперссылки.

Опубликовано впервые в пятницу, 22 августа 2025 года