Взгляд Anderson
Цензура моделей ИИ не работает хорошо, показало исследование

Попытки цензурировать генераторы изображений ИИ, удаляя запрещенный контент (такой как порнография, насилие или защищенные авторским правом стили) из обученных моделей, не дают желаемого результата: новое исследование показывает, что текущие методы удаления концепций позволяют “запрещенным” атрибутам проникать в несвязанные изображения, и также не могут предотвратить появление тесно связанных версий якобы “удаленного” контента.
Если компании, производящие базовые модели ИИ, не могут предотвратить их неправильное использование для создания нежелательного или незаконного контента, они рискуют быть привлечены к ответственности и/или закрыты. Напротив, поставщики, которые делают свои модели доступными только через API, как в случае с генеративным движком Adobe Firefly, находятся в позиции, когда им не нужно беспокоиться о том, что их модели могут создать, поскольку как запрос пользователя, так и результирующий вывод проверяются и очищаются:

Система Adobe’s Firefly, используемая в инструментах как Photoshop, иногда отказывает в генеративном запросе сразу, блокируя запрос до создания чего-либо. В других случаях она генерирует изображение, но затем блокирует результат после проверки. Этот вид отказа в середине процесса также может произойти в ChatGPT, когда модель начинает ответ, но прерывает его после обнаружения нарушения политики – и иногда можно увидеть отмененное изображение во время этого процесса.
Однако фильтры такого типа, основанные на API, обычно можно нейтрализовать пользователями на локально установленных моделях, включая модели видения-языка (VLM), которые пользователь может захотеть настроить через локальную тренировку на пользовательских данных.
В большинстве случаев отключение таких операций является тривиальным, включающим комментирование вызова функции в Python (хотя такие хаки обычно должны быть повторены или заново изобретены после обновления фреймворка).
С бизнес-позиции трудно понять, как это может быть проблемой, поскольку подход на основе API максимизирует корпоративный контроль над рабочим процессом пользователя. С точки зрения пользователя, однако, как стоимость моделей только на основе API, так и риск ошибочной или чрезмерной цензуры, вероятно, заставят их скачать и настроить локальные установки открытых альтернатив – по крайней мере, где лицензирование FOSS благоприятно.
Последняя значительная модель, выпущенная без попытки внедрить самоцензуру, была Stable Diffusion V1.5, почти три года назад. Позже, откровение, что ее обучающие корпуса включали данные о детском насилии, привело к растущим призывам запретить ее доступность, и ее удалению из репозитория Hugging Face в 2024 году.
Вырезать!
Скептики утверждают, что интерес компании в цензуре локально устанавливаемых генеративных моделей ИИ основан исключительно на проблемах о юридической ответственности, если их фреймворки станут публично известны за содействие созданию незаконного или нежелательного контента.
Действительно, некоторые “локально-дружественные” открытые модели не так сложны для декензуры (как Stable Diffusion 1.5 и DeepSeek R1).
Напротив, недавний выпуск серии моделей Flux от Black Forest Lab был отмечен заметным обязательством компании Kontext переделать всю линию Kontext. Это было достигнуто как путем тщательной курирования данных, так и нацеленной тонкой настройки после обучения, предназначенной для удаления любой остаточной тенденции к созданию контента NSFW или запрещенного контента.
Это где locus действия был в исследовательской сцене за последние 2-3 года: с упором на исправление моделей с недооцененными данными после факта. Предложения такого рода включают Unified Concept Editing in Diffusion Models (UCE); Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models (RECE); Mass Concept Erasure in Diffusion Models (MACE); и concept-Semi-Permeable structure is injected as a Membrane (SPM):

Бумага 2024 года ‘Unified Concept Editing in Diffusion Models’ предложила закрытые формы редактирования весов внимания, позволяющие эффективно редактировать несколько концепций в текстово-изображенных моделях. Но стоит ли этот метод проверке? Источник: https://arxiv.org/pdf/2308.14761
Хотя это эффективный подход (гипермасштабные коллекции, такие как LAION, слишком велики, чтобы быть вручную отобранными), он не обязательно эффективен: согласно новому исследованию в США, ни одна из вышеупомянутых процедур редактирования – которые представляют собой текущее состояние искусства в пост-обучении модификации модели ИИ – на самом деле не работает очень хорошо.
Авторы обнаружили, что эти Техники Удаления Концепций (CETs) обычно можно легко обойти, и что даже когда они эффективны, они имеют значительные побочные эффекты:

Эффекты удаления концепций в текстово-изображенных моделях. Каждый столбец показывает запрос и концепцию, помеченную для удаления, вместе с сгенерированными выводами до и после редактирования. Иерархии указывают родительско-дочерние отношения между концепциями. Примеры подчеркивают общие побочные эффекты, включая отказ от удаления дочерних концепций, подавление соседних концепций, уклонение через перефразировку и передачу удаленных атрибутов несвязанным объектам. Источник: https://arxiv.org/pdf/2508.15124
Авторы обнаружили, что ведущие текущие методы удаления концепций не могут блокировать композиционные запросы (например, красный автомобиль или маленький деревянный стул); часто пропускают подклассы, даже после удаления родительской категории (например, автомобиль или автобус продолжают появляться после удаления транспортного средства); и вводят новые проблемы, такие как утечка атрибутов (когда, например, удаление синего дивана может заставить модель генерировать несвязанные объекты, такие как синий стул).
В более чем 80% тестовых случаев удаление широкой концепции, такой как транспортное средство, не остановило модель от генерации более конкретных транспортных средств экземпляров, таких как автомобили или автобусы.
Редактирование, наблюдает статья, также вызывает карты внимания (части модели, которые решают, где сосредоточиться в изображении), чтобы рассеяться, ослабляя качество вывода.
Интересно, что статья обнаруживает, что удаление связанных обученных концепций одно за другим работает лучше, чем попытка удалить их все сразу – хотя это не устраняет все недостатки изучаемых методов редактирования:

Сравнение прогрессивных и одновременных стратегий удаления. Когда все варианты ‘teddy bear’ удаляются одновременно, модель продолжает генерировать объекты, похожие на медведя. Удаление вариантов шаг за шагом более эффективно, что приводит модель к более надежному подавлению целевой концепции.
Хотя исследователи в настоящее время не могут предложить решение проблем, описанных в статье, они разработали новую базу данных и эталон, которые могут помочь будущим исследовательским проектам понять, работают ли их собственные “цензурированные” модели так, как ожидается.
Статья гласит:
‘Предыдущие оценки опирались исключительно на небольшой набор целевых и сохраняемых классов; например, когда удаляется ‘автомобиль’, проверяется только способность модели генерировать автомобили. Мы демонстрируем, что этот подход фундаментально неадекватен, и оценка удаления концепций должна быть более всесторонней, чтобы охватить все связанные подклассы, такие как ‘красный автомобиль’.
‘Вводя разнообразную базу данных с композиционными вариациями и систематически анализируя эффекты, такие как влияние на соседние концепции, уклонение концепции и утечка атрибутов, мы обнаруживаем значительные ограничения и побочные эффекты существующих CET.
‘Наш эталон является модельно-независимым и легко интегрируемым и идеально подходит для помощи в разработке новых Техник Удаления Концепций (CET).’

Хотя CET удаляет целевую концепцию ‘птица’, она не справляется с композиционной вариацией ‘красная птица’ (вверху). После удаления ‘синего дивана’ все методы также теряют способность генерировать синий стул (внизу). Успешные результаты помечены зеленым галочкой, а неудачи – красным ‘X’.
Исследование предлагает интересный взгляд на степень переплетения концепций, обученных в модели, и степень, в которой переплетение не позволит легко удалить какие-либо определенные и действительно дискретные концепции.
Новая статья называется Побочные эффекты удаления концепций из моделей диффузии и исходит от четырех исследователей из Университета Мэриленда.
Метод и данные
Авторы считают, что предыдущие работы, которые утверждают, что удаляют концепции из моделей диффузии, не доказывают это утверждение достаточно, заявляя*:
‘Заявления об удалении требуют более прочной и всесторонней оценки. Например, если концепция, подлежащая удалению, – это ‘транспортное средство’, то подклассы, такие как ‘автомобиль’, и композиционные концепции, такие как ‘красный автомобиль’ или ‘маленький автомобиль’, также должны быть удалены.
‘Однако этот аспект концептуальной иерархии и составности не учитывается в существующих протоколах оценки, поскольку они фокусируются только на точности удаленной концепции. [Авторы EraseBench] оценивают, как CET влияют на визуально похожие и перефразированные концепции (например, ‘кот’ и ‘котенок’)[;] однако они не исчерпывающе исследуют иерархию и составность концепций.’
Чтобы предоставить эталонные данные для будущих проектов, авторы создали базу данных Оценка побочных эффектов (SEE) – большую коллекцию текстовых запросов, предназначенных для проверки того, насколько хорошо методы удаления концепций работают.
Запросы следуют простому шаблону, в котором объект описывается атрибутами размера, цвета и материала – например, изображение маленького красного деревянного автомобиля.
Объекты были взяты из базы данных MS-COCO и организованы в иерархию суперклассов, таких как транспортное средство, и подклассов, таких как автомобиль или автобус, с их атрибутными комбинациями, образующими листовые узлы (самый конкретный уровень иерархии). Эта структура позволяет проверить удаление на разных семантических уровнях, от широких категорий до конкретных вариантов.
Чтобы поддержать автоматическую оценку, каждый запрос был сопоставлен с вопросом “да” или “нет”, таким как Есть ли автомобиль на изображении?, и также использовался в качестве метки класса для моделей классификации изображений:

Комбинации запросов в базе данных SEE, сгенерированные путем изменения атрибутов размера, цвета и материала.
Чтобы измерить, насколько хорошо каждая концепция удаления работает, авторы разработали два метода оценки: точность цели, который отслеживает, как часто удаленные концепции все еще появляются в сгенерированных изображениях; и точность сохранения, который отслеживает, продолжает ли модель генерировать материал, который не должен был быть удален.
Баланс между двумя оценками предназначен для того, чтобы показать, удалось ли методу успешно удалить запрещенную концепцию без повреждения более широкого вывода модели.
Авторы оценили удаление концепций через три режима неудач:まず, мера того, насколько удаление концепции, такой как автомобиль, нарушает соседние или несвязанные концепции, основанную на семантической и атрибутной подобии; во-вторых, тест на то, можно ли обойти удаление, с помощью подклассов, таких как красный автомобиль, после удаления транспортного средства.
Наконец, проверка была проведена на утечку атрибутов, когда атрибуты, связанные с удаленной концепцией, появляются в других частях изображения.
Окончательная база данных содержит 5056 композиционных запросов
Тесты
Ранее протестированные фреймворки были теми, которые были перечислены ранее – UCE, RECE, MACE и SPM. Исследователи приняли настройки по умолчанию из исходных проектов и дообучили все модели на NVIDIA RTX 6000 GPU с 48GB видеопамяти.
Stable Diffusion 1.4, одна из наиболее постоянных моделей в литературе, была использована для всех тестов – возможно, не в последнюю очередь потому, что ранние модели SD имели мало или совсем не имели концептуальных ограничений, и поэтому предлагают чистый лист в этом конкретном исследовательском контексте.
Каждый из 5056 запросов из базы данных SEE был запущен через как неотредактированную, так и отредактированную версию модели, генерируя четыре изображения на запрос с помощью фиксированных случайных семян, что позволяет проверить, остаются ли эффекты удаления последовательными в нескольких выводах. Каждая отредактированная модель произвела в общей сложности 20 224 изображения.
Наличие сохраненных концепций было оценено согласно предыдущим методам для текстово-изображенных процедур удаления, с использованием моделей VQA BLIP, QWEN 2.5 VL и Florence-2base.
Влияние на соседние концепции
Первый тест измерил, насколько удаление концепции непреднамеренно повлияло на соседние концепции. Например, после удаления автомобиль, модель должна перестать генерировать красный автомобиль или большой автомобиль, но все еще должна быть в состоянии генерировать связанные концепции, такие как автобус или грузовик, и несвязанные, такие как вилка.
Анализ использовал подобие встроенных представлений CLIP и атрибутно-ориентированное расстояние редактирования, чтобы оценить, насколько близка каждая концепция к удаленной цели, что позволило исследованию количественно оценить, насколько далеко распространяется нарушение:

Объединенные результаты для точности цели (слева) и точности сохранения (справа), отображаемые против семантической подобии (вверху) и композиционной дистанции (внизу). Идеальный метод удаления концепций должен показать низкую точность цели и высокую точность сохранения на всех расстояниях; но результаты показывают, что текущие методы не могут обобщаться чисто, с более близкими концепциями, либо недостаточно удаленными, либо чрезмерно нарушенными.
Из этих результатов авторы замечают:
‘Все CET продолжают генерировать композиционные или семантически дальные варианты цели, несмотря на удаление, что идеально не должно происходить. Очевидно, что UCE последовательно достигает более высокой точности, чем другие методы CET, на [наборе сохранения], указывая на минимальное непреднамеренное влияние на семантически связанные концепции.
‘Напротив, SPM достигает самой низкой точности, что предполагает, что его стратегия редактирования более подвержена концептуальной подобии.’
Среди четырех протестированных методов RECE был наиболее эффективен в блокировании целевой концепции. Однако, как показано на левой стороне изображения выше, все методы не смогли подавить композиционные варианты. После удаления птица модель все еще производила изображения красной птицы, что указывает на то, что концепция осталась частично целой.
Удаление синего дивана также помешало модели генерировать синий стул, что указывает на вред соседним концепциям.
RECE обрабатывал композиционные варианты лучше, чем другие, в то время как UCE лучше сохранил связанные концепции.
Уклонение удаления
Тест на уклонение удаления оценил, может ли модель все еще генерировать подклассовые концепции после удаления их суперкласса. Например, если транспортное средство было удалено, тест проверил, может ли модель все еще производить выводы, такие как велосипед или красный автомобиль.
Запросы были направлены на прямые подклассы и композиционные варианты, чтобы определить, действительно ли операция удаления концепции удалила всю иерархию или может быть обойдена более конкретными описаниями:

На Stable Diffusion v1.4 обход удаленных суперклассов через их подклассы и композиционные варианты, с более высокой точностью, указывающей на большее уклонение.
Неотредактированная модель сохранила высокую точность во всех суперклассах, подтверждая, что она не удалила никаких целевых концепций. Среди CET MACE показал наименьшее уклонение, достигнув самой низкой точности подкласса в более чем половине протестированных категорий. RECE также выполнил хорошо, особенно в группах аксессуар, спорт и электроника.
Напротив, UCE и SPM показали более высокую точность подкласса, что указывает на то, что удаленные концепции могут быть более легко обойдены через связанные или вложенные запросы.
Авторы отмечают:
‘[Все] CET успешно подавляют целевую суперклассовую концепцию (‘еда’). Однако, когда запрашиваются атрибутно-ориентированные дети иерархии еды (например, ‘большая пицца’), все методы генерируют предметы еды.
‘Аналогично, в категории ‘транспортное средство’ все модели генерируют велосипеды, несмотря на удаление ‘транспортного средства’ – и иногда можно увидеть отмененное изображение во время этого процесса.’
Утечка атрибутов
Третий тест, утечка атрибутов, проверил, могут ли атрибуты, связанные с удаленной концепцией, появиться в других частях изображения.
Например, после удаления диван модель не должна генерировать диван, и не должна применять его типичные атрибуты (такие как цвет или материал) к несвязанным объектам в том же запросе. Это было измерено путем запроса модели с парными объектами и проверки, появляются ли удаленные атрибуты ошибочно в сохраненных концепциях:

Карты внимания для токенов атрибутов после удаления концепции. Слева: Когда ‘скамейка’ удаляется, токен ‘деревянный’ смещается к птице вместо, в результате чего получаются деревянные птицы. Справа: Удаление ‘дивана’ не подавляет генерацию дивана, в то время как токен ‘большой’ неправильно присваивается пончикам.
RECE был наиболее эффективен в удалении целевых атрибутов, но также ввел наибольшую утечку атрибутов в сохраненные запросы, превосходя даже неотредактированную модель. UCE протекал меньше, чем другие методы.
Результаты, по мнению авторов, указывают на необходимость внутреннего компромисса, при котором более сильное удаление увеличивает риск неправильного переноса атрибутов.
Заключение
Латентное пространство модели не заполняется упорядоченным образом во время обучения, с производными концепциями, аккуратно размещенными на полках или в папках; а скорее обученные вложения являются одновременно содержанием и их контейнерами: не разделенными никакими резкими границами, а скорее сливаясь друг с другом, что делает удаление проблематичным – как попытка извлечь фунт плоти без потери крови.
В интеллектуальных и эволюционирующих системах основные события – такие как обжигание пальцев и последующее отношение к огню с уважением – связаны с поведением и ассоциациями, которые они позже формируют, что делает трудным создание модели, которая могла бы быть оставлена с последствиями центральной, потенциально “запрещенной” концепции, но не иметь самой концепции.
* Мое преобразование внутренней цитаты авторов в гиперссылки.
Опубликовано впервые в пятницу, 22 августа 2025 года










