Взгляд Anderson

Теперь NSFW и «знаменитые» позы являются материалом для цензуры ИИ

mm
An artist's wooden mannequin getting arrested – Flux 1D.

Новая система защиты ИИ для генеративных видеосистем предлагает цензурировать позы тела. Физические позы (или выражения лица), которые могут быть истолкованы как сексуально намекающие, «оскорбительные жесты» или даже защищенные законом позы знаменитостей или потенциально товарные знаки, все находятся в поле зрения.

 

Новые исследования из Китая и Сингапура решают одну из менее очевидных областей в «небезопасном» изображении и видеогенерации: изображение самой позы, в смысле расположения тела или выражения лица изображенного человека в выводе, созданном ИИ:

Концептуальная схема для PoseGuard, системы, предложенной в новых исследованиях. Источник: https://arxiv.org/pdf/2508.02476

Концептуальная схема для PoseGuard, системы, предложенной в новых исследованиях. Источник: https://arxiv.org/pdf/2508.02476

Система, озаглавленная PoseGuard, использует тонкую настройку и LoRAs для создания моделей, которые не могут генерировать «запрещенные» позы. Этот подход был выбран потому, что меры безопасности, встроенные в модели с открытым исходным кодом, обычно можно легко обойти, подчеркивая, что этот новый «фильтр» специально ориентирован на локальные установки (поскольку модели только для API могут фильтровать входные и выходные данные и подсказки, без необходимости подвергать опасности целостность весов модели тонкой настройкой).

Это не первая работа, которая рассматривает позы как сами по себе небезопасные данные; «сексуальные выражения лица» уже некоторое время являются небольшой областью исследования, в то время как несколько авторов новых исследований также создали менее совершенную систему Dormant.

Однако новая статья является первой, насколько мне известно, которая распространяет типизацию поз за пределы сексуального контента, даже до точки включения «запатентованных движений знаменитостей»:

«Мы определяем небезопасные позы на основе потенциальных рисков сгенерированных выводов, а не геометрических характеристик. [Небезопасные] позы включают: 1) дискриминационные позы (например, колени, оскорбительные приветствия), 2) сексуально намекающие NSFW-позы и 3) позы, чувствительные к авторским правам, имитирующие изображения знаменитостей.

«Эти позы собираются из онлайн-источников (например, Википедии), фильтрации на основе LLM и наборов данных с пометкой риска (например, теги Civitai NSFW), обеспечивая сбалансированный и всесторонний набор данных небезопасных поз для обучения».

Категория 'NSFW' из 50 основных поз, разработанных для PoseGuard.

Категория ‘NSFW’ из 50 основных поз, разработанных для PoseGuard.

Интересно отметить, что позы знаменитостей могут быть запатентованы или защищены юридическими средствами, и что достаточно «креативные» комбинации поз или положений могут быть защищены как уникальные последовательности хореографии. Однако даже одна иконическая поза может не быть защищена, как один фотограф обнаружил, в решении Rentmeester Vs. Nike рассмотрении:

Фотограф, который сделал левое фото Майкла Джордана, подал в суд на Nike, когда они воссоздали фото (справа); однако, панель судей отклонила претензию. Источник: https://writtendescription.blogspot.com/2018/02/can-you-copyright-pose.html

Фотограф, который сделал левое фото Майкла Джордана, подал в суд на Nike, когда они воссоздали фото (справа); однако, панель судей отклонила претензию. Источник: https://writtendescription.blogspot.com/2018/02/can-you-copyright-pose.html

Новая система PoseGuard утверждает, что она является первой, которая ухудшает вывод, когда обнаруживается небезопасная поза; встраивает защитные барьеры непосредственно в генеративную модель; определяет «небезопасные» позы по трем категориям; и обеспечивает, что генерация сохраняет качество и целостность после того, как была изменена достаточно, чтобы избежать фильтра.

Статья новая статья озаглавлена PoseGuard: Pose-Guided Generation with Safety Guardrails и исходит от шести исследователей из Университета науки и технологий Китая, Сингапурского агентства по науке, технологиям и исследованиям (A*STAR CFAR) и Наньянского технологического университета.

Метод

PoseGuard повторно использует логику атак на заднюю дверь для создания механизма защиты непосредственно в модели. В типичной атаке на заднюю дверь определенные входные данные вызывают злонамеренные выходные данные, и PoseGuard инвертирует эту установку: определенные предопределенные позы, которые считаются небезопасными из-за их сексуальной, оскорбительной или чувствительной к авторским правам природы, связаны с «нейтральными» целевыми изображениями, такими как пустые или размытые кадры.

Благодаря тонкой настройке модели на объединенном наборе данных нормальных и триггерных поз, система учится сохранять верность для безобидных входных данных, а ухудшать качество вывода для небезопасных:

PoseGuard обрабатывает эталонное изображение и последовательность поз, используя общую денойзинговую UNet, объединяя предварительно обученные веса с тонкой настройкой, выровненной с безопасностью. Эта установка позволяет модели подавлять вредоносные генерации из небезопасных поз, сохраняя при этом качество вывода для нормальных входных данных.

PoseGuard обрабатывает эталонное изображение и последовательность поз, используя общую денойзинговую UNet, объединяя предварительно обученные веса с тонкой настройкой, выровненной с безопасностью. Эта установка позволяет модели подавлять вредоносные генерации из небезопасных поз, сохраняя при этом качество вывода для нормальных входных данных.

Эта «внутримодельная» стратегия устраняет необходимость внешних фильтров и остается эффективной даже в адверсарных или открытых средах.*

Данные и тесты

Для получения безобидных базовых поз авторы использовали набор данных UBC-Fashion:

Примеры из набора данных моды Университета Британской Колумбии, использованные в качестве источника безобидных поз в PoseGuard. Источник: https://www.cs.ubc.ca/~lsigal/Publications/bmvc2019zablotskaia.pdf

Примеры из набора данных моды Университета Британской Колумбии, использованные в качестве источника безобидных поз в PoseGuard. Абстрактные позы были извлечены из этих изображений с помощью каркаса оценки поз. Источник: https://www.cs.ubc.ca/~lsigal/Publications/bmvc2019zablotskaia.pdf

Небезопасные позы, как упоминалось ранее, были получены из открытых платформ, таких как CivitAI. Позы были извлечены с помощью DWPose каркаса, в результате чего получились изображения поз размером 768×768 пикселей:

Примеры из 50 небезопасных поз, использованных в обучении. Здесь показаны NSFW и позы, чувствительные к авторским правам, полученные из Википедии, Render-State, Civitai и Google Search.

Примеры из 50 небезопасных поз, использованных в обучении. Здесь показаны NSFW и позы, чувствительные к авторским правам, полученные из Википедии, Render-State, Civitai и Google Search.

Модель генерации, управляемая позой, была AnimateAnyone.

Шесть метрик, использованных в исследованиях, были Fréchet Video Distance (FVD); FID-VID; Structural Similarity Index (SSIM); Peak Signal-to-Noise Ratio (PSNR); Learned Perceptual Similarity Metrics (LPIPS); и Fréchet Inception Distance (FID). Тесты проводились на NVIDIA A6000 GPU с 48 ГБ видеопамяти, при размере пакета 4 и скорости обучения 1×10-5.

Три основные категории, протестированные в исследованиях, были эффективность, робастность и обобщаемость.

В первой из них, эффективность, авторы сравнили две стратегии обучения для PoseGuard: полную тонкую настройку денойзинговой UNet и параметро-эффективную тонкую настройку с помощью модулей LoRA.

Оба подхода подавляют выводы от небезопасных поз, сохраняя при этом качество вывода для безобидных поз, но с разными компромиссами: полная тонкая настройка достигает более сильного подавления и сохраняет более высокую верность, особенно когда количество небезопасных поз было небольшим; и тонкая настройка на основе LoRA вводит больше ухудшения качества генерации по мере увеличения количества небезопасных поз – но требует значительно меньше параметров и вычислительных ресурсов.

Производительность PoseGuard по метрикам генерации и защиты. Стрелки вверх указывают на метрики, где более высокие значения лучше; стрелки вниз указывают на метрики, где более низкие значения лучше.

Производительность PoseGuard по метрикам генерации и защиты. Стрелки вверх указывают на метрики, где более высокие значения лучше; стрелки вниз указывают на метрики, где более низкие значения лучше.

Качественные результаты (см. изображение ниже) показали, что без вмешательства модель воспроизводила оскорбительные и NSFW-позы с высокой верностью. С включенным PoseGuard эти позы вызывали выводы низкого качества или пустые кадры, в то время как безобидные входные данные оставались визуально целыми. По мере того, как набор защиты рос от четырех до тридцати двух небезопасных поз, качество безобидного вывода умеренно снижалось, особенно для LoRA.

Визуальные результаты, показывающие, как PoseGuard реагирует на одну небезопасную позу с помощью полной тонкой настройки параметров. Модель подавляет вывод для дискриминационных, NSFW и поз, чувствительных к авторским правам, перенаправляя их на черное изображение, в то время как сохраняет качество для нормальных входных данных.

Визуальные результаты, показывающие, как PoseGuard реагирует на одну небезопасную позу с помощью полной тонкой настройки параметров. Модель подавляет вывод для дискриминационных, NSFW и поз, чувствительных к авторским правам, перенаправляя их на черное изображение, в то время как сохраняет качество для нормальных входных данных.

Для робастности PoseGuard был протестирован в условиях, имитирующих реальное развертывание, где входные позы могут не совпадать с предопределенными примерами точно. Оценка включала общие преобразования, такие как перемещение, масштабирование и поворот, а также ручные корректировки углов суставов для имитации естественной вариации.

Результаты для робастности PoseGuard перед лицом общих преобразований поз.

Результаты для робастности PoseGuard перед лицом общих преобразований поз.

В большинстве случаев модель продолжала подавлять генерации небезопасных поз, указывая на то, что защита остается робастной к умеренным искажениям. Когда изменения удалили основной риск в позе, модель перестала подавлять и произвела нормальные выводы, что указывает на то, что она избегает ложных положительных результатов при безобидных отклонениях.

Оценка робастности PoseGuard к модификациям поз. Изображение показывает выходные данные модели для небезопасных поз, измененных путем перемещения, масштабирования и поворота, а также ручных корректировок конечностей. PoseGuard продолжает подавлять генерации небезопасных поз при незначительных изменениях, но возобновляет нормальный вывод, когда поза больше не содержит рисковых элементов.

Оценка робастности PoseGuard к модификациям поз. Изображение показывает выходные данные модели для небезопасных поз, измененных путем перемещения, масштабирования и поворота, а также ручных корректировок конечностей. PoseGuard продолжает подавлять генерации небезопасных поз при незначительных изменениях, но возобновляет нормальный вывод, когда поза больше не содержит рисковых элементов.

Наконец, в основном эксперименте исследователи протестировали PoseGuard на обобщаемость – его способность работать эффективно на новых данных, в различных средах и обстоятельствах.

Здесь PoseGuard был применен к генерации, управляемой эталонным изображением, с помощью модели AnimateAnyone. В этой обстановке система показала более сильное подавление неавторизованных выводов по сравнению с управлением позой, с почти полным ухудшением сгенерированного видео в некоторых случаях:

Сравнение производительности PoseGuard при применении к управлению позой и управлению эталонным изображением, с полной тонкой настройкой на четыре небезопасных входных данных.

Сравнение производительности PoseGuard при применении к управлению позой и управлению эталонным изображением, с полной тонкой настройкой на четыре небезопасных входных данных.

Авторы объясняют это тем, что плотная информация об идентичности в эталонных изображениях позволяет модели легче выучить целевое защитное поведение. Результаты, по их мнению, указывают на то, что PoseGuard может ограничить риски имитации в сценариях, когда видео генерируется直接 из внешности человека.

Для окончательного теста авторы применили PoseGuard к синтезу видео, управляемому ориентированными на лицо ориентирами, с помощью системы AniPortrait, сценарий, который нацелен на тонкие выражения лица, а не полные позы тела.

Небезопасные выражения лица подавляются в AniPortrait с помощью новой системы.

Небезопасные выражения лица подавляются в AniPortrait с помощью новой системы.

Благодаря тонкой настройке денойзинговой UNet с тем же механизмом защиты, модель смогла подавить выводы от небезопасных ориентиров лица, оставив безобидные выражения не затронутыми. Результаты, по мнению авторов, показывают, что PoseGuard может обобщаться на различные модальности ввода и сохранять эффективность в более локализованных, управляемых выражением задачах генерации.

Визуальные результаты, показывающие, как PoseGuard реагирует на генерацию, управляемую эталонным изображением.

Визуальные результаты, показывающие, как PoseGuard реагирует на генерацию, управляемую эталонным изображением.

Вывод

Должно быть признано, что для многих из 50 запрещенных поз, предоставленных в статье, такие действия, как медицинские осмотры или даже выполнение скучных домашних задач, вероятно, будут заблокированы в том, что можно только представить как синтез-основанную версию эффекта Сканторпа.

С этой точки зрения, и еще больше в случае выражений лица (которые могут быть намного более двусмысленными и нюансированными в намерении), PoseGuard кажется своего рода грубым инструментом. Более того, из-за общего охлаждающего эффекта вокруг NSFW ИИ, выпуски с открытым исходным кодом, такие как недавний Flux Kontext, обычно очень цензурированы в любом случае, либо через тщательную фильтрацию набора данных, редактирование весов или и то, и другое.

Следовательно, добавление ограничений, предложенных здесь, к бремени цензуры локальных моделей, кажется скрытой попыткой подавить эффективность не-API генеративных систем. Это, возможно, указывает на будущее, где локальные модели могут производить худшее поколение чего угодно, что нравится пользователю, в то время как модели API предлагают бесконечно лучший вывод, если только можно пройти через лабиринт фильтров и защит, которые успокаивают юридический отдел компании-хозяина.

Система, такая как PoseGuard, где тонкая настройка активно влияет на качество вывода базовой модели (хотя это упускается из виду в статье), не ориентирована на модели API вообще; онлайн-модели-авангард, вероятно, продолжат получать пользу от неограниченных данных для обучения, поскольку их впечатляющие возможности NSFW сдерживаются значительными мерами контроля.

 

* Метод так же краток здесь, как и в статье (которая занимает только пять страниц), и, как обычно, подход лучше всего понимается из раздела тестов.

Опубликовано впервые в среду, 6 августа 2025 года

Писатель о машинном обучении, специалист в области синтеза человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.