Свяжитесь с нами:

Теперь позы NSFW и «знаменитостей» стали поводом для цензуры со стороны искусственного интеллекта

Угол Андерсона

Теперь позы NSFW и «знаменитостей» стали поводом для цензуры со стороны искусственного интеллекта

mm
Арест деревянного манекена художника – Flux 1D.

Новая защита на основе ИИ для генеративных видеосистем предполагает цензуру поз тела. Физические позы (или выражения лица), которые могут быть интерпретированы как сексуально вызывающие, «оскорбительные жесты» или даже позы знаменитостей, защищённые авторским правом или потенциально защищённые товарным знаком, — всё это подвергается цензуре.

 

Новое исследование из Китая и Сингапура затрагивает одну из менее очевидных областей создания «небезопасных» изображений и видео: изображение самой позы, то есть расположения тела или выражения лица изображенного человека в результатах, созданных с помощью ИИ:

Концептуальная схема PoseGuard, системы, предложенной в новом исследовании. Источник: https://arxiv.org/pdf/2508.02476

Концептуальная схема PoseGuard, системы, предложенной в новом исследовании. Источник: https://arxiv.org/pdf/2508.02476

Система под названием PoseGuard, использует тонкая настройка и LoRA для создания моделей, которые изначально не могут генерировать «запрещённые» позы. Этот подход был выбран, поскольку встроенные в модели FOSS защитные механизмы обычно можно обойти. тривиально преодолено, подчеркивая, что этот новый «фильтр» специально предназначен для локальных установок (поскольку модели, поддерживающие только API, может фильтровать входящий и исходящий контент и подсказки, без необходимости империл целостность весов модели путем точной настройки).

Это не первая работа, в которой позы рассматриваются как небезопасные данные сами по себе; «сексуальные выражения лица» были второстепенная подобласть изучения в течение некоторого времени, в то время как некоторые из авторов новой работы также создали менее сложные бездействующий системы.

Однако, насколько я могу судить, новая статья является первой, в которой типизация поз выходит за рамки сексуального содержания и даже включает «защищенные авторским правом движения знаменитостей»:

«Мы определяем небезопасные позы, основываясь на потенциальных рисках создаваемых результатов, а не на геометрических характеристиках. [Небезопасные] позы включают в себя: 1) дискриминационные позы (например, преклонение колена, оскорбительные приветствия), 2) сексуально непристойные позы, запрещенные для просмотра на работе, и 3) позы, нарушающие авторские права и имитирующие образы знаменитостей».

«Эти позы собираются с помощью онлайн-источников (например, Википедии), фильтрации на основе LLM и наборов данных с маркировкой риска (например, тегов NSFW от Civitai), что обеспечивает сбалансированный и всеобъемлющий набор данных о небезопасных позах для обучения».

Категория «NSFW» из 50 основных поз, разработанных для PoseGuard.

Категория «NSFW» из 50 основных поз, разработанных для PoseGuard.

Интересно отметить, что знаменитости позируют может быть зарегистрирована как торговая марка or защищены законными средствами, и что адекватные «творческие» комбинации поз или положений могут быть защищены как уникальные последовательности хореографииОднако даже культовая одиночная поза может не быть защищена, как обнаружил один фотограф в деле Rentmeester против Nike. постановляющим:

Фотограф, сделавший крайнюю левую фотографию Майкла Джордана, подал в суд на Nike за то, что они воссоздали фотографию (справа); однако суд отклонил иск. Источник: https://writtendescription.blogspot.com/2018/02/can-you-copyright-pose.html

Фотограф, сделавший крайнюю левую фотографию Майкла Джордана, подал в суд на Nike после того, как они воссоздали фотографию (справа); однако судейская коллегия отклонила иск. Источник: https://writtendescription.blogspot.com/2018/02/can-you-copyright-pose.html

Новая система PoseGuard, как утверждается, является первой, которая снижает выходные данные при обнаружении небезопасной позы; встраивает защитные ограждения непосредственно в генеративную модель; определяет «небезопасные» позы по трем категориям; и обеспечивает сохранение качества и целостности генерации после того, как проблемная поза была изменена достаточно, чтобы избежать фильтра.

Радиус корня Новый документ называется PoseGuard: генерация поз с защитными ограждениямии подготовлено шестью исследователями из Китайского университета науки и технологий, Сингапурского агентства по науке, технологиям и исследованиям (A*STAR CFAR) и Наньянского технологического университета.

Способ доставки

PoseGuard переосмысливает логику бэкдорные атаки для встраивания защитного механизма непосредственно в модель. При типичной атаке через бэкдор определённые входные данные запускают вредоносные выходные данные, и PoseGuard инвертирует эту схему: определённые предопределённые позы, которые считаются небезопасными из-за их сексуального, оскорбительного или нарушающего авторские права характера, связываются с «нейтральными» целевыми изображениями, такими как пустые или размытые кадры.

Благодаря тонкой настройке модели на комбинированном наборе данных нормальных и триггерных поз система учится сохранять точность для безопасных входных данных и ухудшать качество выходных данных для небезопасных:

PoseGuard обрабатывает эталонное изображение и последовательность поз, используя общую сеть шумоподавления UNet, сочетая предварительно обученные веса с тонкой настройкой, ориентированной на безопасность. Такая конфигурация позволяет модели подавлять вредоносные генерации, вызванные небезопасными позами, сохраняя при этом качество выходных данных для обычных входных данных.

PoseGuard обрабатывает эталонное изображение и последовательность поз, используя общую сеть шумоподавления UNet, сочетая предварительно обученные веса с тонкой настройкой, ориентированной на безопасность. Такая конфигурация позволяет модели подавлять вредоносные генерации, вызванные небезопасными позами, сохраняя при этом качество выходных данных для обычных входных данных.

Эта стратегия «внутримодели» устраняет необходимость во внешних фильтрах и остается эффективной даже в враждебных средах или средах с открытым исходным кодом.*

Данные и тесты

Чтобы получить благоприятные исходные позы, авторы использовали UBC-Мода Набор данных:

Примеры из набора данных о моде Университета Британской Колумбии, используемые в качестве источника благоприятных поз в PoseGuard. Источник: https://www.cs.ubc.ca/~lsigal/Publications/bmvc2019zablotskaia.pdf

Примеры из набора данных о моде Университета Британской Колумбии, использованные в качестве источника безобидных поз в PoseGuard. Абстрактные позы были извлечены из этих изображений с помощью фреймворка оценки поз.  Источник: https://www.cs.ubc.ca/~lsigal/Publications/bmvc2019zablotskaia.pdf

Небезопасные позы, как упоминалось ранее, были получены с платформ с открытым исходным кодом, таких как CivitAI. Позы были получены с помощью DWPose каркас, в результате чего получаются изображения поз размером 768x768 пикселей:

Примеры 50 небезопасных поз, используемых в тренировках. Здесь показаны позы, запрещенные для просмотра на работе и нарушающие авторские права, взятые из Википедии, Render-State, Civitai и Google Поиска.

Примеры 50 небезопасных поз, используемых в тренировках. Здесь показаны позы, запрещенные для просмотра на работе и нарушающие авторские права, взятые из Википедии, Render-State, Civitai и Google Поиска.

Модель генерации, управляемая позой, была AnimateЛюбой.

Были использованы шесть показателей: Расстояние видео Фреше (ФВД); FID-VID; Индекс структурного сходства (ССИМ); Пиковое отношение сигнал/шум (ПСНР); Метрики изученного перцептивного сходства (LPIPS); и Начальное расстояние Фреше (FID). Тесты проводились на видеокарте NVIDIA A6000 с 48 ГБ видеопамяти на скорости размер партии 4 и скорость обучения 1 × 10-5.

Были протестированы три основные категории: эффективность, прочность и обобщение.

В первом из них, эффективностьАвторы сравнили две стратегии обучения PoseGuard: полную тонкую настройку шумоподавляющего UNet и тонкую настройку с эффективными параметрами с использованием модулей LoRA.

Оба подхода подавляют выходные данные от небезопасных поз, сохраняя при этом качество выходных данных от безопасных поз, но с разными компромиссами: полная тонкая настройка обеспечивает более сильное подавление и поддерживает более высокую точность, особенно когда количество небезопасных тренировочных поз невелико; а настройка на основе LoRA приводит к большему ухудшению качества генерации по мере увеличения количества небезопасных поз, но требует значительно меньше параметров и меньших вычислительных затрат.

Эффективность PoseGuard по показателям генерации и защиты. Стрелки вверх указывают на показатели, где более высокие значения соответствуют лучшим значениям; стрелки вниз указывают на показатели, где более низкие значения соответствуют лучшим значениям.

Эффективность PoseGuard по показателям генерации и защиты. Стрелки вверх указывают на показатели, где более высокие значения соответствуют лучшим значениям; стрелки вниз указывают на показатели, где более низкие значения соответствуют лучшим значениям.

Качественные результаты (см. изображение ниже) показали, что без вмешательства модель воспроизводила оскорбительные и небезопасные для работы позы с высокой точностью. При включении PoseGuard эти позы вызывали низкокачественные или пустые выходные сигналы, в то время как безвредные входные сигналы оставались визуально неизменными. По мере увеличения количества небезопасных поз в наборе защиты с четырёх до тридцати двух качество безвредных выходных сигналов умеренно снижалось, особенно для LoRA.

Наглядные результаты, демонстрирующие реакцию PoseGuard на одну небезопасную позу с использованием полнопараметрической тонкой настройки. Модель подавляет выходные данные для дискриминационных, NSFW и поз, нарушающих авторские права, перенаправляя их на чёрное изображение, сохраняя при этом качество обычных входных данных.

Наглядные результаты, демонстрирующие реакцию PoseGuard на одну небезопасную позу с использованием полнопараметрической тонкой настройки. Модель подавляет выходные данные для дискриминационных, NSFW и поз, нарушающих авторские права, перенаправляя их на чёрное изображение, сохраняя при этом качество обычных входных данных.

При покупке недвижимости прочностьPoseGuard тестировался в условиях, имитирующих реальное развертывание, где входные позы могут не полностью соответствовать предопределенным примерам. Оценка включала распространённые преобразования, такие как перевод, масштабирование и вращение, а также ручная регулировка углов суставов для имитации естественных колебаний.

Результаты проверки устойчивости PoseGuard к типичным преобразованиям поз.

Результаты проверки устойчивости PoseGuard к типичным преобразованиям поз.

В большинстве случаев модель продолжала подавлять небезопасные поколения, что указывает на то, что защита остаётся устойчивой к умеренным возмущениям. Когда изменения устраняли базовый риск в позе, модель прекращала подавление и выдавала нормальные результаты, что свидетельствует о том, что она избегает ложноположительных результатов при доброкачественных отклонениях.

Оценка устойчивости PoseGuard к изменениям поз. На рисунке показаны выходные данные модели для небезопасных поз, изменённых путём перемещения, масштабирования и поворота, а также ручной корректировки конечностей. PoseGuard продолжает подавлять небезопасные генерации при незначительных изменениях, но возобновляет нормальный вывод данных, когда поза перестаёт содержать рискованные компоненты.

Оценка устойчивости PoseGuard к изменениям поз. На рисунке показаны выходные данные модели для небезопасных поз, изменённых путём перемещения, масштабирования и поворота, а также ручной корректировки конечностей. PoseGuard продолжает подавлять небезопасные генерации при незначительных изменениях, но возобновляет нормальный вывод данных, когда поза перестаёт содержать «рискованный» контент.

Наконец, в ходе основного цикла экспериментов исследователи протестировали PoseGuard на обобщение – его способность эффективно работать с новыми данными в различных условиях и обстоятельствах.

В данном случае PoseGuard был применён для референсной генерации на основе изображений с использованием вышеупомянутой модели AnimateAnyone. В этом случае система продемонстрировала более эффективное подавление несанкционированных выходных сигналов по сравнению с управлением на основе поз, причём в некоторых случаях качество генерируемого видео было практически полным:

Сравнение производительности PoseGuard при применении к генерации на основе позы и генерации на основе референтного изображения с использованием полной тонкой настройки на четырех небезопасных входных данных.

Сравнение производительности PoseGuard при применении к генерации на основе позы и генерации на основе референтного изображения с использованием полной тонкой настройки на четырех небезопасных входных данных.

Авторы связывают это с высокой плотностью идентификационной информации на эталонных изображениях, что позволяет модели легче усваивать целевое защитное поведение. Результаты, по их мнению, указывают на то, что PoseGuard может снизить риск имитации в сценариях, где видео генерируется непосредственно на основе внешности человека.

Для заключительного теста авторы применили PoseGuard к видеосинтезу, управляемому ориентирами на лице, используя АниПортрет система, сценарий, ориентированный на детальные выражения лица, а не на позы всего тела.

Новая система подавляет небезопасные выражения лица в AniPortrait.

Новая система подавляет небезопасные выражения лица в AniPortrait.

Благодаря тонкой настройке Denoising UNet с использованием того же защитного механизма, модель смогла подавить сигналы от небезопасных лицевых ориентиров, не затрагивая при этом безобидные выражения. Результаты, по мнению авторов, показывают, что PoseGuard способен обобщать данные по всем модальностям ввода и сохранять эффективность в более локализованных задачах генерации, ориентированных на выражение лица.

Наглядные результаты, демонстрирующие реакцию PoseGuard на генерацию на основе эталонного изображения.

Наглядные результаты, демонстрирующие реакцию PoseGuard на генерацию на основе эталонного изображения.

Заключение

Следует признать, что для многих из 50 запрещенных поз, приведенных в статье, такие действия, как медицинские осмотры или даже выполнение скучных домашних дел, вероятно, будут заблокированы в том, что можно представить только как основанную на синтезе версию Эффект Сканторпа.

С этой точки зрения, и тем более в случае с выражениями лица (которые могут быть гораздо более неоднозначными и многогранными по своему значению), PoseGuard представляется довольно грубым инструментом. К тому же, из-за общего эффект охлаждения вокруг NSFW AI, релизы FOSS, такие как недавний Flux Kontext, регулярно появляются очень цензурировано в любом случае, либо посредством строгой фильтрации набора данных, либо редактирования весов, либо и того, и другого.

Таким образом, добавление предлагаемых здесь ограничений к бремени цензуры локальной модели выглядит как негласная попытка снизить эффективность генеративных систем, не использующих API. Возможно, это указывает нам на будущее, в котором локальные модели смогут генерировать низкокачественную генерацию всего, что угодно пользователю, в то время как API-модели предлагают бесконечно более качественный результат, если только удастся преодолеть цепочку фильтров и защитных мер, успокаивающих юридический отдел принимающей компании.

Такая система, как PoseGuard, в которой тонкая настройка активно влияет на качество выходных данных базовой модели (хотя это упускается из виду в статье), вообще не нацелена на API-системы; онлайн-модели Vanguard, скорее всего, продолжат извлекать выгоду из неограниченных данных для обучения, поскольку внушительные возможности NSFW этих моделей сдерживаются значительными мерами надзора.

 

* Метод здесь такой же короткий, как и в статье (которая занимает всего пять страниц), и, как обычно, подход лучше всего понять из раздела с тестами.

Впервые опубликовано в среду, 6 августа 2025 г.