Погляд Anderson

Тепер NSFW і «знамениті» пози стають предметом цензурування штучного інтелекту

mm
An artist's wooden mannequin getting arrested – Flux 1D.

Нова система захисту штучного інтелекту для генеративних відеосистем пропонує цензурувати пози тіла. Фізичні пози (або вирази обличчя) які можуть бути інтерпретовані як сексуально підказуючі, «образливі жести» або навіть пози, захищені авторським правом чи потенційно товарним знаком, всі ці пози стають предметом цензурування.

 

Нові дослідження з Китаю та Сінгапуру займаються однією з менш очевидних областей «небезпечного» зображення та відео: зображенням самої пози, у сенсі розташування тіла або виразу обличчя зображеної людини у виведенні штучного інтелекту:

Концептуальна схема для PoseGuard, системи, запропонованої в нових дослідженнях. Джерело: https://arxiv.org/pdf/2508.02476

Концептуальна схема для PoseGuard, системи, запропонованої в нових дослідженнях. Джерело: https://arxiv.org/pdf/2508.02476

Система, названа PoseGuard, використовує тонке налаштування і LoRAs для створення моделей, які не можуть генерувати «заборонені» пози. Цей підхід був обраний тому, що засоби захисту, вбудовані у вільні моделі, зазвичай можна легко обійти, підкреслюючи, що цей новий «фільтр» конкретно націлений на локальні установки (оскільки моделі API можуть фільтрувати вхідний і вихідний контент і підказки, без потреби підірвати цілісність ваг моделі шляхом тонкого налаштування).

Це не перша робота, яка розглядає пози як небезпечні дані самі по собі; «сексуальні вирази обличчя» були маленькою підгалуззю вивчення протягом деякого часу, тоді як кілька авторів нової роботи також створили менш досконалу Dormant систему.

Однак, нова робота є першою, наскільки мені відомо, яка розширює типування поз за межі сексуального контенту, навіть до включення «поз, захищених авторським правом знаменитостей»:

‘Ми визначаємо небезпечні пози на основі потенційних ризиків згенерованих виведень, а не геометричних характеристик. [Небезпечні] пози включають: 1) дискримінаційні пози (наприклад, коліна, образливі привітання), 2) сексуально підказуючі пози NSFW, і 3) пози, чутливі до авторських прав, що імітують образи знаменитостей.

‘Ці пози збираються через онлайн-джерела (наприклад, Вікіпедія), фільтрацію на основі LLM і набори даних з маркуванням ризику (наприклад, теги NSFW Civitai), забезпечуючи збалансований і повний набір даних небезпечних поз для навчання.’

Категорія 'NSFW' з 50 основних поз, розроблених для PoseGuard.

Категорія ‘NSFW’ з 50 основних поз, розроблених для PoseGuard.

Цікаво відзначити, що пози знаменитостей можуть бути захищені авторським правом або захистити юридичними засобами, і що досить «креативні» комбінації поз або поз можуть бути захищені як унікальні послідовності хореографії. Однак, навіть одна іконічна поза може не бути захищеною, як один фотограф виявив, у рішенні Rentmeester Vs. Nike рішення:

Фотограф, який зробив ліве фото Майкла Джордана, подав до суду на Nike, коли вони відтворили фото (праворуч); однак, панель суддів відхилила позов. Джерело: https://writtendescription.blogspot.com/2018/02/can-you-copyright-pose.html

Фотограф, який зробив ліве фото Майкла Джордана, подав до суду на Nike, коли вони відтворили фото (праворуч); однак, панель суддів відхилила позов. Джерело: https://writtendescription.blogspot.com/2018/02/can-you-copyright-pose.html

Нова система PoseGuard стверджує, що вона є першою, яка погіршує виведення, коли виявляється небезпечна поза; щоб вбудувати безпечні поручні безпосередньо в генеративну модель; щоб визначити «небезпечні» пози по трьох категоріях; і щоб забезпечити, що генерація зберігає якість і цілісність після того, як образливу позу достатньо змінено, щоб уникнути фільтра.

Нова робота нова робота називається PoseGuard: Pose-Guided Generation with Safety Guardrails, і походить від шести дослідників з Університету науки і технологій Китаю, (сінгапурського) Агентства науки, технологій і досліджень (A*STAR CFAR) і Наньянського технологічного університету.

Метод

PoseGuard перепрофільовує логіку атак на задні двері для створення механізму захисту безпосередньо в моделі. У типовій атаці на задні двері конкретні входи викликають шкідливі виведення, і PoseGuard інвертує цю установку: певні попередньо визначені пози, які вважаються небезпечними через їхній сексуальний, образливий або чутливий до авторських прав характер, пов’язані з «нейтральними» цільовими зображеннями, такими як порожні або розмиті кадри.

За допомогою тонкого налаштування моделі на комбінованому наборі даних нормальних і тригерних поз система вчиться зберігати вірність для безпечних входів, а погіршувати якість виведення для небезпечних:

PoseGuard обробляє посилання на зображення і послідовність поз за допомогою спільної денойзингової UNet, поєднуючи попередньо натреновані ваги з безпечним тонким налаштуванням. Ця установка дозволяє моделі пригнічувати шкідливі генерації з небезпечних поз, зберігаючи якість виведення для нормальних входів.

PoseGuard обробляє посилання на зображення і послідовність поз за допомогою спільної денойзингової UNet, поєднуючи попередньо натреновані ваги з безпечним тонким налаштуванням. Ця установка дозволяє моделі пригнічувати шкідливі генерації з небезпечних поз, зберігаючи якість виведення для нормальних входів.

Ця «внутрішня» стратегія усуває потребу у зовнішніх фільтрах і залишається ефективною навіть у ворогових або відкритих середовищах.*

Дані та тести

Для отримання безпечних базових поз автори використали UBC-Fashion набір даних:

Приклади з набору даних моди Університету Британської Колумбії, використані як джерело безпечних поз у PoseGuard. Джерело: https://www.cs.ubc.ca/~lsigal/Publications/bmvc2019zablotskaia.pdf

Приклади з набору даних моди Університету Британської Колумбії, використані як джерело безпечних поз у PoseGuard. Абстрактні пози були витягнуті з цих зображень за допомогою каркасу оцінки поз. Джерело: https://www.cs.ubc.ca/~lsigal/Publications/bmvc2019zablotskaia.pdf

Небезпечні пози, як згадувалося раніше, були отримані з відкритих джерел, таких як CivitAI. Пози були витягнуті за допомогою DWPose каркаса, в результаті чого отримані пози 768x768px:

Приклади з 50 небезпечних поз, використаних у навчанні. Тут показані пози NSFW і чутливі до авторських прав, отримані з Вікіпедії, Render-State, Civitai і Google Search.

Приклади з 50 небезпечних поз, використаних у навчанні. Тут показані пози NSFW і чутливі до авторських прав, отримані з Вікіпедії, Render-State, Civitai і Google Search.

Модель генерування, керованої позою, була AnimateAnyone.

Шість метрик, використаних для оцінки, були Fréchet Video Distance (FVD); FID-VID; Structural Similarity Index (SSIM); Peak Signal-to-Noise Ratio (PSNR); Learned Perceptual Similarity Metrics (LPIPS); і Fréchet Inception Distance (FID). Тести проводилися на NVIDIA A6000 GPU з 48 ГБ відеопам’яті, при розмірі партії 4 і темпі навчання 1×10-5.

Три основні категорії, протестовані для цього, були ефективність, стійкість і загальність.

У першій з них, ефективність, автори порівняли дві стратегії навчання для PoseGuard: повне тонке налаштування денойзингової UNet і параметрично-ефективне тонке налаштування за допомогою модулів LoRA.

Обидва підходи пригнічують виведення з небезпечних поз, зберігаючи якість виведення для безпечних поз, але з різними компромісами: повне тонке налаштування досягає сильнішого пригнічення і зберігає вищу вірність, особливо коли кількість небезпечних навчальних поз була мала; і налаштування на основі LoRA вводить більше погіршення якості генерації при збільшенні кількості небезпечних поз – але вимагає значно менше параметрів і менше обчислень.

Виступ PoseGuard по метрикам генерації і захисту. Вгору спрямовані стрілки вказують на метрики, де вищі значення кращі; вниз спрямовані стрілки вказують на метрики, де нижчі значення кращі.

Виступ PoseGuard по метрикам генерації і захисту. Вгору спрямовані стрілки вказують на метрики, де вищі значення кращі; вниз спрямовані стрілки вказують на метрики, де нижчі значення кращі.

Якісні результати (див. зображення нижче) показали, що без втручання модель відтворювала образливі і пози NSFW з високою вірністю. З увімкненим PoseGuard ці пози викликали низькоякісне або порожнє виведення, тоді як безпечні входи залишилися візуально цілими. Як захистовий набір зростав від чотирьох до тридцяти двох небезпечних поз, якість виведення для безпечних поз помітно погіршувалася, особливо для LoRA.

Візуальні результати, що показують, як PoseGuard реагує на одну небезпечну позу за допомогою повного параметричного тонкого налаштування. Модель пригнічує виведення для дискримінаційних, поз NSFW і чутливих до авторських прав поз, перенаправляючи їх на чорне зображення, зберігаючи якість для нормальних входів.

Візуальні результати, що показують, як PoseGuard реагує на одну небезпечну позу за допомогою повного параметричного тонкого налаштування. Модель пригнічує виведення для дискримінаційних, поз NSFW і чутливих до авторських прав поз, перенаправляючи їх на чорне зображення, зберігаючи якість для нормальних входів.

Для стійкості PoseGuard була протестована в умовах, які імітують реальне розгортання, де вхідні пози можуть не відповідати точно попередньо визначеним прикладам. Оцінка включала загальні перетворення, такі як переміщення, масштабування і обертання, а також ручні корекції кутів суглобів для імітації природної варіації.

Результати для стійкості PoseGuard перед обличчям загальних перетворень поз.

Результати для стійкості PoseGuard перед обличчям загальних перетворень поз.

У більшості випадків модель продовжувала пригнічувати небезпечні генерації, вказуючи на те, що захист залишається стійким до помірних порушень. Коли зміни усунули основний ризик у позі, модель припинила пригнічення і викликала нормальне виведення, вказуючи на те, що вона уникає хибно-позитивні результати під безпечними відхиленнями.

Оцінка стійкості PoseGuard до змін поз. Фігура показує виведення моделі для небезпечних поз, змінених переміщенням, масштабуванням і обертанням, а також ручними корекціями кінцівок. PoseGuard продовжує пригнічувати небезпечні генерації під помірними змінами, але відновлює нормальне виведення, коли поза більше не містить ризикових елементів.

Оцінка стійкості PoseGuard до змін поз. Фігура показує виведення моделі для небезпечних поз, змінених переміщенням, масштабуванням і обертанням, а також ручними корекціями кінцівок. PoseGuard продовжує пригнічувати небезпечні генерації під помірними змінами, але відновлює нормальне виведення, коли поза більше не містить ризикових елементів.

Нарешті, у основному експерименті дослідники протестували PoseGuard на загальність – її здатність працювати ефективно на нових даних, у різних середовищах і обставинах.

Тут PoseGuard була застосована до генерації, керованої посиланням на зображення, за допомогою моделі AnimateAnyone. У цьому середовищі система показала сильніше пригнічення неавторизованих виведень порівняно з керуванням позою, з майже повним погіршенням згенерованого відео в деяких випадках:

Порівняння результатів PoseGuard при застосуванні до генерації, керованої позою, і генерації, керованої посиланням на зображення, за допомогою повного тонкого налаштування на чотирьох небезпечних входах.

Порівняння результатів PoseGuard при застосуванні до генерації, керованої позою, і генерації, керованої посиланням на зображення, за допомогою повного тонкого налаштування на чотирьох небезпечних входах.

Автори пояснюють це тим, що густі ідентифікаційні дані у посиланнях на зображення дозволяють моделі легше вивчити націлену поведінку захисту. Результати, на їхню думку, вказують на те, що PoseGuard може обмежити ризики імітації в сценаріях, коли відео генерується безпосередньо з появи людини.

Для остаточного тесту автори застосували PoseGuard до синтезу відео, керованого орієнтацією обличчя, за допомогою системи AniPortrait, сценарію, який націлений на тонкі вирази обличчя, а не повні пози тіла.

Небезпечні вирази обличчя, пригнічені в AniPortrait з новою системою.

Небезпечні вирази обличчя, пригнічені в AniPortrait з новою системою.

За допомогою тонкого налаштування денойзингової UNet з тим же механізмом захисту модель змогла пригнічувати виведення з небезпечних орієнтацій обличчя, залишаючи безпечні вирази неушкодженими. Результати, на думку авторів, свідчать про те, що PoseGuard може загальнитися через модальності вводу і зберегти свою ефективність у більш локалізованих, керованих виразами завданнях генерації.

Візуальні результати, що показують, як PoseGuard реагує на генерацію, керовану посиланням на зображення.

Візуальні результати, що показують, як PoseGuard реагує на генерацію, керовану посиланням на зображення.

Висновок

Визнається, що для багатьох із 50 заборонених поз, наданих у роботі, діяльність, така як медичні огляди, або навіть виконання буденних домашніх завдань, ймовірно, буде заблокована в тому, що можна тільки уявити як синтезований варіант ефекту Сканторпа.

З цієї точки зору, і ще більше у випадку з виразами обличчя, (які можуть бути значно двозначними і нюансированими за наміром), PoseGuard здається досить грубим інструментом. До того ж, через загальний охолоджувальний ефект навколо NSFW штучного інтелекту, вільні випуски, такі як недавній Flux Kontext, зазвичай дуже цензуруються в будь-якому випадку,, або через суворе фільтрування наборів даних, редагування ваг, або обидва.

Отже, додавання обмежень, запропонованих тут, до тягаря цензурування локальних моделей здається явним кроком до пригнічення ефективності не-API генеративних систем. Це, можливо, вказує на майбутнє, де локальні моделі можуть генерувати лише низькоякісну версію будь-чого, що користувач бажає, тоді як API-моделі пропонують значно кращу продукцію, якщо тільки можна пройти через лабіринт фільтрів і засобів захисту, які заспокоюють юридичний відділ компанії-хоста.

Система, така як PoseGuard, у якій тонке налаштування активно впливає на якість виведення базової моделі (хоча це ігнорується в роботі), не націлена на API-системи зовсім; онлайн-моделі авангарду, ймовірно, продовжать користуватися необмеженими навчальними даними, оскільки їхні видатні можливості NSFW стримуються значними заходами нагляду.

 

* Метод тут такий же короткий, як і в роботі (яка складається лише з п’яти сторінок), і, як зазвичай, підхід найкраще зрозуміти з розділу тестів.

Опубліковано вперше в середу, 6 серпня 2025 року

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]