Andersonův úhel
NSFW a pózy „celebrit“ jsou nyní podnětem k cenzuře s využitím umělé inteligence

Nové ochranné opatření s využitím umělé inteligence pro generativní video systémy navrhuje cenzurovat pózy těla. Cílem jsou fyzické postoje (nebo výrazy obličeje), které lze interpretovat jako sexuálně sugestivní, „urážlivá gesta“ nebo dokonce pózy celebrit chráněných autorským právem či potenciálně ochranných známek.
Nový výzkum z Číny a Singapuru se zabývá jednou z méně zřejmých oblastí generování „nebezpečných“ obrázků a videí: zobrazením samotné pózy ve smyslu rozmístění těla nebo výrazu obličeje zobrazené osoby ve výstupu vytvořeném umělou inteligencí:

Koncepční schéma pro PoseGuard, systém navržený v novém výzkumu. Zdroj: https://arxiv.org/pdf/2508.02476
Systém s názvem PoseGuard, použití doladění si LoRAs vytvořit modely, které ze své podstaty nemohou generovat „zakázané“ pózy. Tento přístup byl zvolen, protože ochranná opatření zabudovaná do modelů FOSS lze obvykle triviálně překonaný, s důrazem na to, že tento nový „filtr“ se konkrétně zaměřuje na lokální instalace (protože modely pouze s API může filtrovat příchozí a odchozí obsah a výzvy, bez nutnosti ohrozit integrita modelových vah jemným doladěním).
Toto není první práce, která sama o sobě zachází s pózami jako s nebezpečnými daty; „sexuální výrazy obličeje“ byly vedlejší podobor studia po nějakou dobu, zatímco několik autorů nového díla také vytvořilo méně sofistikované Spící systém.
Nová studie je však, pokud vím, první, která rozšiřuje typizaci póz nad rámec sexuálního obsahu, a to dokonce do té míry, že zahrnuje „hnutí celebrit chráněných autorským právem“:
„Nebezpečné pózy definujeme spíše na základě potenciálních rizik generovaných výstupů než na základě geometrických charakteristik. Mezi [nebezpečné] pózy patří: 1) diskriminační pózy (např. klečení, urážlivé pozdravy), 2) sexuálně sugestivní pózy NSFW a 3) pózy citlivé na autorská práva, které napodobují snímky specifické pro celebrity.“
„Tyto pózy jsou shromažďovány prostřednictvím online zdrojů (např. Wikipedie), filtrování založeného na LLM a datových sad označených rizikem (např. tagy Civitai NSFW), což zajišťuje vyváženou a komplexní datovou sadu nebezpečných póz pro trénink.“

Kategorie „NSFW“ mezi 50 hlavními pózami vyvinutými pro PoseGuard.
Je zajímavé poznamenat, že pózy celebrit může být ochrannou známkou or chráněno právními prostředkya že adekvátně „kreativní“ kombinace póz nebo postojů mohou být chráněny jako jedinečné sekvence choreografieNicméně ani ikonická jediná póza nemusí být chráněna, jak zjistil jeden fotograf v souvislosti s fotografií Rentmeester vs. Nike. vládnoucí:

Fotograf, který pořídil fotografii Michaela Jordana (vpravo) úplně vlevo, zažaloval společnost Nike, když fotografii znovu vytvořili; porota však žalobu zamítla. Zdroj: https://writtendescription.blogspot.com/2018/02/can-you-copyright-pose.html
Nový systém PoseGuard se prohlašuje za první systém, který snižuje výstupní kvalitu při detekci nebezpečné pozice; vkládá bezpečnostní zábrany přímo do generativního modelu; definuje „nebezpečné“ pozice ve třech kategoriích; a zajišťuje, že generování si zachová kvalitu a integritu i poté, co je problematická pozice natolik upravena, že unikne filtru.
Jedno nový papír je s názvem PoseGuard: Generování s řízenými pózami a bezpečnostními zábradlímia pochází od šesti výzkumníků z Čínské univerzity vědy a techniky, (singapurské) agentury pro vědu, technologie a výzkum (A*STAR CFAR) a Technologické univerzity Nanyang.
Metoda
PoseGuard přepracovává logiku útoky zadních vrátek zabudovat obranný mechanismus přímo do modelu. Při typickém útoku typu backdoor specifické vstupy spouštějí škodlivé výstupy a PoseGuard toto nastavení obrací: určité předdefinované pózy, které jsou považovány za nebezpečné kvůli své sexuální, urážlivé nebo autorsky citlivé povaze, jsou propojeny s „neutrálními“ cílovými obrázky, jako jsou prázdné nebo rozmazané snímky.
Jemným doladěním modelu na kombinované datové sadě normálních a spouštěcích pozic se systém naučí zachovat věrnost pro neškodné vstupy a zároveň zhoršit kvalitu výstupu pro nebezpečné:

PoseGuard zpracovává referenční obrázek a sekvenci póz pomocí sdílené sítě UNet pro odšumování, kombinuje předtrénované váhy s jemným doladěním s ohledem na bezpečnost. Toto nastavení umožňuje modelu potlačit škodlivé generace z nebezpečných póz a zároveň zachovat kvalitu výstupu pro běžné vstupy.
Tato strategie „v modelu“ eliminuje potřebu externích filtrů a zůstává efektivní i v konfliktním nebo open-source prostředí.*
Data a testy
Pro získání benigních základních pozic autoři použili UBC-Móda datová sada:

Příklady z datové sady o módě Univerzity Britské Kolumbie, použité jako zdroj benigních póz v PoseGuard. Abstraktní pózy byly z těchto obrázků extrahovány pomocí rámce pro odhad pózy. Zdroj: https://www.cs.ubc.ca/~lsigal/Publications/bmvc2019zablotskaia.pdf
Nebezpečné pózy, jak již bylo zmíněno, byly získány z open-source platforem, jako je CivitAI. Pózy byly extrahovány pomocí DWPose framework, jehož výsledkem jsou obrázky s pózami o rozměrech 768x768px:

Příklady 50 nebezpečných pozic používaných při tréninku. Zde jsou uvedeny pozice NSFW a pozice citlivé na autorská práva, zdroje z Wikipedie, Render-State, Civitai a Vyhledávání Google.
Model generování řízený pózou byl AnimovatKdokoli.
Šest použitých metrik bylo Frechet Video Vzdálenost (FVD); FID-VID; Index strukturní podobnosti (SSIM); Špičkový poměr signálu k šumu (PSNR); Naučené metriky vjemové podobnosti (LPIPS); a Fréchet počáteční vzdálenost (FID). Testy byly provedeny na grafické kartě NVIDIA A6000 s 48 GB VRAM při objem várky 4 a a rychlost učení 1 × 10-5.
Tři hlavní testované kategorie byly účinnost, robustnost, a zobecnění.
V prvním z nich, účinnostAutoři porovnali dvě strategie tréninku pro PoseGuard: úplné doladění odšumující sítě UNet a parametricky efektivní jemné doladění pomocí modulů LoRA.
Oba přístupy potlačují výstupy z nebezpečných pozic a zároveň zachovávají kvalitu výstupu u neškodných pozic, ale s různými kompromisy: plné jemné doladění dosahuje silnějšího potlačení a udržuje vyšší věrnost, zejména když byl počet nebezpečných tréninkových pozic malý; a ladění založené na LoRA zavádí větší zhoršení kvality generování s rostoucím počtem nebezpečných pozic – ale vyžaduje výrazně méně parametrů a méně výpočetních nákladů.

Výkon PoseGuardu napříč metrikami generování a obrany. Šipky nahoru označují metriky, kde vyšší hodnoty jsou lepší; šipky dolů označují metriky, kde nižší hodnoty jsou lepší.
Kvalitativní výsledky (viz obrázek níže) ukázaly, že model bez zásahu reprodukoval útočné a NSFW pózy s vysokou věrností. S povolenou funkcí PoseGuard tyto pózy spouštěly nekvalitní nebo prázdné výstupy, zatímco neškodné vstupy zůstaly vizuálně neporušené. S nárůstem obranné sady ze čtyř na třicet dva nebezpečných pozic se kvalita neškodného výstupu mírně snížila, zejména u LoRA.

Vizuální výsledky ukazující, jak PoseGuard reaguje na jednu nebezpečnou pózu pomocí jemného doladění všech parametrů. Model potlačuje výstup pro diskriminační, NSFW a autorsky citlivé pózy a přesměrovává je na černý obrázek, přičemž zachovává kvalitu pro běžné vstupy.
Pro robustnost, PoseGuard byl testován za podmínek simulujících reálné nasazení, kde vstupní pozice nemusí přesně odpovídat předdefinovaným příkladům. Hodnocení zahrnovalo běžné transformace, jako například překlad, škálování, a rotace, stejně jako ruční úpravy úhlů kloubů pro napodobení přirozených variací.

Výsledky pro robustnost PoseGuardu tváří v tvář běžným transformacím pozic.
Ve většině případů model nadále potlačoval nebezpečné generace, což naznačuje, že obrana zůstává robustní až do mírných poruch. Když změny odstranily základní riziko v dané pozici, model přestal potlačovat a produkoval normální výstupy, což naznačuje, že se vyhýbá falešně pozitivním výsledkům i při benigních odchylkách.

Vyhodnocení odolnosti PoseGuardu vůči modifikacím póz. Obrázek ukazuje výstupy modelu pro nebezpečné pozice změněné posunem, škálováním a rotací, stejně jako ruční úpravy končetin. PoseGuard nadále potlačuje nebezpečné generace při mírných změnách, ale obnoví normální výstup, když pozice již neobsahuje „rizikový“ obsah.
Nakonec, v hlavní sérii experimentů, vědci testovali PoseGuard pro zobecnění – jeho schopnost efektivně pracovat s novými daty v různých prostředích a za různých okolností.
Zde byl PoseGuard použit k generování referenčního obrazu s využitím výše zmíněného modelu AnimateAnyone. V tomto nastavení systém vykazoval silnější potlačení neoprávněných výstupů ve srovnání s řízením založeným na póze, v některých případech s téměř úplnou degradací generovaného videa:

Porovnání výkonu PoseGuardu při použití pro generování s naváděním pozice oproti generování s naváděním referenčního obrazu s použitím úplného jemného doladění na čtyřech nebezpečných vstupech.
Autoři to připisují husté informaci o identitě v referenčních obrázcích, což modelu umožňuje snadněji se učit cílené obranné chování. Výsledky podle nich naznačují, že PoseGuard může omezit rizika zosobnění v situacích, kdy je video generováno přímo z vzhledu osoby.
Pro závěrečný test autoři aplikovali PoseGuard na syntézu videa s rozpoznáváním obličejových orientačních bodů pomocí... AniPortrait systém, scénář, který se zaměřuje spíše na jemnozrnné výrazy obličeje než na pózy celého těla.

Nebezpečné výrazy obličeje potlačené v AniPortrait s novým systémem.
Doladěním technologie Denoising UNet se stejným obranným mechanismem byl model schopen potlačit výstupy z nebezpečných orientačních bodů obličeje a zároveň ponechat negativní výrazy ovlivněny. Autoři naznačují, že výsledky ukazují, že PoseGuard dokáže zobecnit napříč vstupními modalitami a zachovat si efektivitu i v lokalizovanějších úlohách generování řízených výrazy.

Vizuální výsledky ukazující, jak PoseGuard reaguje na generování referenčního obrazu.
Proč investovat do čističky vzduchu?
Je třeba přiznat, že u mnoha z 50 zakázaných referenčních pozic uvedených v článku by činnosti, jako jsou lékařské prohlídky nebo dokonce nudné domácí práce, pravděpodobně byly blokovány v tom, co lze chápat pouze jako syntetickou verzi... Scunthorpeův efekt.
Z tohoto hlediska, a mnohem více v případě výrazů obličeje (které mohou být mnohem nejednoznačnější a s nuancemi záměru), by se PoseGuard jevil jako poněkud tupý nástroj. Navíc kvůli obecnému chladicí účinek kolem NSFW AI, FOSS vydání, jako například nedávný Flux Kontext, jsou běžně velmi cenzurované v každém případě, ať už prostřednictvím přísného filtrování datových sad, úpravy vah, nebo obojího.
Proto se přidání zde navrhovaných omezení k břemenu cenzury lokálních modelů jeví jako tichý pokus potlačit efektivitu systémů generujících systém bez API. To nás možná poukazuje na budoucnost, kde lokální modely mohou produkovat horší generaci čehokoli, co se uživateli líbí, zatímco modely API nabízejí nekonečně lepší výstup, pokud se jen podaří projít spoustou filtrů a ochranných opatření, které uklidní právní oddělení hostitelské společnosti.
Systém jako PoseGuard, kde jemné doladění aktivně ovlivňuje kvalitu výstupu základního modelu (ačkoli je to v článku přehlíženo), není vůbec zaměřen na API systémy; online modely Avangard budou pravděpodobně i nadále těžit z neomezených trénovacích dat, protože impozantní NSFW kapacity těchto modelů jsou omezeny značnými dohledovými opatřeními.
* Metoda je zde stejně krátká jako v článku (který má pouze pět stran) a jako obvykle je přístup nejlépe pochopen ze sekce věnované testům.
Poprvé publikováno ve středu 6. srpna 2025