Unghiul lui Anderson

Acum NSFW și “Poze de Celebrități” Sunt Material pentru Cenzura IA

mm
An artist's wooden mannequin getting arrested – Flux 1D.

O nouă măsură de siguranță pentru sistemele video generative propune cenzurarea pozelor corporale. Atitudinile fizice (sau expresiile faciale) care pot fi interpretate ca sugestive sexual, “gesturi ofensatoare” sau chiar poze de celebrități copiate sau posibil înregistrate ca mărci comerciale, toate sunt vizate.

 

Noi cercetări din China și Singapore abordează unul dintre domeniile mai puțin evidente în ceea ce privește generarea de imagini și videoclipuri “nesigure”: reprezentarea unei poze în sine, în sensul dispunerii corpului sau a expresiei faciale a unei persoane reprezentate în ieșirile create de IA:

Schema conceptuală pentru PoseGuard, sistemul propus în noua cercetare. Sursă: https://arxiv.org/pdf/2508.02476

Schema conceptuală pentru PoseGuard, sistemul propus în noua cercetare. Sursă: https://arxiv.org/pdf/2508.02476

Sistemul, intitulat PoseGuard, utilizează reglarea fină și LoRAs pentru a crea modele care, în mod intrinsic, nu pot genera “poze interzise”. Acest abordare a fost adoptată deoarece măsurile de siguranță integrate în modelele FOSS pot fi, de obicei, depășite cu ușurință, subliniind că acest nou “filtru” vizează în mod specific instalațiile locale (deoarece modelele API pot filtra conținutul și prompturile de intrare și ieșire, fără a necesita a pune în pericol integritatea greutăților modelului prin reglare fină).

Acesta nu este primul studiu care tratează pozele ca date nesigure în sine; “expresiile faciale sexuale” au fost un subdomeniu minor de studiu de ceva timp, în timp ce mai mulți autori ai noii lucrări au creat și sistemul mai puțin sofisticat Dormant.

Cu toate acestea, noua lucrare este prima, pe cât pot eu să văd, care extinde tipizarea pozelor dincolo de conținutul sexual, chiar și până la includerea “mișcărilor de celebrități protejate prin drepturi de autor”:

‘Definim poze nesigure pe baza riscurilor potențiale ale ieșirilor generate, mai degrabă decât a caracteristicilor geometrice. [Pozele] nesigure includ: 1) poze discriminatorii (de exemplu, genunchi, saluturi ofensatoare), 2) poze NSFW sugestive și 3) poze sensibile la drepturi de autor, care imită imagini specifice de celebrități.

‘Aceste poze sunt colectate prin surse online (de exemplu, Wikipedia), filtrare LLM și seturi de date etichetate cu risc (de exemplu, etichete NSFW Civitai), asigurând un set de date cuprinzător și echilibrat de poze nesigure pentru antrenament.’

Categoria 'NSFW' a celor 50 de poze de bază dezvoltate pentru PoseGuard.

Categoria ‘NSFW’ a celor 50 de poze de bază dezvoltate pentru PoseGuard.

Este interesant de remarcat că pozele de celebrități pot fi înregistrate ca mărci comerciale sau protejate prin mijloace legale, și că combinații suficient de “creative” de poze sau atitudini pot fi protejate ca secvențe unice de coregrafie. Cu toate acestea, chiar și o poză iconică singulară nu poate fi protejată, așa cum a descoperit un fotograf, în hotărârea Rentmeester Vs. Nike ruling:

Un fotograf care a făcut fotografia din stânga a lui Michael Jordan a dat în judecată Nike când au recreat fotografia (dreapta); cu toate acestea, un panel de judecători a respins cererea. Sursă: https://writtendescription.blogspot.com/2018/02/can-you-copyright-pose.html

Un fotograf care a făcut fotografia din stânga a lui Michael Jordan a dat în judecată Nike când au recreat fotografia (dreapta); cu toate acestea, un panel de judecători a respins cererea. Sursă: https://writtendescription.blogspot.com/2018/02/can-you-copyright-pose.html

Noul sistem PoseGuard pretinde a fi primul care degradează ieșirile atunci când se detectează o poză nesigură; pentru a încorpora direct bariera de siguranță într-un model generativ; pentru a defini “poze nesigure” în trei categorii; și pentru a asigura că generarea păstrează calitatea și integritatea odată ce o poză ofensatoare a fost modificată suficient pentru a evita filtrul.

Noua lucrare, intitulată PoseGuard: Generare ghidată de poze cu barriere de siguranță, provine de la șase cercetători de la Universitatea Științei și Tehnologiei din China, Agenția pentru Știință, Tehnologie și Cercetare din Singapore (A\*STAR CFAR) și Universitatea Tehnică Nanyang.

Metodă

PoseGuard reutilizează logica atacurilor de “backdoor” pentru a construi un mecanism de apărare direct în model. Într-un atac de backdoor tipic, anumite intrări declanșează ieșiri malefice, iar PoseGuard inversează această configurație: anumite poze predefinite care sunt considerate nesigure din cauza naturii lor sexuale, ofensatoare sau sensibile la drepturi de autor, sunt legate de imagini “neutre” țintă, cum ar fi cadre goale sau estompate.

Prin reglarea fină a modelului pe un set de date combinat de poze normale și declanșatoare, sistemul învață să păstreze fidelitatea pentru intrări benigne, în timp ce degradează calitatea ieșirii pentru cele nesigure:

PoseGuard procesează o imagine de referință și o secvență de poze utilizând un UNet de estompare partajat, combinând greutăți preantrenate cu reglare fină aliniată cu siguranța. Acest setup permite modelului să suprimă generări dăunătoare din poze nesigure, în timp ce menține calitatea ieșirii pentru intrări normale.

PoseGuard procesează o imagine de referință și o secvență de poze utilizând un UNet de estompare partajat, combinând greutăți preantrenate cu reglare fină aliniată cu siguranța. Acest setup permite modelului să suprimă generări dăunătoare din poze nesigure, în timp ce menține calitatea ieșirii pentru intrări normale.

Această strategie “în-model” elimină nevoia de filtre externe și rămâne eficientă chiar și în medii adversarale sau cu sursă deschisă.*

Date și teste

Pentru a obține poze de bază benigne, autorii au utilizat setul de date UBC-Fashion:

Exemple din setul de date al modului de la Universitatea din British Columbia, utilizat ca sursă de poze benigne în PoseGuard. Sursă: https://www.cs.ubc.ca/~lsigal/Publications/bmvc2019zablotskaia.pdf

Exemple din setul de date al modului de la Universitatea din British Columbia, utilizat ca sursă de poze benigne în PoseGuard. Poze abstracte au fost extrase din aceste imagini cu un cadru de estimare a pozelor. Sursă: https://www.cs.ubc.ca/~lsigal/Publications/bmvc2019zablotskaia.pdf

Pozele nesigure, după cum s-a menționat anterior, au fost sursate din platforme cu sursă deschisă, cum ar fi CivitAI. Pozele au fost extrase utilizând cadrul DWPose, rezultând imagini cu poze de 768x768px:

Exemple din cele 50 de poze nesigure utilizate în antrenament. Aici sunt prezentate poze NSFW și sensibile la drepturi de autor, sursate din Wikipedia, Render-State, Civitai și Google Search.

Exemple din cele 50 de poze nesigure utilizate în antrenament. Aici sunt prezentate poze NSFW și sensibile la drepturi de autor, sursate din Wikipedia, Render-State, Civitai și Google Search.

Modelul de generare ghidat de poze a fost AnimateAnyone.

Cei șase metrii utilizați au fost Fréchet Video Distance (FVD); FID-VID; Structural Similarity Index (SSIM); Peak Signal-to-Noise Ratio (PSNR); Learned Perceptual Similarity Metrics (LPIPS); și Fréchet Inception Distance (FID). Testele au fost efectuate pe un GPU NVIDIA A6000 cu 48GB de VRAM, la o dimensiune a lotului de 4 și o rată de învățare de 1×10-5.

Cele trei categorii principale testate au fost eficacitatea, robustitatea și generalizarea.

În primul rând, eficacitatea, autorii au comparat două strategii de antrenament pentru PoseGuard: reglarea fină completă a UNet-ului de estompare și reglarea fină eficientă din punct de vedere al parametrilor, utilizând module LoRA.

Ambele abordări suprimă ieșirile de la poze nesigure, în timp ce păstrează calitatea ieșirii pentru poze benigne, dar cu compromisuri diferite: reglarea fină completă realizează o suprimare mai puternică și menține o fidelitate mai mare, în special atunci când numărul de poze nesigure de antrenament a fost mic; și reglarea bazată pe LoRA introduce mai multă degradare a calității generării, dar necesită semnificativ mai puțini parametri și mai puțină putere de calcul – dar necesită semnificativ mai puțini parametri și mai puțină putere de calcul.

Performanța PoseGuard la nivelul metricilor de generare și apărare. Săgețile ascendente indică metrici pentru care valorile mai mari sunt mai bune; săgețile descendente indică metrici pentru care valorile mai mici sunt mai bune.

Performanța PoseGuard la nivelul metricilor de generare și apărare. Săgețile ascendente indică metrici pentru care valorile mai mari sunt mai bune; săgețile descendente indică metrici pentru care valorile mai mici sunt mai bune.

Rezultatele calitative (vezi imaginea de mai jos) au arătat că, fără intervenție, modelul a reprodus poze ofensatoare și NSFW cu fidelitate ridicată. Cu PoseGuard activat, aceste poze au declanșat ieșiri de calitate scăzută sau cadre goale, în timp ce intrările benigne au rămas intacte din punct de vedere vizual. Pe măsură ce setul de apărare a crescut de la patru la 32 de poze nesigure, calitatea ieșirii benigne a scăzut moderat, în special pentru LoRA.

Rezultate vizuale care arată cum răspunde PoseGuard la o singură poză nesigură utilizând reglarea fină completă a parametrilor. Modelul suprimă ieșirile pentru poze discriminatorii, NSFW și sensibile la drepturi de autor, redirecționându-le către o imagine neagră, în timp ce păstrează calitatea pentru intrări normale.

Rezultate vizuale care arată cum răspunde PoseGuard la o singură poză nesigură utilizând reglarea fină completă a parametrilor. Modelul suprimă ieșirile pentru poze discriminatorii, NSFW și sensibile la drepturi de autor, redirecționându-le către o imagine neagră, în timp ce păstrează calitatea pentru intrări normale.

Pentru robustitate, PoseGuard a fost testat în condiții care simulează implementarea în lumea reală, unde pozele de intrare pot nu se potrivește exact cu exemplele predefinite. Evaluarea a inclus transformări comune, cum ar fi translația, scalarea și rotirea, precum și ajustări manuale ale unghiurilor articulațiilor pentru a imita variația naturală.

Rezultate pentru robustețea PoseGuard în fața transformărilor comune de poze.

Rezultate pentru robustețea PoseGuard în fața transformărilor comune de poze.

În majoritatea cazurilor, modelul a continuat să suprimă generări nesigure, indicând faptul că apărarea rămâne robustă la perturbații moderate. Atunci când modificările au eliminat riscul subiacent din poză, modelul a oprit suprimarea și a produs ieșiri normale, sugerând că evită false pozitive sub deviații benigne.

Evaluarea robusteții PoseGuard la modificări de poze. Figura prezintă ieșirile modelului pentru poze nesigure modificate prin translație, scalare și rotire, precum și ajustări manuale ale membrelor. PoseGuard continuă să suprimă generări nesigure sub schimbări ușoare, dar reia ieșirile normale atunci când poza nu mai conține conținut riscant.

Evaluarea robusteții PoseGuard la modificări de poze. Figura prezintă ieșirile modelului pentru poze nesigure modificate prin translație, scalare și rotire, precum și ajustări manuale ale membrelor. PoseGuard continuă să suprimă generări nesigure sub schimbări ușoare, dar reia ieșirile normale atunci când poza nu mai conține conținut riscant.

În cele din urmă, în rularea principală a experimentelor, cercetătorii au testat PoseGuard pentru generalizare – capacitatea sa de a opera eficient pe date noi, într-o varietate de medii și circumstanțe.

Aici, PoseGuard a fost aplicat la generarea ghidată de imagini de referință, utilizând modelul AnimateAnyone menționat anterior. În acest context, sistemul a arătat o suprimare mai puternică a ieșirilor neautorizate, comparativ cu controlul bazat pe poze, cu o degradare aproape totală a videoclipului generat în unele cazuri:

Comparația performanței PoseGuard atunci când este aplicat la generarea ghidată de poze versus generarea ghidată de imagini de referință, utilizând reglarea fină completă pe patru intrări nesigure.

Comparația performanței PoseGuard atunci când este aplicat la generarea ghidată de poze versus generarea ghidată de imagini de referință, utilizând reglarea fină completă pe patru intrări nesigure.

Autorii atribuie acest lucru informațiilor dense de identitate din imaginile de referință, care permit modelului să învețe mai ușor un comportament defensiv țintit. Rezultatele, sugerează ei, indică faptul că PoseGuard poate limita riscurile de impersonare în scenarii în care videoclipurile sunt generate direct din aspectul unei persoane.

Pentru un test final, autorii au aplicat PoseGuard la sinteza video ghidată de repere faciale, utilizând sistemul AniPortrait, un scenariu care vizează expresii faciale fine, mai degrabă decât poze complete ale corpului.

Suprimarea expresiilor faciale nesigure în AniPortrait, cu noul sistem.

Suprimarea expresiilor faciale nesigure în AniPortrait, cu noul sistem.

Prin reglarea fină a UNet-ului de estompare cu același mecanism de apărare, modelul a putut suprima ieșirile de la repere faciale nesigure, lăsând expresiile benigne neafectate. Rezultatele, sugerează autorii, arată că PoseGuard poate generaliza pe modalități de intrare și menține eficacitatea în sarcini de generare mai localizate și conduse de expresii.

Rezultate vizuale care arată modul în care PoseGuard răspunde la generarea ghidată de imagini de referință.

Rezultate vizuale care arată modul în care PoseGuard răspunde la generarea ghidată de imagini de referință.

Concluzie

Trebuie să se recunoască că, pentru multe dintre cele 50 de poze interzise furnizate de lucrare, activități precum examene medicale sau chiar și efectuarea unor sarcini casnice plictisitoare, ar fi probabil blocate în ceea ce poate fi conceput ca o versiune de sinteză a efectului Scunthorpe.

Din această perspectivă, și mai mult în cazul expresiilor faciale (care pot fi mult mai ambigue și nuanțate în intenție), PoseGuard pare a fi un instrument destul de “brutal”. Pe de altă parte, din cauza unui efect general de “răcire” în jurul IA NSFW, lansările FOSS, cum ar fi recenta Flux Kontext, sunt în mod obișnuit foarte cenzurate oricum, fie prin filtrarea riguroasă a setului de date, editarea greutăților, sau ambele.

Prin urmare, adăugarea constrângerilor propuse aici la sarcina cenzurii modelului local pare a fi o încercare tacită de a suprima eficacitatea sistemelor generative non-API. Acest lucru ne-ar putea conduce către un viitor în care modelele locale pot produce o generație inferioară a oricărui lucru pe care utilizatorul îl dorește, în timp ce modelele API oferă ieșiri infinite superioare, dacă doar poți negocia gauntletul de filtre și măsuri de siguranță care liniștesc departamentul juridic al companiei-gazdă.

Un sistem precum PoseGuard, în care reglarea fină afectează activ calitatea ieșirii modelului de bază (deși acest lucru este trecut cu vederea în lucrare), nu este destinat deloc modelelor API; modelele online vanguard, care beneficiază de date de antrenament nelimitate, vor continua probabil să beneficieze de capacitățile lor NSFW formidabile, ținute sub control de măsuri de supraveghere considerabile.

 

* Metoda este la fel de scurtă aici, ca și în lucrarea (care se întinde pe doar cinci pagini), și, ca de obicei, abordarea este mai bine înțeleasă din secțiunea de teste.

Publicat pentru prima dată miercuri, 6 august 2025

Scriitor pe machine learning, specialist în domeniul sintezei de imagini umane. Foster head of research content la Metaphysic.ai.