Andersonin kulma

Nyt NSFW ja “julkkis” -asennot ovat ruokaa AI-sensuurille

mm
An artist's wooden mannequin getting arrested – Flux 1D.

Uusi AI-suoja generatiivisille videosysteemeille ehdottaa asentojen sensuroimista. Fyysiset asennot (tai kasvojen ilmeet) jotka voidaan tulkita seksuaalisesti vihjaaviksi, “loukkaaviksi eleiksi” tai jopa tekijänoikeudella suojatuiksi julkkis- tai mahdollisesti tavaramerkkituotteiksi, ovat kaikki kohderyhmänä.

 

Uusi tutkimus Kiinasta ja Singapoorestaa käsittelee yhtä vähäisemmistä alueista “turvattomassa” kuvan ja videon luomisessa: asennon itsensä kuvaamista, siis henkilön kehon tai kasvojen ilmeen mukaan AI-luodussa tuloksessa:

KÀsitteellinen schema PoseGuard-jÀrjestelmÀlle, jota esitetÀÀn uudessa tutkimuksessa. LÀhde: https://arxiv.org/pdf/2508.02476

Käsitteellinen schema PoseGuard-järjestelmälle, jota esitetään uudessa tutkimuksessa. Lähde: https://arxiv.org/pdf/2508.02476

Järjestelmä, joka on nimeltään PoseGuard, käyttää hienosäätöä ja LoRAs luomaan malleja, jotka eivät voi luoda “kiellettyjä” asentoja. Tämä lähestymistapa valittiin, koska vapaan lähdekoodin mallien sisäänrakennetut turvallisuusominaisuudet voidaan yleensä helposti ohittaa, korostamalla, että tämä uusi “suodatin” kohdistuu nimenomaan paikallisiin asennuksiin (koska API-vain mallit voivat suodattaa saapuvan ja lähtevän sisällön ja ohjelmat, ilman että vaarantaa mallipainojen eheys hienosäätämällä).

Tämä ei ole ensimmäinen työ, joka käsittelee asentoja itsessään epäturvallisina; “seksuaaliset kasvojen ilmeet” ovat olleet vähäinen alatutkimus jonkin aikaa, kun taas useat uuden tutkimuksen tekijöistä loivat myös vähemmän kehittyneen Dormant -järjestelmän.

Kuitenkin uusi tutkimus on ensimmäinen, niin kuin voisin tietää, joka laajentaa asentojen luokittelua seksuaalisen sisällön lisäksi, jopa mukaan lukien “tekijänoikeudella suojatut julkkisliikkeet”:

‘Määrittelemme epäturvalliset asennot potentiaalisten riskejen perusteella luodusta tuloksesta eikä geometrisista ominaisuuksista. [Epäturvalliset] asennot sisältävät: 1) syrjivät asennot (esim. polvistuminen, loukkaavat tervehdykset), 2) seksuaalisesti vihjaavat NSFW-asennot ja 3) tekijänoikeudella suojatut julkkisliikkeet.

‘Nämä asennot kerätään internet-lähteistä (esim. Wikipedia), LLM-pohjaisella suodattimella ja riski-merkityillä tietokannoilla (esim. Civitai NSFW -tagit), varmistaen tasapuolisen ja kattavan epäturvallisen asentojen koulutusaineiston.

NSFW-luokan 50 keskeisestÀ asennosta, joita kehitettiin PoseGuardille.

NSFW-luokan 50 keskeisestä asennosta, joita kehitettiin PoseGuardille.

On mielenkiintoista huomata, että julkkis-asennot voivat olla tekijänoikeudella suojattuja tai suojattuja oikeudellisilla keinoilla, ja että riittävän “luovia” asentojen tai asentojen yhdistelmiä voidaan suojata yksittäisinä koreografian järjestelminä. Kuitenkin yksittäinen, ikoninen asento ei välttämättä ole suojattu, kuten yksi valokuvaaja havaitsi, Rentmeester Vs. Nike tuomiossa:

Valokuvaaja, joka otti vasemman kuvan Michael Jordanista, haastoi Niken, kun he loivat kuvan (oikea); kuitenkin tuomarien paneeli hylkÀsi vaatimuksen. LÀhde: https://writtendescription.blogspot.com/2018/02/can-you-copyright-pose.html

Valokuvaaja, joka otti vasemman kuvan Michael Jordanista, haastoi Niken, kun he loivat kuvan (oikea); kuitenkin tuomarien paneeli hylkäsi vaatimuksen. Lähde: https://writtendescription.blogspot.com/2018/02/can-you-copyright-pose.html

Uusi PoseGuard-järjestelmä väittää olevansa ensimmäinen, joka heikentää tulostetta, kun epäturvallinen asento havaitaan; upottaa turvallisuussuojat suoraan generatiiviseen malliin; määrittelee “epäturvalliset” asennot kolmen kategorian kautta; ja varmistaa, että generointi säilyttää laadun ja eheys, kun loukkaava asento on muutettu tarpeeksi päästäkseen suodattimen läpi.

Tutkimus uusi tutkimus on nimeltään PoseGuard: Pose-Guided Generation with Safety Guardrails, ja se tulee kuudesta tutkijasta Kiinan tiede- ja teknologiayliopistosta, Singaporen tieteen ja teknologian tutkimuslaitoksesta (A\*STAR CFAR) ja Nanyangin teknillisestä yliopistosta.

Menetelmä

PoseGuard uudelleenohjaa takaisinportaiden hyökkäyksen logiikkaa rakentamaan puolustusmekanismi suoraan malliin. Tyypillisessä takaisinportaiden hyökkäyksessä tietyt syötteet laukaisevat pahantahtoisia tuloksia, ja PoseGuard kääntää tämän asetelman: tietyt ennalta määritellyt asennot, jotka katsotaan epäturvallisiksi niiden seksuaalisen, loukkaavan tai tekijänoikeudella suojatun luonteen vuoksi, liitetään “neutraaleihin” kohdekuviin, kuten tyhjiin tai sumennettuihin kehyksiin.

Mallioppiminen yhdistetysti normaaleista ja laukaisevista asennoista, järjestelmä oppii säilyttämään uskollisuuden hyvien syötteiden kohdalla, kun taas epäturvalliset syötteet heikentävät tuloksen laatua:

PoseGuard prosessoi viitekuvan ja asennon jÀrjestyksen jaettavalla denoising UNet:llÀ, yhdistÀen esikoulutetut painot turvallisuuden mukaisiin hienosÀÀtöön. TÀmÀ asettelu mahdollistaa mallin estÀÀ haitallisia generoita epÀturvallisista asennoista, sÀilyttÀen samalla tuloksen laatu normaaleille syötteille.

PoseGuard prosessoi viitekuvan ja asennon järjestyksen jaettavalla denoising UNet:llä, yhdistäen esikoulutetut painot turvallisuuden mukaisiin hienosäätöön. Tämä asettelu mahdollistaa mallin estää haitallisia generoita epäturvallisista asennoista, säilyttäen samalla tuloksen laatu normaaleille syötteille.

Tämä “mallin sisäinen” strategia poistaa tarpeen ulkoisille suodattimille, ja se säilyy tehokkaana myös vihamielisissä tai avoimen lähdekoodin ympäristöissä.*

Data ja testit

Saadakseen hyvät perusasennot, tutkijat käyttivät UBC-Fashion -tietokantaa:

EsimerkkejÀ BrittilÀisen Kolumbian yliopiston muotitietokannasta, jota kÀytettiin PoseGuardin hyvien asentojen lÀhteenÀ. LÀhde: https://www.cs.ubc.ca/~lsigal/Publications/bmvc2019zablotskaia.pdf

Esimerkkejä Brittiläisen Kolumbian yliopiston muotitietokannasta, jota käytettiin PoseGuardin hyvien asentojen lähteenä. Abstraktit asennot purettiin näistä kuvista pose-estimaatiokehyksellä. Lähde: https://www.cs.ubc.ca/~lsigal/Publications/bmvc2019zablotskaia.pdf

Epäturvalliset asennot, kuten mainittiin aiemmin, haettiin avoimen lähdekoodin alustoilta, kuten CivitAI:sta. Asennot purettiin DWPose -kehyksellä, josta saatiin 768x768px asentokuvia:

EsimerkkejÀ 50 epÀturvallisesta asennosta, joita kÀytettiin koulutuksessa. NÀytetÀÀn NSFW- ja tekijÀnoikeudella suojattuja asentoja, jotka haettiin Wikipediasta, Render-Statesta, Civitai:sta ja Google-hausta.

Esimerkkejä 50 epäturvallisesta asennosta, joita käytettiin koulutuksessa. Näytetään NSFW- ja tekijänoikeudella suojattuja asentoja, jotka haettiin Wikipediasta, Render-Statesta, Civitai:sta ja Google-hausta.

Pose-ohjattu generointimalli oli AnimateAnyone.

Kuusi mittaria, jotka käytettiin, olivat Fréchet Video Distance (FVD); FID-VID; Rakenteellinen samankaltaisuusindeksi (SSIM); Huipputaso-signaali-äänen suhde (PSNR); Opetetut havainnollistamismitat (LPIPS); ja Fréchet Inception Distance (FID). Testit tehtiin NVIDIA A6000 -näytönohjaimella, jossa on 48 GB VRAM, 4 kappaleen eräkokoa ja oppiakokoa 1×10-5.

Kolme pääkategoriaa, joita testattiin, olivat tehokkuus, luotettavuus ja yleistettävyys.

Ensimmäisessä näistä, tehokkuus, tutkijat vertailivat kahta koulutusstrategiaa PoseGuardille: täydellistä hienosäätöä denoising UNet:llä ja parametrin tehokasta hienosäätöä LoRA-moduuleilla.

Molemmat lähestymistavat estävät tulokset epäturvallisista asennoista, säilyttäen samalla tuloksen laatu hyvillä asennoilla, mutta eri kompromisseilla: täydellinen hienosäätö saavuttaa vahvemman eston ja säilyttää korkeamman uskollisuuden, erityisesti kun epäturvallisten koulutusasentojen määrä on pieni; ja LoRA-pohjainen säätö aiheuttaa enemmän heikentymistä generoinnin laadussa, mutta vaatii merkittävästi vähemmän parametreja ja laskentaa.

PoseGuardin suorituskyky generoinnin ja puolustusmittareilla. YlöspÀin osoittavat nuolet osoittavat mittareita, joissa korkeammat arvot ovat parempia; alaspÀin osoittavat nuolet osoittavat mittareita, joissa matalammat arvot ovat parempia.

PoseGuardin suorituskyky generoinnin ja puolustusmittareilla. Ylöspäin osoittavat nuolet osoittavat mittareita, joissa korkeammat arvot ovat parempia; alaspäin osoittavat nuolet osoittavat mittareita, joissa matalammat arvot ovat parempia.

Laadulliset tulokset (ks. kuva alla) osoittivat, että ilman väliintuloa malli toisti loukkaavat ja NSFW-asennot korkealla uskollisuudella. PoseGuardin ollessa käytössä nämä asennot laukaisivat matalanlaatuiset tai tyhjät tulokset, kun taas hyvät syötteet säilyivät visuaalisesti koskemattomina. Kun puolustusjoukko kasvoi neljästä epäturvallisesta asennosta 32:een, hyvien tulosten laatu laski kohtuullisesti, erityisesti LoRA:lle.

Visuaaliset tulokset, jotka osoittavat, miten PoseGuard reagoi yhteen epÀturvalliseen asentoon tÀydellÀ parametrin hienosÀÀtöllÀ. Malli estÀÀ tulokset syrjiviltÀ, NSFW- ja tekijÀnoikeudella suojatuilta asennoilta, ohjaten ne mustaan kuvaan, kun taas hyvÀt syötteet sÀilyttÀvÀt laadun.

Visuaaliset tulokset, jotka osoittavat, miten PoseGuard reagoi yhteen epäturvalliseen asentoon täydellä parametrin hienosäätöllä. Malli estää tulokset syrjiviltä, NSFW- ja tekijänoikeudella suojatuilta asennoilta, ohjaten ne mustaan kuvaan, kun taas hyvät syötteet säilyttävät laadun.

Kun luotettavuus testattiin, PoseGuardia testattiin olosuhteissa, jotka simuloivat todellisen käytön, jossa syöteasennot eivät välttämättä vastaa ennalta määriteltyjä esimerkkejä täysin. Arviointi sisälsi yleisiä muunnoksia, kuten translaatio, mittakaavan muutos ja kierto, sekä manuaalisia säätöjä nivelen kulmiin jäljitelläkseen luonnollista vaihtelua.

PoseGuardin luotettavuuden tulokset asentojen yleisten muunnosten suhteen.

PoseGuardin luotettavuuden tulokset asentojen yleisten muunnosten suhteen.

Useimmissa tapauksissa malli jatkoi epäturvallisten generointien estämistä, osoittaen, että puolustus säilyy vankkana kohtuullisille häiriöille. Kun muutokset poistivat asennosta perustuvan riskin, malli lopetti estämisen ja tuotti normaalit tulokset, osoittaen, että se välttää väärät positiiviset tulokset harmiton muutoksissa.

PoseGuardin luotettavuuden arviointi asentojen muokkauksille. Kuva osoittaa mallin tulokset epÀturvallisille asennoille, jotka on muokattu translaatiolla, mittakaavan muutoksella ja kierronnalla, sekÀ manuaalisilla raajan sÀÀtöillÀ. PoseGuard jatkaa epÀturvallisten generointien estÀmistÀ lievissÀ muutoksissa, mutta palauttaa normaalin tuloksen, kun asento ei enÀÀ sisÀllÀ riskiÀ.

PoseGuardin luotettavuuden arviointi asentojen muokkauksille. Kuva osoittaa mallin tulokset epäturvallisille asennoille, jotka on muokattu translaatiolla, mittakaavan muutoksella ja kierronnalla, sekä manuaalisilla raajan säätöillä. PoseGuard jatkaa epäturvallisten generointien estämistä lievissä muutoksissa, mutta palauttaa normaalin tuloksen, kun asento ei enää sisällä riskiä.

Lopulta pääkokeissa tutkijat testasivat PoseGuardin yleistettävyyttä – sen kykyä toimia tehokkaasti uusissa tilanteissa ja olosuhteissa.

Tässä PoseGuard sovellettiin viitekuvan ohjaamaan generointiin AnimateAnyone-mallilla. Tässä asetelmassa järjestelmä osoitti vahvempaa epävirallisten tulosten estämistä verrattuna pose-pohjaiseen ohjaukseen, lähes täydellistä generoinnin heikentymistä joissakin tapauksissa:

PoseGuardin suorituskyky pose-ohjatun ja viitekuvan ohjatun generoinnin vertailussa, tÀydellÀ hienosÀÀtöllÀ neljÀllÀ epÀturvallisella syötteellÀ.

PoseGuardin suorituskyky pose-ohjatun ja viitekuvan ohjatun generoinnin vertailussa, täydellä hienosäätöllä neljällä epäturvallisella syötteellä.

Tutkijat pitävät tätä johtuvan viitekuvien tiheästä identiteettitiedosta, joka mahdollistaa mallille helpommin kohdennetun puolustuskomponentin oppimisen. Tulokset, he ehdottavat, osoittavat, että PoseGuard voi rajoittaa henkilöllisyyden varastamisen riskejä tilanteissa, joissa video luodaan suoraan henkilön ulkonäöstä.

Lopullisessa kokeessa tutkijat sovelsivat PoseGuardia kasvojen maamerkkien ohjaamaan videosynteesiin AniPortrait-järjestelmällä, joka kohdistuu hienojaksoisiin kasvojen ilmeisiin eikä pelkästään kehon asentoihin.

EpÀturvalliset kasvojen ilmeet estettiin AniPortraitissa uuden jÀrjestelmÀn avulla.

Epäturvalliset kasvojen ilmeet estettiin AniPortraitissa uuden järjestelmän avulla.

Denoising UNet:n hienosäätöä samaa puolustusmekanismia käyttäen, malli pystyi estämään tulokset epäturvallisista kasvojen maamerkeistä, jättäen silti hyvät ilmeet vaikuttamattomiksi. Tutkijat ehdottavat, että tulokset osoittavat, että PoseGuard voi yleistää syötemuotojen yli ja säilyttää tehokkuutensa paikallisemmissa, ilmeisiin perustuvissa generointitehtävissä.

Visuaaliset tulokset, jotka osoittavat, miten PoseGuard reagoi viitekuvan ohjattuun generointiin.

Visuaaliset tulokset, jotka osoittavat, miten PoseGuard reagoi viitekuvan ohjattuun generointiin.

Johtopäätös

On myönnettävä, että monille tämän tutkimuksen 50 kielletylle viiteasennolle, kuten lääkärintarkastukset tai jopa tylsät kotitöitä, todennäköisesti estettäisiin, mikä voidaan vain käsittää synteesipohjaisena versiona Scunthorpe-ilmiöstä.

Tästä näkökulmasta, ja vielä enemmän kasvojen ilmeiden kohdalla (jotka voivat olla paljon epäselvempiä ja monitulkintaisempia tarkoituksessaan), PoseGuard vaikuttaa jonkinlaiselta tylsältä välineeltä. Lisäksi, johtuen yleisestä jäähdytysvaikutuksesta NSFW-aiheista, vapaat lähdekoodit, kuten viimeaikainen Flux Kontext, on rutiininomaisesti erittäin sensuroitu joka tapauksessa, joko tiukkojen tietokannan suodattimien, painojen muokkauksen tai molempien kautta.

Lisäämällä tämän rajoituksen tähän paikallisten mallien sensuurin taakkaan näyttää olevan hiljainen pyrkimys rajoittaa ei-API-generatiivisten järjestelmien tehokkuutta. Tämä saattaa osoittaa tulevaisuutta, jossa paikalliset mallit voivat tuottaa alempaa laatua mitä tahansa käyttäjän haluamaa, kun taas API-mallit tarjoavat äärettömän parempaa tulosta, jos vain pystyy kiertämään suodattimien ja turvallisuusjärjestelmien esteiden, jotka rauhoittavat isäntäyrityksen lakiosaston.

Järjestelmä kuten PoseGuard, jossa hienosäätö vaikuttaa aktiivisesti perusmallin tuloksen laatuun (vaikka tämä on ylitetty tutkimuksessa), ei kohdistu API-järjestelmiin lainkaan; online-vartiointimallit todennäköisesti jatkavat hyödyntämistä rajoittamattomasta koulutusaineistosta, koska näiden mallien merkittävät NSFW-ominaisuudet hillitään merkittävillä valvontatoimilla.

 

* Menetelmä on yhtä lyhyt tässä kuin tutkimuksessa (joka on vain viisi sivua), ja, kuten yleensä, lähestymistapa ymmärretään parhaiten kokeiden kautta.

Julkaistu ensimmäisen kerran keskiviikkona, 6. elokuuta 2025

Kirjailija tekoÀlystÀ, alan erikoisosaaja ihmiskuvien synteesissÀ. Entinen tutkimussisÀllön johtaja Metaphysic.ai:lla.
Henkilökohtainen sivu: martinanderson.ai
Ota yhteyttĂ€: [email protected]