Povežite se s nama

Andersonov kut

Studija otkriva da cenzuriranje AI modela ne funkcionira dobro

mm
ChatGPT-4o, Krita (Flux/Flux Koncept Dev), Firefly.

Pokušaji cenzuriranja generatora slika umjetne inteligencije brisanjem zabranjenog sadržaja (poput pornografije, nasilja ili stilova zaštićenih autorskim pravima) iz obučenih modela ne uspijevaju: nova studija otkriva da trenutne metode brisanja koncepata dopuštaju da se 'zabranjeni' atributi preliju u nepovezane slike, a također ne uspijevaju spriječiti pojavu usko povezanih verzija navodno 'izbrisanog' sadržaja.

 

Ako tvrtke koje proizvode temeljne modele umjetne inteligencije ne mogu spriječiti njihovu zlouporabu za proizvodnju nepoželjnog ili ilegalnog materijala, riskiraju da budu kazneno gonjene i/ili zatvorene. Suprotno tome, dobavljači koji svoje modele čine dostupnima samo putem API-ja, kao i kod Adobeovog Firefly generativni mehanizam, u poziciji su da se ne brinu o tome što bi njihovi modeli mogli stvoriti, budući da se i korisnički upit i rezultirajući izlaz pregledavaju i dezinficiraju:

Adobeov Firefly sustav, koji se koristi u alatima poput Photoshopa, ponekad odmah odbija generativni zahtjev blokirajući upit prije nego što se išta stvori. Drugi put generira sliku, ali zatim blokira rezultat nakon pregleda. Ovakvo odbijanje usred procesa može se dogoditi i u ChatGPT-u, kada model započne odgovor, ali ga prekine nakon što prepozna kršenje pravila.

Adobeov Firefly sustav, koji se koristi u alatima poput Photoshopa, ponekad odmah odbija generativni zahtjev blokirajući upit prije nego što se išta stvori. Drugi put generira sliku, ali zatim blokira rezultat nakon pregleda. Ovakvo odbijanje usred procesa može se dogoditi i u ChatGPT-u, kada model započne odgovor, ali ga prekine nakon što prepozna kršenje pravila - a povremeno se prekinuta slika može nakratko vidjeti tijekom ovog procesa.

Međutim, filtere API stila ove vrste korisnici obično mogu neutralizirati na lokalno instaliranim modelima, uključujući modele vizualnog jezika (VLM) koje korisnik može željeti prilagoditi putem lokalne obuke na prilagođenim podacima.

U većini slučajeva, onemogućavanje takvih operacija je trivijalno i uključuje komentiranje poziva funkcije u Pythonu (iako se ovakvi hakovi obično moraju ponavljati ili ponovno izmišljati nakon ažuriranja okvira).

Iz poslovne perspektive, teško je razumjeti kako bi to mogao biti problem, budući da API pristup maksimizira korporativnu kontrolu nad korisničkim radnim procesom. Međutim, iz korisničke perspektive, i cijena modela koji koriste samo API i rizik od pogrešne ili pretjerane cenzure vjerojatno će ih prisiliti da preuzmu i prilagode lokalne instalacije alternativa otvorenog koda - barem tamo gdje je FOSS licenciranje povoljno.

Posljednji značajni model koji je objavljen bez ikakvog pokušaja uvođenja autocenzure bio je Stable Diffusion V1.5. prije gotovo tri godineKasnije, otkriće da njegovi korpusi za obuku uključeni podaci o CSAM-u dovelo je do sve većih poziva za zabranu njegove dostupnosti i njegove uklanjanje iz repozitorija Hugging Face 2024. godine.

Izreži!

Cinici tvrde da je interes tvrtke za cenzuriranje lokalno instaliranih generativnih modela umjetne inteligencije isključivo utemeljen na zabrinutostima o pravnoj izloženosti, ukoliko njihovi okviri postanu javno dostupni zbog omogućavanja ilegalnog ili neprikladnog sadržaja.

Doista, neke 'lokalno prilagođene' modele otvorenog koda nije tako teško decenzurirati (kao što su Stabilna difuzija 1.5 međutim DeepSeek R1).

Nasuprot tome, nedavno izdanje Fluxa tvrtke Black Forest Lab Kontext serija modela bio je označen žigom tvrtke značajne obvezedo bowdlerizacije cijelog raspona Kontexta. To je postignuto i pažljivim prikupljanjem podataka i ciljanim fino podešavanje nakon obuke, osmišljene kako bi se uklonila svaka preostala sklonost prema NSFW ili zabranjenom sadržaju.

Upravo je tu bilo središte djelovanja na istraživačkoj sceni u posljednje 2-3 godine: s naglaskom na naknadnom popravljanju modela s nedovoljno obrađenim podacima. Ponude ove vrste uključuju Ujedinjeno uređivanje koncepata u difuzijskim modelima (ECU); Pouzdano i učinkovito brisanje koncepta modela difuzije teksta u sliku (MOLITI); Brisanje koncepta mase u modelima difuzije (TOPUZ); i koncept - Polupropusna struktura se ubrizgava kao membrana (SPM):

Rad iz 2024. godine pod nazivom 'Unified Concept Editing in Diffusion Models' ponudio je zatvoreno uređivanje težina pažnje, omogućujući učinkovito uređivanje više koncepata u modelima pretvaranja teksta u sliku. Ali je li metoda otporna na kritike? Izvor: https://arxiv.org/pdf/2308.14761

Rad iz 2024. pod nazivom 'Ujedinjeno uređivanje koncepata u difuzijskim modelima' ponudio je zatvoreno uređivanje težina pažnje, omogućujući učinkovito uređivanje više koncepata u modelima pretvorbe teksta u sliku. Ali je li metoda podložna kritici? Izvor: https://arxiv.org/pdf/2308.14761

Iako je ovo učinkovit pristup (hiperskalirane kolekcije kao što su LAION preveliki su za ručno upravljanje), nije nužno učinkovit: prema novoj američkoj studiji, nijedan od spomenutih postupaka uređivanja - koji predstavljaju najsuvremeniju modifikaciju modela umjetne inteligencije nakon obuke - zapravo ne funkcionira jako dobro.

Autori su otkrili da se ove tehnike brisanja koncepata (CET) obično mogu lako zaobići i da čak i tamo gdje su učinkovite, imaju znatne nuspojave:

Učinci brisanja koncepata na modele pretvaranja teksta u sliku. Svaki stupac prikazuje upit i koncept označen za brisanje, zajedno s generiranim izlazima prije i nakon uređivanja. Hijerarhije označavaju odnose roditelj-dijete između koncepata. Primjeri ističu uobičajene nuspojave, uključujući neuspjeh brisanja podređenih koncepata, potiskivanje susjednih koncepata, izbjegavanje preformuliranjem i prijenos izbrisanih atributa na nepovezane objekte. Izvor: https://arxiv.org/pdf/2508.15124

Učinci brisanja koncepata na modele pretvaranja teksta u sliku. Svaki stupac prikazuje upit i koncept označen za brisanje, zajedno s generiranim izlazima prije i nakon uređivanja. Hijerarhije označavaju odnose roditelj-dijete između koncepata. Primjeri ističu uobičajene nuspojave, uključujući neuspjeh brisanja podređenih koncepata, potiskivanje susjednih koncepata, izbjegavanje preformuliranjem i prijenos izbrisanih atributa na nepovezane objekte. Izvor: https://arxiv.org/pdf/2508.15124

Autori su otkrili da vodeće trenutne tehnike brisanja koncepata ne uspijevaju blokirati kompozicijske upute (na primjer, crveni auto or mala drvena stolica); često dopuštaju da se podklase provuku čak i nakon brisanja nadređene kategorije (kao što je automobil or autobus nastavlja se pojavljivati ​​nakon uklanjanja vozilo); i uvode nove probleme poput curenja atributa (gdje je, na primjer, brisanje plavi kauč može uzrokovati da model generira nepovezane objekte kao što su plava stolica).

U preko 80% testnih slučajeva, brisanje širokog koncepta kao što je vozilo nije spriječilo model da generira specifičnije vozilo slučajevima kao što su automobili ili autobusi.

Uređivanje, primjećuje rad, također uzrokuje mape pažnje (dijelovi modela koji odlučuju gdje će se fokusirati na slici) raspršuju, slabeći kvalitetu ispisa.

Zanimljivo je da rad otkriva da brisanje povezanih obučenih koncepata jednog po jednog funkcionira bolje nego pokušaj uklanjanja svih odjednom - iako ne uklanja sve nedostatke proučavanih metoda uređivanja:

Usporedba strategija progresivnog i odjednomg brisanja. Kada se sve varijante pojma 'medvjedić' istovremeno izbrišu, model nastavlja generirati objekte nalik medvjedima. Postupno brisanje varijanti je učinkovitije, što dovodi do toga da model pouzdanije potiskuje ciljni koncept.

Usporedba strategija progresivnog i odjednomg brisanja. Kada se sve varijante pojma 'medvjedić' istovremeno izbrišu, model nastavlja generirati objekte nalik medvjedima. Postupno brisanje varijanti je učinkovitije, što dovodi do toga da model pouzdanije potiskuje ciljni koncept.

Iako istraživači trenutno ne mogu ponuditi rješenje za probleme navedene u radu, razvili su novi skup podataka i mjerilo koje bi kasnijim istraživačkim projektima moglo pomoći da shvate funkcioniraju li njihovi vlastiti 'cenzurirani' modeli kako se očekuje.

U radu se navodi:

Prethodne evaluacije oslanjale su se isključivo na mali skup ciljnih i očuvanih klasa; na primjer, prilikom brisanja 'automobila' testira se samo sposobnost modela da generira automobile. Pokazujemo da je ovaj pristup u osnovi neadekvatan i da bi evaluacija brisanja koncepta trebala biti sveobuhvatnija kako bi obuhvatila sve povezane podkoncepte poput 'crvenog automobila'.

Uvođenjem raznolikog skupa podataka s varijacijama sastava i sustavnom analizom učinaka poput utjecaja na susjedne koncepte, izbjegavanja koncepata i curenja atributa, otkrivamo značajna ograničenja i nuspojave postojećih CET-ova.

„Naš kriterij je modelno-agnostičan i lako integrativan te je idealan za pomoć u razvoju novih tehnika brisanja koncepata (CET).“

Iako CET-ovi brišu ciljni koncept 'ptica', ne uspijevaju na kompozicijskoj varijanti 'crvena ptica' (gore). Nakon brisanja 'plavog kauča', sve metode također gube mogućnost generiranja plave stolice (dolje). Uspješni rezultati označeni su zelenim simbolom kvačice, a neuspješni simbolom crvenog križa.

Iako CET-ovi brišu ciljni koncept 'ptica', ne uspijevaju na kompozicijskoj varijanti 'crvena ptica' (gore). Nakon brisanja 'plavog kauča', sve metode također gube mogućnost generiranja plave stolice (dolje). Uspješni rezultati označeni su zelenim simbolom kvačice, a neuspješni crvenim simbolom 'X'.

Studija nudi zanimljiv uvid u opseg ispreplitanja koncepata obučenih u model latentni prostori u kojoj mjeri zapletenost neće lako dopustiti bilo kakvo konačno i uistinu diskretno brisanje koncepta.

The novom papiru naslovljen je Nuspojave brisanja koncepata iz difuzijskih modela, a dolazi od četiri istraživača sa Sveučilišta Maryland.

Metoda i podaci

Autori smatraju da prethodni radovi koji tvrde da brišu koncepte iz difuzijskih modela ne dokazuju tu tvrdnju na odgovarajući način, navodeći*:

Zahtjevi za brisanje zahtijevaju robusniju i sveobuhvatniju procjenu. Na primjer, ako je koncept koji treba izbrisati 'vozilo', podkoncepti poput 'automobila' i kompozicijski koncepti poput 'crvenog automobila' ili 'malog automobila' također bi trebali biti izbrisani.

„Ipak, ovaj aspekt hijerarhije koncepata i kompozicije ne uzima se u obzir u postojećim protokolima evaluacije jer se oni usredotočuju samo na točnost pojedinačnog izbrisanog koncepta.“ [Autori Izbriši klupu] procjenjuju kako CET-ovi utječu na vizualno slične i parafrazirane koncepte (kao što su 'mačka' i 'mačić')[;] međutim, ne istražuju iscrpno hijerarhiju i kompoziciju koncepata.

Kako bi osigurali referentne podatke za buduće projekte, autori su stvorili Procjena nuspojava (SEE) skup podataka – velika zbirka tekstualnih upita osmišljenih za testiranje koliko dobro funkcioniraju metode brisanja koncepata.

Upute slijede jednostavan predložak u kojem je objekt opisan atributima veličine, boje i materijala - na primjer, slika malog crvenog drvenog automobila.

Predmeti su izvučeni iz MS-COCO skup podataka i organiziran u hijerarhiju nadklasa kao što je vozilo, i podklase kao što su automobil or autobus, s njihovim kombinacijama atributa koji tvore čvorove listova (najspecifičnija razina hijerarhije). Ova struktura omogućuje testiranje brisanja na različitim semantičkim razinama, od širokih kategorija do specifičnih varijanti.

Kako bi se podržala automatska evaluacija, svaki je upit bio uparen s pitanjem s odgovorom da ili ne, kao što je Je li na slici automobil?, a također se koristi kao oznaka klase za modele klasifikacije slika:

Kombinacije upita u SEE skupu podataka generiranom različitim atributima veličine, boje i materijala.

Kombinacije upita u SEE skupu podataka generiranom različitim atributima veličine, boje i materijala.

Kako bi izmjerili koliko je svaka metoda brisanja koncepata bila uspješna, autori su osmislili dvije metode bodovanja: Točnost cilja, koji prati koliko se često izbrisani koncepti još uvijek pojavljuju u generiranim slikama; i Očuvanje točnosti, koji prati nastavlja li model generirati materijal koji nije trebao biti izbrisan.

Ravnoteža između dva rezultata namijenjena je otkrivanju uspješno li metoda uklanja zabranjeni koncept bez oštećenja šireg rezultata modela.

Autori su procijenili brisanje koncepta kroz tri načina neuspjeha: prvo, mjera je li uklanjanje koncepta kao što je automobil remeti bliske ili nepovezane koncepte, na temelju semantičke i atributivne sličnosti; drugo, test može li se brisanje zaobići poticanjem podkoncepta kao što su crveni auto nakon brisanja vozilo.

Konačno, provedena je provjera curenja atributa, gdje se osobine povezane s izbrisanim konceptima pojavljuju u nepovezanim objektima (na primjer, brisanje kauč može uzrokovati da neki drugi objekt, kao što je lončanica, da naslijedi njegovu boju ili materijal). Konačni skup podataka sadrži 5056 kompozicijskih uputa

Testovi

Ranije testirani okviri bili su oni navedeni ranije – UCE, RECE, MACE i SPM. Istraživači su usvojili zadane postavke iz izvornih projekata i fino podesili sve modele na NVIDIA RTX 6000 GPU-u s 48 GB VRAM-a.

Za sva ispitivanja korišten je Stabilna difuzija 1.4, jedan od najtrajnijih modela u literaturi – možda ne najmanje važno zato što su najraniji SD modeli imali malo ili nimalo konceptualnih ograničenja te kao takvi nude praznu ploču u ovom konkretnom istraživačkom kontekstu.

Svaki od 5056 upita iz SEE skupa podataka propušten je kroz neuređenu i uređenu verziju modela, generirajući četiri slike po upitu korištenjem fiksnih nasumično sjeme, što je omogućilo testiranje jesu li efekti brisanja ostali konzistentni na više izlaza. Svaki uređeni model proizveo je ukupno 20,224 XNUMX slike.

Prisutnost sačuvanih koncepata procijenjena je prema prethodnim metodama za postupke brisanja teksta u sliku, korištenjem VQA modela. BLIP, QWEN 2.5 VLi Florence-2base.

Utjecaj na susjedne koncepte

Prvi test mjerio je utječe li brisanje koncepta nenamjerno na susjedne koncepte. Na primjer, nakon uklanjanja automobil, model bi trebao prestati generirati crveni auto or veliki autoali i dalje moći generirati povezane koncepte kao što su autobus or kamion, i nepovezane kao što su viljuška.

Korištena analiza CLIP ugrađivanje sličnosti i udaljenosti uređivanja temeljene na atributima kako bi se procijenilo koliko je svaki koncept bio blizu izbrisanog cilja, omogućujući studiji da kvantificira koliko se poremećaj proširio:

Kombinirani rezultati za točnost cilja (lijevo) i točnost očuvanja (desno) prikazani u odnosu na semantičku sličnost (gore) i kompozicijsku udaljenost (dolje). Idealna metoda brisanja koncepta pokazala bi nisku točnost cilja i visoku točnost očuvanja na svim udaljenostima, ali rezultati pokazuju da trenutne tehnike ne uspijevaju u potpunosti generalizirati, a bliži koncepti su ili nedovoljno izbrisani ili nesrazmjerno poremećeni.

Kombinirani rezultati za točnost cilja (lijevo) i točnost očuvanja (desno) prikazani u odnosu na semantičku sličnost (gore) i kompozicijsku udaljenost (dolje). Idealna metoda brisanja koncepta pokazala bi nisku točnost cilja i visoku točnost očuvanja na svim udaljenostima; ali rezultati pokazuju da trenutne tehnike ne uspijevaju u potpunosti generalizirati, a bliži koncepti su ili nedovoljno izbrisani ili nesrazmjerno poremećeni.

Autori komentiraju ove rezultate:

Svi CET-ovi nastavljaju generirati kompozicijski ili semantički udaljene varijante cilja unatoč brisanju, što se idealno ne bi trebalo dogoditi. Očito je da UCE dosljedno postiže veću točnost od drugih CET metoda na [skupu za očuvanje], što ukazuje na minimalan nenamjerni utjecaj na semantički povezane koncepte.

'Nasuprot tome, SPM postiže najnižu točnost, što sugerira da je njegova strategija uređivanja podložnija sličnosti koncepata.'

Među četiri testirane metode, RECE je bio najučinkovitiji u blokiranju ciljnog koncepta. Međutim, kao što je prikazano na lijevoj strani slike iznad, nijedna metoda nije uspjela suzbiti kompozicijske varijante. Nakon brisanja ptica, model je i dalje stvarao slike crvene ptice, što sugerira da je koncept djelomično ostao netaknut.

Uklanjanje plavi kauč također je spriječilo model da generira plava stolica, što ukazuje na štetu obližnjih koncepata.

RECE je bolje od ostalih obrađivao kompozicijske varijante, dok je UCE bolje očuvao povezane koncepte.

Invazija brisanja

Test izbjegavanja brisanja procijenio je mogu li modeli i dalje generirati koncepte podklasa nakon što je njihova nadklasa izbrisana. Na primjer, ako vozilo je uklonjen, testom je provjereno može li model i dalje proizvoditi izlaze kao što su bicikl or crveni auto.

Upute su bile usmjerene i na izravne podklase i na kompozicijske varijante kako bi se utvrdilo je li operacija brisanja koncepta doista uklonila cijelu hijerarhiju ili se može zaobići specifičnijim opisima:

Na Stable Diffusion v1.4, zaobilaženje izbrisanih superklasa putem njihovih podklasa i kompozicijskih varijanti, s većom točnošću što ukazuje na veće izbjegavanje.

Na Stable Diffusion v1.4, zaobilaženje izbrisanih superklasa putem njihovih podklasa i kompozicijskih varijanti, s većom točnošću što ukazuje na veće izbjegavanje.

Neuređeni model zadržao je visoku točnost u svim superklasama, potvrđujući da je imao ne uklonio je sve ciljne koncepte. Među CET-ovima, MACE je pokazao najmanje izbjegavanja, postižući najnižu točnost podklase u više od polovice testiranih kategorija. RECE je također dobro prošao, posebno u pribor, sportovii elektronički skupina.

Nasuprot tome, UCE i SPM pokazali su veću točnost podklasa, što ukazuje na to da su izbrisani koncepti lakše zaobiđeni putem povezanih ili ugniježđenih uputa.

Autori napominju:

'[Svi] CET-ovi uspješno potiskuju koncept ciljne nadklase („hrana“). Međutim, kada se od njih zatraži djeca hijerarhije hrane temeljena na atributima (npr. velika pizza“), sve metode generiraju prehrambene artikle.

'Slično u vozilo kategorija, svi modeli generiraju bicikle, unatoč brisanju riječi „vozilo“.

Curenje atributa

Treći test, propuštanje atributa, provjeravao je pojavljuju li se osobine povezane s izbrisanim konceptom u drugim dijelovima slike.

Na primjer, nakon brisanja kauč, model ne bi trebao generirati kauč niti primjenjivati ​​njegove tipične atribute (poput boje ili materijala) na nepovezane objekte u istom upitu. To je mjereno upitima modela s uparenim objektima i ispitivanjem jesu li se izbrisani atributi pogrešno pojavili u sačuvanim konceptima:

Mape pažnje za atributne žetone nakon brisanja koncepta. Lijevo: Kada se 'klupa' izbriše, žeton 'drveni' se pomiče na pticu, što rezultira drvenim pticama. Desno: Brisanje 'kauča' ne uspijeva potisnuti generiranje kauča, dok je žeton 'veliki' pogrešno dodijeljen krafni.

Mape pažnje za atributne žetone nakon brisanja koncepta. Lijevo: Kada se 'klupa' izbriše, žeton 'drveni' se pomiče na pticu, što rezultira drvenim pticama. Desno: Brisanje 'kauča' ne uspijeva potisnuti generiranje kauča, dok je žeton 'veliki' pogrešno dodijeljen krafni.

RECE je bio najučinkovitiji u brisanju ciljnih atributa, ali je također unio najviše curenja atributa u sačuvane prompte, nadmašujući čak i neuređeni model. UCE je propuštao manje od drugih metoda.

Rezultati, sugeriraju autori, ukazuju na potrebu za inherentnim kompromisom, pri čemu jače brisanje povećava rizik od pogrešno usmjerenog prijenosa atributa.

Zaključak

Latentni prostor modela se ne popunjava na uredan način tijekom treniranja, s izvedenim konceptima uredno pohranjenim na policama ili u ormarićima za spise; trenirani ugradnje su i sadržaj i njihovi spremnici: nisu odvojeni nikakvim oštrim granicama, već se stapaju jedno s drugim na način koji uklanjanje čini problematičnim - poput pokušaja vađenja pola kilograma mesa bez gubitka krvi.

U inteligentnim i evoluirajućim sustavima, temeljni događaji - poput opeklina prstiju i naknadnog postupanja s poštovanjem prema vatri - povezani su s ponašanjima i asocijacijama koje kasnije formiraju, što otežava stvaranje modela koji je možda ostao s posljedicama središnjeg, potencijalno 'zabranjenog' koncepta, a ipak mu taj koncept sam po sebi nedostaje.

 

* Moja pretvorba citata autora u tekstu u hiperveze.

Prvi put objavljeno u petak, 22. kolovoza 2025.

Pisac o strojnom učenju, stručnjak za područje sinteze ljudske slike. Bivši voditelj istraživačkog sadržaja na Metaphysic.ai.
Osobna stranica: martinanderson.ai
Kontaktirajte nas na: [e-pošta zaštićena]
Twitter: @manders_ai