Andersons vinkel
Studie visar att censurering av AI-modeller fungerar inte bra

Försök att censurera AI-bildgeneratorer genom att radera förbjudet innehÄll (som porr, vÄld eller upphovsrÀttsskyddade stilar) frÄn de trÀnade modellerna misslyckas: en ny studie visar att nuvarande raderingsmetoder tillÄter att "förbjudna" attribut spills över i orelaterade bilder, och inte heller hindrar nÀrbeslÀktade versioner av det förmodat "raderade" innehÄllet frÄn att visas.
Om företag som producerar grundlÀggande AI-modeller inte kan förhindra att de missbrukas för att producera stötande eller olagligt material riskerar de att Ätalas och/eller stÀngas ner. OmvÀnt gÀller leverantörer som endast gör sina modeller tillgÀngliga. genom ett API, precis som med Adobes Eldfluga generativa motorer, kan inte oroa sig för vad deras modeller kan skapa, eftersom bÄde anvÀndarens prompt och den resulterande utdata inspekteras och saneras:

Adobes Firefly-system, som anvĂ€nds i verktyg som Photoshop, vĂ€grar ibland en generativ begĂ€ran direkt genom att blockera prompten innan nĂ„got skapas. Andra gĂ„nger genererar den bilden men blockerar sedan resultatet efter granskning. Denna typ av vĂ€gran mitt i processen kan ocksĂ„ intrĂ€ffa i ChatGPT, nĂ€r modellen startar ett svar men avbryter det efter att ha upptĂ€ckt en policyövertrĂ€delse â och ibland kan man se den avbrutna bilden kort under denna process.
API-liknande filter av detta slag kan dock vanligtvis neutraliseras av anvÀndare pÄ lokalt installerade modeller, inklusive visionsprÄksmodeller (VLM) som anvÀndaren kan vilja anpassa genom lokal trÀning pÄ anpassade data.
I de flesta fall Àr det trivialt att inaktivera sÄdana operationer, vilket innebÀr att man kommenterar bort ett funktionsanrop i Python (Àven om hack av detta slag vanligtvis mÄste upprepas eller Äteruppfinnas efter ramverksuppdateringar).
Ur ett affĂ€rsperspektiv Ă€r det svĂ„rt att förstĂ„ hur detta kan vara ett problem, eftersom en API-metod maximerar företagets kontroll över anvĂ€ndarens arbetsflöde. Ur anvĂ€ndarens perspektiv Ă€r det dock sannolikt att bĂ„de kostnaden för API-baserade modeller och risken för felaktig eller överdriven censur tvingar dem att ladda ner och anpassa lokala installationer av öppen kĂ€llkodsalternativ â Ă„tminstone dĂ€r FOSS-licensen Ă€r gynnsam.
Den sista betydande modellen som slÀpptes utan nÄgot försök att införa sjÀlvcensur var Stable Diffusion V1.5, för nÀstan tre Är sedanSenare avslöjades att dess utbildningskorpora inkluderade CSAM-data ledde till vÀxande krav pÄ att förbjuda dess tillgÀnglighet, och dess avlÀgsnande frÄn Hugging Face-arkivet Är 2024.
Klipp ut det!
Cyniker hÀvdar att ett företags intresse av att censurera lokalt installerbara generativa AI-modeller enbart baseras pÄ oro om juridisk exponering, om deras ramverk skulle bli offentliga för att underlÀtta olagligt eller stötande innehÄll.
Visst, vissa "lokalvÀnliga" modeller med öppen kÀllkod Àr inte sÄ svÄra att avcensurera (som till exempel Stabil diffusion 1.5 och DeepSeek R1).
DÀremot den senaste lanseringen av Black Forest Labs Flux Kontext modellserie prÀglades av företagets anmÀrkningsvÀrt engagemangatt förenkla hela Kontext-sortimentet. Detta uppnÄddes bÄde genom noggrann datakurering och genom riktade finjustering efter trÀning, utformad för att avlÀgsna eventuella kvarvarande tendenser till NSFW eller förbjudet innehÄll.
Det Ă€r hĂ€r som fokus har legat inom forskningsscenen under de senaste 2â3 Ă„ren: med betoning pĂ„ efterbehandling av modeller med underkuraterad data. SĂ„dana erbjudanden inkluderar Enhetlig konceptredigering i diffusionsmodeller (ECU); Tillförlitlig och effektiv konceptradering av text-till-bild-diffusionsmodeller (BE); Masskonceptradering i diffusionsmodeller (ĂMBETSSTAV); och koncept - Halvpermeabel struktur injiceras som ett membran (SPM):

Artikeln "Unified Concept Editing in Diffusion Models" frÄn 2024 erbjöd slutna redigeringar av uppmÀrksamhetsvikter, vilket möjliggjorde effektiv redigering av flera koncept i text-till-bild-modeller. Men hÄller metoden för granskning? KÀlla: https://arxiv.org/pdf/2308.14761
Ăven om detta Ă€r en effektiv metod (hyperskaliga samlingar som Laion Ă€r alldeles för stora för att manuellt kuratera), Ă€r det inte nödvĂ€ndigtvis ett effektivt sĂ„dant: enligt en ny amerikansk studie fungerar ingen av de ovannĂ€mnda redigeringsprocedurerna â som representerar det senaste inom modifiering av AI-modeller efter trĂ€ning â sĂ€rskilt bra.
Författarna fann att dessa konceptraderingstekniker (CET) vanligtvis lÀtt kan kringgÄs, och att Àven dÀr de Àr effektiva har de betydande biverkningar:

Effekter av begreppsradering pÄ text-till-bild-modeller. Varje kolumn visar en prompt och det begrepp som Àr markerat för radering, tillsammans med genererade utdata före och efter redigering. Hierarkier indikerar relationer mellan överordnade och underordnade begrepp. Exemplen belyser vanliga biverkningar, inklusive att underordnade begrepp inte raderas, undertryckande av angrÀnsande begrepp, kringgÄende genom omformulering och överföring av raderade attribut till orelaterade objekt. KÀlla: https://arxiv.org/pdf/2508.15124
Författarna fann att de ledande nuvarande koncepten för raderingstekniker misslyckas med att blockera kompositionsuppmaningar (till exempel, röd bil or liten trÀstol); lÄter ofta underklasser slinka igenom Àven efter att en förÀlderkategori har raderats (som till exempel bil or Bussen fortsÀtter att dyka upp efter borttagning vehikel); och introducera nya problem sÄsom attributlÀckage (dÀr till exempel borttagning blÄ soffa kan orsaka att modellen genererar orelaterade objekt som blÄ stol).
I över 80 % av testfallen, att radera ett brett koncept som vehikel hindrade inte modellen frÄn att generera mer specifika vehikel exempel som bilar eller bussar.
Redigering, konstaterar tidningen, orsakar ocksÄ uppmÀrksamhetskartor (de delar av modellen som avgör var i bilden fokus ska riktas) sprids, vilket försÀmrar utskriftskvaliteten.
Intressant nog finner artikeln att det fungerar bĂ€ttre att radera relaterade trĂ€nade koncept ett efter ett Ă€n att försöka ta bort dem alla pĂ„ en gĂ„ng â Ă€ven om det inte eliminerar alla brister hos de studerade redigeringsmetoderna:

JÀmförelse av progressiva och allt-pÄ-en-gÄng-raderingsstrategier. NÀr alla varianter av "nallebjörn" raderas samtidigt fortsÀtter modellen att generera björnliknande objekt. Att radera varianterna steg för steg Àr mer effektivt, vilket leder till att modellen undertrycker mÄlkonceptet mer tillförlitligt.
Ăven om forskarna för nĂ€rvarande inte kan erbjuda nĂ„gon lösning pĂ„ de problem som artikeln beskriver, har de utvecklat en ny datauppsĂ€ttning och ett riktmĂ€rke som kan hjĂ€lpa senare forskningsprojekt att förstĂ„ huruvida deras egna "censurerade" modeller fungerar som förvĂ€ntat.
I uppsatsen anges:
Tidigare utvÀrderingar har enbart förlitat sig pÄ en liten uppsÀttning mÄl- och bevararklasser; till exempel, nÀr man raderar 'bil' testas endast modellens förmÄga att generera bilar. Vi visar att denna metod Àr fundamentalt otillrÀcklig och att utvÀrderingen av konceptradering bör vara mer omfattande för att omfatta alla relaterade delbegrepp som 'röd bil'.
Genom att introducera en mÄngsidig datamÀngd med kompositionsvariationer och systematiskt analysera effekter som pÄverkan pÄ angrÀnsande koncept, konceptundvikelse och attributlÀckage, avslöjar vi betydande begrÀnsningar och biverkningar av befintliga CET:er.
"VÄrt riktmÀrke Àr modellagnostiskt och lÀttintegrerbart och Àr idealiskt lÀmpat för att stödja utvecklingen av nya konceptraderingstekniker (CET)."

Ăven om CET:er raderar mĂ„lkonceptet "fĂ„gel", misslyckas de med den kompositionella varianten "röd fĂ„gel" (överst). Efter att ha raderat "blĂ„ soffa" förlorar alla metoder ocksĂ„ möjligheten att generera en blĂ„ stol (nederst). Lyckade resultat markeras med en grön bocksymbol och misslyckade med en röd "X"-symbol.
Studien ger en intressant inblick i omfattningen av sammanflÀtning av begrepp som trÀnats in i en modells latent utrymme, och i vilken utstrÀckning intrassling kommer inte lÀtt att tillÄta nÄgon form av definitiv och verkligt diskret begreppsutradering.
Ocuco-landskapet nytt papper har titeln Biverkningar av att radera koncept frÄn diffusionsmodeller, och kommer frÄn fyra forskare frÄn University of Maryland.
Metod och data
Författarna anser att tidigare arbeten som pÄstÄr sig kunna radera begrepp frÄn diffusionsmodeller inte bevisar pÄstÄendet tillrÀckligt, och konstaterar*:
"PÄstÄenden om radering behöver en mer robust och omfattande utvÀrdering. Om till exempel begreppet som ska raderas Àr 'fordon', bör Àven underbegrepp som 'bil' och sammansÀttningsbegrepp som 'röd bil' eller 'liten bil' raderas."
"ĂndĂ„ beaktas inte denna aspekt av koncepthierarki och kompositionalitet i befintliga utvĂ€rderingsprotokoll eftersom de endast fokuserar pĂ„ noggrannheten hos det enda raderade konceptet." [Författarna till RaderaBĂ€nk] bedöma hur CET:er pĂ„verkar visuellt liknande och parafraserade begrepp (som 'katt' och 'kattunge')[;] men de undersöker inte uttömmande begreppens hierarki och kompositionalitet.
För att tillhandahĂ„lla riktmĂ€rkesdata för framtida projekt skapade författarna UtvĂ€rdering av biverkningar (SEE) dataset â en stor samling textuppmaningar utformade för att testa hur vĂ€l metoder för konceptradering fungerar.
Uppmaningarna följer en enkel mall dĂ€r ett objekt beskrivs med attribut för storlek, fĂ€rg och material â till exempel, en bild av en liten röd trĂ€bil.
FöremÄlen drogs frÄn MS-COCO dataset och organiserat i en hierarki av superklasser som vehikeloch underklasser som bil or Bussen, dÀr deras attributkombinationer bildar lövnoderna (den mest specifika nivÄn i hierarkin). Denna struktur gör det möjligt att testa radering pÄ olika semantiska nivÄer, frÄn breda kategorier till specifika varianter.
För att stödja automatiserad utvÀrdering parades varje frÄga ihop med en ja-eller-nej-frÄga, till exempel Finns det en bil pÄ bilden? och anvÀnds Àven som en klassetikett för bildklassificeringsmodeller:

Promptkombinationer i SEE-datasetet genererade av varierande storlek, fÀrg och materialattribut.
För att mÀta hur vÀl varje metod för radering av koncept presterade, utformade författarna tvÄ poÀngsÀttningsmetoder: MÄlnoggrannhet, som spÄrar hur ofta raderade koncept fortfarande förekommer i de genererade bilderna; och Bevara noggrannheten, som spÄrar om modellen fortsÀtter att generera material som inte skulle raderas.
Balansen mellan de tvÄ poÀngen Àr avsedd att avslöja om metoden framgÄngsrikt tar bort det förbjudna konceptet utan att skada modellens bredare utdata.
Författarna utvÀrderade konceptradering över tre fellÀgen: för det första, ett mÄtt pÄ huruvida borttagning av ett koncept som bil stör nÀrliggande eller orelaterade begrepp, baserat pÄ semantisk och attributlikhet; för det andra, ett test för om radering kan kringgÄs genom att uppmana till delbegrepp som röd bil efter radering vehikel.
Slutligen utfördes en kontroll för attributlÀckage, dÀr egenskaper kopplade till raderade begrepp förekommer i orelaterade objekt (till exempel att ta bort dem) soffa kan orsaka ett annat föremÄl, sÄsom en krukvÀxt, för att Àrva dess fÀrg eller material). Den slutliga datamÀngden innehÄller 5056 kompositionsfrÄgor.
Tester
De tidigare testade ramverken var de som listades tidigare â UCE, RECE, MACE och SPM. Forskarna antog standardinstĂ€llningarna frĂ„n de ursprungliga projekten och finjusterade alla modeller pĂ„ ett NVIDIA RTX 6000 GPU med 48 GB VRAM.
Stable Diffusion 1.4, en av de mest bestĂ„ende modellerna i litteraturen, anvĂ€ndes för alla tester â kanske inte minst för att de tidigaste SD-modellerna hade liten eller ingen konceptuell begrĂ€nsning, och som sĂ„dana erbjuder ett blankt blad i just detta forskningssammanhang.
Var och en av de 5056 uppmaningarna frÄn SEE-datasetet kördes genom bÄde den oredigerade och den redigerade versionen av modellen, vilket genererade fyra bilder per uppmaning med hjÀlp av fasta slumpmÀssiga frön, vilket gör det möjligt att testa om raderingseffekterna förblev konsekventa över flera utdata. Varje redigerad modell producerade totalt 20,224 XNUMX bilder.
Förekomsten av bevarade koncept utvÀrderades enligt tidigare metoder för text-till-bild-raderingsprocedurer, med hjÀlp av VQA-modellerna. BLIP, QWEN 2.5 VLoch Florens-2base.
PÄverkan pÄ angrÀnsande koncept
Det första testet mÀtte om radering av ett koncept oavsiktligt pÄverkade nÀrliggande koncept. Till exempel, efter att ha tagit bort bil, modellen borde sluta generera röd bil or stor bil... men ÀndÄ kunna generera relaterade koncept som Bussen or lastbiloch orelaterade sÄdana som t.ex. gaffel.
Den anvĂ€nt analysen KLĂMMA bĂ€dda in likhet och attributbaserat redigeringsavstĂ„nd för att uppskatta hur nĂ€ra varje koncept var det raderade mĂ„let, vilket gör det möjligt för studien att kvantifiera hur lĂ„ngt störningen spred sig:

Kombinerade resultat för mÄlnoggrannhet (vÀnster) och bevarandenoggrannhet (höger) plottade mot semantisk likhet (överst) och kompositionsavstÄnd (nederst). En ideal metod för att radera koncept skulle visa lÄg mÄlnoggrannhet och hög bevarandenoggrannhet över alla avstÄnd; men resultaten visar att nuvarande tekniker misslyckas med att generalisera tydligt, med nÀrmare koncept antingen otillrÀckligt raderade eller oproportionerligt störda.
Av dessa resultat kommenterar författarna:
Alla CET:er fortsÀtter att generera kompositionella eller semantiskt distanserade varianter av mÄlet trots raderingen, vilket helst inte borde ske. Det Àr uppenbart att UCE konsekvent uppnÄr högre noggrannhet Àn andra CET-metoder pÄ [bevaringsmÀngden], vilket indikerar minimal oavsiktlig pÄverkan pÄ semantiskt relaterade begrepp.
"SPM uppnÄr dÀremot den lÀgsta noggrannheten, vilket tyder pÄ att dess redigeringsstrategi Àr mer mottaglig för konceptlikhet."
Bland de fyra testade metoderna var RECE mest effektiv pÄ att blockera mÄlkonceptet. Men som visas i vÀnster sida av bilden ovan misslyckades alla metoder med att undertrycka kompositionsvariationer. Efter radering fÄgel, producerade modellen fortfarande bilder av en röd fÄgel, vilket tyder pÄ att konceptet förblev delvis intakt.
Ta bort blÄ soffa hindrade ocksÄ modellen frÄn att generera en blÄ stol, vilket indikerar skada pÄ nÀrliggande koncept.
RECE hanterade kompositionsvarianter bÀttre Àn de andra, medan UCE gjorde ett bÀttre jobb med att bevara relaterade koncept.
Raderingsinvasion
Testet med raderingsundangÄende utvÀrderade om modeller fortfarande kunde generera underklassbegrepp efter att deras superklass hade raderats. Till exempel, om vehikel togs bort, kontrollerade testet om modellen fortfarande kunde producera utdata som cykel or röd bil.
Uppmaningarna riktade sig mot bÄde direkta underklasser och kompositionsvarianter för att avgöra om konceptraderingsoperationen verkligen hade tagit bort hela hierarkin eller kunde kringgÄs genom mer specifika beskrivningar:

PÄ Stable Diffusion v1.4, kringgÄende av raderade superklasser genom deras underklasser och kompositionsvarianter, med högre noggrannhet vilket indikerar större kringgÄende.
Den oredigerade modellen bibehöll hög noggrannhet över alla superklasser, vilket bekrÀftade att den hade inte tog bort alla mÄlkoncept. Bland CET:erna visade MACE minst undvikande och uppnÄdde den lÀgsta noggrannheten i underklassen i mer Àn hÀlften av de testade kategorierna. RECE presterade ocksÄ bra, sÀrskilt i Ätföljande, sporteroch elektronisk grupper.
DÀremot uppvisade UCE och SPM högre noggrannhet i underklassen, vilket indikerar att raderade begrepp lÀttare kringgick genom relaterade eller kapslade prompter.
Författarna noterar:
'[Alla] CET:er undertrycker framgÄngsrikt mÄlsuperklasskonceptet ("mat"). Men nÀr de tillfrÄgas med attributbaserade underordnade livsmedelshierarki (t.ex. en stor pizza) genererar alla metoder livsmedel.
PÄ liknande sÀtt i vehikel kategori, alla modeller genererar cyklar, trots att "fordon" raderas.
AttributlÀckage
Det tredje testet, attributlÀckage, kontrollerade om drag kopplade till ett raderat koncept dök upp i andra delar av bilden.
Till exempel, efter radering soffa, modellen ska varken generera en soffa eller tillÀmpa dess typiska attribut (sÄsom fÀrg eller material) pÄ orelaterade objekt i samma prompt. Detta mÀttes genom att prompta modellen med parade objekt och undersöka om de raderade attributen felaktigt förekom i bevarade koncept:

UppmÀrksamhetskartor för attributtokens efter radering av koncept. VÀnster: NÀr 'bÀnk' raderas, flyttas token 'trÀ' till fÄgeln istÀllet, vilket resulterar i trÀfÄglar. Höger: Radering av 'soffa' misslyckas med att undertrycka soffgenerering, medan token 'stor' felaktigt tilldelas munken.
RECE var mest effektiv pÄ att radera mÄlattribut, men introducerade ocksÄ mest attributlÀckage i bevarade prompter, och övertrÀffade Àven den oredigerade modellen. UCE lÀckte mindre Àn andra metoder.
Resultaten, menar författarna, indikerar behovet av en inneboende avvÀgning, dÀr starkare radering ökar risken för felriktad attributöverföring.
Slutsats
Det latenta utrymmet i en modell fylls inte pĂ„ ett ordnat sĂ€tt under trĂ€ning, med hĂ€rledda koncept prydligt placerade pĂ„ hyllor eller i arkivskĂ„p; snarare Ă€r de trĂ€nade inbĂ€ddningarna bĂ„de innehĂ„llet och deras behĂ„llare: inte separerade av nĂ„gra skarpa grĂ€nser, utan snarare smĂ€lter in i varandra pĂ„ ett sĂ€tt som gör borttagningen problematisk â som att försöka extrahera ett halvt kilo kött utan nĂ„gon blodförlust.
I intelligenta och förĂ€nderliga system Ă€r grundlĂ€ggande hĂ€ndelser â som att brĂ€nna fingrarna och dĂ€refter behandla eld med respekt â sammankopplade med de beteenden och associationer de senare bildar, vilket gör det utmanande att producera en modell som kanske har kvar följderna av ett centralt, potentiellt "förbjudet" koncept, men som saknar det konceptet i sig.
* Min konvertering av författarnas inline-hÀnvisning till hyperlÀnkar.
Först publicerad fredag ââ22 augusti 2025