Andersons vinkel

Studie visar att censurering av AI-modeller fungerar inte bra

publicerade August 22, 2025

Martin Anderson

ChatGPT-4o, Krita (Flux/Flux Koncept Dev), Firefly.

Försök att censurera AI-bildgeneratorer genom att radera förbjudet innehåll (som porr, våld eller upphovsrättsskyddade stilar) från de tränade modellerna misslyckas: en ny studie visar att nuvarande raderingsmetoder tillåter att "förbjudna" attribut spills över i orelaterade bilder, och inte heller hindrar närbesläktade versioner av det förmodat "raderade" innehållet från att visas.

Om företag som producerar grundläggande AI-modeller inte kan förhindra att de missbrukas för att producera stötande eller olagligt material riskerar de att åtalas och/eller stängas ner. Omvänt gäller leverantörer som endast gör sina modeller tillgängliga. genom ett API, precis som med Adobes Eldfluga generativa motorer, kan inte oroa sig för vad deras modeller kan skapa, eftersom både användarens prompt och den resulterande utdata inspekteras och saneras:

Adobes Firefly-system, som används i verktyg som Photoshop, vägrar ibland en generativ begäran direkt genom att blockera prompten innan något skapas. Andra gånger genererar den bilden men blockerar sedan resultatet efter granskning. Denna typ av vägran mitt i processen kan också inträffa i ChatGPT, när modellen startar ett svar men avbryter det efter att ha upptäckt en policyöverträdelse – och ibland kan man se den avbrutna bilden kort under denna process.

API-liknande filter av detta slag kan dock vanligtvis neutraliseras av användare på lokalt installerade modeller, inklusive visionspråksmodeller (VLM) som användaren kan vilja anpassa genom lokal träning på anpassade data.

I de flesta fall är det trivialt att inaktivera sådana operationer, vilket innebär att man kommenterar bort ett funktionsanrop i Python (även om hack av detta slag vanligtvis måste upprepas eller återuppfinnas efter ramverksuppdateringar).

Ur ett affärsperspektiv är det svårt att förstå hur detta kan vara ett problem, eftersom en API-metod maximerar företagets kontroll över användarens arbetsflöde. Ur användarens perspektiv är det dock sannolikt att både kostnaden för API-baserade modeller och risken för felaktig eller överdriven censur tvingar dem att ladda ner och anpassa lokala installationer av öppen källkodsalternativ – åtminstone där FOSS-licensen är gynnsam.

Den sista betydande modellen som släpptes utan något försök att införa självcensur var Stable Diffusion V1.5, för nästan tre år sedanSenare avslöjades att dess utbildningskorpora inkluderade CSAM-data ledde till växande krav på att förbjuda dess tillgänglighet, och dess avlägsnande från Hugging Face-arkivet år 2024.

Klipp ut det!

Cyniker hävdar att ett företags intresse av att censurera lokalt installerbara generativa AI-modeller enbart baseras på oro om juridisk exponering, om deras ramverk skulle bli offentliga för att underlätta olagligt eller stötande innehåll.

Visst, vissa "lokalvänliga" modeller med öppen källkod är inte så svåra att avcensurera (som till exempel Stabil diffusion 1.5 och DeepSeek R1).

Däremot den senaste lanseringen av Black Forest Labs Flux Kontext modellserie präglades av företagets anmärkningsvärt engagemangatt förenkla hela Kontext-sortimentet. Detta uppnåddes både genom noggrann datakurering och genom riktade finjustering efter träning, utformad för att avlägsna eventuella kvarvarande tendenser till NSFW eller förbjudet innehåll.

Det är här som fokus har legat inom forskningsscenen under de senaste 2–3 åren: med betoning på efterbehandling av modeller med underkuraterad data. Sådana erbjudanden inkluderar Enhetlig konceptredigering i diffusionsmodeller (ECU); Tillförlitlig och effektiv konceptradering av text-till-bild-diffusionsmodeller (BE); Masskonceptradering i diffusionsmodeller (ÄMBETSSTAV); och koncept - Halvpermeabel struktur injiceras som ett membran (SPM):

Artikeln "Unified Concept Editing in Diffusion Models" från 2024 erbjöd slutna redigeringar av uppmärksamhetsvikter, vilket möjliggjorde effektiv redigering av flera koncept i text-till-bild-modeller. Men håller metoden för granskning? Källa: https://arxiv.org/pdf/2308.14761

Även om detta är en effektiv metod (hyperskaliga samlingar som Laion är alldeles för stora för att manuellt kuratera), är det inte nödvändigtvis ett effektivt sådant: enligt en ny amerikansk studie fungerar ingen av de ovannämnda redigeringsprocedurerna – som representerar det senaste inom modifiering av AI-modeller efter träning – särskilt bra.

Författarna fann att dessa konceptraderingstekniker (CET) vanligtvis lätt kan kringgås, och att även där de är effektiva har de betydande biverkningar:

Effekter av begreppsradering på text-till-bild-modeller. Varje kolumn visar en prompt och det begrepp som är markerat för radering, tillsammans med genererade utdata före och efter redigering. Hierarkier indikerar relationer mellan överordnade och underordnade begrepp. Exemplen belyser vanliga biverkningar, inklusive att underordnade begrepp inte raderas, undertryckande av angränsande begrepp, kringgående genom omformulering och överföring av raderade attribut till orelaterade objekt. Källa: https://arxiv.org/pdf/2508.15124

Författarna fann att de ledande nuvarande koncepten för raderingstekniker misslyckas med att blockera kompositionsuppmaningar (till exempel, röd bil or liten trästol); låter ofta underklasser slinka igenom även efter att en förälderkategori har raderats (som till exempel bil or Bussen fortsätter att dyka upp efter borttagning vehikel); och introducera nya problem såsom attributläckage (där till exempel borttagning blå soffa kan orsaka att modellen genererar orelaterade objekt som blå stol).

I över 80 % av testfallen, att radera ett brett koncept som vehikel hindrade inte modellen från att generera mer specifika vehikel exempel som bilar eller bussar.

Redigering, konstaterar tidningen, orsakar också uppmärksamhetskartor (de delar av modellen som avgör var i bilden fokus ska riktas) sprids, vilket försämrar utskriftskvaliteten.

Intressant nog finner artikeln att det fungerar bättre att radera relaterade tränade koncept ett efter ett än att försöka ta bort dem alla på en gång – även om det inte eliminerar alla brister hos de studerade redigeringsmetoderna:

Jämförelse av progressiva och allt-på-en-gång-raderingsstrategier. När alla varianter av "nallebjörn" raderas samtidigt fortsätter modellen att generera björnliknande objekt. Att radera varianterna steg för steg är mer effektivt, vilket leder till att modellen undertrycker målkonceptet mer tillförlitligt.

Även om forskarna för närvarande inte kan erbjuda någon lösning på de problem som artikeln beskriver, har de utvecklat en ny datauppsättning och ett riktmärke som kan hjälpa senare forskningsprojekt att förstå huruvida deras egna "censurerade" modeller fungerar som förväntat.

I uppsatsen anges:

Tidigare utvärderingar har enbart förlitat sig på en liten uppsättning mål- och bevararklasser; till exempel, när man raderar 'bil' testas endast modellens förmåga att generera bilar. Vi visar att denna metod är fundamentalt otillräcklig och att utvärderingen av konceptradering bör vara mer omfattande för att omfatta alla relaterade delbegrepp som 'röd bil'.

Genom att introducera en mångsidig datamängd med kompositionsvariationer och systematiskt analysera effekter som påverkan på angränsande koncept, konceptundvikelse och attributläckage, avslöjar vi betydande begränsningar och biverkningar av befintliga CET:er.

"Vårt riktmärke är modellagnostiskt och lättintegrerbart och är idealiskt lämpat för att stödja utvecklingen av nya konceptraderingstekniker (CET)."

Även om CET:er raderar målkonceptet "fågel", misslyckas de med den kompositionella varianten "röd fågel" (överst). Efter att ha raderat "blå soffa" förlorar alla metoder också möjligheten att generera en blå stol (nederst). Lyckade resultat markeras med en grön bocksymbol och misslyckade med en röd "X"-symbol.

Studien ger en intressant inblick i omfattningen av sammanflätning av begrepp som tränats in i en modells latent utrymme, och i vilken utsträckning intrassling kommer inte lätt att tillåta någon form av definitiv och verkligt diskret begreppsutradering.

Ocuco-landskapet nytt papper har titeln Biverkningar av att radera koncept från diffusionsmodeller, och kommer från fyra forskare från University of Maryland.

Metod och data

Författarna anser att tidigare arbeten som påstår sig kunna radera begrepp från diffusionsmodeller inte bevisar påståendet tillräckligt, och konstaterar*:

"Påståenden om radering behöver en mer robust och omfattande utvärdering. Om till exempel begreppet som ska raderas är 'fordon', bör även underbegrepp som 'bil' och sammansättningsbegrepp som 'röd bil' eller 'liten bil' raderas."

"Ändå beaktas inte denna aspekt av koncepthierarki och kompositionalitet i befintliga utvärderingsprotokoll eftersom de endast fokuserar på noggrannheten hos det enda raderade konceptet." [Författarna till RaderaBänk] bedöma hur CET:er påverkar visuellt liknande och parafraserade begrepp (som 'katt' och 'kattunge')[;] men de undersöker inte uttömmande begreppens hierarki och kompositionalitet.

För att tillhandahålla riktmärkesdata för framtida projekt skapade författarna Utvärdering av biverkningar (SEE) dataset – en stor samling textuppmaningar utformade för att testa hur väl metoder för konceptradering fungerar.

Uppmaningarna följer en enkel mall där ett objekt beskrivs med attribut för storlek, färg och material – till exempel, en bild av en liten röd träbil.

Föremålen drogs från MS-COCO dataset och organiserat i en hierarki av superklasser som vehikeloch underklasser som bil or Bussen, där deras attributkombinationer bildar lövnoderna (den mest specifika nivån i hierarkin). Denna struktur gör det möjligt att testa radering på olika semantiska nivåer, från breda kategorier till specifika varianter.

För att stödja automatiserad utvärdering parades varje fråga ihop med en ja-eller-nej-fråga, till exempel Finns det en bil på bilden? och används även som en klassetikett för bildklassificeringsmodeller:

Promptkombinationer i SEE-datasetet genererade av varierande storlek, färg och materialattribut.

För att mäta hur väl varje metod för radering av koncept presterade, utformade författarna två poängsättningsmetoder: Målnoggrannhet, som spårar hur ofta raderade koncept fortfarande förekommer i de genererade bilderna; och Bevara noggrannheten, som spårar om modellen fortsätter att generera material som inte skulle raderas.

Balansen mellan de två poängen är avsedd att avslöja om metoden framgångsrikt tar bort det förbjudna konceptet utan att skada modellens bredare utdata.

Författarna utvärderade konceptradering över tre fellägen: för det första, ett mått på huruvida borttagning av ett koncept som bil stör närliggande eller orelaterade begrepp, baserat på semantisk och attributlikhet; för det andra, ett test för om radering kan kringgås genom att uppmana till delbegrepp som röd bil efter radering vehikel.

Slutligen utfördes en kontroll för attributläckage, där egenskaper kopplade till raderade begrepp förekommer i orelaterade objekt (till exempel att ta bort dem) soffa kan orsaka ett annat föremål, såsom en krukväxt, för att ärva dess färg eller material). Den slutliga datamängden innehåller 5056 kompositionsfrågor.

Tester

De tidigare testade ramverken var de som listades tidigare – UCE, RECE, MACE och SPM. Forskarna antog standardinställningarna från de ursprungliga projekten och finjusterade alla modeller på ett NVIDIA RTX 6000 GPU med 48 GB VRAM.

Stable Diffusion 1.4, en av de mest bestående modellerna i litteraturen, användes för alla tester – kanske inte minst för att de tidigaste SD-modellerna hade liten eller ingen konceptuell begränsning, och som sådana erbjuder ett blankt blad i just detta forskningssammanhang.

Var och en av de 5056 uppmaningarna från SEE-datasetet kördes genom både den oredigerade och den redigerade versionen av modellen, vilket genererade fyra bilder per uppmaning med hjälp av fasta slumpmässiga frön, vilket gör det möjligt att testa om raderingseffekterna förblev konsekventa över flera utdata. Varje redigerad modell producerade totalt 20,224 XNUMX bilder.

Förekomsten av bevarade koncept utvärderades enligt tidigare metoder för text-till-bild-raderingsprocedurer, med hjälp av VQA-modellerna. BLIP, QWEN 2.5 VLoch Florens-2base.

Påverkan på angränsande koncept

Det första testet mätte om radering av ett koncept oavsiktligt påverkade närliggande koncept. Till exempel, efter att ha tagit bort bil, modellen borde sluta generera röd bil or stor bil... men ändå kunna generera relaterade koncept som Bussen or lastbiloch orelaterade sådana som t.ex. gaffel.

Den använt analysen KLÄMMA bädda in likhet och attributbaserat redigeringsavstånd för att uppskatta hur nära varje koncept var det raderade målet, vilket gör det möjligt för studien att kvantifiera hur långt störningen spred sig:

Kombinerade resultat för målnoggrannhet (vänster) och bevarandenoggrannhet (höger) plottade mot semantisk likhet (överst) och kompositionsavstånd (nederst). En ideal metod för att radera koncept skulle visa låg målnoggrannhet och hög bevarandenoggrannhet över alla avstånd; men resultaten visar att nuvarande tekniker misslyckas med att generalisera tydligt, med närmare koncept antingen otillräckligt raderade eller oproportionerligt störda.

Av dessa resultat kommenterar författarna:

Alla CET:er fortsätter att generera kompositionella eller semantiskt distanserade varianter av målet trots raderingen, vilket helst inte borde ske. Det är uppenbart att UCE konsekvent uppnår högre noggrannhet än andra CET-metoder på [bevaringsmängden], vilket indikerar minimal oavsiktlig påverkan på semantiskt relaterade begrepp.

"SPM uppnår däremot den lägsta noggrannheten, vilket tyder på att dess redigeringsstrategi är mer mottaglig för konceptlikhet."

Bland de fyra testade metoderna var RECE mest effektiv på att blockera målkonceptet. Men som visas i vänster sida av bilden ovan misslyckades alla metoder med att undertrycka kompositionsvariationer. Efter radering fågel, producerade modellen fortfarande bilder av en röd fågel, vilket tyder på att konceptet förblev delvis intakt.

Ta bort blå soffa hindrade också modellen från att generera en blå stol, vilket indikerar skada på närliggande koncept.

RECE hanterade kompositionsvarianter bättre än de andra, medan UCE gjorde ett bättre jobb med att bevara relaterade koncept.

Raderingsinvasion

Testet med raderingsundangående utvärderade om modeller fortfarande kunde generera underklassbegrepp efter att deras superklass hade raderats. Till exempel, om vehikel togs bort, kontrollerade testet om modellen fortfarande kunde producera utdata som cykel or röd bil.

Uppmaningarna riktade sig mot både direkta underklasser och kompositionsvarianter för att avgöra om konceptraderingsoperationen verkligen hade tagit bort hela hierarkin eller kunde kringgås genom mer specifika beskrivningar:

På Stable Diffusion v1.4, kringgående av raderade superklasser genom deras underklasser och kompositionsvarianter, med högre noggrannhet vilket indikerar större kringgående.

Den oredigerade modellen bibehöll hög noggrannhet över alla superklasser, vilket bekräftade att den hade inte tog bort alla målkoncept. Bland CET:erna visade MACE minst undvikande och uppnådde den lägsta noggrannheten i underklassen i mer än hälften av de testade kategorierna. RECE presterade också bra, särskilt i åtföljande, sporteroch elektronisk grupper.

Däremot uppvisade UCE och SPM högre noggrannhet i underklassen, vilket indikerar att raderade begrepp lättare kringgick genom relaterade eller kapslade prompter.

Författarna noterar:

'[Alla] CET:er undertrycker framgångsrikt målsuperklasskonceptet ("mat"). Men när de tillfrågas med attributbaserade underordnade livsmedelshierarki (t.ex. en stor pizza) genererar alla metoder livsmedel.

På liknande sätt i vehikel kategori, alla modeller genererar cyklar, trots att "fordon" raderas.

Attributläckage

Det tredje testet, attributläckage, kontrollerade om drag kopplade till ett raderat koncept dök upp i andra delar av bilden.

Till exempel, efter radering soffa, modellen ska varken generera en soffa eller tillämpa dess typiska attribut (såsom färg eller material) på orelaterade objekt i samma prompt. Detta mättes genom att prompta modellen med parade objekt och undersöka om de raderade attributen felaktigt förekom i bevarade koncept:

Uppmärksamhetskartor för attributtokens efter radering av koncept. Vänster: När 'bänk' raderas, flyttas token 'trä' till fågeln istället, vilket resulterar i träfåglar. Höger: Radering av 'soffa' misslyckas med att undertrycka soffgenerering, medan token 'stor' felaktigt tilldelas munken.

RECE var mest effektiv på att radera målattribut, men introducerade också mest attributläckage i bevarade prompter, och överträffade även den oredigerade modellen. UCE läckte mindre än andra metoder.

Resultaten, menar författarna, indikerar behovet av en inneboende avvägning, där starkare radering ökar risken för felriktad attributöverföring.

Slutsats

Det latenta utrymmet i en modell fylls inte på ett ordnat sätt under träning, med härledda koncept prydligt placerade på hyllor eller i arkivskåp; snarare är de tränade inbäddningarna både innehållet och deras behållare: inte separerade av några skarpa gränser, utan snarare smälter in i varandra på ett sätt som gör borttagningen problematisk – som att försöka extrahera ett halvt kilo kött utan någon blodförlust.

I intelligenta och föränderliga system är grundläggande händelser – som att bränna fingrarna och därefter behandla eld med respekt – sammankopplade med de beteenden och associationer de senare bildar, vilket gör det utmanande att producera en modell som kanske har kvar följderna av ett centralt, potentiellt "förbjudet" koncept, men som saknar det konceptet i sig.

* Min konvertering av författarnas inline-hänvisning till hyperlänkar.

Först publicerad fredag 22 augusti 2025

Relaterade ämnen:AI-bild Generering av AI-bilder AI bildgeneratorer AI Jailbreaks censur hacking LVLM vision språkmodell

Missa inte

Varför tävlingar blir den nya standarden för testning av AI