Andersons vinkel

Censurering av AI-modeller fungerar inte särskilt bra, enligt en studie

Published August 22, 2025

Updated April 2, 2026

Martin Anderson

ChatGPT-4o, Krita (Flux/Flux Koncept Dev), Firefly.

Försök att censurera AI-bildgenereringsmodeller genom att sudda ut förbjudet innehåll (såsom pornografi, våld eller upphovsrättsskyddade stilar) från de tränade modellerna fungerar inte särskilt bra: en ny studie visar att nuvarande konceptutplåningsmetoder tillåter “förbjudna” attribut att läcka in i orelaterade bilder, och misslyckas också med att förhindra att nära relaterade versioner av det så kallat “utplånade” innehållet dyker upp.

Om företag som producerar grundläggande AI-modeller inte kan förhindra att de används för att producera stötande eller olagligt material, riskerar de att bli åtalade och/eller stängda. Å andra sidan är leverantörer som endast gör sina modeller tillgängliga via en API, som Adobes Firefly genererande motor, i en position där de inte behöver oroa sig för vad deras modeller kan skapa, eftersom både användarens prompt och den resulterande utmatningen inspekteras och saneras:

Adobes Firefly-system, som används i verktyg som Photoshop, vägrar ibland en genereringsbegäran direkt genom att blockera prompten innan något skapas. Ibland genererar den bilden men blockerar sedan resultatet efter granskning. Denna typ av mid-process-vägran kan också inträffa i ChatGPT, när modellen startar en respons men klipper av den efter att ha känt igen en policyöverträdelse – och ibland kan man se den avbrutna bilden kort under denna process.

Men API-stilfilter av detta slag kan vanligtvis neutraliseras av användare på lokalt installerade modeller, inklusive vision-språkmodeller (VLM) som användaren kan vilja anpassa genom lokal utbildning på anpassad data.

Att inaktivera sådana operationer är vanligtvis enkelt, och innebär att kommentera ut en funktionssamtal i Python (även om sådana hack vanligtvis måste upprepas eller återuppfinnas efter ramverksuppdateringar).

Ur ett affärsperspektiv är det svårt att förstå hur detta kan vara ett problem, eftersom en API-approach maximalt korporativ kontroll över användarens arbetsflöde. Ur användarens perspektiv, dock, är både kostnaden för API-endast modeller och risken för misstänkt eller överdriven censur sannolikt att tvinga dem att ladda ner och anpassa lokala installationer av öppen källkodsalternativ – åtminstone där FOSS-licensen är fördelaktig.

Den sista betydande modellen som släpptes utan något försök att ingjuta självcensur var Stable Diffusion V1.5, för nästan tre år sedan. Senare ledde avslöjandet att dess träningskorpus innehöll CSAM-data till växande krav på att förbjuda dess tillgänglighet, och dess borttagning från Hugging Face-repositoriet 2024.

Skär ut det!

Cyniker hävdar att ett företags intresse för att censurera lokalt installerbara generativa AI-modeller grundar sig enbart på bekymmer om juridisk exponering, om deras ramverk blir offentliggjorda för att underlätta olagligt eller stötande innehåll.

Verkligen, vissa “lokalt vänliga” öppna källkodsmodeller är inte så svåra att avcensurera (såsom Stable Diffusion 1.5 och DeepSeek R1).

I kontrast släpptes Black Forest Labs Flux Kontext modellserien med företagets noterbara åtagande att bowdlerisera hela Kontext-området. Detta uppnåddes både genom noggrann datakurering och riktad finjustering efter utbildning, designad för att ta bort eventuella resterande tendenser mot NSFW eller förbjudet innehåll.

Detta är där aktionsfokus har varit i forskningsscenen under de senaste 2-3 åren: med betoning på efter-fakta-fixning av modeller med under-kuraterad data. Erbjudanden av detta slag inkluderar Unified Concept Editing in Diffusion Models (UCE); Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models (RECE); Mass Concept Erasure in Diffusion Models (MACE); och concept-Semi-Permeable structure is injected as a Membrane (SPM):

2024 års artikel ‘Unified Concept Editing in Diffusion Models’ erbjöd slutna former för uppmärksamhetsvikt, vilket möjliggjorde effektiv redigering av flera koncept i text-till-bild-modeller. Men står metoden emot granskning? Källa: https://arxiv.org/pdf/2308.14761

Även om detta är en effektiv approach (hyperskale-samlingar som LAION är för stora för att manuellt kurera), är det inte nödvändigtvis en effektiv sådan: enligt en ny amerikansk studie fungerar ingen av de ovannämnda redigeringsförfarandena – som representerar den nuvarande tillståndskonsten i post-utbildnings AI-modellmodifiering – särskilt bra.

Författarna fann att dessa konceptutplåningstekniker (CET) vanligtvis kan kringgås lätt, och att även där de är effektiva, har de betydande bieffekter:

Effekter av konceptutplåning på text-till-bild-modeller. Varje kolumn visar en prompt och det koncept som markerats för utplåning, tillsammans med genererade utmatningar före och efter redigering. Hierarkier indikerar förälder-barn-relationer mellan koncept. Exemplen belyser vanliga bieffekter, inklusive brist på utplåning av underkoncept, undertryckande av närliggande koncept, undvikande genom omformulering och överföring av utplånade attribut till orelaterade objekt. Källa: https://arxiv.org/pdf/2508.15124

Författarna fann att de ledande nuvarande konceptutplåningsteknikerna misslyckas med att blockera sammansatta prompter (t.ex. red car eller small wooden chair); ofta låter underklasser glida igenom även efter att ha utplånat en överklass (såsom car eller bus fortsätter att dyka upp efter att ha tagit bort vehicle); och introducerar nya problem som attributläckage (där t.ex. radering av blue couch kan orsaka att modellen genererar orelaterade objekt som blue chair).

I över 80% av testfallen stoppade utplåning av ett brett koncept som vehicle inte modellen från att generera mer specifika vehicle-instanser som car eller bus.

Redigering, observerar artikeln, orsakar också uppmärksamhetskartor (de delar av modellen som bestämmer var man ska fokusera i bilden) att spridas, vilket försvagar utmatningskvaliteten.

Intressant nog finner studien att utplåning av relaterade tränade koncept ett i taget fungerar bättre än att försöka ta bort dem alla på en gång – även om det inte tar bort alla bristerna i de studerade redigeringsmetoderna:

Jämförelse av progressiv och allt-på-en-gång-utplåningstrategier. När alla varianter av ‘teddy bear’ utplånas samtidigt fortsätter modellen att generera björn-liknande objekt. Utplåning av varianterna steg för steg är mer effektiv, vilket leder modellen att undertrycka målkonceptet mer tillförlitligt.

Även om forskarna för närvarande inte kan erbjuda någon lösning på de problem som artikeln beskriver, har de utvecklat en ny dataset och benchmark som kan hjälpa senare forskningsprojekt att förstå om deras egna “censurerade” modeller fungerar som förväntat.

Artikeln säger:

‘Tidigare utvärderingar har enbart förlitat sig på en liten uppsättning mål- och bevara-klasser; till exempel, när man utplånar ‘car’, testas endast modellens förmåga att generera bilar. Vi visar att denna approach är grundläggande otillräcklig och konceptutplåningsevaluation bör vara mer omfattande för att omfatta alla relaterade underkoncept som ‘red car’.

‘Genom att införa en diversifierad dataset med sammansatta variationer och systematiskt analysera effekter som påverkan på närliggande koncept, konceptundvikande och attributläckage, avslöjar vi betydande begränsningar och bieffekter av befintliga CET.

‘Vår benchmark är modell-agnostisk och lätt integrerbar och är idealiskt lämpad för att underlätta utvecklingen av nya konceptutplåningstekniker (CET).

Även om CET utplånar målkonceptet ‘bird’, misslyckas de med att utplåna den sammansatta varianten ‘red bird’ (överst). Efter att ha utplånat ‘couch’ förlorar alla metoder förmågan att generera en blå stol (nederst). Lyckade resultat markeras med en grön bocksymbol, och misslyckanden med en röd ‘X’-symbol.

Studien erbjuder en intressant insikt i omfattningen av de inbäddade koncepten i en modells latenta utrymme, och omfattningen av sammanflätning som inte tillåter någon definitiv och verkligt diskret konceptutplåning.

Den nya artikeln heter Side Effects of Erasing Concepts from Diffusion Models, och kommer från fyra forskare från University of Maryland.

Metod och data

Författarna menar att tidigare arbeten som påstår att de utplånar koncept från diffusionsmodeller inte bevisar påståendet tillräckligt, och skriver*:

‘Påståenden om utplåning kräver mer robust och omfattande utvärdering. Till exempel, om konceptet som ska utplånas är ‘vehicle’, bör underkoncept som ‘car’ och sammansatta koncept som ‘red car’ eller ‘small car’ också utplånas.

‘Men detta aspekt av koncepthierarki och sammansättning beaktas inte i befintliga utvärderingsprotokoll, eftersom de enbart fokuserar på noggrannheten hos det enskilda utplånade konceptet. [Författarna till EraseBench] utvärderar hur CET påverkar visuellt liknande och parafraserade koncept (såsom ‘cat’ och ‘kitten’)[;] men de undersöker inte uttömmande hierarkin och sammansättningen av koncept.’

För att tillhandahålla benchmarkdata för framtida projekt skapade författarna Side Effect Evaluation (SEE)-dataseten – en stor samling textprompt som är utformade för att testa hur väl konceptutplåningsmetoder fungerar.

Prompten följer en enkel mall där ett objekt beskrivs med attribut som storlek, färg och material – till exempel en bild av en liten röd träbil.

Objekten valdes från MS-COCO-dataseten, och organiserades i en hierarki av överklasser som vehicle, och underklasser som car eller bus, med deras attributkombinationer som bildar bladnoderna (den mest specifika nivån i hierarkin). Denna struktur möjliggör att testa utplåning på olika semantiska nivåer, från breda kategorier till specifika varianter.

För att stödja automatiserad utvärdering parades varje prompt med ett ja- eller nej-fråga, såsom Finns det en bil i bilden?, och användes också som en klassetikett för bildklassificeringsmodeller:

Promptkombinationer i SEE-datasetet genererade genom att variera storlek, färg och materialattribut.

För att mäta hur väl varje konceptutplåningsmetod presterade, utvecklade författarna två poängsättningsmetoder: mål noggrannhet, som spårar hur ofta utplånade koncept fortfarande dyker upp i de genererade bilderna; och bevara noggrannhet, som spårar om modellen fortsätter att generera material som inte var tänkt att utplånas.

Balansen mellan de två poängen är avsedd att avslöja om metoden med framgång tar bort det förbjudna konceptet utan att skada modellens bredare utmatning.

Författarna utvärderade konceptutplåning över tre felmodus: först, ett mått på om borttagning av ett koncept som car stör närliggande eller orelaterade koncept, baserat på semantisk och attributbaserad redigering; andra, ett test för om utplåning kan kringgås genom att prompta underkoncept som red car efter att ha tagit bort vehicle.

Till sist genomfördes en kontroll för attributläckage, där attribut som är kopplade till ett utplånat koncept dyker upp i andra delar av bilden.

Tester

De tidigare ramverken som testades var de som nämndes tidigare – UCE, RECE, MACE och SPM. Forskarna antog standardinställningar från de ursprungliga projekten, och finjusterade alla modellerna på en NVIDIA RTX 6000 GPU med 48GB VRAM.

Stable Diffusion 1.4, en av de mest varaktiga modellerna i litteraturen, användes för alla testerna – kanske inte minst för att de tidigaste SD-modellerna hade lite eller ingen konceptuell begränsning, och som sådan erbjuder de en blank skiva i detta specifika forskningssammanhang.

Var och en av de 5056 prompten från SEE-datasetet kördes genom både den oredigerade och den redigerade versionen av modellen, och genererade fyra bilder per prompt med hjälp av fasta slumpmässiga frön, vilket möjliggjorde att testa om utplåningseffekterna förblev konsekventa över flera utmatningar. Varje redigerad modell producerade totalt 20 224 bilder.

Närvaron av bevarade koncept utvärderades enligt tidigare metoder för text-till-bild-utplåning, med hjälp av VQA-modellerna BLIP, QWEN 2.5 VL och Florence-2base.

Påverkan på närliggande koncept

Det första testet mätte om utplåning av ett koncept oavsiktligt påverkade närliggande koncept. Till exempel, efter att ha tagit bort car, testades om modellen kunde generera red car eller large car, men fortfarande kunna generera relaterade koncept som bus eller truck, och orelaterade som fork.

Analysen använde CLIP-inbäddningssimilaritet och attributbaserad redigering för att uppskatta hur nära varje koncept var till det utplånade målet, vilket möjliggjorde att kvantifiera hur långt störningen spred sig:

Kombinerade resultat för mål noggrannhet (vänster) och bevara noggrannhet (höger) plottade mot semantisk similaritet (överst) och sammansatt avstånd (nederst). En ideal konceptutplåningsmetod skulle visa låg mål noggrannhet och hög bevara noggrannhet över alla avstånd; men resultaten visar att nuvarande tekniker inte generaliserar rent, med närliggande koncept antingen otillräckligt utplånade eller oproportionerligt störda.

Av dessa resultat kommenterar författarna:

‘Alla CET fortsätter att generera sammansatta eller semantiskt avlägsna varianter av målet trots utplåning, vilket idealiskt sett inte bör inträffa. Det är uppenbart att UCE konsekvent uppnår högre noggrannhet än andra CET-metoder på [bevara uppsättningen], vilket indikerar minimal oavsiktlig påverkan på semantiskt relaterade koncept.

‘I kontrast uppnår SPM den lägsta noggrannheten, vilket tyder på att dess redigeringsstrategi är mer mottaglig för konceptlikhet.’

Bland de fyra metoder som testades var RECE den mest effektiva för att blockera målkonceptet. Men som visas i den vänstra delen av bilden ovan, misslyckades alla metoder med att undertrycka sammansatta varianter. Efter att ha utplånat bird genererade modellen fortfarande bilder av en röd fågel, vilket tyder på att konceptet förblev delvis intakt.

Att ta bort blue couch hindrade också modellen från att generera en blue chair, vilket indikerar skada på närliggande koncept.

RECE hanterade sammansatta varianter bättre än de andra, medan UCE gjorde ett bättre jobb med att bevara relaterade koncept.

Utplåning av undvikande

Utplåningsevasionstestet utvärderade om modeller kunde fortfarande generera underkoncept efter att deras överklass hade utplånats. Till exempel, om vehicle togs bort, testades om modellen kunde producera utmatningar som bicycle eller red car.

Prompten riktade sig mot både direkta underklasser och sammansatta varianter för att bestämma om konceptutplåningsoperationen verkligen hade tagit bort hela hierarkin eller kunde kringgås genom mer specifika beskrivningar:

Kringgående av utplånade överklasser genom deras underklasser och sammansatta varianter, med högre noggrannhet som indikerar större undvikande.

Den oredigerade modellen behöll hög noggrannhet över alla överklasser, vilket bekräftade att den inte hade tagit bort några målkoncept. Bland CET, visade MACE den minsta undvikandet, och uppnådde den lägsta underklassnoggrannheten i mer än hälften av de testade kategorierna. RECE presterade också bra, särskilt i accessory, sports och electronic grupper.

I kontrast visade UCE och SPM högre underklassnoggrannhet, vilket indikerar att utplånade koncept kunde kringgås genom relaterade eller inbäddade prompter.

Författarna noterar:

‘[Alla] CET lyckas undertrycka det överordnade konceptet (“food”). Men när de promptas med attributbaserade barn av mat-hierarkin (t.ex. en stor pizza”), genererar alla metoder matvaror.

‘Likaså i vehicle-kategorin, genererar alla modeller cyklar, trots att de har utplånat “vehicle”.’

Attributläckage

Det tredje testet, attributläckage, kontrollerade om attribut som var kopplade till ett utplånat koncept dyker upp i andra delar av bilden.

Till exempel, efter att ha utplånat couch, borde modellen varken generera en soffa eller tillämpa dess typiska attribut (såsom färg eller material) på orelaterade objekt i samma prompt. Detta mättes genom att prompta modellen med parade objekt och undersöka om de utplånade attributen felaktigt dyker upp i bevarade koncept:

Uppmärksamhetskartor för attributtoken efter konceptutplåning. Vänster: När ‘bench’ utplånas, skiftar token ‘wooden’ till fågeln istället, vilket resulterar i träfåglar. Höger: Utplåning av ‘couch’ misslyckas med att undertrycka soffgeneration, medan token ‘large’ felaktigt tilldelas till donuten.

RECE var den mest effektiva metoden för att utplåna målattribut, men introducerade också mest attributläckage i bevarade prompter, och överträffade till och med den oredigerade modellen. UCE läckte mindre än andra metoder.

Resultaten, föreslår författarna, indikerar nödvändigheten av en inbyggd avvägning, där starkare utplåning ökar risken för felriktad attributöverföring.

Slutsats

Den latenta utrymmet i en modell fylls inte upp på ett ordnat sätt under utbildning, med härledda koncept deponerade prydligt på hyllor eller i filskåp; snarare är de tränade inbäddningarna både innehållet och deras containrar: inte separerade av några skarpa gränser, utan snarare blandade samman på ett sätt som gör borttagning problematisk – som att försöka extrahera ett pund kött utan någon blodförlust.

I intelligenta och utvecklande system är grundläggande händelser – såsom att bränna fingrarna och därefter behandla eld med respekt – bundna med de beteenden och associationer de senare bildar, vilket gör det svårt att producera en modell som kan ha lämnats med konsekvenserna av ett centralt, potentiellt “förbjudet” koncept, men saknar det konceptet i sig.

* Min omvandling av författarnas inline-citation till hyperlänkar.

Publicerad första gången fredag, 22 augusti 2025