Andersons vinkel

Censurering af AI-modeller fungerer ikke godt, studie afslører

Published August 22, 2025

Updated April 2, 2026

Martin Anderson

ChatGPT-4o, Krita (Flux/Flux Koncept Dev), Firefly.

Forsøg på at censurere AI-billedegenereringsmodeller ved at slette forbudt indhold (såsom pornografi, vold eller ophavsretsligt beskyttede stilarter) fra de trænede modeller slår fejl: en ny studie finder, at nuværende konceptsletningsmetoder tillader “forbudte” attributter at løbe over i ikke-relaterede billeder, og også ikke kan forhindre tæt relaterede versioner af det såkaldt “slettede” indhold i at optræde.

Hvis selskaber, der producerer grundlæggende AI-modeller, ikke kan forhindre dem i at blive misbrugt til at producere forkert eller ulovligt materiale, risikerer de at blive retsforfulgt og/eller lukket ned. Omvendt er leverandører, der kun gør deres modeller tilgængelige via en API, som med Adobes Firefly generative motor, i en position, hvor de ikke behøver at bekymre sig om, hvad deres modeller måtte producere, da både brugerens prompt og den resulterende output inspiceres og saneres:

Adobes Firefly-system, der bruges i værktøjer som Photoshop, afviser af og til en generativ anmodning med det samme ved at blokere prompten, før noget er oprettet. Andre gange genererer den billedet, men blokkerer derefter resultatet efter gennemgang. Denne type midt-i-processen-afvisning kan også ske i ChatGPT, når modellen starter en respons, men klipper den af efter at have genkendt en politikovertrædelse – og lejlighedsvis kan man se det afbrudte billede kortvarigt under denne proces.

Men API-stil-filtre af denne type kan normalt neutraliseres af brugere på lokalt installerede modeller, herunder vision-language-modeller (VLM’er), som brugeren måske ønsker at tilpasse gennem lokal træning på brugerdefineret data.

I de fleste tilfælde er det let at deaktivere disse operationer, hvilket indebærer at kommentere en funktionskald i Python (selvom hacks af denne type normalt skal gentages eller genopfindes efter framework-opdateringer).

Set fra et forretningsperspektiv er det svært at forstå, hvordan dette kan være et problem, da en API-tilgang maksimerer virksomhedens kontrol over brugerens arbejdsproces. Set fra brugerens perspektiv er det imidlertid sandsynligt, at både omkostningerne ved API-kun-modeller og risikoen for fejlagtig eller excessiv censur vil få dem til at downloade og tilpasse lokale installationer af open source-alternativer – i hvert fald, hvor FOSS-licensen er gunstig.

Den sidste betydelige model, der blev frigivet uden nogen forsøg på at indbygge selv-censur, var Stable Diffusion V1.5, næsten tre år siden. Senere førte afsløringen af, at dens træningskorpus indeholdt CSAM-data, til en stigende opfordring til at forbyde dens tilgængelighed, og dens fjernelse fra Hugging Face-repositoriet i 2024.

Skær det ud!

Kynikere hævder, at et selskabs interesse i at censurere lokalt installerbare generative AI-modeller udelukkende er baseret på bekymring om juridisk eksponering, hvis deres rammer bliver offentliggjort for at facilitere ulovligt eller forkert indhold.

Sandt enough, nogle ‘lokal-venlige’ open source-modeller er ikke så svære at de-censurere (såsom Stable Diffusion 1.5 og DeepSeek R1).

I modsætning hertil var den seneste udgivelse af Black Forest Labs’ Flux Kontext model-serie kendetegnet ved virksomhedens notable engagement i at bowdlerisere hele Kontext-rækken. Dette blev opnået både gennem omhyggelig datakurering og målrettet fine-tuning efter træning, designet til at fjerne enhver resterende tendens til NSFW eller forbudt indhold.

Her er, hvor handlingsstedet har været i forskningsscenen over de seneste 2-3 år: med en vægt på efterfølgende fiksering af modeller med under-kurateret data. Tilbud af denne type omfatter Unified Concept Editing in Diffusion Models (UCE); Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models (RECE); Mass Concept Erasure in Diffusion Models (MACE); og concept-Semi-Permeable structure is injected as a Membrane (SPM):

Den 2024-papir ‘Unified Concept Editing in Diffusion Models’ tilbød lukkede-form-redigering af attention-weights, hvilket muliggjorde effektiv redigering af multiple koncepter i tekst-til-billede-modeller. Men holder metoden stand til skud? Kilde: https://arxiv.org/pdf/2308.14761

Selvom dette er en effektiv tilgang (hyperskala-samlinger såsom LAION er langt for store til at kurateres manuelt), er det ikke nødvendigvis en effektiv en: ifølge en ny amerikansk studie fungerer ingen af de nævnte redigeringsprocedurer – som repræsenterer den nuværende tilstand i post-træning AI-model-modifikation – særlig godt.

Forfatterne fandt, at disse Concept Erasure Techniques (CET’er) normalt kan omgås let, og at selv hvor de er effektive, har de betydelige sideeffekter:

Effekter af konceptsletning på tekst-til-billede-modeller. Hver kolonne viser en prompt og det koncept, der er markeret til sletning, sammen med genererede outputs før og efter redigering. Hierarkier indikerer forælder-barn-relationer mellem koncepter. Eksemplerne fremhæver almindelige sideeffekter, herunder manglende sletning af underkoncepter, undertrykkelse af nærliggende koncepter, undgåelse gennem omskrivning og overførsel af slettede attributter til ikke-relaterede objekter. Kilde: https://arxiv.org/pdf/2508.15124

Forfatterne fandt, at de førende nuværende konceptsletnings-teknikker ikke kan blokere kompositionelle prompts (for eksempel red car eller small wooden chair); ofte lader under-klasser glide igennem, selv efter at have slettet en over-kategori (såsom car eller bus, der fortsætter med at optræde efter at have fjernet vehicle); og introducerer nye problemer såsom attribut-lækage (hvor, for eksempel, sletning af blue couch kunne få modellen til at generere ikke-relaterede objekter såsom blue chair).

I over 80% af testtilfælde stoppede sletning af et bredt koncept såsom vehicle ikke modellen fra at generere mere specifikke vehicle-eksempler såsom biler eller busser.

Redigering, observerer papiret, forårsager også, at attention-maps (de dele af modellen, der bestemmer, hvor den skal fokusere i billedet) spredes, svækkende output-kvaliteten.

Interessant nok finder studiet, at sletning af relaterede trænede koncepter én ad gangen fungerer bedre end at forsøge at fjerne dem alle på én gang – selvom det ikke fjerner alle svaghederne i de studerede redigeringsmetoder:

Sammenligning af progressive og på én gang-sletningsstrategier. Når alle varianter af ‘teddy bear’ slettes samtidig, fortsætter modellen med at generere bjørne-lignende objekter. Sletning af varianterne skridt for skridt er mere effektiv, og får modellen til at undertrykke målkonceptet mere pålideligt.

Selvom forskerne i øjeblikket ikke kan tilbyde nogen løsning på de problemer, som papiret fremhæver, har de udviklet en ny dataset og benchmark, som kan hjælpe senere forskningsprojekter med at forstå, om deres egne ‘censurerede’ modeller fungerer, som de skal.

Papiret fastslår:

‘Tidligere evalueringer har udelukkende været baseret på en lille samling af mål- og bevare-klasser; for eksempel, når konceptet til sletning er ‘vehicle’, testes kun modellens evne til at generere biler. Vi demonstrerer, at denne tilgang er fundamentalt utilstrækkelig, og at konceptsletningsevaluering skal være mere omfattende for at omfatte alle relaterede underkoncepter såsom ‘red car’.

‘Ved at introducere en divers dataset med kompositionelle variationer og systematisk analysere effekter såsom påvirkning af nærliggende koncepter, konceptundgåelse og attributlækage, afslører vi betydelige begrænsninger og sideeffekter af eksisterende CET’er.

‘Vores benchmark er model-agnostisk og let integrerbar og er ideelt egnet til at hjælpe med udviklingen af nye Concept Erasure Techniques (CET’er).’

Selvom CET’er sletter målkonceptet ‘bird’, fejler de på den kompositionelle variant ‘red bird’ (top). Efter at have slettet ‘blue couch’ fejler alle metoder også med at generere en blå stol (bottom). Succesfulde resultater er markeret med et grønt tik-symbol, og fejl med et rødt ‘X’-symbol.

Studiet giver en interessant indsigt i, hvor meget koncepter trænet i en models latent rum er sammenflettet, og hvor meget entanglement ikke let tillader nogen form for definitiv og virkelig diskret konceptsletning.

Den nye papir hedder Side Effects of Erasing Concepts from Diffusion Models og kommer fra fire forskere fra University of Maryland.

Metode og data

Forfatterne mener, at tidligere arbejder, der hævder at slette koncepter fra diffusion-modeller, ikke beviser kravene tilstrækkeligt, og fastslår*:

‘Krav om sletning kræver mere robust og omfattende evaluering. For eksempel, hvis konceptet til sletning er ‘vehicle’, skal underkoncepter såsom ‘car’ og kompositionelle koncepter såsom ‘red car’ eller ‘small car’ også slettes.

‘Dog overvejes dette aspekt af koncepthierarki og kompositionelhed ikke i eksisterende evalueringsprotokoller, da de kun fokuserer på nøjagtigheden af det enkelte slettede koncept. [Forfatterne af EraseBench] vurderer, hvordan CET’er påvirker visuelt lignende og omskrevne koncepter (såsom ‘cat’ og ‘kitten’)[;] dog vurderer de ikke udtømmende hierarkiet og kompositionelhed af koncepter.’

For at give benchmark-data til fremtidige projekter oprettede forfatterne Side Effect Evaluation (SEE)-datasettet – en stor samling af tekstprompts designet til at teste, hvor godt konceptsletningsmetoder fungerer.

Promptene følger en simpel skabelon, hvor et objekt beskrives med attributter af størrelse, farve og materiale – for eksempel, et billede af en lille rød træbil.

Objekterne blev trukket fra MS-COCO-datasettet og organiseret i en hierarki af overklasser såsom vehicle, og underklasser såsom car eller bus, med deres attribut-kombinationer, der danner blad-noderne (det mest specifikke niveau af hierarkiet). Denne struktur gør det muligt at teste sletning på forskellige semantiske niveauer, fra brede kategorier til specifikke varianter.

For at understøtte automatiseret evaluering blev hver prompt parret med et ja- eller nej-spørgsmål, såsom Er der en bil i billedet?, og også brugt som en klasse-label til billed-klassificeringsmodeller:

Prompt-kombinationer i SEE-datasettet genereret ved at variere størrelse-, farve- og materiale-attributter.

For at måle, hvor godt hver konceptsletningsmetode fungerede, udviklede forfatterne to scoringsmetoder: mål-nøjagtighed, som sporer, hvor ofte slettede koncepter stadig optræder i de genererede billeder; og bevare-nøjagtighed, som sporer, om modellen fortsætter med at generere materiale, der ikke skulle slettes.

Balancen mellem de to score skal afsløre, om metoden med held fjerner det forbudte koncept uden at skade modellens bredere output.