Andersons vinkel
Censurering av AI-modeller fungerer ikke sÄ bra, viser studie

Forsøk på å censurere AI-bildegenerering ved å slette forbudt innhold (såsom pornografi, vold eller opphavsrettslige stiler) fra trenede modeller, har ikke fungert så bra: en ny studie finner at gjeldende konsept-sletting metoder tillater “forbudt” attributter å trenge inn i ubeslektede bilder, og de klarer heller ikke å stoppe nært beslektede versjoner av det såkalte “slettede” innholdet fra å dukke opp.
Hvis selskaper som produserer grunnleggende AI-modeller ikke kan forhindre dem fra å bli misbrukt til å produsere uakseptabelt eller ulovlig materiale, risikerer de å bli saksøkt og/eller stengt. Omvendt, leverandører som bare gjør modellene sine tilgjengelige via en API, som med Adobes Firefly generative motor, er i en posisjon der de ikke behøver å bekymre seg for hva modellene deres kan skape, ettersom både brukerens prompt og det resulterende utgangspunktet inspiseres og saneres:

Adobes Firefly-system, brukt i verktøy som Photoshop, avviser iblant en generativ forespørsel med en gang ved å blokkere prompten før noe er skapt. Andre ganger genererer den bildet, men blokkerer så resultatet etter gjennomgang. Dette midlertidige avvisningsfenomen kan også skje i ChatGPT, når modellen starter en respons, men kutter den av etter å ha gjenkjent en politiviolasjon – og av og til kan man se det avbrutte bildet kortvarig under denne prosessen.
Likevel kan API-liknende filtre av denne typen vanligvis neutraliseres av brukere på lokalt installerte modeller, inkludert visjon-språk-modeller (VLMs) som brukeren kan ønske å tilpasse gjennom lokal trening på egendefinert data.
I de fleste tilfeller er det enkelt å deaktivere slike operasjoner, noe som vanligvis innebærer å kommentere ut en funksjonskall i Python (selv om slike hakker vanligvis må gjentas eller gjenskapes etter rammeoppdateringer).
Fra et bedriftsperspektiv er det vanskelig å forstå hvordan dette kan være et problem, ettersom en API-tilnærming maksimerer bedriftens kontroll over brukerens arbeidsflyt. Fra brukerens perspektiv, derimot, er både kostnaden av API-bare modeller og risikoen for feil eller overdrivende censur sannsynligvis å kompensere dem til å laste ned og tilpasse lokale installasjoner av åpne kildekodemodeller – i hvert fall der FOSS-lisensen er gunstig.
Den siste betydelige modellen som ble utgitt uten noen forsøk på å innføre selv-censur, var Stable Diffusion V1.5, nesten tre år siden. Senere ledet avsløringen av at dens treningskorpus inkluderte CSAM-data til økende krav om å forbyte dens tilgjengelighet, og dens fjerning fra Hugging Face-repositoriet i 2024.
Kutt det ut!
Skeptikere hevder at et selskaps interesse for å censurere lokalt installerte generative AI-modeller bare er basert på bekymringer om juridisk eksponering, hvis deres rammer blir offentliggjort for å fasilitere uakseptabelt eller ulovlig innhold.
Virkelig, noen ‘lokalt-vennlige’ åpne kildekodemodeller er ikke så vanskelige å de-censurere (såsom Stable Diffusion 1.5 og DeepSeek R1).
I motsetning til dette var den nylige utgivelsen av Black Forest Labs’ Flux Kontext-modellserien preget av selskapets merkbare forpliktelse til å bowdlerisere hele Kontext-rekken. Dette ble oppnådd både gjennom omsorgsfull datakurering og målrettet fine-tuning etter trening, designet for å fjerne enhver resterende tendens mot NSFW eller forbudt innhold.
Dette er hvor handlingens sentrum har vært i forskningsscenen de siste 2-3 årene: med fokus på etterfølgende fiksering av modeller med under-kurerte data. Tilbud av denne typen inkluderer Unified Concept Editing in Diffusion Models (UCE); Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models (RECE); Mass Concept Erasure in Diffusion Models (MACE); og concept-Semi-Permeable structure is injected as a Membrane (SPM):

Den 2024-papiren ‘Unified Concept Editing in Diffusion Models’ tilbød lukkede former for redigering av oppmerksomhetsvekt, og muliggjorde effektiv redigering av flere konsepter i tekst-til-bilde-modeller. Men holder metoden stand mot kritikk? Kilde: https://arxiv.org/pdf/2308.14761
Selv om dette er en effektiv tilnærming (hyperskala-samlinger som LAION er langt for store til å kurere manuelt), er det ikke nødvendigvis en effektiv en: ifølge en ny amerikansk studie, fungerer ingen av de ovennevnte redigeringsprosessene – som representerer nåværende tilstand i post-trening AI-modifikasjon – særlig bra.
Forfatterne fant ut at disse konsept-slettingsteknikkene (CETs) vanligvis kan omgås lett, og at selv der de er effektive, har de betydelige bieffekter:

Effekter av konsept-sletting på tekst-til-bilde-modeller. Hver kolonne viser en prompt og det konseptet som er merket for sletting, sammen med genererte utgangspunkter før og etter redigering. Hierarkier indikerer forelder-barn-relasjoner mellom konsepter. Eksemplene fremhever vanlige bieffekter, inkludert svikt i å slette under-konsepter, undertrykking av nærliggende konsepter, unngåelse gjennom omformulering, og overføring av slettede attributter til ubeslektede objekter. Kilde: https://arxiv.org/pdf/2508.15124
Forfatterne fant ut at de ledende nåværende konsept-slettingsteknikkene feiler i å blokkere sammensatte prompter (for eksempel, red bil eller liten trebenk); ofte lar de under-klasser gli gjennom selv etter å ha slettet en over-kategori (såsom bil eller bus som fortsatt dukker opp etter å ha fjernet kjøretøy); og introduserer nye problemer som attributt-lækasje (hvor, for eksempel, sletting av blå sofa kunne få modellen til å generere ubeslektede objekter som blå stol).
I over 80% av testtilfellene, stoppet sletting av et bredt konsept som kjøretøy ikke modellen fra å generere mer spesifikke kjøretøy-eksempler som biler eller busser.
Redigering, observerer papiren, forårsaker også at oppmerksomhets-kart (delene av modellen som bestemmer hvor å fokusere i bildet) spres, og svekker utgangskvaliteten.
Interessant nok, finner papiren ut at sletting av relaterte trenede konsepter en etter en fungerer bedre enn å prøve å fjerne dem alle på en gang – selv om det ikke fjerner alle svakhetene i de studerte redigeringsmetodene:

Sammenligning av progressive og alle-på-éngang-slettingstrategier. Når alle varianter av ‘teddybjørn’ slettes samtidig, fortsetter modellen å generere bjørn-liknende objekter. Sletting av variantene ett etter ett er mer effektivt, og får modellen til å undertrykke målkonseptet mer pålitelig.
Selv om forskerne for tiden ikke kan tilby noen løsning på problemene som papiren fremhever, har de utviklet en ny datasett og benchmark som kan hjelpe senere forskningsprosjekter til å forstå om deres egne ‘censurerte’ modeller fungerer som forventet.
Papiren slår fast:
‘Tidligere evalueringer har bare basert seg på en liten samling av mål- og bevare-klasser; for eksempel, når konseptet som skal slettes er ‘kjøretøy’, skal bare modellens evne til å generere kjøretøy testes. Vi demonstrerer at denne tilnærmingen er fundamentalt utilstrekkelig, og at konsept-slettingsevaluering bør være mer omfattende for å omfatte alle relaterte under-konsepter, såsom ‘rød bil’.
‘Ved å introdusere en diversifisert datasett med sammensatte variasjoner og systematisk analysere effekter som påvirkning på nærliggende konsepter, konsept-unngåelse og attributt-lækasje, avdekker vi betydelige begrensninger og bieffekter av eksisterende CETs.
‘Vår benchmark er modell-agnostisk og lett integrerbar, og er ideelt egnet til å hjelpe utviklingen av nye konsept-slettingsteknikker (CETs).’

Selv om CETs sletter målkonseptet ‘fugl’, feiler de på den sammensatte varianten ‘rød fugl’ (øverst). Etter å ha slettet ‘blå sofa’, feiler alle metoder også i å generere en blå stol (nederst). Suksessfulle resultater er merket med en grønn hake-symbol, og feil med en rød ‘X’-symbol.
Studien gir en interessant innsikt i omfanget av sammenflettingen av konsepter trenet inn i en modells latent rom, og omfanget av hvilken sammenfletting ikke vil tillate noen form for avgrenset og virkelig diskret konsept-sletting.
Den nye papiren heter Bieffekter av å slette konsepter fra diffusjonsmodeller, og kommer fra fire forskere fra University of Maryland.
Metode og data
Forfatterne mener at tidligere arbeider som hevder å slette konsepter fra diffusjonsmodeller, ikke beviser kravene adekvat, og slår fast*:
‘Krav om sletting trenger mer robuste og omfattende evaluering. For eksempel, hvis konseptet som skal slettes er ‘kjøretøy’, skal under-konsepter som ‘bil’ og sammensatte konsepter som ‘rød bil’ eller ‘liten bil’ også slettes.
‘Likevel, er dette aspektet av konsept-hierarki og sammensetthet ikke vurdert i eksisterende evalueringprotokoller, da de fokuserer bare på nøyaktigheten av det enkelte slettede konseptet. [Forfatterne av EraseBench] vurderer hvordan CETs påvirker visuelt like og omformulerte konsepter (såsom ‘katt’ og ‘kitten’)[;] likevel, dekslerer de ikke helt hierarkiet og sammensettheten av konsepter.’
For å gi benchmarkdata for fremtidige prosjekter, skapte forfatterne Side Effect Evaluation (SEE)-datasettet – en stor samling av tekstprompter designet for å teste hvor godt konsept-slettingmetoder fungerer.
Promptene følger en enkel mal, hvor et objekt beskrives med attributter av størrelse, farge og materiale – for eksempel, et bilde av en liten rød trebil.
Objekter ble trukket fra MS-COCO-datasettet, og organisert i en hierarki av over-kategorier som kjøretøy, og under-kategorier som bil eller bus, med deres attributt-kombinasjoner som danner blad-nodene (det mest spesifikke nivået i hierarkiet). Denne strukturen gjør det mulig å teste sletting på ulike semantiske nivåer, fra brede kategorier til spesifikke varianter.
For å støtte automatisert evaluering, ble hver prompt parret med en ja/nei-spørsmål, såsom Er det en bil i bildet?, og også brukt som en klasse-merking for bilde-klassifiseringsmodeller:

Prompt-kombinasjoner i SEE-datasettet generert ved å variere størrelse, farge og materiale-attributter.
For å måle hvor godt hver konsept-slettingmetode fungerte, utviklet forfatterne to vurderingsmetoder: mål-akkurasjon, som sporer hvor ofte slettede konsepter fortsatt dukker opp i de genererte bildene; og bevare-akkurasjon, som sporer om modellen fortsatt genererer materiale som ikke skulle slettes.
Balansen mellom de to poengene er ment å avsløre om metoden vellykket sletter det forbudte konseptet uten å skade modellens bredere utgang.
Forfatterne evaluerte konsept-sletting over tre feilmodi: først, en måling av om fjerning av et konsept som kjøretøy forstyrer nærliggende eller ubeslektede konsepter, basert på semantisk og attributt-lignende likhet; andre, en test for om sletting kan omgås ved å bruke under-konsepter som rød bil etter å ha slettet kjøretøy.
Til slutt ble det gjennomført en kontroll for attributt-lækasje, hvor egenskaper knyttet til slettede konsepter dukker opp i andre deler av bildet (for eksempel, sletting av sofa kunne få en annen gjenstand, som en potteplante, til å arve dens farge eller materiale). Den endelige datasettet inneholder 5056 sammensatte prompter
Tester
De tidligere rammeverkene som ble testet, var de som ble nevnt tidligere – UCE, RECE, MACE og SPM. Forskerne adopterte standardinnstillinger fra de opprinnelige prosjektene, og finjusterte alle modellene på en NVIDIA RTX 6000 GPU med 48GB VRAM.
Stable Diffusion 1.4, en av de mest varige modellene i litteraturen, ble brukt til alle testene – kanskje ikke minst fordi de tidligste SD-modellene hadde liten eller ingen konseptuell begrensning, og som sådan tilbyr en blank skisse i denne forskningskonteksten.
Hver av de 5056 promptene fra SEE-datasettet ble kjørt gjennom både de uendrede og redigerte versjonene av modellen, og genererte fire bilder per prompt ved hjelp av faste tilfeldige frø, og muliggjorde testing av om slettingseffekter forble konsekvente over flere utgangspunkter. Hver redigert modell produserte totalt 20 224 bilder.
Tilstedeværelsen av bevarte konsepter ble evaluert i henhold til tidligere metoder for tekst-til-bilde-slettingprosedyrer, ved hjelp av VQA-modellene BLIP, QWEN 2.5 VL og Florence-2base.
Påvirkning på nærliggende konsepter
Den første testen målte om sletting av et konsept uforvollent forstyrte nærliggende konsepter. For eksempel, etter å ha fjernet bil, skulle modellen stoppe å generere rød bil eller stor bil, men fortsatt kunne generere relaterte konsepter som bus eller lastebil, og ubeslektede konsepter som gafl.
Analysen brukte CLIP-innlemmelseslikhet og attributt-basert redigeringsavstand for å anslå hvor nært hvert konsept var til det slettede målet, og muliggjorde studien til å kvantifisere hvor langt forstyrrelsen spredte seg:

Kombinerte resultater for mål-akkurasjon (venstre) og bevare-akkurasjon (høyre) plottet mot semantisk likhet (øverst) og sammensetningsavstand (nederst). En ideell konsept-slettingmetode ville vise lav mål-akkurasjon og høy bevare-akkurasjon over alle avstander; men resultater viser at nåværende teknikker ikke fungerer rent, med nærmere konsepter som enten ikke er tilstrekkelig slettede eller ubeslektede forstyrret.
Av disse resultater, kommenterer forfatterne:
‘Alle CETs fortsetter å generere sammensatte eller semantisk fjerne varianter av målet, til tross for sletting, noe som ideal sett ikke burde skje. Det er åpenbart at UCE konsekvent oppnår høyere akkuratheit enn andre CET-metoder på [bevare-settet], noe som indikerer minimal uforvollent påvirkning på semantisk relaterte konsepter.
‘I motsetning til dette, oppnår SPM den laveste akkuratheiten, noe som tyder på at dens redigeringsstrategi er mer utsatt for konsept-lignende likhet.’
Blant de fire metodene som ble testet, var RECE mest effektiv i å blokkere målkonseptet. Likevel, som vist i venstre del av bildet ovenfor, feiler alle metoder i å undertrykke sammensatte varianter. Etter å ha fjernet fugl, genererer modellen fortsatt bilder av en rød fugl, noe som indikerer at konseptet delvis er intakt.
Fjerning av blå sofa forhindrer også modellen fra å generere en blå stol, noe som indikerer skade på nærliggende konsepter.
RECE håndterer sammensatte varianter bedre enn de andre, mens UCE gjør en bedre jobb med å bevare relaterte konsepter.
Sletting-invasjon
Sletting-invasjonstesten evaluerte om modeller kunne fortsatt generere under-konsepter etter at deres over-kategori var fjernet. For eksempel, hvis kjøretøy var fjernet, testet det om modellen kunne fortsatt produsere utgangspunkter som sykkel eller rød bil.
Promptene var rettet mot både direkte under-klasser og sammensatte varianter for å bestemme om konsept-slettingoperasjonen hadde virkelig fjernet hele hierarkiet eller kunne omgås gjennom mer spesifikke beskrivelser:

Omgåelse av slettede over-kategorier gjennom deres under-klasser og sammensatte varianter, med høyere akkuratheit som indikerer større invasjon.
Den uendrede modellen beholdt høy akkuratheit over alle over-kategorier, og bekreftet at den ikke hadde fjernet noen målkonsepter. Blant CETs, viste MACE den minste invasjonen, og oppnådde den laveste under-klassen-akkuratheit i over halvparten av de testede kategoriene. RECE fungerte også godt, spesielt i tilbehør, sport og elektronikk-gruppene.
I motsetning til dette, viste UCE og SPM høyere under-klassen-akkuratheit, noe som indikerer at fjernede konsepter kunne lett omgås gjennom relaterte eller innlejrede prompter.
Forfatterne bemerker:
‘[Alle] CETs undertrykker vellykket det over-kategori-konseptet (“mat”). Likevel, når promptet med attributt-baserte barn av mat-hierarkiet (for eksempel, en stor pizza”), genererer alle metoder matvarer.
‘Liknende i kategori kjøretøy, genererer alle modeller sykler, til tross for å ha fjernet “kjøretøy”.’
Attributt-lækasje
Den tredje testen, attributt-lækasje, sjekket om egenskaper knyttet til et fjernet konsept dukket opp i andre deler av bildet.
For eksempel, etter å ha fjernet sofa, skulle modellen hverken generere en sofa eller bruke dens typiske attributter (såsom farge eller materiale) på ubeslektede objekter i samme prompt. Dette ble målt ved å prompte modellen med parrede objekter og undersøke om de fjernede attributtene feilaktig dukket opp i bevarte konsepter:

Oppmerksomhets-kart for attributt-token etter konsept-sletting. Venstre: Når ‘benk’ fjernes, flyttes token ‘tre’ til fuglen i stedet, noe som resulterer i tre-fugler. Høyre: Fjerning av ‘sofa’ feiler i å undertrykke sofa-generering, mens token ‘stor’ feilaktig tildeles doughnut.
RECE var den mest effektive i å slette mål-attributter, men introduserte også mest attributt-lækasje i bevarte prompter, og overgikk selv den uendrede modellen.
Resultatene, foreslår forfatterne, indikerer en nødvendig avveiing, hvor sterkere sletting øker risikoen for feilaktig attributt-overføring.
Konklusjon
Det latente rommet i en modell fyller ikke opp på en ordnet måte under trening, med avledede konsepter deponert på hyller eller i arkivskap; snarere er de trenede innlemmelsene både innholdet og deres beholdere: ikke adskilt av noen skarpe grenser, men snarere blandet inn i hverandre på en måte som gjør fjerning problematisk – som å prøve å trekke ut et pund kjøtt uten noen blodtap.
I intelligente og evoluerende systemer, grunnleggende hendelser – såsom å brenne fingrene og deretter behandle ild med respekt – er bundet inn i de atferdene og assosiasjonene de senere danner, noe som gjør det vanskelig å produsere en modell som kan ha vært igjen med konsekvensene av et sentralt, potensielt ‘forbudt’ konsept, men mangler det konseptet i seg selv.
* Min konvertering av forfatternes inline-citater til hyperlenker.
Først publisert fredag, 22. august 2025












