Andersons vinkel

Sensurering av AI-modeller fungerer ikke bra, viser studie

Publisert August 22, 2025

Martin Andersen

ChatGPT-4o, Krita (Flux/Flux Koncept Dev), Firefly.

Forsøk på å sensurere AI-bildegeneratorer ved å slette forbudt innhold (som porno, vold eller opphavsrettsbeskyttede stiler) fra de trente modellene er ikke vellykket: en ny studie finner at nåværende konseptuelle slettingsmetoder tillater at «forbudte» attributter smitter over i urelaterte bilder, og heller ikke klarer å forhindre at nært beslektede versjoner av det angivelig «slettede» innholdet vises.

Hvis selskaper som produserer grunnleggende AI-modeller ikke kan forhindre at de misbrukes til å produsere støtende eller ulovlig materiale, risikerer de å bli straffeforfulgt og/eller stengt ned. Motsatt, leverandører som bare gjør sine egne modeller tilgjengelige gjennom et API, som med Adobes Firefly generativ motor, er i en posisjon til å ikke bekymre seg for hva modellene deres kan lage, siden både brukerens ledetekst og den resulterende utdataene blir inspisert og renset:

Adobes Firefly-system, som brukes i verktøy som Photoshop, avviser noen ganger en generativ forespørsel umiddelbart ved å blokkere ledeteksten før noe opprettes. Andre ganger genererer det bildet, men blokkerer deretter resultatet etter gjennomgang. Denne typen avvisning midt i prosessen kan også skje i ChatGPT, når modellen starter et svar, men avbryter det etter å ha gjenkjent et brudd på retningslinjene – og av og til kan man se det avbrutte bildet kort under denne prosessen.

Imidlertid kan API-lignende filtre av denne typen vanligvis nøytraliseres av brukere på lokalt installerte modeller, inkludert visjonsspråkmodeller (VLM-er) som brukeren kanskje ønsker å tilpasse gjennom lokal opplæring på tilpassede data.

I de fleste tilfeller er det trivielt å deaktivere slike operasjoner, og det innebærer å kommentere ut et funksjonskall i Python (selv om hacks av denne typen vanligvis må gjentas eller oppfinnes på nytt etter rammeverksoppdateringer).

Fra et forretningsperspektiv er det vanskelig å forstå hvordan dette kan være et problem, siden en API-tilnærming maksimerer bedriftens kontroll over brukerens arbeidsflyt. Fra brukerens perspektiv vil imidlertid både kostnaden for API-baserte modeller og risikoen for feilaktig eller overdreven sensur sannsynligvis tvinge dem til å laste ned og tilpasse lokale installasjoner av åpen kildekode-alternativer – i hvert fall der FOSS-lisensen er gunstig.

Den siste betydelige modellen som ble utgitt uten noe forsøk på å innføre selvsensur var Stable Diffusion V1.5, for nesten tre år sidenSenere avsløringen om at treningskorporaen inkluderte CSAM-data førte til økende krav om å forby tilgjengeligheten, og dens fjerning fra Hugging Face-arkivet i 2024.

Kutt det ut!

Kynikere hevder at et selskaps interesse i å sensurere lokalt installerbare generative AI-modeller utelukkende er basert på bekymringer om juridisk eksponering, dersom rammeverkene deres blir offentliggjort for å legge til rette for ulovlig eller støtende innhold.

Noen «lokalvennlige» modeller med åpen kildekode er faktisk ikke så vanskelige å desensurere (som for eksempel Stabil diffusjon 1.5 og DeepSeek R1).

I motsetning til dette, den nylige utgivelsen av Black Forest Labs Flux Kontext-modellserien var preget av selskapets bemerkelsesverdig engasjementå forenkle hele Kontext-serien. Dette ble oppnådd både gjennom nøye datakurering og målrettede finjustering etter trening, utformet for å fjerne enhver gjenværende tendens til NSFW eller forbudt innhold.

Det er her handlingspunktet har vært i forskningsmiljøet de siste 2–3 årene: med vekt på etterbehandling av modeller med underkuraterte data. Tilbud av denne typen inkluderer Enhetlig konseptredigering i diffusjonsmodeller (ECU); Pålitelig og effektiv konseptsletting av tekst-til-bilde-diffusjonsmodeller (BE); Massekonseptsletting i diffusjonsmodeller (LABYRINT); og konsept - Semipermeabel struktur injiseres som en membran (SPM):

Artikkelen fra 2024, «Unified Concept Editing in Diffusion Models», tilbød lukkede redigeringer av oppmerksomhetsvekter, noe som muliggjorde effektiv redigering av flere konsepter i tekst-til-bilde-modeller. Men tåler metoden gransking? Kilde: https://arxiv.org/pdf/2308.14761

Selv om dette er en effektiv tilnærming (hyperskala samlinger som LAION er altfor store til å kuratere manuelt), er det ikke nødvendigvis en effektiv prosedyre: ifølge en ny amerikansk studie fungerer ingen av de nevnte redigeringsprosedyrene – som representerer det nyeste innen modifisering av AI-modeller etter trening – faktisk særlig bra.

Forfatterne fant at disse konseptslettingsteknikkene (CET-ene) vanligvis lett kan omgås, og at selv der de er effektive, har de betydelige bivirkninger:

Effekter av konseptsletting på tekst-til-bilde-modeller. Hver kolonne viser en ledetekst og konseptet som er merket for sletting, sammen med genererte utdata før og etter redigering. Hierarkier indikerer foreldre-barn-relasjoner mellom konsepter. Eksemplene fremhever vanlige bivirkninger, inkludert manglende sletting av barnekonsepter, undertrykkelse av nærliggende konsepter, omgåelse gjennom omformulering og overføring av slettede attributter til urelaterte objekter. Kilde: https://arxiv.org/pdf/2508.15124

Forfatterne fant ut at de ledende nåværende konseptene for sletting ikke blokkerer komposisjonsoppgaver (for eksempel, rød bil or liten trestol); lar ofte underklasser slippe gjennom selv etter å ha slettet en overordnet kategori (som for eksempel bil or buss fortsetter å dukke opp etter fjerning kjøretøy); og introdusere nye problemer som attributtlekkasje (der for eksempel sletting blå sofa kan føre til at modellen genererer urelaterte objekter som blå stol).

I over 80 % av testtilfellene, sletting av et bredt konsept som kjøretøy hindret ikke modellen i å generere mer spesifikke kjøretøy tilfeller som biler eller busser.

Redigering, observerer avisen, forårsaker også oppmerksomhetskart (delene av modellen som bestemmer hvor det skal fokuseres i bildet) spres, noe som svekker utskriftskvaliteten.

Interessant nok finner artikkelen at det å slette relaterte trente konsepter ett etter ett fungerer bedre enn å prøve å fjerne dem alle samtidig – selv om det ikke fjerner alle manglene ved de studerte redigeringsmetodene:

Sammenligning av progressive og samtidig slettingsstrategier. Når alle varianter av «bamse» slettes samtidig, fortsetter modellen å generere bjørnelignende objekter. Å slette variantene trinn for trinn er mer effektivt, noe som fører til at modellen undertrykker målkonseptet mer pålitelig.

Selv om forskerne for øyeblikket ikke kan tilby noen løsning på problemene som skisseres i artikkelen, har de utviklet et nytt datasett og en referanseindeks som kan hjelpe senere forskningsprosjekter med å forstå om deres egne «sensurerte» modeller fungerer som forventet.

Papiret sier:

Tidligere evalueringer har utelukkende vært basert på et lite sett med mål- og bevaringsklasser. For eksempel, når man sletter «bil», testes bare modellens evne til å generere biler. Vi viser at denne tilnærmingen er fundamentalt utilstrekkelig, og at evalueringen av konseptsletting bør være mer omfattende for å omfatte alle relaterte underkonsepter, som «rød bil».

«Ved å introdusere et mangfoldig datasett med komposisjonsvariasjoner og systematisk analysere effekter som påvirkning på nærliggende konsepter, konseptunngåelse og attributtlekkasje, avdekker vi betydelige begrensninger og bivirkninger av eksisterende CET-er.»

«Vårt referansepunkt er modelluavhengig og lett integrerbart, og er ideelt egnet til å hjelpe utviklingen av nye konseptslettingsteknikker (CET-er).»

Selv om CET-er sletter målkonseptet «fugl», mislykkes de på den komposisjonelle varianten «rød fugl» (øverst). Etter å ha slettet «blå sofa», mister alle metoder også muligheten til å generere en blå stol (nederst). Vellykkede resultater er markert med et grønt hakesymbol, og mislykkede med et rødt «X»-symbol.

Studien gir et interessant innblikk i omfanget av sammenflettede konsepter som er trent inn i en modells latent rom, og i hvilken grad forviklinger vil ikke lett tillate noen form for definitiv og virkelig diskret konseptualisering.

Ocuco nytt papir har tittelen Bivirkninger av å slette konsepter fra diffusjonsmodeller, og kommer fra fire forskere fra University of Maryland.

Metode og data

Forfatterne mener at tidligere arbeider som hevder å slette konsepter fra diffusjonsmodeller ikke beviser påstanden tilstrekkelig, og sier*:

«Påstand om sletting trenger en mer robust og omfattende evaluering. Hvis for eksempel konseptet som skal slettes er «kjøretøy», bør underbegreper som «bil» og komposisjonsbegreper som «rød bil» eller «liten bil» også slettes.»

«Likevel er ikke dette aspektet av konsepthierarki og komposisjonalitet vurdert i eksisterende evalueringsprotokoller, ettersom de kun fokuserer på nøyaktigheten til det ene slettede konseptet.» [Forfatterne av Slettbenk] vurdere hvordan CET-er påvirker visuelt like og parafraserte konsepter (som «katt» og «kattunge»)[;] de undersøker imidlertid ikke konseptenes hierarki og komposisjonalitet uttømmende.

For å gi referansedata for fremtidige prosjekter, laget forfatterne Bivirkningsevaluering (SEE) datasett – en stor samling tekstmeldinger designet for å teste hvor godt metoder for konseptsletting fungerer.

Instruksjonene følger en enkel mal der et objekt beskrives med attributter for størrelse, farge og materiale – for eksempel, et bilde av en liten rød trebil.

Gjenstandene ble tegnet fra MS-COCO datasett, og organisert i et hierarki av superklasser som kjøretøy, og underklasser som bil or buss, med attributtkombinasjonene som danner bladnodene (det mest spesifikke nivået i hierarkiet). Denne strukturen gjør det mulig å teste sletting på forskjellige semantiske nivåer, fra brede kategorier til spesifikke varianter.

For å støtte automatisert evaluering ble hver ledetekst koblet til et ja-eller-nei-spørsmål, for eksempel Er det en bil på bildet? og brukes også som klassemerke for bildeklassifiseringsmodeller:

Ledetekstkombinasjoner i SEE-datasettet generert av varierende størrelses-, farge- og materialattributter.

For å måle hvor godt hver metode for sletting av konsepter fungerte, utviklet forfatterne to poengsettingsmetoder: Målnøyaktighet, som sporer hvor ofte slettede konsepter fortsatt vises i de genererte bildene; og Bevar nøyaktigheten, som sporer om modellen fortsetter å generere materiale som ikke skulle slettes.

Balansen mellom de to poengsummene er ment å avsløre om metoden fjerner det forbudte konseptet uten å skade modellens bredere utdata.

Forfatterne evaluerte konseptsletting på tvers av tre feilmoduser: for det første et mål på om fjerning av et konsept som bil forstyrrer nærliggende eller urelaterte konsepter, basert på semantisk og attributtlikhet; for det andre, en test for om sletting kan omgås ved å fremkalle underkonsepter som rød bil etter sletting kjøretøy.

Til slutt ble det utført en sjekk for attributtlekkasje, der egenskaper knyttet til slettede konsepter dukker opp i urelaterte objekter (for eksempel sletting sofa kan forårsake en annen gjenstand, for eksempel en potteplante, for å arve fargen eller materialet). Det endelige datasettet inneholder 5056 komposisjonsspørsmål

Tester

De tidligere rammeverkene som ble testet var de som er nevnt tidligere – UCE, RECE, MACE og SPM. Forskerne tok i bruk standardinnstillinger fra de opprinnelige prosjektene og finjusterte alle modellene på et NVIDIA RTX 6000 GPU med 48 GB VRAM.

Stabil Diffusjon 1.4, en av de mest vedvarende modellene i litteraturen, ble brukt til alle testene – kanskje ikke minst fordi de tidligste SD-modellene hadde liten eller ingen konseptuell begrensning, og som sådan tilbyr et blankt ark i denne spesielle forskningskonteksten.

Hver av de 5056 promptene fra SEE-datasettet ble kjørt gjennom både den uredigerte og den redigerte versjonen av modellen, og genererte fire bilder per prompt ved hjelp av faste tilfeldige frø, noe som gjorde det mulig å teste om slettingseffektene forble konsistente på tvers av flere utganger. Hver redigerte modell produserte totalt 20,224 XNUMX bilder.

Tilstedeværelsen av bevarte konsepter ble evaluert i henhold til tidligere metoder for tekst-til-bilde-slettingsprosedyrer, ved bruk av VQA-modellene. BLIP, QWEN 2.5 VLog Florence-2base.

Innvirkning på nabokonsepter

Den første testen målte om det å slette et konsept utilsiktet påvirket konsepter i nærheten. For eksempel, etter å ha fjernet bil, modellen skal slutte å generere rød bil or stor bil... men fortsatt være i stand til å generere relaterte konsepter som buss or lastebil, og urelaterte slike som gaffel.

Analysen som ble brukt CLIP integrering av likhet og attributtbasert redigeringsavstand for å estimere hvor nær hvert konsept var det slettede målet, slik at studien kunne kvantifisere hvor langt forstyrrelsen spredte seg:

Kombinerte resultater for målnøyaktighet (venstre) og bevaringsnøyaktighet (høyre) plottet mot semantisk likhet (øverst) og komposisjonsavstand (nederst). En ideell metode for konseptsletting ville vist lav målnøyaktighet og høy bevaringsnøyaktighet på tvers av alle avstander; men resultatene viser at nåværende teknikker ikke klarer å generalisere rent, med nærmere konsepter som enten er utilstrekkelig slettet eller uforholdsmessig forstyrret.

Av disse resultatene kommenterer forfatterne:

«Alle CET-ene fortsetter å generere komposisjonsmessige eller semantisk fjerne varianter av målet til tross for sletting, noe som ideelt sett ikke burde skje. Det er tydelig at UCE konsekvent oppnår høyere nøyaktighet enn andre CET-metoder på [bevaringssettet], noe som indikerer minimal utilsiktet innvirkning på semantisk relaterte konsepter.»

«I motsetning til dette oppnår SPM den laveste nøyaktigheten, noe som tyder på at redigeringsstrategien er mer utsatt for konseptlikhet.»

Blant de fire metodene som ble testet, var RECE mest effektiv til å blokkere målkonseptet. Men som vist på venstre side av bildet ovenfor, klarte ikke noen av metodene å undertrykke komposisjonsvarianter. Etter sletting fugl, produserte modellen fortsatt bilder av en rød fugl, noe som tyder på at konseptet forble delvis intakt.

Fjerne blå sofa forhindret også modellen i å generere en blå stol, noe som indikerer skade på nærliggende konsepter.

RECE håndterte komposisjonsvarianter bedre enn de andre, mens UCE gjorde en bedre jobb med å bevare relaterte konsepter.

Sletting av invasjon

Slettingsundvikelsestesten evaluerte om modeller fortsatt kunne generere underklassekonsepter etter at superklassen deres var blitt slettet. For eksempel, hvis kjøretøy ble fjernet, sjekket testen om modellen fortsatt kunne produsere utdata som sykkel or rød bil.

Ledetekstene målrettet seg mot både direkte underklasser og komposisjonsvarianter for å avgjøre om konseptslettingsoperasjonen virkelig hadde fjernet hele hierarkiet eller kunne omgås gjennom mer spesifikke beskrivelser:

På Stable Diffusion v1.4, omgåelse av slettede superklasser gjennom deres underklasser og komposisjonsvarianter, med høyere nøyaktighet som indikerer større unnvikelse.

Den uredigerte modellen beholdt høy nøyaktighet på tvers av alle superklasser, noe som bekreftet at den hadde ikke fjernet alle målkonsepter. Blant CET-ene viste MACE minst unnvikelse, og oppnådde lavest nøyaktighet i underklasser i mer enn halvparten av de testede kategoriene. RECE presterte også bra, spesielt i tilbehør, sportog elektronisk grupper.

Til sammenligning viste UCE og SPM høyere nøyaktighet i underklasser, noe som indikerer at slettede konsepter lettere ble omgått gjennom relaterte eller nestede ledetekster.

Forfatterne bemerker:

«[Alle] CET-er undertrykker vellykket mål-superklassekonseptet («mat»). Men når de blir bedt om med attributtbaserte barn av mathierarkiet (f.eks. en stor pizza), genererer alle metodene matvarer.

'På samme måte i kjøretøy kategori, alle modeller genererer sykler, til tross for at «kjøretøy» slettes.

Attributtlekkasje

Den tredje testen, attributtlekkasje, sjekket om trekk knyttet til et slettet konsept dukket opp i andre deler av bildet.

For eksempel, etter sletting sofa, skal modellen verken generere en sofa eller bruke dens typiske attributter (som farge eller materiale) på urelaterte objekter i samme ledetekst. Dette ble målt ved å lede modellen med parede objekter og undersøke om de slettede attributtene feilaktig dukket opp i bevarte konsepter:

Oppmerksomhetskart for attributttokener etter konseptsletting. Venstre: Når 'benk' slettes, flyttes tokenet 'tre' til fuglen i stedet, noe som resulterer i trefugler. Høyre: Sletting av 'sofa' klarer ikke å undertrykke sofagenerering, mens tokenet 'stor' feilaktig tilordnes smultringen.

RECE var mest effektiv til å slette målattributter, men introduserte også mest attributtlekkasje i bevarte ledetekster, og overgikk selv den uredigerte modellen. UCE lekket mindre enn andre metoder.

Resultatene, foreslår forfatterne, indikerer nødvendigheten av en iboende avveining, der sterkere sletting øker risikoen for feilrettet attributtoverføring.

Konklusjon

Det latente rommet i en modell fylles ikke opp på en ordnet måte under trening, med avledede konsepter plassert pent på hyller eller i arkivskap; snarere er de trente innebygde elementene både innholdet og beholderne: ikke atskilt av noen skarpe grenser, men heller blandet inn i hverandre på en måte som gjør fjerning problematisk – som å prøve å trekke ut et halvt kilo kjøtt uten blodtap.

I intelligente og utviklende systemer er grunnleggende hendelser – som å brenne fingrene og deretter behandle ild med respekt – knyttet til atferden og assosiasjonene de senere danner, noe som gjør det utfordrende å produsere en modell som kanskje har blitt stående igjen med konsekvensene av et sentralt, potensielt «forbudt» konsept, men som mangler dette konseptet i seg selv.

* Min konvertering av forfatternes innebygde sitering til hyperlenker.

Først publisert fredag 22. august 2025

Relaterte temaer:AI-bilde Generering av AI-bilder AI-bildegeneratorer AI Jailbreaks sensur hacking LVLM visjon språkmodell

Ikke gå glipp av

Hvorfor konkurranser blir den nye standarden for testing av AI