Connect with us

Andersonův úhel

Cenzura modelů AI nefunguje dobře, odhalila studie

mm
ChatGPT-4o, Krita (Flux/Flux Koncept Dev), Firefly.

Pokyny k cenzuře generátorů obrazů AI tím, že vymažou zakázaný obsah (jako pornografii, násilí nebo chráněné autorské styly) z trénovaných modelů, nejsou dostatečné: nová studie zjistila, že současné metody vymazání konceptů umožňují “zakázaným” atributům proniknout do nesouvisejících obrazů a také nezastavují blízké verze údajně “vymazaného” obsahu od zobrazování.

 

Pokud společnosti, které vyrábějí základní modely AI, nemohou zabránit jejich zneužívání k vytváření závadného nebo nelegálního materiálu, riskují, že budou stíhány a/nebo uzavřeny. Naopak, dodavatelé, kteří své modely poskytují pouze prostřednictvím API, jako je například Adobe’s Firefly generativní engine, jsou v pozici, aby se nemuseli bát o to, co jejich modely mohou vytvořit, protože jak uživatelův prompt, tak i výsledný výstup jsou prohlédnuty a sanitizovány:

Adobe's Firefly systém, používaný v nástrojích jako Photoshop, někdy odmítá generativní požadavek okamžitě blokováním promptu před vytvořením čehokoli. Jindy generuje obraz, ale poté blokuje výsledek po prohlédnutí. Tento typ mid-procesního odmítnutí může také nastat v ChatGPT, když model začne odpověď, ale poté ji ukončí po rozpoznání porušení zásad.

Adobe’s Firefly systém, používaný v nástrojích jako Photoshop, někdy odmítá generativní požadavek okamžitě blokováním promptu před vytvořením čehokoli. Jindy generuje obraz, ale poté blokuje výsledek po prohlédnutí. Tento typ mid-procesního odmítnutí může také nastat v ChatGPT, když model začne odpověď, ale poté ji ukončí po rozpoznání porušení zásad – a občas lze vidět zrušený obraz krátce během tohoto procesu.

Nicméně, filtry API tohoto typu lze obvykle neutralizovat uživateli na místně nainstalovaných modelech, včetně modelů vision-language (VLM), které uživatel může chtít přizpůsobit prostřednictvím místního trénování na vlastních datech.

Ve většině případů je zakázání těchto operací triviální, což zahrnuje komentování funkce volání v Pythonu (ačkoli hacky tohoto typu musí být obvykle opakovaně nebo znovu vynalezeny po aktualizacích frameworku).

Z obchodního hlediska je obtížné pochopit, jak by to mohl být problém, protože přístup API maximalizuje firemní kontrolu nad workflow uživatele. Z hlediska uživatele je však pravděpodobné, že jak cena modelů API, tak i riziko chybné nebo nadměrné cenzury donutí uživatele stáhnout a přizpůsobit místně instalované otevřené alternativy – alespoň tam, kde je licencování FOSS příznivé.

Poslední významný model, který byl vydán bez jakéhokoli pokusu o vštípení sebe-cenzury, byl Stable Diffusion V1.5, téměř před třemi lety. Později, zjištění, že jeho trénovací korpusy zahrnovaly data CSAM, vedlo ke rostoucím požadavkům na zákaz jeho dostupnosti a jeho odstranění z repozitáře Hugging Face v roce 2024.

Vyřízněte to!

Skeptici tvrdí, že zájem společnosti o cenzuru místně instalovatelných generativních modelů AI je založen pouze na obavách o právní expozici, pokud jejich rámce budou zveřejněny pro usnadňování nelegálního nebo závadného obsahu.

Skutečně, některé “místně přátelské” otevřené modely nejsou tak obtížné de-cenzurovat (jako Stable Diffusion 1.5 a DeepSeek R1).

Naopak, nedávný release Black Forest Lab’s Flux Kontext model série byl charakterizován společností významným závazkem k cenzuře celé řady Kontext, a to jak pečlivou kurací dat, tak i cíleným fine-tuningem po trénování, navrženým k odstranění jakéhokoli zbytkového sklonu k NSFW nebo zakázanému obsahu.

To je místo, kde se locus akce nachází ve výzkumné scéně za posledních 2-3 roky: s důrazem na následné opravy modelů s podkurátorskými daty. Nabídky tohoto druhu zahrnují Jednotné úpravy konceptu v difuzních modelech (UCE); Spolehlivé a efektivní vymazání konceptu text-to-obrázek difuzních modelů (RECE); Hromadné vymazání konceptu v difuzních modelech (MACE); a koncept-Semi-Permeabilní struktura je vložena jako membrána (SPM):

Paper z roku 2024 'Unified Concept Editing in Diffusion Models' nabídl uzavřené formy úprav attention weights, umožňující efektivní úpravu více konceptů v text-to-obrázek modelech. Ale stojí tato metoda zkoumání?

Paper z roku 2024 ‘Unified Concept Editing in Diffusion Models’ nabídl uzavřené formy úprav attention weights, umožňující efektivní úpravu více konceptů v text-to-obrázek modelech. Ale stojí tato metoda zkoumání? Source: https://arxiv.org/pdf/2308.14761

Ačkoli je to efektivní přístup (hyperscale kolekce, jako je LAION, jsou příliš velké na to, aby je bylo možné ručně kurátorské), není to nutně efektivní: podle nové americké studie žádný z výše uvedených postupů úpravy – které reprezentují stav současnosti v post-tréninkové modifikaci modelu AI – ve skutečnosti nefunguje velmi dobře.

Autoři zjistili, že tyto techniky vymazání konceptu (CETs) lze obvykle snadno obejít, a že i tam, kde jsou efektivní, mají značné vedlejší účinky:

Účinky vymazání konceptu na text-to-obrázek modely. Každá sloupec ukazuje prompt a koncept označený pro vymazání, spolu s generovanými výstupy před a po úpravě. Hierarchie ukazuje rodič-dítě vztahy mezi koncepty. Příklady zvýrazňují běžné vedlejší účinky, včetně selhání vymazání dítěte konceptů, potlačení sousedních konceptů, vyhnutí se přes přejmenování a přenos vymazaných atributů na nesouvisející objekty.

Účinky vymazání konceptu na text-to-obrázek modely. Každá sloupec ukazuje prompt a koncept označený pro vymazání, spolu s generovanými výstupy před a po úpravě. Hierarchie ukazuje rodič-dítě vztahy mezi koncepty. Příklady zvýrazňují běžné vedlejší účinky, včetně selhání vymazání dítěte konceptů, potlačení sousedních konceptů, vyhnutí se přes přejmenování a přenos vymazaných atributů na nesouvisející objekty. Source: https://arxiv.org/pdf/2508.15124

Autoři zjistili, že vedoucí současné techniky vymazání konceptu selhávají při blokování kompozičních promptů (například červený automobil nebo malý dřevěný křeslo); často dovolují podtřídy projít, i když byl rodičovský kategorie vymazán (jako automobil nebo autobus pokračuje v zobrazování po odstranění vozidla); a zavádějí nové problémy, jako je únik atributů (kde, například, odstranění modrého gauče může způsobit, že model generuje nesouvisející objekty, jako modré křeslo).

V více než 80 % testovacích případů vymazání širokého konceptu, jako je vozidlo, nezastavilo model od generování konkrétnějších vozidlo instancí, jako jsou automobily nebo autobusy.

Úprava, pozoruje se v papíru, také způsobuje attention maps (části modelu, které rozhodují, kde se zaměřit v obraze) rozptýlit, což oslabuje kvalitu výstupu.

Zajímavě, paper zjistil, že vymazání souvisejících trénovaných konceptů jeden po druhém funguje lépe než pokusit se je všechny odstranit najednou – ačkoli to neodstraní všechny nedostatky studovaných metod úpravy:

Srovnání progresivních a najednou vymazání strategií. Když jsou všechny varianty 'medvídku' vymazány současně, model pokračuje v generování medvídků. Vymazání variant krok za krokem je účinnější, což vede model k potlačení cílového konceptu spolehlivěji.

Srovnání progresivních a najednou vymazání strategií. Když jsou všechny varianty ‘medvídku’ vymazány současně, model pokračuje v generování medvídků. Vymazání variant krok za krokem je účinnější, což vede model k potlačení cílového konceptu spolehlivěji.

Ačkoli výzkumníci目前 nemohou nabídnout žádné řešení problémů, které paper nastiňuje, vyvinuli novou sadu dat a benchmark, který může pomoci pozdějším výzkumným projektům pochopit, zda jejich vlastní “cenzurované” modely fungují podle očekávání.

Paper uvádí:

‘Předchozí hodnocení se spoléhala pouze na malou sadu cílových a uchovávaných tříd; například, když se vymaže “automobil”, testuje se pouze schopnost modelu generovat automobily. Ukazujeme, že tento přístup je zásadně neadekvátní a vymazání konceptu by mělo být komplexnější, aby zahrnovalo všechny související sub-koncepty, jako je “červený automobil”.

‘Introdukujeme sadu dat s kompozičními variacemi a systematicky analyzujeme účinky, jako je dopad na sousední koncepty, koncepty vyhnutí a únik atributů, a odhalujeme významné omezení a vedlejší účinky stávajících CETs.

‘Naše benchmark je model-agnostický a snadno integrovatelný a je ideálně vhodný pro podporu vývoje nových technik vymazání konceptu (CETs).’

Ačkoli CETs vymaže cílový koncept 'pták', selhávají na kompoziční variantě 'červený pták' (nahoře). Po vymazání 'modrého gauče' všechny metody také ztrácejí schopnost generovat modré křeslo (dole). Úspěšné výsledky jsou označeny zeleným zaškrtnutím, a neúspěšné s červeným křížkem.

Ačkoli CETs vymaže cílový koncept ‘pták’, selhávají na kompoziční variantě ‘červený pták’ (nahoře). Po vymazání ‘modrého gauče’ všechny metody také ztrácejí schopnost generovat modré křeslo (dole). Úspěšné výsledky jsou označeny zeleným zaškrtnutím, a neúspěšné s červeným ‘X’ křížkem.

Studie nabízí zajímavý pohled na rozsah propojení konceptů trénovaných v modelu latentní prostor, a rozsah, v jakém propojení nebude snadno umožňovat žádné definitivní a skutečně diskrétní vymazání konceptu.

Nová práce se jmenuje Vedlejší účinky vymazání konceptů z difuzních modelů, a pochází od čtyř výzkumníků z Univerzity v Marylandu.

Metoda a data

Autoři uvádějí, že předchozí práce, které tvrdí, že vymaže koncepty z difuzních modelů, nezdůvodňují toto tvrzení dostatečně, uvádějí*:

‘Tvrdí se, že vymazání potřebuje více robustní a komplexní hodnocení. Například, pokud je koncept, který má být vymazán, “vozidlo”, měly by být vymazány také sub-koncepty, jako je “automobil” a kompoziční koncepty, jako je “červený automobil” nebo “malý automobil”.

‘Nicméně, tento aspekt konceptuální hierarchie a kompozice není zvažován v existujících hodnocení protokolů, protože se zaměřují pouze na přesnost jediného vymazaného konceptu. [Autoři EraseBench] hodnotí, jak CETs ovlivňují vizuálně podobné a parafrázované koncepty (jako “kočka” a “koťátko”)]; nicméně, nezkoumají komplexně hierarchii a kompozici konceptů.’

Za účelem poskytnutí benchmark dat pro budoucí projekty, autoři vytvořili Side Effect Evaluation (SEE) sadu dat – velkou sbírku textových promptů navržených pro testování, jak dobře metody vymazání konceptu fungují.

Promptů následují jednoduchý šablonu, ve kterém je objekt popsán atributy velikosti, barvy a materiálu – například, obraz malé červené dřevěné auta.

Objekty byly vybrány z MS-COCO sady dat, a organizovány do hierarchie nadřazených tříd, jako je vozidlo, a podtříd, jako je automobil nebo autobus, s jejich atributovými kombinacemi tvořícími listové uzly (nejkonkrétnější úroveň hierarchie). Tato struktura umožňuje testovat vymazání na různých sémantických úrovních, od širokých kategorií po konkrétní varianty.

Za účelem podpory automatizovaného hodnocení, každý prompt byl spárován s ano-ne otázkou, jako je Je v obraze automobil?, a také použit jako třída pro image klasifikační modely:

Prompt kombinace v SEE sadě dat generovaná variací velikosti, barvy a materiálových atributů.

Prompt kombinace v SEE sadě dat generovaná variací velikosti, barvy a materiálových atributů.

Za účelem měření, jak dobře každá metoda vymazání konceptu fungovala, autoři vytvořili dvě skórovací metody: Cílová přesnost, která sleduje, jak často vymazané koncepty stále objevují v generovaných obrazech; a Přídržná přesnost, která sleduje, zda model pokračuje v generování materiálu, který neměl být vymazán.

Rovnováha mezi oběma skóre by měla odhalit, zda metoda úspěšně odstranila zakázaný koncept bez poškození širšího výstupu modelu.

Autoři vyhodnotili vymazání konceptu napříč třemi režimy selhání: poprvé, měření, zda odstranění konceptu, jako je automobil, narušuje sousední nebo nesouvisející koncepty, založené na sémantické a atributové podobnosti; za druhé, test, zda vymazání lze obejít.promptováním sub-konceptů, jako je červený automobil, po odstranění vozidla.

Nakonec, provedl se test na únik atributů, zda atributy spojené s vymazaným konceptem se objevují v jiných částech obrazu.

Například, po vymazání gauče, model by neměl generovat gauč, ani aplikovat jeho typické atributy (jako barvu nebo materiál) na nesouvisející objekty ve stejném promptu. To bylo měřeno promptováním modelu s párovými objekty a zkoumáním, zda vymazané atributy chybně objevují v uchovávaných konceptech:

Attention mapy pro atributové tokeny po vymazání konceptu. Vlevo: Když je 'lavička' vymazána, token 'dřevěný' se přesune k ptáku, výsledkem jsou dřevěné ptáci. Vpravo: Vymazání 'gauče' nezastaví generování gauče, zatímco token 'velký' je chybně přiřazen k dortu.

Attention mapy pro atributové tokeny po vymazání konceptu. Vlevo: Když je ‘lavička’ vymazána, token ‘dřevěný’ se přesune k ptáku, výsledkem jsou dřevěné ptáci. Vpravo: Vymazání ‘gauče’ nezastaví generování gauče, zatímco token ‘velký’ je chybně přiřazen k dortu.

RECE byl nejúčinnější při vymazání cílových atributů, ale také zavedl nejvíce úniku atributů do uchovávaných promptů, překonávající dokonce i neupravený model. UCE unikl méně než ostatní metody.

Výsledky, autoři naznačují, indikují nutnost vnitřní kompromisu, se silnějším vymazáním zvyšujícím riziko nesprávného přenosu atributů.

Závěr

Latentní prostor modelu se nezaplní uspořádaným způsobem během trénování, s odvozenými koncepty uloženými pěkně na policích nebo do šanonů; spíše trénované embeddings jsou jak obsah, tak i kontejnery: nejsou odděleny žádnými ostrými hranicemi, ale spíše se mísí do sebe způsobem, který činí odstranění problematickým – jako pokus o extrakci libry masa bez ztráty krve.

Ve inteligentních a evolučních systémech, základní události – jako spálení prstů a následné zacházení s ohněm s respektem – jsou vázané s chováním a asociacemi, které později tvoří, což činí obtížným vytvořit model, který by mohl být ponechán s následky centrálního, potenciálně “zakázaného” konceptu, ale postrádá sám koncept.

 

* Moje konverze autorů inline citace na hypertextové odkazy.

Poprvé publikováno v pátek, 22. srpna 2025

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai