Andersonův úhel

Extrahování trénovacích dat z jemně vyčleněných stabilních difuzních modelů

Publikováno 7. října 2024

Aktualizováno 20. května 2026

Martin Anderson

Examples of training images (below), extracted from a trained model (above). Source: https://arxiv.org/pdf/2410.03039

Nový výzkum z USA představuje metodu pro extrahování významných částí trénovacích dat z jemně vyčleněných modelů.

To by mohlo potenciálně poskytnout právní důkazy v případech, kdy byl styl umělce zkopírován, nebo kdy byly použity chráněné Obrázky k trénování generativních modelů veřejných postav, chráněných postav nebo jiného obsahu.

Z nové práce: původní trénovací Obrázky jsou vidět v horním řádku a extrahované Obrázky jsou znázorněny v dolním řádku. Zdroj: https://arxiv.org/pdf/2410.03039

Takové modely jsou široce a zdarma dostupné na internetu, především prostřednictvím enormních uživatelsky přispívaných archivů civit.ai a v menší míře na platformě Hugging Face.

Nový model vyvinutý výzkumníky se nazývá FineXtract a autoři tvrdí, že dosahuje špičkových výsledků v této úloze.

Práce pozoruje:

‘[Naše rámec] účinně řeší výzvu extrahování jemně vyčleněných dat z veřejně dostupných DM jemně vyčleněných kontrolních bodů. Díky přechodu z předtrénovaných DM distribucí na jemně vyčleněná data distribuce FineXtract přesně řídí generovací proces směrem k vysokým pravděpodobnostním oblastem jemně vyčleněné datové distribuce, umožňující úspěšnou extrakci dat.’

Daleko vpravo, původní Obrázek použitý v trénování. Druhý zprava, Obrázek extrahovaný pomocí FineXtract. Ostatní sloupce představují alternativní, předchozí metody. Prosím, odkážete na zdroj práce pro lepší rozlišení.

Proč to záleží

Původní trénované modely pro text-to-image generativní systémy, jako Stable Diffusion a Flux, lze stáhnout a jemně vyčlenit koncovými uživateli pomocí technik, jako je implementace DreamBooth z roku 2022.

Jednodušší je, že uživatel může vytvořit mnohem menší LoRA model, který je téměř tak účinný jako plně jemně vyčleněný model.

Příklad trénovaného LORA, nabízeného zdarma ke stažení na velmi populárním webu Civitai. Takový model lze vytvořit během několika minut až několika hodin, pomocí místně nainstalovaného open source softwaru – a online, prostřednictvím některých permissivnějších API řízených trénovacích systémů. Zdroj: civitai.com

Od roku 2022 je to triviální vytvořit identifikační jemně vyčleněné kontrolní body a LoRA, poskytující pouze malý (průměrně 5-50) počet popsaných Obrázků a trénování kontrolního bodu (nebo LoRA) místně, na open source frameworku, jako je Kohya ss, nebo pomocí online služeb.

Tato jednoduchá metoda deepfakingu získala notorietu v médiích v posledních letech. Mnozí umělci také měli své dílo vtáhnuté do generativních modelů, které replikují jejich styl. Kontroverze kolem těchto otázek získala dynamiku v posledních 18 měsících.

Snadnost, s níž uživatelé mohou vytvářet AI systémy, které replikují práci skutečných umělců, způsobila rozruch a různé kampaně v posledních dvou letech. Zdroj: https://www.technologyreview.com/2022/09/16/1059598/this-artist-is-dominating-ai-generated-art-and-hes-not-happy-about-it/

Je obtížné prokázat, které Obrázky byly použity v jemně vyčleněném kontrolním bodu nebo v LoRA, protože proces generalizace ‘abstrahuje’ identitu z malých trénovacích datových sad a není pravděpodobné, že by kdy reprodukoval příklady z trénovacích dat (kromě případu přeučení, kde lze uvažovat, že trénování selhalo).

To je místo, kde FineXtract vstupuje do obrazu. Porovnáním stavu ‘šablony’ difuzního modelu, který uživatel stáhl, s modelem, který následně vytvořil prostřednictvím jemného vyčlenění nebo LoRA, výzkumníci byli schopni vytvořit vysoce přesné rekonstrukce trénovacích dat.

Ačkoli FineXtract dokázal rekonstruovat pouze 20 % dat z jemně vyčleněného modelu*, je to více, než by obvykle bylo potřeba k poskytnutí důkazů, že uživatel využil chráněný nebo jinak chráněný materiál při produkci generativního modelu. Ve většině poskytnutých příkladů je extrahovaný Obrázek extrémně blízký známému zdrojovému materiálu.

Pokud jsou potřebné popisky k extrahování zdrojových Obrázků, není to významná bariéra pro dvě důvody: a) nahrávač obecně chce usnadnit použití modelu mezi komunitou a obvykle poskytne vhodné příkladové popisky; a b) není to příliš obtížné, výzkumníci zjistili, že lze extrahovat klíčová slova slepě z jemně vyčleněného modelu:

Základní klíčová slova lze obvykle extrahovat slepě z jemně vyčleněného modelu pomocí L2-PGD útoku po 1000 iteracích, z náhodného popisku.

Uživatelé často se vyhýbají poskytování svých trénovacích datových sad spolu s ‘černou skříňkou’-stylem trénovaným modelem. Pro výzkum autoři spolupracovali s nadšenci strojového učení, kteří skutečně poskytli datové sady.

Nová práce se nazývá Odhalení neviditelného: Vedení personalizovaných difuzních modelů k odhalení trénovacích dat a pochází od tří výzkumníků z Carnegie Mellon a Purdue univerzit.

Metoda

‘Útočník’ (v tomto případě systém FineXtract) porovnává odhadované datové distribuce napříč původním a jemně vyčleněným modelem, v procesu, který autoři nazývají ‘modelové vedení’.

Prostřednictvím ‘modelového vedení’, vyvinutého výzkumníky nové práce, lze mapovat jemně vyčleněné charakteristiky, umožňující extrakci trénovacích dat.

Autoři vysvětlují:

‘Během procesu jemného vyčlenění [difuzní modely] postupně mění svou naučenou distribuci z předtrénovaných DM [distribuce] směrem k jemně vyčleněné datové [distribuci].

‘Takže, aproximujeme parametrizovaně naučenou distribuci jemně vyčleněných [difuzních modelů].’

Tímto způsobem součet rozdílů mezi jádrem a jemně vyčleněným modelem poskytuje vedení procesu.

Autoři dále komentují:

‘S modelovým vedením můžeme účinně simulovat „pseudo-“[denoiser], který lze použít k řízení vzorkovacího procesu směrem k vysokým pravděpodobnostním oblastem jemně vyčleněné datové distribuce.’

Vedení závisí částečně na časově proměnném procesu podobném outing Erasing Concepts from Diffusion Models z roku 2023.

Předpověď denoisingu také poskytuje pravděpodobnou Classifier-Free Guidance (CFG) měřítko. To je důležité, protože CFG významně ovlivňuje kvalitu obrazu a věrnost uživatelskému textovému popisku.

Pro zlepšení přesnosti extrahovaných Obrázků FineXtract využívá uznávanou spolupráci z roku 2023 Extracting Training Data from Diffusion Models. Metoda spočívá v výpočtu podobnosti každého páru generovaných Obrázků na základě prahové hodnoty definované Self-Supervised Descriptor (SSCD) skóre.

Tímto způsobem algoritmus shlukování pomáhá FineXtract identifikovat podmnožinu extrahovaných Obrázků, které souhlasí s trénovacími daty.

V tomto případě výzkumníci spolupracovali s uživateli, kteří poskytli datové sady. Jednoduše lze říci, že bez těchto dat by bylo nemožné prokázat, že jakýkoli konkrétní generovaný Obrázek byl skutečně použit v trénování původního. Nicméně, je nyní relativně triviální shodit nahrávané Obrázky buď proti živým Obrázkům na webu nebo proti Obrázkům, které jsou také v známých a publikovaných datech, na základě pouze obsahu Obrázku.

Data a testy

Pro testování FineXtract autoři provedli experimenty na few-shot jemně vyčleněných modelech napříč dvěma nejčastějšími scénáři jemného vyčlenění, v rámci projektu: umělecké styly a objektově řízená generace (druhá zahrnuje efektivní tváře založené na subjektech).

Autoři náhodně vybrali 20 umělců (každý s 10 Obrázky) z WikiArt datové sady a 30 subjektů (každý s 5-6 Obrázky) z DreamBooth datové sady, aby řešily tyto scénáře.

DreamBooth a LoRA byly cílené metody jemného vyčlenění a Stable Diffusion V1/.4 byl použit pro testy.

Pokud algoritmus shlukování nevrátil žádné výsledky po třiceti sekundách, prahová hodnota byla upravena, dokud nebyly vráceny Obrázky.

Dvě metriky použité pro generované Obrázky byly Průměrná podobnost (AS) pod SSCD a Průměrná míra úspěšné extrakce (A-ESR) – míra, která je obecně v souladu s předchozími pracemi, kde skóre 0,7 představuje minimální hodnotu pro úplnou úspěšnou extrakci trénovacích dat.

Předchozí přístupy používaly buď přímou text-to-image generaci nebo CFG, autoři proto srovnávali FineXtract s těmito dvěma metodami.

Výsledky srovnání FineXtract s dvěma nejoblíbenějšími předchozími metodami.

Autoři komentují:

‘Výsledky prokazují značnou výhodu FineXtract oproti předchozím metodám, se zlepšením asi 0,02 až 0,05 v AS a zdvojnásobením A-ESR ve většině případů.’

Pro testování schopnosti metody generalizovat na nová data autoři provedli další test, menggunakan Stable Diffusion (V1.4), Stable Diffusion XL a AltDiffusion.

FineXtract aplikovaný napříč řadou difuzních modelů. Pro WikiArt komponentu se test zaměřil na čtyři třídy v WikiArt.

Jako je vidět z výsledků výše, FineXtract dosáhl zlepšení oproti předchozím metodám také v tomto širším testu.

Kvalitativní srovnání extrahovaných výsledků z FineXtract a předchozích přístupů. Prosím, odkážete na zdroj práce pro lepší rozlišení.

Autoři pozorují, že když je použit větší počet Obrázků v datové sadě pro jemně vyčleněný model, algoritmus shlukování potřebuje být spuštěn po delší dobu, aby zůstal účinný.

Autoři také pozorují, že byla vyvinuta řada metod v posledních letech, které jsou určeny k zabránění takové extrakci, pod záminkou ochrany soukromí. Proto testovali FineXtract proti datům aumentovaným Cutout a RandAugment metodami.

FineXtractova výkonnost proti Obrázkům chráněným Cutout a RandAugment.

Zatímco autoři uznávají, že dvě systémy ochrany fungují poměrně dobře při zakrytí zdrojů trénovacích dat, poznamenávají, že to jde na úkor poklesu kvality výstupu takového rozsahu, že ochrana ztrácí smysl:

Obrázky vygenerované pomocí Stable Diffusion V1.4, jemně vyčleněné s ochrannými opatřeními – která dramaticky snižují kvalitu obrazu. Prosím, odkážete na zdroj práce pro lepší rozlišení.

Práce uzavírá:

‘Naše experimenty prokazují odolnost metody napříč různými datovými sadami a reálnými kontrolními body, zdůrazňující potenciální rizika úniku dat a poskytující silné důkazy pro porušování autorských práv.’

Závěr

Rok 2024 se ukázal jako rok, kdy se zájem korporací o ‘čisté’ trénovací data výrazně zvýšil, tváří v tvář pokračujícímu mediálnímu pokrytí nahrazování lidí umělou inteligencí a perspektivě právní ochrany generativních modelů, které samy využívají.

Je snadné tvrdit, že vaše trénovací data jsou čisté, ale je také snadnější pro podobné technologie prokázat, že tomu tak není – jak zjistily společnosti Runway ML, Stability.ai a MidJourney (mezi jinými) v recentních dnech.

Projekty, jako je FineXtract, jsou zřejmě předzvěstí absolutního konce ‘divokého západu’ éry umělé inteligence, kde by i zdánlivě okultní povaha trénovaného latentního prostoru mohla být zodpovědná.

* Pro účely jednoduchosti budeme předpokládat ‘jemné vyčlenění a LoRA’, kde je to nutné.

První publikace pondělí, 7. října 2024

Martin Anderson

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai

Unite.AI

Extrahování trénovacích dat z jemně vyčleněných stabilních difuzních modelů

Proč to záleží

Metoda

Data a testy

Závěr

You may like