Kąt Andersona

Wyodrębnianie danych szkoleniowych z modeli Stable Diffusion po dopasowaniu

Opublikowano 7 października 2024

Zaktualizowano 20 maja 2026

Przez

Martin Anderson

Examples of training images (below), extracted from a trained model (above). Source: https://arxiv.org/pdf/2410.03039

Nowe badania amerykańskie przedstawiają metodę wyodrębniania znacznych części danych szkoleniowych z dopasowanych modeli.

Mogłoby to potencjalnie dostarczyć dowodów prawnych w przypadkach, w których styl artysty został skopiowany lub w których chronione prawnie obrazy zostały wykorzystane do szkolenia modeli generatywnych postaci publicznych, chronionych prawem autorskim postaci lub innych treści.

Z nowego artykułu: oryginalne obrazy szkoleniowe widoczne są w górnym rzędzie, a wyodrębnione obrazy są przedstawione w dolnym rzędzie. Źródło: https://arxiv.org/pdf/2410.03039

Takie modele są powszechnie i bezpłatnie dostępne w internecie, głównie za pośrednictwem ogromnych archiwów użytkowników civit.ai, a w mniejszym stopniu na platformie repozytorium Hugging Face.

Nowy model opracowany przez badaczy nazywa się FineXtract, a autorzy twierdzą, że osiąga najlepsze wyniki w tej dziedzinie.

W artykule stwierdza się:

‘[Nasza ramowa struktura] skutecznie rozwiązuje problem wyodrębniania danych dopasowania z publicznie dostępnych punktów kontrolnych DM. Wykorzystując przejście od rozkładu wstępnie nauczonych DM do rozkładu danych dopasowania, FineXtract dokładnie kieruje procesem generowania w kierunku obszarów o wysokim prawdopodobieństwie w rozkładzie danych dopasowania, umożliwiając pomyślne wyodrębnianie danych.’

Z prawej strony, oryginalny obraz użyty w szkoleniu. Drugi z prawej, obraz wyodrębniony za pomocą FineXtract. Pozostałe kolumny reprezentują alternatywne, wcześniejsze metody. Proszę odnieść się do źródłowego artykułu w celu uzyskania lepszej rozdzielczości.

Dlaczego to ma znaczenie

Oryginalne wytrenowane modele dla systemów generatywnych tekst-obraz, takich jak Stable Diffusion i Flux, mogą być pobrane i dopasowane przez użytkowników końcowych, przy użyciu technik takich jak implementacja DreamBooth z 2022 roku.

Łatwiej jeszcze, użytkownik może utworzyć znacznie mniejszy model LoRA, który jest prawie tak skuteczny jak w pełni dopasowany model.

Przykład wytrenowanego modelu LoRA, oferowanego do pobrania za darmo na bardzo popularnej stronie Civitai. Taki model może być utworzony w ciągu kilku minut lub kilku godzin, przez entuzjastów korzystających z oprogramowania open source zainstalowanego lokalnie – oraz online, za pośrednictwem niektórych bardziej permissive systemów szkoleniowych opartych na API. Źródło: civitai.com

Od 2022 roku jest to trywialne utworzenie punktów kontrolnych i modeli LoRA specyficznych dla tożsamości, poprzez dostarczenie tylko niewielkiej (średnio 5-50) liczby obrazów z podpisami, oraz szkolenie punktu kontrolnego (lub modelu LoRA) lokalnie, na ramie open source, takiej jak Kohya ss, lub przy użyciu usług online.

Metoda ta deepfaking uzyskała złowężyć w mediach w ciągu ostatnich kilku lat. Wielu artystów również miało swoje prace wchłonięte do modeli generatywnych, które replikują ich styl. Kontrowersje wokół tych kwestii zyskały na sile w ciągu ostatnich 18 miesięcy.

Łatwość, z jaką użytkownicy mogą tworzyć systemy AI, które replikują prace prawdziwych artystów, wywołała furore i różnorodne kampanie w ciągu ostatnich dwóch lat. Źródło: https://www.technologyreview.com/2022/09/16/1059598/this-artist-is-dominating-ai-generated-art-and-hes-not-happy-about-it/

Trudno jest udowodnić, które obrazy zostały użyte w punkcie kontrolnym dopasowanym lub w modelu LoRA, ponieważ proces uogólniania ‘abstrahuje’ tożsamość z małych zbiorów danych szkoleniowych i nie jest prawdopodobne, aby kiedykolwiek odtworzyć przykłady z danych szkoleniowych (z wyjątkiem przypadku przeuczenia, gdzie można uznać, że szkolenie nie powiodło się).

To jest miejsce, w którym FineXtract wchodzi w grę. Porównując stan ‘szablonu’ modelu dyfuzji, który użytkownik pobrał, z modelem, który później utworzył poprzez dopasowanie lub poprzez LoRA, badacze byli w stanie utworzyć bardzo dokładne rekonstrukcje danych szkoleniowych.

Chociaż FineXtract był w stanie odtworzyć tylko 20% danych z dopasowania*, jest to więcej, niż zwykle potrzeba, aby udowodnić, że użytkownik wykorzystał chronione prawnie lub inaczej zabronione materiały w produkcji modelu generatywnego. W większości przypadków wyodrębniony obraz jest niezwykle bliski znanemu materiałowi źródłowemu.

Ponieważ podpisów potrzeba do wyodrębnienia obrazów źródłowych, nie jest to znacząca bariera z dwóch powodów: a) osoba, która udostępnia model, zwykle chce ułatwić jego użycie wśród społeczności i zwykle dostarcza odpowiednie przykłady podpisów; oraz b) nie jest to trudne, jak stwierdzili badacze, aby wyodrębnić kluczowe terminy ślepo z dopasowanego modelu:

Kluczowe słowa można zwykle wyodrębnić ślepo z dopasowanego modelu przy użyciu ataku L2-PGD przez 1000 iteracji, z losowego podpisu.

Użytkownicy często unikają udostępniania swoich zbiorów danych szkoleniowych wraz z modelem w stylu ‘czarnej skrzynki’. W ramach badań autorzy współpracowali z entuzjastami sztucznej inteligencji, którzy takie dane udostępnili.

Nowy artykuł nosi tytuł Ujawnienie niewidocznego: kierowanie modelem dyfuzji w celu ujawnienia danych szkoleniowych i pochodzi od trzech badaczy z Carnegie Mellon i Purdue universities.

Metoda

‘Atakujący’ (w tym przypadku system FineXtract) porównuje oszacowane rozkłady danych w procesie, który autorzy nazywają ‘kierowaniem modelem’.

Przez ‘kierowanie modelem’, opracowane przez badaczy nowego artykułu, cechy dopasowania mogą być mapowane, umożliwiając wyodrębnianie danych szkoleniowych.

Autorzy wyjaśniają:

‘Podczas procesu dopasowania, [modele dyfuzji] stopniowo zmieniają swój nauczony rozkład od rozkładu wstępnie nauczonych DM w kierunku rozkładu danych dopasowania.

‘W ten sposób, parametrycznie aproksymujemy [nauczony rozkład] dopasowanego [modelu dyfuzji].’

W ten sposób, suma różnicy między modelem podstawowym a modelem dopasowanym zapewnia proces kierowania.

Autorzy dodatkowo komentują:

‘Z kierowaniem modelem, możemy skutecznie symulować „pseudo-”[denoiser], który może być użyty do kierowania procesem generowania w kierunku obszaru o wysokim prawdopodobieństwie w rozkładzie danych dopasowania.’

Kierowanie opiera się częściowo na procesie hałasowania, podobnym do outing Erasing Concepts from Diffusion Models z 2023 roku.

Predykcja denoisingu również zapewnia prawdopodobną klasę kierowania bez klasy (CFG). Jest to ważne, ponieważ CFG znacznie wpływa na jakość obrazu i wierność podpisowi użytkownika.

Aby poprawić dokładność wyodrębnionych obrazów, FineXtract korzysta z uznanego współpracy Wyodrębnianie danych szkoleniowych z modeli dyfuzji z 2023 roku. Metoda polega na obliczaniu podobieństwa każdej pary wygenerowanych obrazów, na podstawie progu zdefiniowanego przez Self-Supervised Descriptor (SSCD) score.

W ten sposób, algorytm klasterowy pomaga FineXtract w identyfikacji podzbioru wyodrębnionych obrazów, które są zgodne z danymi szkoleniowymi.

W tym przypadku badacze współpracowali z użytkownikami, którzy udostępnili dane. Można by powiedzieć, że bez takich danych, byłoby niemożliwe udowodnienie, że konkretny wygenerowany obraz został rzeczywiście użyty w szkoleniu oryginalnym. Niemniej jednak, jest teraz dość trywialne dopasowanie przesłanych obrazów do obrazów na żywo w internecie lub do obrazów, które są również w znanych i opublikowanych zbiorach danych, wyłącznie na podstawie zawartości obrazu.

Dane i testy

Aby przetestować FineXtract, autorzy przeprowadzili eksperymenty na modele dopasowane z niewielką liczbą przykładów w dwóch najbardziej powszechnych scenariuszach dopasowania, w ramach projektu: style artystyczne i generacja obiektowa (ta ostatnia skutecznie obejmująca generację twarzy).

Losowo wybrali 20 artystów (każdy z 10 obrazami) z zbioru WikiArt i 30 podmiotów (każdy z 5-6 obrazami) z zbioru DreamBooth, aby rozwiązać te odpowiednie scenariusze.

DreamBooth i LoRA były celowymi metodami dopasowania, a Stable Diffusion V1/.4 został użyty do testów.

Jeśli algorytm klasterowy nie zwrócił wyników po trzydziestu sekundach, próg został zmieniony, aż obrazy zostały zwrócone.

Dwa metryki użyte dla wygenerowanych obrazów to Średnie Podobieństwo (AS) pod SSCD i Średni Współczynnik Powodzenia Wyodrębniania (A-ESR) – miara ogólnie zgodna z poprzednimi pracami, gdzie wynik 0,7 reprezentuje minimum, aby oznaczyć całkowicie pomyślne wyodrębnianie danych szkoleniowych.

Ponieważ poprzednie podejścia wykorzystywały albo bezpośrednią generację obrazu z podpisu, albo CFG, badacze porównali FineXtract z tymi dwoma metodami.

Wyniki porównań FineXtract z dwoma najpopularniejszymi poprzednimi metodami.

Autorzy komentują:

‘[Wyniki] pokazują znaczną przewagę FineXtract nad poprzednimi metodami, z poprawą o około 0,02 do 0,05 w AS i podwojeniem A-ESR w większości przypadków.’

Aby przetestować możliwość uogólnienia metody na nowe dane, badacze przeprowadzili dalszy test, korzystając z Stable Diffusion (V1.4), Stable Diffusion XL i AltDiffusion.

FineXtract zastosowany w różnych modelach dyfuzji. Dla składnika WikiArt, test koncentrował się na czterech klasach w WikiArt.

Jak widać w powyższych wynikach, FineXtract był w stanie osiągnąć poprawę w stosunku do poprzednich metod również w tym szerszym teście.

Jakościowe porównanie wyników wyodrębnionych z FineXtract i poprzednimi podejściami. Proszę odnieść się do źródłowego artykułu w celu uzyskania lepszej rozdzielczości.

Autorzy zauważają, że gdy zwiększa się liczba obrazów w zbiorze danych dla dopasowanego modelu, algorytm klasterowy musi być uruchomiony przez dłuższy czas, aby pozostać skuteczny.

Stwierdzają również, że wiele metod zostało opracowanych w ostatnich latach w celu utrudnienia tego rodzaju wyodrębniania, pod auspicjami ochrony prywatności. Dlatego też przetestowali FineXtract przeciwko danym uzupełnionym o metody Cutout i RandAugment.

Jakościowe porównanie wyników wyodrębnionych z FineXtract i poprzednimi podejściami.

Chociaż autorzy przyznają, że dwa systemy ochrony działają dość dobrze w zakamuflowaniu źródeł danych szkoleniowych, zauważają, że kosztem jest spadek jakości wyjściowej na tyle poważny, że czyni ochronę bezcelową:

Obrazy wygenerowane przy użyciu Stable Diffusion V1.4, dopasowanego z środkami obronnymi – które drastycznie obniżają jakość obrazu. Proszę odnieść się do źródłowego artykułu w celu uzyskania lepszej rozdzielczości.

Artykuł kończy się słowami:

‘Nasze eksperymenty pokazują solidność metody w różnych zbiorach danych i punktach kontrolnych z rzeczywistych aplikacji, podkreślając potencjalne ryzyko wycieku danych i dostarczając mocne dowody naruszeń praw autorskich.’

Wnioski

Rok 2024 okazał się rokiem, w którym zainteresowanie korporacji ‘czystymi’ danymi szkoleniowymi znacznie wzrosło, w obliczu ciągłych doniesień medialnych o zdolności AI do zastępowania ludzi oraz perspektywie prawnego zabezpieczenia modeli generatywnych, których same są tak bardzo zainteresowane.

Łatwo jest twierdzić, że Twoje dane szkoleniowe są czyste, ale coraz łatwiej jest również dla podobnych technologii udowodnić, że tak nie jest – jak odkryli to Runway ML, Stability.ai i MidJourney (wśród innych) w ostatnich dniach.

Projekty takie jak FineXtract są najprawdopodobniej zwiastunem absolutnego końca ery ‘dzikiego zachodu’ w AI, gdzie nawet pozornie tajemnicza natura wytrenowanego ukrytego przestrzeni mogłaby być pociągnięta do odpowiedzialności.

* Dla ułatwienia, założymy ‘dopasuj i LoRA’, gdzie konieczne.

Pierwotnie opublikowane w poniedziałek, 7 października 2024