Sztuczna inteligencja

Rzeczywiste tożsamości mogą być odzyskane z syntetycznych zbiorów danych

Published November 6, 2024

Updated April 27, 2026

Martin Anderson

Sample comparison images from the paper 'Unveiling Synthetic Faces: How Synthetic Datasets Can Expose Real Identities', including original images (top), and inferred images (bottom).

Jeśli rok 2022 był momentem, w którym potencjał rozrywkowy sztucznej inteligencji po raz pierwszy przyciągnął szeroką uwagę publiczną, to rok 2024 jest rokiem, w którym pytania o legalność danych, na których opiera się jej działanie, zajęły centralne miejsce dla firm, które chcą wykorzystać jej moc.

Doktryna fair use w USA, wraz z niejawną licencją akademicką, która przez długi czas pozwalała sektorom badawczym i komercyjnym na eksplorację sztucznej inteligencji, stała się coraz mniej uzasadniona, gdy pojawiły się coraz więcej dowodów na plagiat. W związku z tym USA, chociaż na razie, nie zezwalają na udzielanie praw autorskich dla treści generowanych przez sztuczną inteligencję.

Te sprawy są dalekie od rozwiązania i nie będą rozstrzygnięte w najbliższym czasie; w 2023 roku, częściowo ze względu na rosnące zainteresowanie mediów i społeczeństwa stanem prawnym wyjść sztucznej inteligencji, Urząd Praw Autorskich USA rozpoczął wieloletnie śledztwo w tej kwestii, publikując pierwszy segment (dotyczący cyfrowych kopii) w lipcu 2024 roku.

Tymczasem interesy biznesowe pozostają sfrustrowane możliwością, że drogie modele, które chcą wykorzystać, mogą narazić je na konsekwencje prawne, gdy ostateczne ustawodawstwo i definicje zostaną wprowadzone.

Drogie krótkoterminowe rozwiązanie polegało na uzasadnieniu modeli generatywnych poprzez szkolenie ich na danych, które firmy mają prawo wykorzystywać. Architektura Firefly Adobe, która generuje tekst i obrazy (a teraz również tekst i filmy), jest napędzana głównie przez zakup zbioru danych obrazów stockowych Fotolia w 2014 roku, uzupełniony przez wykorzystanie danych z domeny publicznej, których prawa autorskie wygasły*. Jednocześnie dostawcy zdjęć stockowych, tacy jak Getty i Shutterstock, skorzystali na nowej wartości ich danych objętych licencją, z rosnącą liczbą umów na udzielenie licencji na treści lub rozwój własnych systemów GenAI zgodnych z prawem.

Syntetyczne rozwiązania

Ponieważ usunięcie danych objętych prawem autorskim z przestrzeni latentnej modelu sztucznej inteligencji jest obarczone problemami, błędy w tej dziedzinie mogą być bardzo kosztowne dla firm eksperymentujących z rozwiązaniami konsumenckimi i biznesowymi, które wykorzystują uczenie maszynowe.

Alternatywą, a także znacznie tańszym rozwiązaniem dla systemów komputerowego widzenia (i również modeli językowych, czyli LLM), jest użycie syntetycznych danych, gdzie zbiór danych składa się z losowo wygenerowanych przykładów docelowego obszaru (takiego jak twarze, koty, kościoły lub bardziej ogólny zbiór danych).

Strony takie jak thispersondoesnotexist.com dawno temu spopularyzowały ideę, że autentycznie wyglądające zdjęcia “nieruchomości” mogą być syntetyzowane (w tym przypadku za pomocą sieci generatywno-adwersowych, czyli GAN) bez żadnego związku z ludźmi, którzy naprawdę istnieją w świecie rzeczywistym.

Dlatego, jeśli trenujesz system rozpoznawania twarzy lub system generatywny na takich abstrakcyjnych i nierzeczywistych przykładach, możesz teoretycznie uzyskać fotorealistyczny standard produktywności dla modelu sztucznej inteligencji bez potrzeby rozważania, czy dane są legalnie wykorzystywane.

Równowaga

Problem polega na tym, że systemy, które generują syntetyczne dane, są same trenowane na danych rzeczywistych. Jeśli ślady tych danych przenikają do syntetycznych danych, to potencjalnie dostarczają dowodów, że zabezpieczone lub w inny sposób nieautoryzowane materiały zostały wykorzystane do celów finansowych.

Aby temu zapobiec, a także aby wytworzyć prawdziwie “losowe” obrazy, takie modele muszą zapewnić, że są dobrze uogólnione. Uogólnienie jest miarą możliwości trenowanego modelu sztucznej inteligencji do intrinsicznego zrozumienia wysokopoziomowych pojęć (takich jak “twarz”, “mężczyzna” lub “kobieta”) bez uciekania się do replikowania rzeczywistych danych treningowych.

Niestety, może być trudno dla wytrenowanych systemów wytworzyć (lub rozpoznać) szczegółowe detale, chyba że trenują one bardzo intensywnie na zbiorze danych. To naraża system na ryzyko memoracji: tendencji do reprodukowania, w pewnym stopniu, przykładów rzeczywistych danych treningowych.

Można to złagodzić, ustawiając bardziej relaksowany współczynnik uczenia lub kończąc trening na etapie, na którym podstawowe pojęcia są jeszcze giętkie i niezwiązane z konkretnymi danymi (takimi jak konkretny obraz osoby w przypadku zbioru twarzy).

Jednak oba te środki mogą prowadzić do modeli z mniej szczegółowymi detalami, ponieważ system nie miał szansy na rozwinięcie się poza “podstawami” docelowego obszaru i szczegółami.

Dlatego w literaturze naukowej zwykle stosuje się bardzo wysokie współczynniki uczenia i kompleksowe harmonogramy treningu. Chociaż badacze zwykle próbują znaleźć kompromis między szeroką stosowalnością a szczegółowością w końcowym modelu, nawet nieznacznie “zapamiętane” systemy mogą często przedstawiać się jako dobrze uogólnione – nawet w początkowych testach.

Ujawnienie twarzy

To prowadzi nas do interesującej nowej pracy z Szwajcarii, która twierdzi, że jest to pierwsze udowodnienie, że oryginalne, rzeczywiste obrazy, które napędzają syntetyczne dane, mogą być odzyskane z wygenerowanych obrazów, które teoretycznie powinny być całkowicie losowe:

Przykładowe obrazy twarzy wyciekłe z danych treningowych. W górnym rzędzie widzimy oryginalne (rzeczywiste) obrazy; w dolnym rzędzie widzimy obrazy wygenerowane losowo, które znacznie pokrywają się z rzeczywistymi obrazami. Źródło: https://arxiv.org/pdf/2410.24015

Wyniki, twierdzą autorzy, wskazują, że “syntetyczni” generatorzy rzeczywiście zapamiętali wiele punktów danych treningowych, w poszukiwaniu większej szczegółowości. Wskazują one również, że systemy, które polegają na syntetycznych danych, aby uchronić producentów sztucznej inteligencji przed konsekwencjami prawnymi, mogą być bardzo niewiarygodne w tym zakresie.

Badacze przeprowadzili obszerną pracę na sześciu syntetycznych zbiorach danych, demonstrując, że we wszystkich przypadkach oryginalne (potencjalnie objęte prawem autorskim lub chronione) dane mogą być odzyskane. Komentują:

‘Nasze eksperymenty dowodzą, że najnowsze syntetyczne zbiory danych rozpoznawania twarzy zawierają próbki, które są bardzo podobne do próbek w zbiorze treningowym ich modeli generatorów. W niektórych przypadkach syntetyczne próbki zawierają niewielkie zmiany oryginalnego obrazu, jednak możemy również zaobserwować, że wygenerowana próbka zawiera więcej zmian (np. inna pozycja, warunki oświetlenia itp.), podczas gdy tożsamość jest zachowana.

‘To sugeruje, że modele generatorów uczą się i zapamiętują informacje związane z tożsamością z danych treningowych i mogą generować podobne tożsamości. To powoduje poważne obawy dotyczące zastosowania syntetycznych danych w zadaniach wrażliwych na prywatność, takich jak biometria i rozpoznawanie twarzy.’

Praca jest zatytułowana Ujawnienie syntetycznych twarzy: Jak syntetyczne zbiory danych mogą ujawnić rzeczywiste tożsamości, i pochodzi od dwóch badaczy z Instytutu Badań Idiap w Martigny, École Polytechnique Fédérale de Lausanne (EPFL) i Université de Lausanne (UNIL) w Lozannie.

Metoda, dane i wyniki

Zapamiętane twarze w badaniu zostały ujawnione za pomocą ataku inferencyjnego. Chociaż pojęcie to brzmi skomplikowanie, jest dość samooczkiem: inferencja, w tym przypadku, odnosi się do procesu zadawania pytań systemowi, aż ujawni dane, które albo odpowiadają danych, których szukamy, albo znacznie im przypominają.

Kolejne przykłady danych inferencyjnych, z badania. W tym przypadku źródłowe obrazy syntetyczne pochodzą z zestawu DCFace.

Badacze zbadali sześć syntetycznych zbiorów danych, dla których znany był (rzeczywisty) zbiór danych źródłowych. Ponieważ zarówno rzeczywiste, jak i fałszywe zbiory danych w question zawierają bardzo dużą liczbę obrazów, jest to efektywnie jak szukanie igły w stogu siana.

Dlatego autorzy użyli gotowego modelu rozpoznawania twarzy^† z tłem ResNet100 wytrenowanym na AdaFace funkcji straty (na WebFace12M zestawie danych).

Sześć syntetycznych zbiorów danych użytych w badaniu to: DCFace (model dyfuzyjny); IDiff-Face (model dyfuzyjny oparty na FFHQ); IDiff-Face (dwuetapowy – wariant używający inną metodę próbkowania); GANDiffFace (oparty na sieciach generatywno-adwersowych i modelach dyfuzyjnych, używający StyleGAN3 do generowania początkowych tożsamości, a następnie DreamBooth do tworzenia zróżnicowanych przykładów); IDNet (metoda GAN oparta na StyleGAN-ADA); oraz SFace (ramy ochrony tożsamości).

Ponieważ GANDiffFace używa zarówno modeli GAN, jak i dyfuzyjnych, został on porównany do zbioru treningowego StyleGAN – najbliższego “rzeczywistej twarzy”, jakie ta sieć może zapewnić.

Autorzy wykluczyli syntetyczne zbiory danych, które używają CGI zamiast metod AI, a podczas oceny wyników pominęli dopasowania dla dzieci, ze względu na anomalie dystrybucyjne w tym zakresie, a także obrazy niemieszczące się w kategorii twarzy (które mogą często występować w zbiorach twarzy, gdzie systemy web-scrapingowe produkują fałszywe pozytywy dla obiektów lub artefaktów, które mają cechy twarzy).

Podobieństwo kosinusowe zostało obliczone dla wszystkich par odzyskanych, a następnie połączone w histogramy, jak poniżej:

Histogram reprezentacji wyników podobieństwa kosinusowego obliczonych dla różnych zbiorów danych, wraz z ich wartościami podobieństwa dla najlepszych par (pionowe linie przerywane).

Liczba podobieństw jest reprezentowana przez szczyty na wykresie powyżej. Praca zawiera również przykładowe porównania z sześciu zbiorów danych i ich odpowiadających oszacowanych obrazów w oryginalnych (rzeczywistych) zbiorach danych, z których niektóre są przedstawione poniżej:

Przykłady z wielu przypadków przedstawionych w oryginalnej pracy, do której czytelnik jest odsyłany w celu uzyskania bardziej kompletnego wyboru.

Praca komentuje:

‘[Wy]generowane syntetyczne zbiory danych zawierają bardzo podobne obrazy do tych w zbiorze treningowym ich modeli generatorów, co budzi obawy dotyczące generowania takich tożsamości.’

Autorzy zauważają, że dla tego podejścia skalowanie do większych zbiorów danych będzie prawdopodobnie niewydajne, ponieważ niezbędne obliczenia byłyby ekstremalnie uciążliwe. Uwzględniają dalej, że porównanie wizualne było konieczne do wnioskowania o dopasowaniach, a że automatyczne rozpoznawanie twarzy same przez się nie byłoby wystarczające do większego zadania.

Jeśli chodzi o implikacje badań oraz drogi do przodu, praca stwierdza:

‘[Chcielibyśmy] podkreślić, że głównym motywem generowania syntetycznych zbiorów danych jest rozwiązanie problemów związanych z prywatnością przy użyciu dużych, pobranych z sieci zbiorów twarzy.

‘Dlatego też wyciek jakichkolwiek wrażliwych informacji (takich jak tożsamości rzeczywistych obrazów w danych treningowych) w syntetycznym zbiorze danych budzi poważne obawy dotyczące zastosowania syntetycznych danych w zadaniach wrażliwych na prywatność, takich jak biometria. Nasze badanie rzuca światło na pułapki prywatności przy generowaniu syntetycznych zbiorów danych rozpoznawania twarzy i otwiera drogę do przyszłych badań nad generowaniem odpowiedzialnych syntetycznych zbiorów danych twarzy.’

Chociaż autorzy obiecują udostępnienie kodu do tej pracy na stronie projektu, nie ma obecnie linku do repozytorium.

Podsumowanie

Ostatnio media podkreślały malejące zwroty z inwestycji uzyskiwane przez trenowanie modeli sztucznej inteligencji na danych generowanych przez sztuczną inteligencję.

Nowe szwajcarskie badanie jednak przywołuje na pierwszy plan rozważanie, które może być bardziej palące dla rosnącej liczby firm, które chcą wykorzystać i zyskać na sztucznej inteligencji – trwałość wzorców danych chronionych prawem lub nieautoryzowanych, nawet w zbiorach danych, które są zaprojektowane do walki z tą praktyką. Gdybyśmy mieli to zdefiniować, w tym przypadku można by to nazwać “pranianiem twarzy”.

* Jednak decyzja Adobe, aby zezwolić na przesyłanie przez użytkowników obrazów generowanych przez sztuczną inteligencję do Adobe Stock, skutecznie podważyła “czystość” tych danych pod względem prawnym. Bloomberg utwierdził w kwietniu 2024 roku, że obrazy dostarczane przez użytkowników z systemu generatywnego MidJourney zostały włączone do możliwości Firefly.

^† Ten model nie jest określony w pracy.

Pierwotnie opublikowane w środę, 6 listopada 2024