Sztuczna inteligencja

Tworzenie niestandardowej sieci generatywnej z przeciwnikiem za pomocą szkiców

Published August 6, 2021

Updated April 28, 2026

Martin Anderson

Naukowcy z Carnegie Mellon i MIT opracowali nową metodę, która pozwala użytkownikowi tworzyć niestandardowe systemy generatywne sieci przeciwnika (GAN) do tworzenia obrazów, po prostu rysując szkice.

System tego typu mógłby umożliwić użytkownikowi końcowemu tworzenie systemów generujących obrazy, które mogą generować bardzo szczegółowe obrazy, takie jak określone zwierzęta, rodzaje budynków – a nawet konkretnych ludzi. Obecnie większość systemów generowania GAN produkuje szerokie i dość losowe dane wyjściowe, z ograniczonymi możliwościami określania konkretnych cech, takich jak rasa zwierzęcia, rodzaj włosów u ludzi, style architektury lub rzeczywiste tożsamości twarzy.

Podejście, przedstawione w artykule Szkicuj własną sieć GAN, wykorzystuje nowy interfejs rysowania jako skuteczną funkcję “wyszukiwania” w celu znalezienia funkcji i klas w inaczej przepełnionych bazach danych obrazów, które mogą zawierać tysiące rodzajów obiektów, w tym wiele podtypów, które nie są istotne dla intencji użytkownika. Sieć GAN jest następnie szkolona na tym filtrowanym podziale obrazów.

Poprzez rysowanie konkretnego typu obiektu, z którym użytkownik chce kalibrować sieć GAN, możliwości generatywne ramy stają się wyspecjalizowane w tej klasie. Na przykład, jeśli użytkownik chce utworzyć ramę, która generuje konkretny typ kota (zamiast jakiegokolwiek kota, jak to można uzyskać za pomocą This Cat Does Not Exist), ich szkice wejściowe służą jako filtr do wykluczania nieistotnych klas kotów.

Źródło: https://peterwang512.github.io/GANSketching/

Badania są prowadzone przez Sheng Yu-Wanga z Carnegie Mellon University, wraz z kolegą Jun-Yan Zhu i Davidem Bau z Laboratorium Nauk Komputerowych i Sztucznej Inteligencji MIT.

Metoda ta nazywa się “szkicowanie sieci GAN” i wykorzystuje szkice wejściowe do bezpośredniej zmiany wag modelu szablonu sieci GAN, aby celować w określony domenę lub pod-domenę za pomocą przeciwnego błędu między domenami.

Zbadano różne metody regularyzacji, aby upewnić się, że dane wyjściowe modelu są zróżnicowane, przy jednoczesnym utrzymaniu wysokiej jakości obrazu. Naukowcy stworzyli przykładowe aplikacje, które mogą interpolować przestrzeń latentną i prowadzić procedury edycji obrazu.

To [$class] nie istnieje

Systemy generowania obrazów opartych na sieciach GAN stały się modą, jeśli nie memem, w ciągu ostatnich kilku lat, z rozprzestrzenieniem projektów, które mogą generować obrazy nieistniejących rzeczy, w tym ludzi, mieszkań, przekąsek, stóp, koni, polityków i owadów, wśród wielu innych.

Systemy syntezy obrazu opartych na sieciach GAN są tworzone przez składanie lub kurację obszernych zbiorów danych zawierających obrazy z docelowego domeny, takiej jak twarze lub konie; szkolenie modeli, które uogólniają szereg cech w obrębie obrazów w bazie danych; oraz wdrożenie modułów generatora, które mogą generować losowe przykłady na podstawie nauczonych cech.

Dane wyjściowe z szkiców w DeepFacePencil, które pozwalają użytkownikom tworzyć fotorealistyczne twarze z szkiców. Wiele podobnych projektów szkicowania do obrazu istnieje. Źródło: https://arxiv.org/pdf/2008.13343.pdf

Cechy wysokowymiarowe są wśród pierwszych, które są konkretyzowane podczas procesu szkolenia i są równoważne pierwszym szerokim pociągnięciom pędzla na płótnie. Te cechy wysokowymiarowe będą ostatecznie korelować z bardziej szczegółowymi cechami (tj. błyskiem oka i ostrymi wąsami kota, zamiast tylko ogólnego beżowego kłębka reprezentującego głowę).

Wiemy, co masz na myśli…

Poprzez mapowanie relacji między tymi wczesnymi podstawowymi kształtami a ostatecznymi szczegółowymi interpretacjami, które są uzyskiwane znacznie później w procesie szkolenia, możliwe jest wnioskowanie o relacjach między “niewyraźnymi” i “szczegółowymi” obrazami, umożliwiając użytkownikom tworzenie złożonych i fotorealistycznych obrazów z grubych szkiców.

Ostatnio NVIDIA wydała wersję biurkową swojego długoterminowego badania GauGAN nad generacją krajobrazu opartą na sieciach GAN, który łatwo demonstruje tę zasadę:

Przybliżone szkice są tłumaczone na bogate obrazy krajobrazu za pomocą NVIDIA GauGAN i teraz aplikacji NVIDIA Canvas. Źródło: https://rossdawson.com/futurist/implications-of-ai/future-of-ai-image-synthesis/

Podobnie, wiele systemów, takich jak DeepFacePencil, wykorzystało tę samą zasadę do tworzenia generatorów obrazów indukowanych szkicami dla różnych domen.

Architektura DeepFacePencil.

Uproszczenie szkicowania do obrazu

Nowy artykuł podejścia GAN Sketching ma na celu usunięcie ogromnego ciężaru gromadzenia i kuracji danych, które są zwykle zaangażowane w rozwój ram sieci GAN, poprzez wykorzystanie danych wejściowych użytkownika do określenia, jaki podzbiór obrazów powinien stanowić dane szkoleniowe.

System został zaprojektowany tak, aby wymagał tylko niewielkiej liczby szkiców wejściowych w celu kalibrowania ramy. System skutecznie odwraca funkcjonalność PhotoSketch, wspólnego projektu badawczego z 2019 roku przez naukowców z Carnegie Mellon, Adobe, Uber ATG i Argo AI, który jest uwzględniony w nowej pracy. PhotoSketch został zaprojektowany do tworzenia artystycznych szkiców z obrazów i już zawiera skuteczne mapowanie relacji między tworzeniem obrazu z “niewyraźnego” do “szczegółowego”.

Dla części generowania procesu nowa metoda modyfikuje tylko wagi StyleGAN2. Ponieważ dane obrazowe używane są tylko podzbiorem wszystkich dostępnych danych, modyfikacja samej sieci mapującej daje pożądane wyniki.

Metoda została oceniona na kilku popularnych pod-domenach, w tym koni, kościołów i kotów.

Zestaw danych LSUN z Uniwersytetu Princeton z 2016 roku został użyty jako podstawowy materiał do wykorzystania docelowych pod-domen. Aby utworzyć system mapowania szkiców, który jest odporny na ekstrawagancje danych wejściowych użytkownika, system jest szkolony na obrazach z zestawu danych QuickDraw opracowanego przez Microsoft w latach 2021-2016.

Chociaż mapowanie szkiców między PhotoSketch i QuickDraw są dość różne, naukowcy stwierdzili, że ich ramy radzą sobie dobrze z przekraczaniem ich dość łatwo w przypadku prostych pozycji, chociaż bardziej skomplikowane pozycje (takie jak koty leżące) okazują się bardziej wyzwaniem, a bardzo abstrakcyjne dane wejściowe użytkownika (tj. zbyt grube rysunki) również utrudniają jakość wyników.

Przestrzeń latentna i edycja obrazu

Naukowcy opracowali dwie aplikacje oparte na podstawowej pracy: edycję przestrzeni latentnej i edycję obrazu. Edycja przestrzeni latentnej oferuje kontrolę użytkownika, która jest ułatwiona w czasie szkolenia i umożliwia szeroki zakres zmian, przy jednoczesnym pozostawaniu wiernym docelowemu domenowi i przyjemnie spójnym w różnych wariantach.

Gładka interpolacja przestrzeni latentnej z niestandardowymi modelami GAN Sketching.

Składnik edycji przestrzeni latentnej został zasilony przez projekt GANSpace z 2020 roku, wspólną inicjatywę Uniwersytetu Aalto, Adobe i NVIDIA.

Jeden obraz może być również wprowadzony do niestandardowego modelu, ułatwiając edycję obrazu. W tej aplikacji jeden obraz jest projektowany na niestandardową sieć GAN, nie tylko umożliwiając bezpośrednią edycję, ale także zachowując edycję przestrzeni latentnej, jeśli została również użyta.

Tutaj rzeczywisty obraz został użyty jako dane wejściowe do sieci GAN (model kota), który edytuje dane wejściowe, aby dopasować się do złożonych szkiców. To pozwala na edycję obrazu za pomocą szkicowania.

Chociaż system jest konfigurowalny, nie jest zaprojektowany do pracy w czasie rzeczywistym, przynajmniej w zakresie szkolenia i kalibrowania. Obecnie GAN Sketching wymaga 30 000 iteracji szkolenia. System wymaga również dostępu do oryginalnych danych szkoleniowych dla oryginalnego modelu.

W przypadkach, w których zestaw danych jest otwarty, a licencja pozwala na lokalną kopię, można to zrobić, umieszczając dane źródłowe w lokalnym pakiecie, chociaż zajmie to znaczną ilość miejsca na dysku; lub poprzez dostęp lub przetwarzanie danych zdalnie, za pomocą podejścia opartego na chmurze, co wprowadza opóźnienia sieciowe i (w przypadku przetwarzania, które faktycznie zachodzi w chmurze) możliwe koszty obliczeniowe.