Kontakt z nami

Artificial Intelligence

Trzy wyzwania stojące przed stabilną dyfuzją

mm

zwolnić stabilnej dyfuzji stable.ai utajona dyfuzja model syntezy obrazu sprzed kilku tygodni może być jednym z najważniejszych odkryć technologicznych od DeCSS w 1999 r; to z pewnością największe wydarzenie w dziedzinie obrazów generowanych przez sztuczną inteligencję od 2017 r. kod deepfakes został skopiowany do GitHub i rozwidlony do tego, co się stanie GłębokaTwarzLab oraz Zamiana twarzy, a także oprogramowanie deepfake do przesyłania strumieniowego w czasie rzeczywistym DeepFace na żywo.

za udar, frustracja użytkowników ponad ograniczenia treści w interfejsie API syntezy obrazu DALL-E 2 zostały odrzucone, ponieważ okazało się, że filtr NSFW Stable Diffusion można wyłączyć, zmieniając jedyna linia kodu. Skoncentrowane na pornografii Reddity Stable Diffusion wyrosły niemal natychmiast i równie szybko zostały zamknięte, podczas gdy obóz programistów i użytkowników podzielił się na Discordzie na społeczności oficjalne i NSFW, a Twitter zaczął zapełniać się fantastycznymi dziełami Stable Diffusion.

W tej chwili wydaje się, że każdy dzień przynosi niesamowite innowacje od programistów, którzy przyjęli system, a wtyczki i dodatki innych firm są pospiesznie pisane dla Krita, Photoshop, Cinema4D, mikseri wiele innych platform aplikacji.

Stabilny dodatek Krita do dyfuzji

W międzyczasie, szybkowar – obecnie profesjonalna sztuka „szeptania AI”, która może okazać się najkrótszą ścieżką kariery od czasów „segregatora Filofax” – staje się już skomercjalizowane, podczas gdy wczesna monetyzacja Stable Diffusion odbywa się w Poziom Patreona, z pewnością w przyszłości pojawią się bardziej wyrafinowane oferty dla tych, którzy nie chcą nawigować Oparty na Condzie instalacje kodu źródłowego lub nakazowe filtry NSFW wdrożeń internetowych.

Tempo rozwoju i swoboda eksploracji użytkowników postępują w tak zawrotnym tempie, że trudno wybiegać myślami w przyszłość. W zasadzie nie wiemy jeszcze dokładnie, z czym mamy do czynienia, ani jakie mogą być ograniczenia i możliwości.

Przyjrzyjmy się jednak trzem potencjalnie najciekawszym i najtrudniejszym przeszkodom, z którymi będzie musiała zmierzyć się i które – miejmy nadzieję – uda jej się pokonać dynamicznie rozwijająca się społeczność Stable Diffusion.

1: Optymalizacja rurociągów opartych na płytkach

Biorąc pod uwagę ograniczone zasoby sprzętowe i twarde ograniczenia rozdzielczości obrazów szkoleniowych, wydaje się prawdopodobne, że programiści znajdą obejścia, które poprawią zarówno jakość, jak i rozdzielczość sygnału wyjściowego Stable Diffusion. Wiele z tych projektów zakłada wykorzystanie ograniczeń systemu, takich jak natywna rozdzielczość wynosząca zaledwie 512×512 pikseli.

Jak zawsze w przypadku inicjatyw związanych z wizją komputerową i syntezą obrazu, metoda Stable Diffusion została przeszkolona na obrazach o proporcjach kwadratowych, w tym przypadku ponownie próbkowanych do rozdzielczości 512×512, tak aby obrazy źródłowe mogły być uregulowane i zmieścić się w ograniczeniach procesorów graficznych trenował model.

Dlatego Stabilna Dyfuzja „myśli” (jeśli w ogóle myśli) w kategoriach 512×512, a już na pewno w kategoriach kwadratowych. Wielu użytkowników badających obecnie ograniczenia systemu zgłasza, że ​​Stabilna Dyfuzja generuje najbardziej wiarygodne i najmniej zakłócone wyniki przy tym dość ograniczonym współczynniku kształtu (patrz „uwzględnianie skrajności” poniżej).

Chociaż różne implementacje oferują skalowanie poprzez PrawdziwyESRGAN (i może naprawić słabo wyrenderowane twarze poprzez GFPGAN) kilku użytkowników pracuje obecnie nad metodami dzielenia obrazów na sekcje o wymiarach 512 x 512 pikseli i łączenia ich w większe dzieła złożone.

Ten rendering w rozdzielczości 1024x576, którego rozdzielczość jest zwykle niemożliwa w pojedynczym renderowaniu Stable Diffusion, został utworzony poprzez skopiowanie i wklejenie pliku Pythona uwaga.py z rozwidlenia DoggettX Stable Diffusion (wersja, która implementuje skalowanie oparte na kafelkach) do innego rozwidlenia. Źródło: https://old.reddit.com/r/StableDiffusion/comments/x6yeam/1024x576_with_6gb_nice/

Ten render o rozdzielczości 1024×576, czyli rozdzielczości zwykle niemożliwej w pojedynczym renderowaniu Stable Diffusion, został utworzony poprzez skopiowanie i wklejenie pliku Pythona uwaga.py z DoggettX fork Stable Diffusion (wersja, która implementuje skalowanie oparte na kafelkach) do innego forka. Źródło: https://old.reddit.com/r/StableDiffusion/comments/x6yeam/1024x576_with_6gb_nice/

Chociaż niektóre inicjatywy tego rodzaju wykorzystują oryginalny kod lub inne biblioteki, port txt2imghd GOBIG (tryb w głodnym VRAM ProgRockDiffusion) ma wkrótce udostępnić tę funkcjonalność głównej gałęzi. Chociaż txt2imghd jest dedykowanym portem GOBIG, inne wysiłki twórców społeczności obejmują różne implementacje GOBIG.

Wygodnie abstrakcyjny obraz w oryginalnym renderowaniu o wymiarach 512 x 512 pikseli (po lewej i drugi od lewej); przeskalowany przez ESGRAN, który jest obecnie mniej więcej natywny we wszystkich dystrybucjach Stable Diffusion; i poświęcono mu „szczególną uwagę” poprzez implementację GOBIG, tworząc szczegóły, które przynajmniej w obrębie sekcji obrazu wydają się lepiej przeskalowane. Źródło: https://old.reddit.com/r/StableDiffusion/comments/x72460/stable_diffusion_gobig_txt2imghd_easy_mode_colab/

Wygodnie abstrakcyjny obraz w oryginalnym renderze 512x512px (po lewej i drugi od lewej); przeskalowany przez ESGRAN, który jest teraz mniej więcej natywny dla wszystkich dystrybucji Stable Diffusion; i otrzymał „szczególną uwagę” poprzez implementację GOBIG, co daje szczegóły, które przynajmniej w obrębie sekcji obrazu wydają się lepiej przeskalowane.źródło: https://old.reddit.com/r/StableDiffusion/comments/x72460/stable_diffusion_gobig_txt2imghd_easy_mode_colab/

Przedstawiony powyżej abstrakcyjny przykład zawiera wiele „małych królestw” szczegółów, które pasują do tego solipsystycznego podejścia do skalowania w górę, ale które mogą wymagać bardziej wymagających rozwiązań opartych na kodzie, aby wytworzyć niepowtarzalne, spójne skalowanie w górę, które nie na temat jakby składał się z wielu części. Zwłaszcza w przypadku ludzkich twarzy, gdzie jesteśmy wyjątkowo wrażliwi na aberracje lub „niepokojące” artefakty. Dlatego twarze mogą w końcu wymagać dedykowanego rozwiązania.

Stabilna dyfuzja nie oferuje obecnie mechanizmu skupiającego uwagę na twarzy podczas renderowania w taki sam sposób, w jaki ludzie priorytetyzują informacje o twarzy. Chociaż niektórzy deweloperzy w społecznościach Discord rozważają metody implementacji tego rodzaju „wzmocnionej uwagi”, obecnie znacznie łatwiej jest ręcznie (a ostatecznie automatycznie) poprawić twarz po zakończeniu początkowego renderowania.

Twarz człowieka ma wewnętrzną i kompletną logikę semantyczną, której nie znajdziemy w „kafelku” dolnego rogu (na przykład) budynku, dlatego obecnie możliwe jest bardzo efektywne „powiększenie” i ponowne wyrenderowanie „szkicowej” twarzy na wyjściu Stable Diffusion.

Po lewej: początkowe dzieło Stable Diffusion z podpowiedzią „Pełnometrażowe, kolorowe zdjęcie Christiny Hendricks wchodzącej do zatłoczonego miejsca w płaszczu przeciwdeszczowym; Canon50, kontakt wzrokowy, duża szczegółowość, duża szczegółowość twarzy”. Po prawej, ulepszona twarz uzyskana poprzez przeniesienie rozmytej i szkicowej twarzy z pierwszego renderowania z powrotem do pełnej uwagi Stable Diffusion za pomocą Img2Img (patrz animowane obrazy poniżej).

Po lewej, pierwsze dzieło Stable Diffusion z hasłem „Kolorowe zdjęcie Christiny Hendricks wchodzącej do zatłoczonego miejsca w płaszczu przeciwdeszczowym; Canon50, kontakt wzrokowy, wysoki poziom detali, wysoka szczegółowość twarzy”. Po prawej, poprawiona twarz uzyskana dzięki ponownemu włączeniu rozmazanej i szkicowej twarzy z pierwszego renderu do pełnej uwagi Stable Diffusion za pomocą Img2Img (zobacz animowane obrazy poniżej).

W przypadku braku dedykowanego rozwiązania do inwersji tekstu (patrz poniżej) będzie to działać tylko w przypadku obrazów gwiazd, w przypadku których dana osoba jest już dobrze reprezentowana w podzbiorach danych LAION, które wytrenowały funkcję Stable Diffusion. Dlatego będzie działać na takich postaciach jak Tom Cruise, Brad Pitt, Jennifer Lawrence i ograniczona grupa prawdziwych luminarzy mediów, którzy są obecni na dużej liczbie obrazów w danych źródłowych.

Wygenerowanie wiarygodnego zdjęcia prasowego z podpowiedzią „Pełnometrażowe, kolorowe zdjęcie Christiny Hendricks wchodzącej do zatłoczonego miejsca w płaszczu przeciwdeszczowym; Canon50, kontakt wzrokowy, duża szczegółowość, duża szczegółowość twarzy”.

Stworzenie wiarygodnego zdjęcia prasowego za pomocą polecenia: „Całościowe kolorowe zdjęcie Christiny Hendricks wchodzącej do zatłoczonego miejsca w płaszczu przeciwdeszczowym; Canon50, kontakt wzrokowy, duża liczba szczegółów, duże szczegóły twarzy”.

W przypadku celebrytów z długą i trwałą karierą Stable Diffusion zwykle generuje obraz osoby w niedawnym (tj. starszym) wieku i konieczne będzie szybkie dodanie dodatków, takich jak 'młody' or „w roku [ROK]” w celu uzyskania młodszych obrazów.

Dzięki wybitnej, często fotografowanej i konsekwentnej karierze trwającej prawie 40 lat aktorka Jennifer Connelly jest jedną z nielicznych gwiazd w LAION, dzięki którym Stable Diffusion reprezentuje różne grupy wiekowe. Źródło: prepack Stable Diffusion, lokalny, punkt kontrolny v1.4; podpowiedzi związane z wiekiem.

Dzięki wybitnej, często fotografowanej i konsekwentnej karierze trwającej prawie 40 lat aktorka Jennifer Connelly jest jedną z nielicznych gwiazd w LAION, dzięki którym Stable Diffusion reprezentuje różne grupy wiekowe. Źródło: prepack Stable Diffusion, lokalny, punkt kontrolny v1.4; podpowiedzi związane z wiekiem.

Dzieje się tak głównie z powodu rozpowszechnienia się cyfrowej (zamiast drogiej, emulsyjnej) fotografii prasowej od połowy 2000 roku oraz późniejszego wzrostu objętości obrazów w związku ze zwiększoną szybkością łączy szerokopasmowych.

Wyrenderowany obraz jest przekazywany do Img2Img w Stable Diffusion, gdzie wybierany jest „obszar ostrości”, a nowy render o maksymalnym rozmiarze jest tworzony tylko na tym obszarze, co pozwala Stable Diffusion skoncentrować wszystkie dostępne zasoby na odtworzeniu twarzy.

Wyrenderowany obraz przesyłany jest do Img2Img w Stable Diffusion, gdzie wybierany jest „obszar ostrości”, a następnie tworzony jest nowy, maksymalny rozmiar renderowania tylko tego obszaru, co pozwala Stable Diffusion skoncentrować wszystkie dostępne zasoby na odtworzeniu twarzy.

Komponowanie twarzy o „wysokim zainteresowaniu” z powrotem w oryginalnym renderowaniu. Oprócz twarzy proces ten będzie działać tylko w przypadku obiektów, które mają potencjalnie znany, spójny i integralny wygląd, np. fragment oryginalnego zdjęcia przedstawiający odrębny obiekt, taki jak zegarek lub samochód. Skalowanie na przykład fragmentu ściany doprowadzi do bardzo dziwnie wyglądającej, ponownie zmontowanej ściany, ponieważ renderowane płytki nie miały szerszego kontekstu dla tego „elementu układanki”.

Złożenie „wysokiej uwagi” twarzy z powrotem do oryginalnego renderu. Oprócz twarzy, proces ten zadziała tylko w przypadku obiektów o potencjalnie znanym, spójnym i integralnym wyglądzie, takich jak fragment oryginalnego zdjęcia z wyraźnym obiektem, takim jak zegarek czy samochód. Skalowanie w górę fragmentu – na przykład – ściany doprowadzi do bardzo dziwnie wyglądającego, ponownie złożonego obrazu, ponieważ renderowane kafelki nie miały szerszego kontekstu dla tego „elementu układanki” podczas renderowania.

Niektóre gwiazdy w bazie danych są „zamrożone” w czasie, ponieważ albo zmarły wcześnie (jak Marilyn Monroe), albo zyskały jedynie przelotną popularność w mainstreamie, generując dużą liczbę zdjęć w krótkim czasie. Metoda Polling Stable Diffusion (stabilna dyfuzja) prawdopodobnie zapewnia rodzaj „aktualnego” indeksu popularności dla współczesnych i starszych gwiazd. W przypadku niektórych starszych i obecnych gwiazd dane źródłowe nie zawierają wystarczającej liczby zdjęć, aby uzyskać bardzo dobre podobieństwo, podczas gdy utrzymująca się popularność konkretnych gwiazd, dawno zmarłych lub z innych powodów wyblakłych, zapewnia, że ​​ich przyzwoite podobieństwo można uzyskać z systemu.

Rendery ze stabilnym rozproszeniem szybko ujawniają, które znane twarze są dobrze reprezentowane w danych treningowych. Pomimo ogromnej popularności, jaką cieszyła się jako starsza nastolatka w momencie pisania tego tekstu, Millie Bobby Brown była młodsza i mniej znana, gdy zbiory danych źródłowych LAION zostały pobrane z sieci, przez co uzyskanie wysokiej jakości podobieństwa do Stable Diffusion było obecnie problematyczne.

Rendery ze stabilnym rozproszeniem szybko ujawniają, które znane twarze są dobrze reprezentowane w danych treningowych. Pomimo ogromnej popularności, jaką cieszyła się jako starsza nastolatka w momencie pisania tego tekstu, Millie Bobby Brown była młodsza i mniej znana, gdy zbiory danych źródłowych LAION zostały pobrane z sieci, przez co uzyskanie wysokiej jakości podobieństwa do Stable Diffusion było obecnie problematyczne.

Tam, gdzie dane są dostępne, rozwiązania o wyższej rozdzielczości oparte na kafelkach w Stable Diffusion mogą pójść dalej niż naprowadzanie na twarz: mogłyby potencjalnie zapewnić jeszcze dokładniejsze i bardziej szczegółowe twarze poprzez rozbicie rysów twarzy i wykorzystanie całej mocy lokalnego procesora graficznego zasoby dotyczące najważniejszych cech indywidualnie przed ponownym montażem – proces, który obecnie również jest ręczny.

Nie ogranicza się to do twarzy, ale ogranicza się do części obiektów, które są co najmniej tak samo przewidywalnie umieszczone w szerszym kontekście obiektu macierzystego i które są zgodne z osadzeniem wysokiego poziomu, którego można rozsądnie oczekiwać w hiperskali zbiór danych.

Prawdziwym ograniczeniem jest ilość dostępnych danych referencyjnych w zestawie danych, gdyż z czasem szczegółowość powtarzanych informacji stanie się całkowicie „halucynacyjna” (czyli fikcyjna) i mniej autentyczna.

Takie szczegółowe powiększenia na wysokim poziomie sprawdzają się w przypadku Jennifer Connelly, ponieważ jest ona dobrze reprezentowana w różnych grupach wiekowych w LAION-estetyka (podstawowy podzbiór LAION 5B z którego korzysta Stable Diffusion), i ogólnie w całym LAION; w wielu innych przypadkach dokładność byłaby ograniczona przez brak danych, co wymagałoby albo dostrojenia (dodatkowe szkolenie, patrz „Personalizacja” poniżej), albo inwersji tekstu (patrz poniżej).

Kafelki to potężny i stosunkowo tani sposób na umożliwienie Stable Diffusion uzyskania wysokiej rozdzielczości, ale algorytmiczne skalowanie kafelków tego rodzaju, jeśli brakuje mu jakiegoś szerszego mechanizmu uwagi wyższego poziomu, może nie osiągnąć oczekiwanych wyników dla standardów dla różnych typów treści.

2: Rozwiązywanie problemów z ludzkimi kończynami

Stabilna Dyfuzja nie dorównuje swojej nazwie, jeśli chodzi o złożoność ludzkich kończyn. Dłonie mogą się rozmnażać losowo, palce zlewają się ze sobą, trzecie nogi pojawiają się nieproszone, a istniejące kończyny znikają bez śladu. Na swoją obronę, Stabilna Dyfuzja ma ten sam problem co jej odpowiedniki, a na pewno DALL-E 2.

Nieedytowane wyniki badań DALL-E 2 i Stable Diffusion (1.4) z końca sierpnia 2022 r., oba wykazują problemy z kończynami. Podpowiedź brzmi: „Kobieta obejmująca mężczyznę”

Nieedytowane wyniki badań DALL-E 2 i Stable Diffusion (1.4) z końca sierpnia 2022 r., oba wykazujące problemy z kończynami. Podpowiedź: „Kobieta obejmująca mężczyznę”.

Fani Stable Diffusion liczący, że nadchodzący punkt kontrolny 1.5 (bardziej intensywnie wytrenowana wersja modelu, z poprawionymi parametrami) rozwiąże zamieszanie kończyn, prawdopodobnie się rozczarują. Nowy model, który ukaże się w r około dwóch tygodni, ma obecnie swoją premierę na komercyjnym portalu stable.ai pracownia marzeń, który domyślnie używa wersji 1.5 i gdzie użytkownicy mogą porównać nowe dane wyjściowe z renderami z ich systemów lokalnych lub innych systemów 1.4:

Źródło: pakiet lokalny 1.4 i https://beta.dreamstudio.ai/

Źródło: pakiet lokalny 1.4 i https://beta.dreamstudio.ai/

Źródło: pakiet lokalny 1.4 i https://beta.dreamstudio.ai/

Źródło: pakiet lokalny 1.4 i https://beta.dreamstudio.ai/

Źródło: pakiet lokalny 1.4 i https://beta.dreamstudio.ai/

Źródło: pakiet lokalny 1.4 i https://beta.dreamstudio.ai/

Jak to często bywa, główną przyczyną może być jakość danych.

Bazy danych typu open source, które zasilają systemy syntezy obrazów, takie jak Stable Diffusion i DALL-E 2, są w stanie zapewnić wiele etykiet zarówno dla poszczególnych ludzi, jak i działań międzyludzkich. Etykiety te są szkolone w symbiozie z powiązanymi z nimi obrazami lub segmentami obrazów.

Użytkownicy Stable Diffusion mogą eksplorować koncepcje wprowadzone do modelu, wysyłając zapytania do zbioru danych estetycznych LAION, będącego podzbiorem większego zbioru danych LAION 5B, który napędza system. Obrazy uporządkowane są nie według alfabetycznych etykiet, ale według „punktacji estetycznej”. Źródło: https://rom1504.github.io/clip-retrieval/

Użytkownicy Stable Diffusion mogą eksplorować koncepcje wytrenowane w modelu, przeszukując zbiór danych LAION-aesthetics, będący podzbiorem większego zbioru danych LAION 5B, na którym oparty jest system. Obrazy są sortowane nie według etykiet alfabetycznych, lecz według „wyniku estetycznego”. Źródło: https://rom1504.github.io/clip-retrieval/

A dobra hierarchia Indywidualnych etykiet i klas przyczyniających się do przedstawienia ludzkiego ramienia byłoby mniej więcej tak ciało>ramię>dłoń>palce>[cyfry podrzędne + kciuk]> [segmenty cyfr]>Paznokcie.

Granularna segmentacja semantyczna części dłoni. Nawet ta niezwykle szczegółowa dekonstrukcja pozostawia każdy „palec” jako odrębną całość, nie uwzględniając trzech części palca i dwóch części kciuka. Źródło: https://athitsos.utasites.cloud/publications/rezaei_petra2021.pdf

Granularna segmentacja semantyczna części dłoni. Nawet ta niezwykle szczegółowa dekonstrukcja pozostawia każdy „palec” jako odrębną całość, nie uwzględniając trzech części palca i dwóch części kciuka. Źródło: https://athitsos.utasites.cloud/publications/rezaei_petra2021.pdf

W rzeczywistości jest mało prawdopodobne, aby obrazy źródłowe były tak spójnie opatrzone adnotacjami w całym zbiorze danych, a algorytmy etykietowania bez nadzoru prawdopodobnie zatrzymają się na wyższy poziomu – na przykład – „ręki” i pozostawić wewnętrzne piksele (które technicznie rzecz biorąc zawierają informacje o „palcu”) jako nieoznakowaną masę pikseli, z której będą w sposób dowolny wyprowadzane cechy, co może w późniejszych renderach objawiać się jako element drażniący.

Jak powinno wyglądać (po prawej u góry, jeśli nie u góry) i jak zwykle jest (po prawej u dołu) ze względu na ograniczone zasoby na etykietowanie lub wykorzystanie architektoniczne takich etykiet, jeśli istnieją w zbiorze danych.

Jak powinno wyglądać (po prawej u góry, jeśli nie u góry) i jak zwykle jest (po prawej u dołu) ze względu na ograniczone zasoby na etykietowanie lub wykorzystanie architektoniczne takich etykiet, jeśli istnieją w zbiorze danych.

Tak więc, jeśli model dyfuzji ukrytej dojdzie do momentu wyrenderowania ramienia, to prawie na pewno spróbuje wyrenderować dłoń na końcu tego ramienia, ponieważ ramię > ręka jest minimalną wymaganą hierarchią, dość wysoko położoną w wiedzy architektury na temat „anatomii człowieka”.

Kolejną najmniejszą grupą mogą być „palce”, chociaż przy przedstawianiu dłoni człowieka należy wziąć pod uwagę jeszcze 14 innych części palców/kciuka.

Jeśli ta teoria się sprawdzi, nie ma prawdziwego środka zaradczego ze względu na ogólnobranżowy brak budżetu na ręczne dodawanie adnotacji oraz brak odpowiednio skutecznych algorytmów, które mogłyby zautomatyzować etykietowanie przy jednoczesnym niskim poziomie błędów. W rezultacie model może obecnie opierać się na spójności anatomicznej człowieka, aby ukryć niedociągnięcia zbioru danych, na którym był szkolony.

Jeden z możliwych powodów nie może ostatnio na tym polegam zaproponowane na Stable Diffusion Discord jest to, że model może się pomylić co do prawidłowej liczby palców, jaką powinna mieć (realistyczna) ludzka dłoń, ponieważ baza danych pochodząca z LAION, na której opiera się ten model, zawiera postacie z kreskówek, które mogą mieć mniej palców (co samo w sobie jest skrót oszczędzający pracę).

Dwóch potencjalnych winowajców zespołu „brakującego palca” w modelach Stable Diffusion i podobnych. Poniżej przykłady rysunkowych rąk ze zbioru danych dotyczących estetyki LAION, który napędza Stable Diffusion. Źródło: https://www.youtube.com/watch?v=0QZFQ3gbd6I

Dwóch potencjalnych winowajców zespołu „brakującego palca” w modelu Stable Diffusion i podobnych. Poniżej przykłady dłoni z rysunków z zestawu danych LAION-aesthetics, na którym opiera się model Stable Diffusion. Źródło: https://www.youtube.com/watch?v=0QZFQ3gbd6I

Jeśli to prawda, jedynym oczywistym rozwiązaniem jest ponowne przekwalifikowanie modelu, wykluczając nierealistyczne treści oparte na ludziach, i zapewniając, że rzeczywiste przypadki zaniedbań (tj. osoby po amputacjach) zostaną odpowiednio oznaczone jako wyjątki. Już z punktu widzenia przechowywania danych byłoby to sporym wyzwaniem, szczególnie w przypadku wysiłków społeczności ubogich w zasoby.

Drugim podejściem byłoby zastosowanie filtrów, które wykluczają taką treść (np. „rękę z trzema/pięcioma palcami”) z manifestacji w czasie renderowania, w podobny sposób, w jaki w pewnym stopniu OpenAI filtrowane GPT-3 i DALL-E2, tak aby można było regulować ich wyniki bez konieczności ponownego uczenia modeli źródłowych.

W przypadku Stable Diffusion semantyczne rozróżnienie między cyframi, a nawet kończynami może stać się przerażająco zamazane, przywodząc na myśl nurt horrorów z lat 1980. XX wieku, takich jak David Cronenberg. Źródło: https://old.reddit.com/r/StableDiffusion/comments/x6htf6/a_study_of_stable_diffusions_strange_relationship/

W przypadku Stable Diffusion rozróżnienie semantyczne między cyframi, a nawet kończynami może stać się przerażająco niewyraźne, co przywodzi na myśl filmy grozy z lat 1980. XX wieku, w których widzowie obserwowali „horror ciała” w wykonaniu takich twórców jak David Cronenberg. Źródło: https://old.reddit.com/r/StableDiffusion/comments/x6htf6/a_study_of_stable_diffusions_strange_relationship/

Jednak w tym przypadku wymagałoby to etykiet, które mogą nie znajdować się na wszystkich obrazach, których to dotyczy, co stawia nas przed tym samym wyzwaniem logistycznym i budżetowym.

Można argumentować, że pozostały dwie drogi postępowania: przeanalizowanie problemu większą ilością danych oraz zastosowanie zewnętrznych systemów interpretacyjnych, które mogą interweniować, gdy użytkownikowi końcowemu prezentowane są fizyczne błędy, takie jak opisane tutaj (w drugim przypadku firma OpenAI miałaby co najmniej możliwość zwrotu pieniędzy za rendery „horror ciała”, gdyby była do tego zmotywowana).

3: Personalizacja

Jedną z najbardziej ekscytujących możliwości dla przyszłości Stable Diffusion jest perspektywa użytkowników lub organizacji opracowujących zmienione systemy; modyfikacje umożliwiające integrację z systemem treści spoza wstępnie wyszkolonej sfery LAION – idealnie bez niemożliwych do poniesienia kosztów ponownego uczenia całego modelu lub ryzyka związanego z uczeniem dużej liczby nowych obrazów do istniejącego, dojrzałego i zdolnego Model.

Analogicznie: jeśli dwoje mniej uzdolnionych uczniów dołączy do zaawansowanej klasy trzydziestu uczniów, albo się zasymilują i nadrobią zaległości, albo nie zdadzą egzaminu jako wyjątki; w obu przypadkach średnia ocen w klasie prawdopodobnie nie ulegnie zmianie. Jeśli jednak dołączy 15 mniej uzdolnionych uczniów, krzywa ocen całej klasy prawdopodobnie ucierpi.

Podobnie synergistyczna i dość delikatna sieć relacji zbudowana w wyniku długotrwałego i kosztownego szkolenia modeli może zostać naruszona, a w niektórych przypadkach skutecznie zniszczona, przez nadmierną ilość nowych danych, obniżając ogólną jakość wyjściową modelu.

Argument za takim postępowaniem pojawia się przede wszystkim wtedy, gdy jesteś zainteresowany całkowitym przejęciem koncepcyjnego rozumienia relacji i rzeczy tego modelu i przywłaszczeniem go do ekskluzywnej produkcji treści podobnej do dodatkowego materiału, który dodałeś.

Zatem przeszkolenie 500,000 tys Simpsonowie klatki do istniejącego punktu kontrolnego Stable Diffusion, prawdopodobnie w końcu zapewni ci lepszą jakość Simpsonowie symulator, niż mogła oferować oryginalna wersja, zakładając, że proces przetrwa wystarczająco szerokie relacje semantyczne (tj Homer Simpson je hot doga, co może wymagać materiału o hot-dogach, którego nie było w dodatkowych materiałach, ale który już istniał w punkcie kontrolnym), zakładając, że nie chcesz nagle przełączać się z Simpsonowie treści do tworzenia bajkowy krajobraz Grega Rutkowskiego – ponieważ uwaga Twojego modelu po wytrenowaniu została całkowicie rozproszona i nie będzie on już tak dobry w tego typu zadaniach, jak wcześniej.

Jednym z godnych uwagi przykładów jest to dyfuzja waifu, co z sukcesem po przeszkoleniu 56,000 XNUMX obrazów anime do ukończonego i wytrenowanego punktu kontrolnego Stable Diffusion. To jednak trudne zadanie dla hobbysty, ponieważ model wymaga oszałamiającego minimum 30 GB pamięci VRAM, znacznie przekraczającego to, co prawdopodobnie będzie dostępne w wersji konsumenckiej w nadchodzących modelach serii 40XX firmy NVIDIA.

Uczenie niestandardowej zawartości w Stable Diffusion: model potrzebował dwóch tygodni po szkoleniu, aby uzyskać taki poziom ilustracji. Sześć obrazów po lewej stronie pokazuje postęp modelu w tworzeniu spójnych tematycznie wyników w oparciu o nowe dane szkoleniowe. Źródło: https://gigazine.net/gsc_news/en/20220121-how-waifu-labs-create/

Uczenie niestandardowej zawartości w Stable Diffusion poprzez waifu-diffusion: model potrzebował dwóch tygodni po szkoleniu, aby uzyskać taki poziom ilustracji. Sześć obrazów po lewej stronie przedstawia postęp modelu w miarę postępu szkolenia w tworzeniu spójnych tematycznie wyników w oparciu o nowe dane szkoleniowe. Źródło: https://gigazine.net/gsc_news/en/20220121-how-waifu-labs-create/

Można by włożyć mnóstwo wysiłku w takie „rozwidlenia” punktów kontrolnych Stable Diffusion, tylko po to, by je zablokować przez dług techniczny. Deweloperzy na oficjalnym Discordzie zasugerowali już, że późniejsze wersje punktów kontrolnych niekoniecznie będą wstecznie kompatybilne, nawet z szybką logiką, która mogła działać w poprzedniej wersji, ponieważ ich głównym celem jest uzyskanie najlepszego możliwego modelu, a nie wspieranie starszych aplikacji i procesów.

W związku z tym firma lub osoba, która zdecyduje się na przekształcenie punktu kontrolnego w produkt komercyjny, w praktyce nie ma drogi powrotnej; jej wersja modelu jest w tym momencie „twardym rozwidleniem” i nie będzie mogła czerpać korzyści z późniejszych wersji stablecoina – co jest dość wiążące.

Obecną i większą nadzieją na personalizację Stable Diffusion jest Inwersja tekstu, gdzie użytkownik trenuje w niewielkiej liczbie CLIP-wyrównane obrazy.

Inwersja tekstu, będąca owocem współpracy Uniwersytetu w Tel Awiwie i firmy NVIDIA, umożliwia szkolenie odrębnych i nowatorskich jednostek bez niszczenia możliwości modelu źródłowego. Źródło: https://textual-inversion.github.io/

Inwersja tekstu, będąca owocem współpracy Uniwersytetu w Tel Awiwie i firmy NVIDIA, umożliwia szkolenie odrębnych i nowatorskich jednostek bez niszczenia możliwości modelu źródłowego. Źródło: https://textual-inversion.github.io/

Głównym oczywistym ograniczeniem inwersji tekstu jest to, że zalecana jest bardzo mała liczba obrazów – zaledwie pięć. To skutecznie tworzy ograniczony element, który może być bardziej przydatny do zadań związanych z przenoszeniem stylu niż do wstawiania fotorealistycznych obiektów.

Niemniej jednak obecnie prowadzone są eksperymenty w różnych dysonansach stabilnej dyfuzji, które wykorzystują znacznie większą liczbę obrazów szkoleniowych, i okaże się, jak produktywna może okazać się ta metoda. Ponownie technika ta wymaga dużej ilości pamięci VRAM, czasu i cierpliwości.

Z powodu tych czynników ograniczających być może będziemy musieli poczekać jakiś czas, aby zobaczyć bardziej zaawansowane eksperymenty z inwersją tekstu przeprowadzone przez entuzjastów metody Stable Diffusion – i sprawdzić, czy takie podejście pozwoli nam „zobaczyć wszystko na własne oczy” w sposób wyglądający lepiej niż efekt kopiowania i wklejania w Photoshopie, a jednocześnie zachować niezwykłą funkcjonalność oficjalnych punktów kontrolnych.

 

Opublikowano po raz pierwszy 6 września 2022 r.

Autor tekstów o uczeniu maszynowym, specjalista domenowy w syntezie obrazów ludzkich. Były szef treści badawczych w Metaphysic.ai.
Strona osobista: martinanderson.ai
Kontakt: [email chroniony]
Twitter: @manders_ai