stub Model dyfuzji eDiffi firmy NVIDIA umożliwia „malowanie słowami” i nie tylko - Unite.AI
Kontakt z nami

Artificial Intelligence

Model dyfuzji eDiffi firmy NVIDIA umożliwia „malowanie słowami” i nie tylko

mm
Zaktualizowano on

Próba tworzenia precyzyjnych kompozycji z wykorzystaniem modeli obrazu generatywnego z ukrytą dyfuzją, takich jak Stabilna dyfuzja może przypominać pasące się koty; te same zdolności wyobraźni i interpretacji, które umożliwiają systemowi tworzenie niezwykłych szczegółów i przywoływanie niezwykłych obrazów ze stosunkowo prostych podpowiedzi tekstowych, są również trudno wyłączyć gdy szukasz kontroli na poziomie Photoshopa nad generowaniem obrazu.

Teraz nowe podejście wynikające z badań firmy NVIDIA, zatytułowane dyfuzja zespołowa dla obrazów (eDiffi) wykorzystuje mieszankę wielu metod osadzania i interpretacji (zamiast tej samej metody na każdym etapie procesu), aby zapewnić znacznie większy poziom kontroli nad generowaną treścią. W poniższym przykładzie widzimy, jak użytkownik maluje elementy, a każdy kolor reprezentuje pojedyncze słowo z podpowiedzi tekstowej:

„Malowanie słowami” to jedna z dwóch nowatorskich funkcji modelu dyfuzji eDiffi firmy NVIDIA. Każdy namalowany kolor reprezentuje słowo z podpowiedzi (zobacz, jak pojawiają się po lewej stronie podczas generowania), a zastosowany kolor obszaru będzie składał się tylko z tego elementu. Zobacz koniec artykułu, aby zapoznać się z osadzonym oficjalnym filmem, z większą liczbą przykładów i lepszą rozdzielczością. Źródło: https://www.youtube.com/watch?v=k6cOx9YjHJc

„Malowanie słowami” to jedna z dwóch nowatorskich funkcji modelu dyfuzji eDiffi firmy NVIDIA. Każdy namalowany kolor reprezentuje słowo z podpowiedzi (zobacz, jak pojawiają się po lewej stronie podczas generowania), a zastosowany kolor obszaru będzie składał się tylko z tego elementu. Zobacz źródło (oficjalne) wideo, aby uzyskać więcej przykładów i lepszą rozdzielczość na stronie https://www.youtube.com/watch?v=k6cOx9YjHJc

W rzeczywistości jest to „malowanie maskami” i odwraca iparadygmat np.malarstwa w Stable Diffusion, która polega na naprawianiu uszkodzonych lub niezadowalających obrazów lub rozszerzaniu obrazów, które równie dobrze mogłyby mieć pożądany rozmiar.

Tutaj natomiast marginesy namalowanego kiczu przedstawiają dopuszczalne przybliżone granice tylko jednego, unikalnego elementu z pojedynczej koncepcji, pozwalając użytkownikowi na ustalenie ostatecznego rozmiaru płótna od samego początku, a następnie dyskretne dodanie elementów.

Przykłady z nowego artykułu. Źródło: https://arxiv.org/pdf/2211.01324.pdf

Przykłady z nowego artykułu. Źródło: https://arxiv.org/pdf/2211.01324.pdf

Różnorodne metody stosowane w eDiffi oznaczają również, że system znacznie lepiej radzi sobie z uwzględnianiem każdego elementu w długich i szczegółowych podpowiedziach, podczas gdy Stable Diffusion i DALL-E 2 OpenAI mają tendencję do priorytetyzowania niektórych części podpowiedzi, w zależności od tego, jak wcześnie słowa docelowe pojawiają się w podpowiedzi lub od innych czynników, takich jak potencjalna trudność w rozplątaniu poszczególnych elementów niezbędnych do uzyskania kompletnej, ale wszechstronnej (w odniesieniu do podpowiedzi tekstowej) kompozycji:

Z artykułu: eDiffi jest w stanie dokładniej iterować po podpowiedzi, aż do wyrenderowania maksymalnej możliwej liczby elementów. Chociaż lepsze wyniki dla eDiffi (prawa kolumna) są trafne, podobnie jak obrazy porównawcze ze Stable Diffusion i DALL-E 2.

Z artykułu: eDiffi jest w stanie dokładniej iterować po podpowiedzi, aż do wyrenderowania maksymalnej możliwej liczby elementów. Chociaż lepsze wyniki dla eDiffi (prawa kolumna) są trafne, podobnie jak obrazy porównawcze ze Stable Diffusion i DALL-E 2.

Dodatkowo zastosowanie dedykowanego T5 Koder zamiany tekstu na tekst oznacza, że ​​eDiffi jest w stanie renderować zrozumiały tekst w języku angielskim, albo abstrakcyjnie żądany z podpowiedzi (tj. obraz zawiera tekst [x]) lub na wyraźne żądanie (tj na koszulce jest napisane „Nvidia Rocks”):

Dedykowane przetwarzanie tekstu na tekst w eDiffi oznacza, że ​​tekst może być renderowany dosłownie w obrazach, a nie tylko przepuszczany przez warstwę interpretacyjną tekstu na obraz, co powoduje zniekształcanie danych wyjściowych.

Dedykowane przetwarzanie tekstu na tekst w eDiffi oznacza, że ​​tekst może być renderowany dosłownie w obrazach, a nie tylko przepuszczany przez warstwę interpretacyjną tekstu na obraz, co powoduje zniekształcanie danych wyjściowych.

Kolejnym dodatkiem do nowego frameworka jest to, że możliwe jest również dostarczenie pojedynczego obrazu jako podpowiedzi stylu, zamiast konieczności uczenia modelu DreamBooth lub osadzania tekstu na wielu przykładach gatunku lub styl.

Transfer stylu można zastosować z obrazu referencyjnego do podpowiedzi polegającej na zamianie tekstu na obraz lub nawet podpowiedzi polegającej na zmianie obrazu na obraz.

Transfer stylu można zastosować z obrazu referencyjnego do podpowiedzi polegającej na zamianie tekstu na obraz lub nawet podpowiedzi polegającej na zmianie obrazu na obraz.

Połączenia nowy papier jest zatytułowany eDiffi: Modele dyfuzji tekstu na obraz z zestawem specjalistycznych denoiserów,

Koder tekstu T5

Korzystanie z Google TTransformator transferu ext-to-Text (T5) jest kluczowym elementem poprawy wyników wykazanych w eDiffi. Przeciętny proces rozpowszechniania ukrytego koncentruje się na powiązaniu między wyszkolonymi obrazami a podpisami, które im towarzyszyły, gdy zostały zeskrobane z Internetu (lub później ręcznie skorygowane, chociaż jest to kosztowna i dlatego rzadka interwencja).

Z artykułu z lipca 2020 r. dla T5 – transformacje tekstowe, które mogą wspomóc przepływ pracy z obrazem generatywnym w eDiffi (i potencjalnie w innych modelach dyfuzji ukrytej). Źródło: https://arxiv.org/pdf/1910.10683.pdf

Z artykułu z lipca 2020 r. dla T5 – transformacje tekstowe, które mogą wspomóc przepływ pracy z obrazem generatywnym w eDiffi (i potencjalnie w innych modelach dyfuzji ukrytej). Źródło: https://arxiv.org/pdf/1910.10683.pdf

Przeformułowując tekst źródłowy i uruchamiając moduł T5, można uzyskać dokładniejsze skojarzenia i reprezentacje, niż pierwotnie wprowadzono do modelu, prawie podobnie po fakcie ręczne etykietowanie, z większą szczegółowością i możliwością zastosowania do wymagań żądanego podpowiedzi tekstowej.

Autorzy wyjaśniają:

„W większości istniejących prac nad modelami dyfuzji model odszumiania jest wspólny dla wszystkich poziomów szumu, a dynamikę czasową przedstawia się za pomocą prostego osadzania czasu, który jest dostarczany do modelu odszumiania za pośrednictwem sieci MLP. Twierdzimy, że złożonej dynamiki czasowej dyfuzji odszumiającej nie można skutecznie poznać na podstawie danych przy użyciu wspólnego modelu o ograniczonej wydajności.

„Zamiast tego proponujemy zwiększyć możliwości modelu odszumiania poprzez wprowadzenie zespołu specjalistycznych urządzeń odszumiających; każdy specjalistyczny odszumiacz to model odszumiający wyspecjalizowany dla określonego zakresu [poziomów] hałasu. W ten sposób możemy zwiększyć pojemność modelu bez spowalniania próbkowania, ponieważ złożoność obliczeniowa oceny [przetworzonego elementu] przy każdym poziomie szumu pozostaje taka sama”.

Konceptualny przepływ pracy dla eDiffi.

Konceptualny przepływ pracy dla eDiffi.

Istnięjące CLIP moduły kodujące zawarte w DALL-E 2 i Stable Diffusion są również w stanie znaleźć alternatywne interpretacje obrazu dla tekstu związanego z danymi wprowadzanymi przez użytkownika. Jednakże są one szkolone w oparciu o informacje podobne do modelu oryginalnego i nie są wykorzystywane jako osobna warstwa interpretacyjna w taki sposób, w jaki T5 jest w eDiffi.

Autorzy twierdzą, że eDiffi to pierwszy przypadek, w którym zarówno koder T5, jak i koder CLIP zostały włączone w jeden potok:

„Ponieważ te dwa kodery są szkolone w zakresie różnych celów, ich osadzenie sprzyja tworzeniu różnych obrazów z tym samym tekstem wejściowym. Chociaż osadzanie tekstu CLIP pomaga określić globalny wygląd wygenerowanych obrazów, w wynikach zwykle brakuje drobnych szczegółów tekstu.

„Z kolei obrazy wygenerowane przy użyciu samego tekstu T5 lepiej odzwierciedlają poszczególne obiekty opisane w tekście, ale ich globalny wygląd jest mniej dokładny. Łączne wykorzystanie ich daje w naszym modelu najlepsze wyniki w zakresie generowania obrazu.

Przerywanie i wzmacnianie procesu dyfuzji

W artykule zauważono, że typowy model dyfuzji ukrytej rozpocznie podróż od czystego szumu do obrazu, opierając się wyłącznie na tekście na wczesnych etapach generowania.

Kiedy szum przekształca się w jakiś przybliżony układ przedstawiający opis w podpowiedzi tekstowej, aspekt procesu sterowany tekstem zasadniczo zanika, a pozostała część procesu przesuwa się w stronę udoskonalania cech wizualnych.

Oznacza to, że każdy element, który nie został rozwiązany na początkowym etapie interpretacji szumu sterowanego tekstem, jest trudny do późniejszego wstrzyknięcia do obrazu, ponieważ oba procesy (przetwarzanie tekstu na układ i układ na obraz) stosunkowo w niewielkim stopniu nakładają się na siebie , a podstawowy układ jest dość skomplikowany, zanim dojdzie do procesu powiększania obrazu.

Z artykułu: mapy uwagi różnych odcinków rurociągu w miarę dojrzewania procesu szum>obraz. Widzimy gwałtowny spadek wpływu CLIP obrazu w dolnym rzędzie, podczas gdy T5 nadal wpływa na obraz znacznie dalej w procesie renderowania.

Z artykułu: mapy uwagi różnych odcinków rurociągu w miarę dojrzewania procesu szum>obraz. Widzimy gwałtowny spadek wpływu CLIP obrazu w dolnym rzędzie, podczas gdy T5 nadal wpływa na obraz znacznie dalej w procesie renderowania.

Potencjał zawodowy

Przykłady na stronie projektu i w serwisie YouTube skupiają się na przyjaznym PR generowaniu uroczych obrazków przypominających memy. Jak zwykle badania firmy NVIDIA bagatelizują potencjał jej najnowszej innowacji w zakresie poprawy fotorealistycznych lub efektów wizualnych procesów roboczych, a także jej potencjał w zakresie ulepszania obrazów i filmów typu deepfake.

W przykładach początkujący lub amator zapisuje z grubsza zarys rozmieszczenia konkretnego elementu, podczas gdy w bardziej systematycznym przepływie pracy z efektami wizualnymi możliwe byłoby użycie eDiffi do interpretacji wielu klatek elementu wideo za pomocą zamiany tekstu na obraz, przy czym kontury są bardzo precyzyjne i bazują np. na figurach, w których tło zostało usunięte za pomocą zielonego ekranu lub metod algorytmicznych.

Runway ML zapewnia już rotoskopię opartą na sztucznej inteligencji. W tym przykładzie „zielony ekran” wokół obiektu reprezentuje warstwę alfa, podczas gdy ekstrakcji dokonano za pomocą uczenia maszynowego, a nie algorytmicznego usuwania rzeczywistego tła zielonego ekranu. Źródło: https://twitter.com/runwayml/status/1330978385028374529

Runway ML zapewnia już rotoskopię opartą na sztucznej inteligencji. W tym przykładzie „zielony ekran” wokół obiektu reprezentuje warstwę alfa, podczas gdy ekstrakcji dokonano za pomocą uczenia maszynowego, a nie algorytmicznego usuwania tła zielonego ekranu ze świata rzeczywistego. Źródło: https://twitter.com/runwayml/status/1330978385028374529

Korzystanie z przeszkolonego Wymarzona budka znaku i potoku obrazu do obrazu za pomocą eDiffi, potencjalnie możliwe jest rozpoczęcie eliminowania jednego z błędów każdy model dyfuzji utajonej: stabilność czasowa. W takim przypadku zarówno marginesy nałożonego obrazu, jak i treść obrazu zostaną „wstępnie naniesione” na płótno użytkownika, z czasową ciągłością renderowanej treści (tj. zamiana prawdziwego ćwiczącego Tai Chi w robota ) zapewnione poprzez użycie zablokowanego modelu DreamBooth, który „zapamiętał” swoje dane treningowe – niekorzystne dla interpretacji, świetne dla odtwarzalności, wierności i ciągłości.

Metoda, dane i testy

W artykule stwierdzono, że model eDiffi został przeszkolony na „zbiorze publicznych i zastrzeżonych zbiorów danych”, poddanym intensywnej filtracji przez wstępnie wytrenowany model CLIP, w celu usunięcia obrazów, które mogą obniżyć ogólną ocenę estetyczną wyniku. Ostateczny zestaw przefiltrowanych obrazów składa się z „około miliarda” par tekst-obraz. Rozmiar wytrenowanych obrazów opisano jako „najkrótszy bok większy niż 64 piksele”.

Na potrzeby tego procesu przeszkolono wiele modeli, w tym zarówno modele podstawowe, jak i modele o super rozdzielczości Adam W optymalizatora z szybkością uczenia się 0.0001, spadkiem masy wynoszącym 0.01 i przy ogromnej wielkości partii wynoszącej 2048.

Podstawowy model był trenowany na 256 procesorach graficznych NVIDIA A100, a dwa modele o super rozdzielczości na 128 procesorach NVIDIA A100 GPU dla każdego modelu.

System powstał na bazie autorskiego rozwiązania NVIDII Wyimaginowany Biblioteka PyTorch. Orzech kokosowy i zestawy danych Visual Genome wykorzystano do oceny, choć nie uwzględniono ich w ostatecznych modelach MS-COCO konkretny wariant używany do testów. Przetestowano konkurencyjne systemy POŚLIZG, Robić scenę, DALL-E2, Stabilna dyfuzjaoraz dwa systemy syntezy obrazu Google, Obraz i Części.

Zgodnie z podobnym wcześniejszy praca, zerowy strzał FID-30K została wykorzystana jako miernik oceny. W ramach FID-30K ze zbioru walidacyjnego COCO wyodrębnia się losowo 30,000 XNUMX podpisów (tj. nie obrazów ani tekstu używanych w szkoleniu), które następnie wykorzystuje się jako podpowiedzi tekstowe do syntezy obrazów.

Odległość początkowa Frecheta (FID) pomiędzy wygenerowanymi i podstawowymi obrazami, a także zarejestrowano wynik CLIP dla wygenerowanych obrazów.

Wyniki testów FID typu zero-shot w porównaniu z obecnymi, najnowocześniejszymi podejściami w zestawie danych walidacyjnych COCO 2014, przy czym niższe wyniki są lepsze.

Wyniki testów FID typu zero-shot w porównaniu z obecnymi, najnowocześniejszymi podejściami w zestawie danych walidacyjnych COCO 2014, przy czym niższe wyniki są lepsze.

W wynikach firma eDiffi była w stanie uzyskać najniższy (najlepszy) wynik w teście FID typu zero-shot nawet w porównaniu z systemami o znacznie większej liczbie parametrów, takimi jak 20 miliardów parametrów Parti, w porównaniu z 9.1 miliardami parametrów w najwyższych określony model eDiffi przeszkolony do testów.

Wnioski

Rozwiązanie eDiffi firmy NVIDIA stanowi pożądaną alternatywę dla prostego dodawania coraz większej ilości danych i złożoności do istniejących systemów, zamiast tego wykorzystuje bardziej inteligentne i warstwowe podejście do niektórych z najtrudniejszych przeszkód związanych ze splątaniem i brakiem możliwości edycji w systemach obrazu generatywnego z utajoną dyfuzją.

Na subredditach Stable Diffusion i na Discordzie toczy się już dyskusja na temat bezpośredniego włączenia dowolnego kodu, który może zostać udostępniony dla eDiffi, lub ponownego przedstawienia zasad leżących za nim w osobnej implementacji. Nowy rurociąg jest jednak tak radykalnie inny, że stanowiłby cały numer wersji zmiany dla SD, odrzucając pewną kompatybilność wsteczną, oferując jednocześnie możliwość znacznie lepszego poziomu kontroli nad ostatecznie zsyntetyzowanymi obrazami, bez poświęcania urzekającej jakości wyobraźniowe siły ukrytego rozpowszechniania.

 

Opublikowano po raz pierwszy 3 listopada 2022 r.