Sztuczna inteligencja

HD-Painter: Wysokozdjęciowy, tekstowo-naprowadzany retusz obrazu z modelem dyfuzji

mm
HD-Painter : High Resolution Text-Guided Image Inpainting with Diffusion Models

Modele dyfuzji zdecydowanie rewolucjonizują branżę AI i ML, a ich aplikacje w czasie rzeczywistym stają się integralną częścią naszego codziennego życia. Po tym, jak modele tekst-obraz pokazały swoje niezwykłe możliwości, techniki manipulacji obrazem oparte na dyfuzji, takie jak kontrolowana generacja, specjalistyczna i personalizowana synteza obrazu, edycja na poziomie obiektu, wariancje i edycja warunkowa, stały się gorącymi tematami badawczymi ze względu na ich zastosowanie w branży komputerowego widzenia.

Jednak pomimo ich imponujących możliwości i wyjątkowych wyników, ramy tekst-obraz, a w szczególności ramy tekst-obraz retusz, nadal mają potencjalne obszary do rozwoju. Obejmują one możliwość zrozumienia globalnych scen, zwłaszcza podczas redukcji szumu w wysokich krokach dyfuzji. Aby rozwiązać ten problem, badacze wprowadzili HD-Painter, całkowicie wolny od szkolenia framework, który dokładnie wykonuje instrukcje podpowiedzi i skaluje do wysokozdjęciowego retuszu obrazu w sposób spójny. Framework HD-Painter wykorzystuje warstwę Prompt Aware Introverted Attention (PAIntA), która wykorzystuje informacje z podpowiedzi do poprawy wyników generacji wyrównania tekstu.

Aby dalej poprawić spójność podpowiedzi, model HD-Painter wprowadza podejście Reweighting Attention Score Guidance (RASG). Podejście to integruje strategię próbkowania post-hoc w ogólny kształt składnika DDIM, co pozwala uniknąć przesunięć latentnych poza zakresem dystrybucji. Dodatkowo, framework HD-Painter posiada specjalistyczną technikę super-rozrostu dostosowaną do retuszu, co pozwala mu rozszerzyć się do większych skal i uzupełnić brakujące obszary w obrazie z rozdzielczością do 2K.

HD-Painter: Retusz obrazu naprowadzany tekstem

Modele dyfuzji tekst-obraz zostały znaczącym tematem w branży AI i ML w ostatnich miesiącach, z modelami demonstrującymi imponujące możliwości w czasie rzeczywistym w różnych praktycznych aplikacjach. Wstępnie wytrenowane modele generacji obrazu tekst-obraz, takie jak DALL-E, Imagen i Stable Diffusion, wykazały swoją przydatność w uzupełnianiu obrazu przez łączenie oczyszczonych (wygenerowanych) nieznanych obszarów z rozmytymi znanymi obszarami podczas procesu dyfuzji wstecznej. Pomimo generowania wizualnie atrakcyjnych i harmonijnych wyników, istniejące modele mają trudności z zrozumieniem globalnej sceny, zwłaszcza w procesie redukcji szumu w wysokich krokach dyfuzji. Poprzez modyfikację wstępnie wytrenowanych modeli dyfuzji tekst-obraz, aby uwzględnić dodatkowe informacje kontekstowe, można je dostosować do retuszu obrazu naprowadzanego tekstem.

Co więcej, w ramach modeli dyfuzji, retusz obrazu naprowadzany tekstem i uzupełnianie obrazu naprowadzane tekstem są głównymi obszarami zainteresowania badaczy. Zainteresowanie to wynika z faktu, że modele retuszu obrazu naprowadzanego tekstem mogą generować treści w określonych obszarach obrazu wejściowego na podstawie podpowiedzi tekstowych, co prowadzi do potencjalnych aplikacji, takich jak retusz określonych obszarów obrazu, modyfikacja atrybutów obiektów, takich jak kolory lub ubrania, oraz dodawanie lub zastępowanie obiektów. Podsumowując, modele dyfuzji tekst-obraz osiągnęły niedawno bezprecedensowy sukces ze względu na ich wyjątkowo realistyczne i wizualnie atrakcyjne możliwości generacji.

Jednak większość istniejących ram demonstruje zaniedbanie podpowiedzi w dwóch scenariuszach. Pierwszym jest dominacja tła, kiedy model uzupełnia nieznany obszar, ignorując podpowiedź na tle, podczas gdy drugim scenariuszem jest dominacja obiektu w pobliżu, kiedy model propaguje znane obiekty z obszaru znanego do nieznanego, używając prawdopodobieństwa kontekstu wizualnego zamiast wejściowej podpowiedzi. Jest możliwe, że oba te problemy mogą być wynikiem faktu, że warstwy self-attention są tylko przestrzenne i pozbawione podpowiedzi.

Aby rozwiązać te problemy, framework HD-Painter wprowadza warstwę Prompt Aware Introverted Attention (PAIntA), która wykorzystuje informacje z podpowiedzi do poprawy wyników self-attention, co skutkuje lepszym wyrównaniem tekstu. PAIntA wykorzystuje dane wejściowe warunkowe do poprawy wyników self-attention, z celem zmniejszenia wpływu nieistotnych informacji z obszaru obrazu na wynik, jednocześnie zwiększając wkład znanych pikseli wyrównanych z podpowiedzią. Aby dalej poprawić wyrównanie tekstu, framework HD-Painter implementuje metodę post-hoc guidance, która wykorzystuje wyniki cross-attention. Jednak implementacja metody post-hoc guidance może spowodować przesunięcia latentne, co skutkuje degradacją jakości wygenerowanego obrazu. Aby rozwiązać ten problem, framework HD-Painter implementuje mechanizm Reweighting Attention Score Guidance (RASG), który wprowadza mechanizm reweighting gradientu, co skutkuje zachowaniem domeny latentnej.

Wdrożenie obu komponentów RASH i PAIntA w architekturze frameworku HD-Painter daje mu znaczącą przewagę nad istniejącymi, w tym najnowocześniejszymi, modelami retuszu i dyfuzji tekst-obraz, ponieważ rozwiązuje istniejący problem zaniedbania podpowiedzi. Co więcej, oba komponenty RASH i PAIntA oferują funkcjonalność plug and play, co pozwala im być kompatybilnymi z modelami dyfuzji retuszu, aby rozwiązać wymienione wyzwania. Wdrożenie technologii blendowania czasowego i wykorzystanie możliwości modeli dyfuzji wysokozdjęciowych pozwala pipeline HD-Painter działać efektywnie dla retuszu do rozdzielczości 2K.

Podsumowując, HD-Painter ma na celu wniesienie następujących wkładów w dziedzinie:

  1. Ma na celu rozwiązanie problemu zaniedbania podpowiedzi tła i dominacji obiektu w pobliżu, doświadczanego przez ramy retuszu obrazu naprowadzanego tekstem, poprzez implementację warstwy Prompt Aware Introverted Attention (PAIntA) w swojej architekturze.
  2. Ma na celu poprawę wyrównania tekstu wyników poprzez implementację warstwy Reweighting Attention Score Guidance (RASG) w swojej architekturze, co umożliwia frameworkowi HD-Painter wykonywanie próbkowania post-hoc z zachowaniem domeny latentnej.
  3. Ma na celu zaprojektowanie skutecznego, wolnego od szkolenia pipeline’u retuszu obrazu naprowadzanego tekstem, który może przewyższyć istniejące ramy najnowocześniejsze, oraz wykorzystanie prostej, ale skutecznej techniki super-rozrostu dostosowanej do retuszu, aby wykonywać retusz obrazu naprowadzany tekstem do rozdzielczości 2K.

HD-Painter: Metoda i Architektura

Zanim przyjrzymy się architekturze, istotne jest zrozumienie trzech podstawowych pojęć, które tworzą fundament frameworku HD-Painter: Retusz Obrazu, Post-Hoc Guidance w Ramach Dyfuzji oraz Bloki Architektoniczne Specyficzne dla Retuszu.

Retusz obrazu jest podejściem, które ma na celu wypełnienie brakujących obszarów w obrazie, zapewniając jednocześnie wizualną atrakcyjność wygenerowanego obrazu. Tradycyjne ramy głębokiego uczenia się implementowały metody, które wykorzystywały znane obszary do propagowania głębokich cech. Jednak wprowadzenie modeli dyfuzji spowodowało ewolucję modeli retuszu, zwłaszcza ram retuszu obrazu naprowadzanego tekstem. Tradycyjnie, wstępnie wytrenowany model dyfuzji tekst-obraz zastępuje niezamaskowany obszar latentu za pomocą szumu znanych obszarów podczas procesu próbkowania. Chociaż to podejście działa do pewnego stopnia, znacząco obniża jakość wygenerowanego obrazu, ponieważ sieć redukcji szumu widzi tylko szumy znane obszary. Aby rozwiązać ten problem, kilka podejść miało na celu dostosowanie wstępnie wytrenowanego modelu dyfuzji tekst-obraz do osiągnięcia retuszu obrazu naprowadzanego tekstem. Poprzez implementację tego podejścia, framework jest w stanie generować losowy maskę za pomocą konkatencji, ponieważ model może warunkować sieć redukcji szumu na niezamaskowanym obszarze.

Przechodząc dalej, tradycyjne modele głębokiego uczenia się implementowały specjalne warstwy projektowe dla efektywnego retuszu, z niektórymi ramami, które mogły skutecznie wyodrębnić informacje i wygenerować wizualnie atrakcyjne obrazy, wprowadzając specjalne warstwy konwolucyjne do radzenia sobie z znanymi obszarami obrazu. Niektóre ramy nawet dodały warstwę uwagi kontekstowej do swojej architektury, aby zmniejszyć niepożądane, ciężkie wymagania obliczeniowe wszystkich do wszystkich self-attention dla wysokiej jakości retuszu.

Wreszcie, metody post-hoc guidance są metodami próbkowania dyfuzji wstecznej, które kierują następną predykcją latentu w kierunku określonego celu minimalizacji. Metody post-hoc guidance są bardzo pomocne, zwłaszcza w generowaniu treści wizualnych, zwłaszcza w obecności dodatkowych ograniczeń. Jednak metody post-hoc guidance mają znaczącą wadę: mogą powodować degradację jakości obrazu, ponieważ tendencja do przesunięcia procesu generacji latentu przez gradient.

Przechodząc do architektury HD-Painter, framework najpierw formułuje problem retuszu obrazu naprowadzanego tekstem, a następnie wprowadza dwa modele dyfuzji, a mianowicie Stable Inpainting i Stable Diffusion. Następnie framework HD-Painter wprowadza bloki PAIntA i RASG, a na końcu mamy technikę super-rozrostu specyficzną dla retuszu.

Stable Diffusion i Stable Inpainting

Stable Diffusion jest modelem dyfuzji, który działa w przestrzeni latentnej autoenkodera. Dla syntezy tekst-obraz, framework Stable Diffusion implementuje podpowiedź tekstową, aby naprowadzić proces. Funkcja naprowadzająca ma strukturę podobną do architektury UNet, a warstwy cross-attention są warunkowane podpowiedziami tekstowymi. Co więcej, model Stable Diffusion może wykonywać retusz obrazu z pewnymi modyfikacjami i dostosowaniami. Aby to osiągnąć, cechy obrazu zamaskowanego wygenerowanego przez enkoder są łączone z pomniejszoną maską binarną do latentów. Wynikowy tensor jest następnie wprowadzany do architektury UNet, aby uzyskać oszacowany szum. Następnie framework inicjuje nowo dodane filtry konwolucyjne zerami, podczas gdy reszta architektury UNet jest inicjowana za pomocą wstępnie wytrenowanych punktów kontrolnych z modelu Stable Diffusion.

Powyższy rysunek pokazuje przegląd frameworku HD-Painter, składający się z dwóch etapów. W pierwszym etapie framework HD-Painter implementuje retusz obrazu naprowadzany tekstem, podczas gdy w drugim etapie model uzupełnia określoną super-rozrost obrazu. Aby wypełnić brakujące obszary i pozostać spójnym z wejściową podpowiedzią, model wykorzystuje wstępnie wytrenowany model dyfuzji retuszu, zastępuje warstwy self-attention warstwami PAIntA i implementuje mechanizm RASG, aby wykonać proces dyfuzji wstecznej. Następnie model dekoduje ostateczny oszacowany latent, co skutkuje wygenerowanym obrazem. HD-Painter implementuje następnie model super-stable dyfuzji, aby uzupełnić oryginalny rozmiar obrazu, i implementuje proces dyfuzji wstecznej frameworku Stable Diffusion, warunkowany na wejściowym obrazie o niskiej rozdzielczości. Model łączy przewidywania oczyszczone z oryginalnym zakodowanym obrazem w każdym kroku w znanych obszarach i wyznacza następny latent. Na końcu model dekoduje latent i implementuje blendowanie Poissona, aby uniknąć artefaktów krawędzi.

Prompt Aware Introverted Attention (PAIntA)

Istniejące modele retuszu, takie jak Stable Inpainting, tendencję mają do polegania bardziej na kontekście wizualnym wokół obszaru retuszu i ignorowania wejściowych podpowiedzi. Na podstawie doświadczenia użytkownika, ten problem można sklasyfikować na dwa rodzaje: dominację obiektu w pobliżu i dominację tła. Problem dominacji kontekstu wizualnego nad podpowiedziami może być wynikiem tylko przestrzennej i pozbawionej podpowiedzi natury warstw self-attention. Aby rozwiązać ten problem, framework HD-Painter wprowadza warstwę Prompt Aware Introverted Attention (PAIntA), która wykorzystuje macierze cross-attention i maskę retuszu, aby kontrolować wynik warstw self-attention w nieznanym obszarze.

Komponent Prompt Aware Introverted Attention najpierw stosuje warstwy projekcyjne, aby uzyskać klucz, wartości i macierz podobieństwa. Następnie model dostosowuje wynik self-attention znanych pikseli, aby złagodzić silny wpływ znanych obszarów na nieznane, i definiuje nową macierz podobieństwa, wykorzystując podpowiedź tekstową.

Reweighting Attention Score Guidance (RASG)

Framework HD-Painter przyjmuje podejście post-hoc sampling guidance, aby dalej poprawić wyrównanie generacji z podpowiedziami. Wraz z funkcją celu, podejście post-hoc sampling guidance ma na celu wykorzystać otwarte właściwości segmentacji warstw cross-attention. Jednak podejście vanilla post-hoc guidance ma potencjał, aby przesunąć domenę latentu dyfuzji, co może spowodować degradację jakości wygenerowanego obrazu. Aby rozwiązać ten problem, framework HD-Painter implementuje mechanizm Reweighting Attention Score Guidance (RASG), który wprowadza mechanizm reweighting gradientu, co skutkuje zachowaniem domeny latentnej.

HD-Painter: Eksperymenty i Wyniki

Aby przeanalizować jego wydajność, framework HD-Painter jest porównywany z aktualnymi modelami najnowocześniejszymi, w tym Stable Inpainting, GLIDE i BLD lub Blended Latent Diffusion, na 10000 losowych próbach, gdzie podpowiedź jest wybrana jako etykieta wybranej maski instancji.

Jak można zobaczyć, framework HD-Painter przewyższa istniejące ramy w trzech różnych metrykach o znaczną różnicę, zwłaszcza poprawę o 1,5 punktu w metryce CLIP i różnicę w wygenerowanej dokładności o około 10% w porównaniu z innymi modelami najnowocześniejszymi.

Przechodząc dalej, poniższy rysunek pokazuje porównanie jakościowe frameworku HD-Painter z innymi modelami retuszu. Jak można zobaczyć, inne modele bazowe albo odtwarzają brakujące obszary w obrazie jako kontynuację znanych obszarów, ignorując podpowiedzi, albo generują tło. Z drugiej strony, framework HD-Painter jest w stanie wygenerować docelowe obiekty pomyślnie, dzięki implementacji komponentów PAIntA i RASG w swojej architekturze.

Podsumowanie

W tym artykule omówiliśmy HD-Painter, wolny od szkolenia, wysokozdjęciowy retusz obrazu naprowadzany tekstem, który rozwiązuje wyzwania doświadczane przez istniejące ramy retuszu, w tym zaniedbanie podpowiedzi i dominację obiektu w pobliżu. Framework HD-Painter implementuje warstwę Prompt Aware Introverted Attention (PAIntA), która wykorzystuje informacje z podpowiedzi, aby poprawić wyniki self-attention, co skutkuje lepszym wyrównaniem tekstu.

Aby dalej poprawić spójność podpowiedzi, model HD-Painter wprowadza podejście Reweighting Attention Score Guidance (RASG), które integruje strategię próbkowania post-hoc w ogólny kształt składnika DDIM, co pozwala uniknąć przesunięć latentnych poza zakresem dystrybucji. Co więcej, framework HD-Painter wprowadza specjalistyczną technikę super-rozrostu dostosowaną do retuszu, co pozwala mu rozszerzyć się do większych skal i uzupełnić brakujące obszary w obrazie z rozdzielczością do 2K.

"Inżynier z zawodu, pisarz z serca". Kunal jest technicznym pisarzem z głęboką miłością i zrozumieniem AI i ML, poświęconym uproszczeniu złożonych pojęć w tych dziedzinach poprzez swoje angażujące i informacyjne dokumentacje.