Kontakt z nami

Artificial Intelligence

Prowadzenie edycji obrazu opartej na instrukcjach za pomocą wielomodalnych modeli wielojęzycznych

mm

Opublikowany

 on

PROWADZENIE EDYCJI OBRAZU OPARTEJ NA INSTRUKCJACH ZA POMOCĄ MULTIMODALNYCH DUŻO JĘZYKOWYCH MODELI

Narzędzia do projektowania wizualnego i modele języka wizji mają szerokie zastosowanie w branży multimedialnej. Pomimo znacznego postępu, jaki nastąpił w ostatnich latach, do ich działania nadal niezbędna jest solidna znajomość tych narzędzi. Aby zwiększyć dostępność i kontrolę, branża multimediów coraz częściej stosuje techniki edycji obrazu oparte na tekście lub instrukcjach. Techniki te wykorzystują polecenia w języku naturalnym zamiast tradycyjnych masek regionalnych lub rozbudowanych opisów, co pozwala na bardziej elastyczną i kontrolowaną manipulację obrazem. Jednakże metody oparte na instrukcjach często dostarczają krótkich wskazówek, których pełne uchwycenie i wykonanie może stanowić wyzwanie dla istniejących modeli. Ponadto modele dyfuzyjne, znane ze swojej zdolności do tworzenia realistycznych obrazów, cieszą się dużym zainteresowaniem w sektorze edycji obrazów.

Co więcej, Multimodalne modele wielkojęzykowe (MLLM) wykazały imponującą wydajność w zadaniach obejmujących generowanie odpowiedzi ze świadomością wzrokową i zrozumienie międzymodalne. MLLM Guided Image Editing (MGIE) to badanie inspirowane MLLM, które ocenia ich możliwości i analizuje, w jaki sposób wspierają edycję za pomocą tekstu lub instrukcji z przewodnikiem. Podejście to obejmuje naukę udzielania wyraźnych wskazówek i uzyskiwania wyraźnych instrukcji. Model edycji MGIE obejmuje informacje wizualne i wprowadza zmiany w drodze kompleksowego szkolenia. W tym artykule zagłębimy się w MGIE, oceniając jego wpływ na globalną optymalizację obrazu, modyfikacje w stylu Photoshopa i lokalną edycję. Omówimy także znaczenie MGIE w zadaniach edycji obrazu opartych na instrukcjach, które opierają się na instrukcjach ekspresyjnych. Zacznijmy naszą eksplorację.

Edycja obrazu z przewodnikiem MLLM lub MGIE: wprowadzenie

Multimodalne modele wielkojęzykowe i modele dyfuzji to dwa z najczęściej używanych obecnie frameworków AI i ML ze względu na ich niezwykłe możliwości generacyjne. Z jednej strony masz modele dyfuzyjne, najbardziej znane z tworzenia wysoce realistycznych i atrakcyjnych wizualnie obrazów, z drugiej strony masz wielomodalne modele wielkojęzykowe, znane ze swojej wyjątkowej wydajności w generowaniu szerokiej gamy treści, w tym tekstu, języka, mowy i obrazów/wideo. 

Modele dyfuzyjne zamieniają ukryte mapy międzymodalne, aby przeprowadzić manipulację wizualną, która odzwierciedla zmianę podpisu celu wejściowego, a także mogą używać maski z przewodnikiem do edycji określonego obszaru obrazu. Jednak głównym powodem, dla którego modele Diffusion są szeroko stosowane w aplikacjach multimedialnych, jest to, że zamiast polegać na skomplikowanych opisach lub maskach regionalnych, modele Diffusion wykorzystują podejście do edycji oparte na instrukcjach, które pozwala użytkownikom wyrazić, jak bezpośrednio edytować obraz za pomocą instrukcji tekstowych lub poleceń . Idąc dalej, modeli wielkojęzykowych nie trzeba przedstawiać, ponieważ wykazały one znaczny postęp w szeregu różnorodnych zadań językowych, w tym podsumowywaniu tekstu, tłumaczeniu maszynowym, generowaniu tekstu i odpowiadaniu na pytania. Osoby LLM są zwykle szkolone w oparciu o dużą i zróżnicowaną ilość danych szkoleniowych, które wyposażają ich w wizualną kreatywność i wiedzę, umożliwiając im również wykonywanie kilku zadań związanych z językiem wizyjnym. Opierając się na LLM, MLLM lub multimodalnych modelach wielkojęzykowych, można wykorzystywać obrazy jako naturalne dane wejściowe i zapewniać odpowiednie, świadome wizualnie reakcje. 

Mając to na uwadze, chociaż modele dyfuzji i struktury MLLM są szeroko stosowane do zadań edycji obrazów, istnieją pewne problemy z instrukcjami tekstowymi, które utrudniają ogólną wydajność, co skutkuje rozwojem MGIE lub MLLM Guided Image Editing, narzędzia opartego na sztucznej inteligencji ramy składające się z modelu dyfuzji i modelu MLLM, jak pokazano na poniższym obrazku. 

W architekturze MGIE model dyfuzji jest kompleksowo szkolony w zakresie edycji obrazu z ukrytą wyobraźnią zamierzonego celu, podczas gdy struktura MLLM uczy się przewidywać precyzyjne instrukcje ekspresyjne. Łącznie model dyfuzji i struktura MLLM wykorzystują nieodłączną derywację wizualną, umożliwiając radzenie sobie z niejednoznacznymi poleceniami ludzkimi, co skutkuje realistyczną edycją obrazów, jak pokazano na poniższym obrazku. 

Ramy MGIE czerpią dużą inspirację z dwóch istniejących podejść: Edycja obrazu oparta na instrukcjach i modele Vision Large Language

Edycja obrazu oparta na instrukcjach może znacznie poprawić dostępność i sterowność manipulacji wizualnych poprzez przestrzeganie ludzkich poleceń. Istnieją dwie główne platformy wykorzystywane do edycji obrazów w oparciu o instrukcje: struktury GAN i modele dyfuzji. GAN lub generatywne sieci kontradyktoryjne są w stanie zmieniać obrazy, ale albo są ograniczone do określonych dziedzin, albo dają nierealistyczne rezultaty. Z drugiej strony modele dyfuzji ze szkoleniem na dużą skalę mogą kontrolować międzymodalne mapy uwagi dla map globalnych, aby umożliwić edycję i transformację obrazu. Edycja oparta na instrukcjach polega na otrzymywaniu prostych poleceń jako danych wejściowych, często nie ograniczających się do masek regionalnych i rozbudowanych opisów. Istnieje jednak prawdopodobieństwo, że podane instrukcje są albo niejednoznaczne, albo niewystarczająco precyzyjne, aby można było zastosować się do instrukcji dotyczących zadań edycyjnych. 

Modele Vision Large Language są znane ze swoich możliwości generowania i uogólniania tekstu w różnych zadaniach, często charakteryzują się solidnym zrozumieniem tekstu i mogą dalej tworzyć programy wykonywalne lub pseudokod. Ta zdolność dużych modeli językowych umożliwia MLLM postrzeganie obrazów i zapewnianie odpowiednich odpowiedzi przy użyciu dopasowywania cech wizualnych z dostrajaniem instrukcji, przy czym najnowsze modele wykorzystują MLLM do generowania obrazów związanych z czatem lub tekstem wejściowym. Jednak tym, co odróżnia MGIE od MLLM i VLLM, jest fakt, że chociaż te ostatnie mogą od zera generować obrazy różniące się od danych wejściowych, MGIE wykorzystuje możliwości MLLM w celu zwiększenia możliwości edycji obrazu za pomocą wyprowadzonych instrukcji. 

MGIE: Architektura i metodologia

Tradycyjnie do zadań generatywnych przetwarzania języka naturalnego używano dużych modeli językowych. Jednak odkąd metody MLLM weszły do ​​głównego nurtu, zyskały możliwość udzielania rozsądnych odpowiedzi poprzez postrzeganie wejściowych obrazów. Konwencjonalnie wielomodalny model dużego języka jest inicjowany ze wstępnie wyszkolonego LLM i zawiera koder wizualny i adapter do wyodrębniania cech wizualnych i rzutowania cech wizualnych odpowiednio na modalność językową. Dzięki temu struktura MLLM jest w stanie postrzegać dane wejściowe wizualne, chociaż dane wyjściowe są nadal ograniczone do tekstu. 

Proponowana struktura MGIE ma na celu rozwiązanie tego problemu i ułatwienie MLLM edycji obrazu wejściowego na obraz wyjściowy na podstawie danej instrukcji tekstowej. Aby to osiągnąć, struktura MGIE zawiera MLLM i pociągi do wyprowadzania zwięzłych i jednoznacznych, wyrazistych instrukcji tekstowych. Co więcej, framework MGIE dodaje do swojej architektury specjalne tokeny obrazu, aby wypełnić lukę między modalnością widzenia i języka, a także przyjmuje moduł edycyjny do transformacji modalności. Te modalności służą jako ukryta wyobraźnia wizualna z wielomodalnego modelu dużego języka i kierują modelem dyfuzji w celu osiągnięcia zadań edycyjnych. Struktura MGIE jest wówczas w stanie wykonywać zadania związane z percepcją wzrokową w celu rozsądnej edycji obrazu. 

Zwięzła i wyrazista instrukcja

Tradycyjnie wielomodalne modele wielkojęzykowe mogą oferować odpowiedzi wizualne dzięki percepcji międzymodalnej dzięki dostrajaniu instrukcji i dopasowaniu funkcji. Aby edytować obrazy, środowisko MGIE wykorzystuje podpowiedź tekstową jako podstawowy język wejściowy obrazu i generuje szczegółowe wyjaśnienie polecenia edycji. Jednakże wyjaśnienia te mogą często być zbyt długie lub obejmować powtarzające się opisy, co skutkuje błędną interpretacją intencji, co zmusza MGIE do zastosowania wstępnie wyszkolonego podsumowania w celu uzyskania zwięzłych narracji, umożliwiając MLLM wygenerowanie podsumowanych wyników. Struktura traktuje zwięzłe, ale wyraźne wytyczne jako ekspresyjną instrukcję i stosuje utratę entropii krzyżowej do szkolenia multimodalnego modelu dużego języka przy użyciu egzekwowania przez nauczyciela.

Korzystanie z instrukcji ekspresyjnych zapewnia bardziej konkretny pomysł w porównaniu z instrukcjami tekstowymi, ponieważ wypełnia lukę w rozsądnej edycji obrazu, dodatkowo zwiększając wydajność platformy. Co więcej, ramy MGIE w okresie wnioskowania wyprowadzają zwięzłe, ekspresyjne instrukcje zamiast tworzyć długie narracje i polegać na zewnętrznych podsumowaniach. Dzięki temu framework MGIE jest w stanie uchwycić wizualną wyobraźnię intencji redakcyjnych, ale nadal jest ograniczony do modalności językowej. Aby pokonać tę przeszkodę, model MGIE dołącza pewną liczbę znaczników wizualnych po instrukcji ekspresyjnej z osadzaniem słów, które można wytrenować, umożliwiając MLLM wygenerowanie ich za pomocą głowy LM lub modelu języka. 

Edycja obrazu z ukrytą wyobraźnią

W następnym kroku framework MGIE przyjmuje głowicę edycyjną, która przekształca instrukcje obrazowe w rzeczywiste wskazówki wizualne. Głowica edycyjna to model sekwencji do sekwencji, który pomaga w mapowaniu sekwencyjnych tokenów wizualnych z MLLM do znaczącego ukrytego semantycznie jako wskazówki redakcyjne. Mówiąc ściślej, transformację osadzania słów można interpretować jako ogólną reprezentację w modalności wizualnej i wykorzystuje się komponent wyobraźni wizualnej świadomy instancji do celów edycyjnych. Co więcej, aby kierować edycją obrazu za pomocą wyobraźni wizualnej, platforma MGIE osadza w swojej architekturze model dyfuzji ukrytej, który zawiera wariacyjny autokoder i zajmuje się dyfuzją odszumiającą w przestrzeni utajonej. Podstawowym celem modelu dyfuzji ukrytej jest wygenerowanie ukrytego celu poprzez zachowanie ukrytych danych wejściowych i przestrzeganie wskazówek dotyczących edycji. Proces dyfuzji dodaje szum do ukrytego celu w regularnych odstępach czasu, a poziom hałasu wzrasta z każdym krokiem. 

Nauka MGIE

Poniższy rysunek podsumowuje algorytm procesu uczenia się proponowanej struktury MGIE. 

Jak można zaobserwować, MLLM uczy się wyprowadzać zwięzłe, wyraziste instrukcje, korzystając z utraty instrukcji. Wykorzystując ukrytą wyobraźnię z instrukcji obrazu wejściowego, framework przekształca modalność głowicy edycyjnej i kieruje modelem utajonego dyfuzji w celu syntezy powstałego obrazu, a także stosuje straty edycyjne do treningu dyfuzji. Wreszcie framework zamraża większość wag, co skutkuje efektywnym pod względem parametrów szkoleniem od końca do końca. 

MGIE: Wyniki i ocena

Struktura MGIE wykorzystuje zbiór danych IPr2Pr jako podstawowe dane przedtreningowe i zawiera ponad 1 milion danych filtrowanych za pomocą CLIP z instrukcjami wyodrębnionymi z modelu GPT-3 oraz modelem Prompt-to-Prompt do syntezy obrazów. Co więcej, platforma MGIE traktuje platformę InsPix2Pix zbudowaną na koderze tekstu CLIP z modelem dyfuzji jako podstawę dla zadań edycji obrazu opartych na instrukcjach. Co więcej, model MGIE uwzględnia również model edycji obrazu kierowany przez LLM, przyjęty dla ekspresyjnych instrukcji z danych wejściowych zawierających wyłącznie instrukcje, ale bez percepcji wzrokowej. 

Analiza ilościowa

Poniższy rysunek podsumowuje wyniki edycji przy ustawieniu zerowym, przy czym modele są trenowane tylko na zestawie danych IPr2Pr. W przypadku danych GIER i EVR obejmujących modyfikacje w stylu Photoshopa ekspresyjne instrukcje mogą ujawnić konkretne cele zamiast niejednoznacznych poleceń, dzięki czemu wyniki edycji lepiej odpowiadają intencjom edycyjnym. 

Chociaż zarówno LGIE, jak i MGIE są szkolone na tych samych danych, co model InsPix2Pix, mogą oferować szczegółowe wyjaśnienia poprzez naukę z dużym modelem językowym, ale nadal LGIE ogranicza się do jednej modalności. Co więcej, struktura MGIE może zapewnić znaczny wzrost wydajności, ponieważ ma dostęp do obrazów i może wykorzystywać te obrazy do uzyskiwania jednoznacznych instrukcji. 

Aby ocenić wydajność zadań edycji obrazu opartych na instrukcjach do określonych celów, programiści dostrajają kilka modeli w każdym zestawie danych, jak podsumowano w poniższej tabeli. 

Jak można zaobserwować, po dostosowaniu zadań edycyjnych w stylu Photoshopa do EVR i GIER, modele wykazują wzrost wydajności. Warto jednak zauważyć, że ponieważ dostrajanie sprawia, że ​​instrukcje ekspresyjne są również bardziej specyficzne dla domeny, framework MGIE odnotowuje ogromny wzrost wydajności, ponieważ uczy się również wskazówek związanych z dziedziną, umożliwiając modelowi dyfuzji pokazanie konkretnych edytowanych scen z dopracowany model dużego języka, który przynosi korzyści zarówno lokalnym modyfikacjom, jak i lokalnej optymalizacji. Co więcej, ponieważ wskazówki wizualne są bardziej dostosowane do zamierzonych celów edycyjnych, platforma MGIE zapewnia niezmiennie doskonałe wyniki w porównaniu z LGIE. 

Poniższy rysunek przedstawia wynik CLIP-S dla obrazów wejściowych lub celów podstawowych oraz ekspresyjnych instrukcji. Wyższy wynik CLIP wskazuje na zgodność instrukcji ze źródłem edycji i jak można zaobserwować, MGIE ma wyższy wynik CLIP w porównaniu z modelem LGIE zarówno w przypadku obrazów wejściowych, jak i wyjściowych. 

Wyniki jakościowe

Poniższy obraz doskonale podsumowuje analizę jakościową struktury MGIE. 

Jak wiemy, framework LGIE jest ograniczony do jednej modalności, dzięki czemu ma wgląd w jeden język i jest podatny na wyciąganie błędnych lub nieistotnych wyjaśnień dotyczących edycji obrazu. Jednakże framework MGIE jest multimodalny i dzięki dostępowi do obrazów uzupełnia zadania edycyjne i zapewnia wyraźną wyobraźnię wizualną, która naprawdę dobrze pasuje do celu. 

Final Thoughts

W tym artykule omawialiśmy MGIE lub MLLM Guided Image Editing, badanie inspirowane MLLM, którego celem jest ocena wielomodalnych modeli wielkojęzykowych i przeanalizowanie, w jaki sposób ułatwiają one edycję za pomocą tekstu lub instrukcji z przewodnikiem, jednocześnie ucząc się, jak udzielać wyraźnych wskazówek poprzez wyprowadzanie wyrazistych instrukcji jednocześnie. Model edycji MGIE przechwytuje informacje wizualne i wykonuje edycję lub manipulację za pomocą kompleksowego szkolenia. Zamiast niejednoznacznych i krótkich wskazówek, framework MGIE tworzy wyraźne instrukcje wizualne, które skutkują rozsądną edycją obrazu. 

„Inżynier z zawodu, pisarz z zamiłowania”. Kunal jest pisarzem technicznym, który głęboko kocha i rozumie sztuczną inteligencję i uczenie maszynowe, a którego celem jest upraszczanie złożonych koncepcji w tych dziedzinach poprzez swoją wciągającą i pouczającą dokumentację.