Umělá inteligence

Návodné instrukce založené na obrazové editaci prostřednictvím multimodálních velkých jazykových modelů

Published February 23, 2024

Updated April 4, 2026

Kunal Kejriwal

GUIDING INSTRUCTION-BASED IMAGE EDITING VIA MULTIMODAL LARGE LANGUAGE MODELS

Nástroje vizuálního designu a modely jazyka a vize mají široké uplatnění v multimediálním průmyslu. Navzdory významnému pokroku v posledních letech je stále nezbytné mít pevné pochopení těchto nástrojů pro jejich provoz. Pro zlepšení přístupnosti a kontroly multimediální průmysl stále více přijímá textem řízené nebo instrukce založené na editaci obrazu. Tyto techniky využívají přirozené jazykové příkazy místo tradičních regionálních masek nebo složitých popisů, což umožňuje flexibilnější a kontrolovanější manipulaci s obrazem. Nicméně, instrukce založené metody často poskytují stručné směry, které mohou být pro stávající modely obtížné plně zachytit a provést. Kromě toho, difuzní modely, známé svou schopností vytvářet realistické obrazy, jsou v high demandu v sektoru obrazové editace.

Navíc, Multimodální velké jazykové modely (MLLMs) prokázaly působivý výkon v úkolech zahrnujících vizuálně vědomou odpověď a cross-modální porozumění. MLLM Guided Image Editing (MGIE) je studie inspirovaná MLLMs, která hodnotí jejich schopnosti a analyzuje, jak podporují editaci prostřednictvím textu nebo návodných instrukcí. Tento přístup zahrnuje učení se poskytovat explicitní návod a odvozovat expresivní instrukce. MGIE editační model chápe vizuální informace a provádí editaci prostřednictvím koncového školení. V tomto článku se budeme hluboce zabývat MGIE, hodnotit jeho dopad na globální optimalizaci obrazu, Photoshop-style úpravy a lokální editaci. Také budeme diskutovat o významu MGIE v instrukce založených obrazových editačních úkolech, které spoléhají na expresivní instrukce. Pojďme začít naše prozkoumání.

MLLM Guided Image Editing nebo MGIE: Úvod

Multimodální velké jazykové modely a difuzní modely jsou dva z nejvíce používaných AI a ML rámců目前, a to díky jejich pozoruhodným generativním schopnostem. Na jedné straně máte difuzní modely, které jsou nejznámější pro vytváření vysoce realistických a vizuálně atraktivních obrazů, zatímco na druhé straně máte multimodální velké jazykové modely, které jsou proslulé svou výjimečnou schopností generovat širokou škálu obsahu, včetně textu, jazyka, řeči a obrazů/ videí.

Difuzní modely vyměňují latentní cross-modální mapy pro vizuální manipulaci, která odráží změnu vstupní cílové popisky, a mohou také použít návodnou masku pro editaci konkrétní oblasti obrazu. Ale primární důvod, proč jsou difuzní modely široce používány pro multimediální aplikace, je ten, že místo toho, aby se spoléhaly na složitý popis nebo regionální masky, difuzní modely využívají instrukce založené na editaci, které umožňují uživatelům vyjádřit, jak editovat obraz přímo pomocí textových instrukcí nebo příkazů. Pokračujeme, velké jazykové modely nepotřebují žádnou introdukci, protože prokázaly významný pokrok v širokém spektru různých jazykových úkolech, včetně textu sumarizace, strojového překladu, textu generace a odpovědí na otázky. LLMs jsou obvykle školeny na velkém a rozmanitém množství tréninkových dat, které je vybavují vizuální kreativitou a znalostmi, umožňující jim provádět několik vizuálně-jazykových úkolech. Navazujíce na LLMs, MLLMs nebo multimodální velké jazykové modely mohou použít obrazy jako přirozené vstupy a poskytovat vhodné vizuálně vědomé odpovědi.

S tím řečeno, ačkoli difuzní modely a MLLM rámce jsou široce používány pro obrazové editační úkoly, existují některé návodné problémy s textem založenými instrukcemi, které brání celkovému výkonu, což vede k vývoji MGIE nebo MLLM Guided Image Editing, AI-pohoného rámce skládajícího se z difuzního modelu a MLLM modelu, jak je demonstrováno na následující obraz.

V rámci MGIE architektury je difuzní model školen koncovým školením pro provedení obrazové editace s latentní představou zamýšleného cíle, zatímco MLLM rámec se učí předpovídat přesné expresivní instrukce. Společně, difuzní model a MLLM rámec využívají inherentní vizuální odvození, aby řešily nejasné lidské příkazy, což vede k realistické editaci obrazů, jak je demonstrováno na následující obraz.

MGIE rámec čerpá silnou inspiraci ze dvou existujících přístupů: Instrukce založená obrazová editace a Vizuální velké jazykové modely.

Instrukce založená obrazová editace může zlepšit přístupnost a kontrolovatelnost vizuální manipulace významně tím, že se drží lidských příkazů. Existují dva hlavní rámce používané pro instrukce založenou obrazovou editaci: GAN rámce a difuzní modely. GAN nebo Generativní adversativní sítě jsou schopny měnit obrazy, ale jsou buď omezeny na konkrétní domény nebo produkují nerealistické výsledky. Na druhé straně, difuzní modely s velkým školením mohou kontrolovat cross-modální pozornost mapy pro globální mapy, aby dosáhly obrazové editace a transformace. Instrukce založená editace funguje tak, že přijímá přímé příkazy jako vstup, často nejsou omezeny na regionální masky a složitý popis. Nicméně, existuje pravděpodobnost, že poskytnuté instrukce jsou buď nejasné nebo nejsou dostatečně přesné pro provedení editačních úkolech.

Vizuální velké jazykové modely jsou proslulé svou textovou generativní a generalizační schopností napříč různými úkoly, a často mají robustní textový porozumění, a mohou dále produkovat spustitelné programy nebo pseudo kód. Tato schopnost velkých jazykových modelů umožňuje MLLMs vnímat obrazy a poskytovat vhodné vizuální odpovědi pomocí vizuálního feature zarovnání s instrukčními laděním, s nedávnými modely, které přijímají MLLMs pro generování obrazů souvisejících s chatem nebo vstupním textem. Nicméně, co odděluje MGIE od MLLMs nebo VLLMs je fakt, že zatímco poslední mohou produkovat obrazy odlišné od vstupů z ničeho, MGIE využívá schopnosti MLLMs ke zlepšení obrazové editační schopnosti s odvozenými instrukcemi.

MGIE: Architektura a Metodologie

Tradičně, velké jazykové modely byly používány pro přírodní jazykovou zpracování generativní úkoly. Ale od té doby, co MLLMs šly mainstream, LLMs byly vybaveny schopností poskytovat rozumné odpovědi vnímáním obrazových vstupů. Konvenčně, multimodální velký jazykový model je inicializován z předškolního LLM, a obsahuje vizuální kódér a adaptér pro extrakci vizuálních feature, a projekci vizuálních feature do jazykové modality. Díky tomu, MLLM rámec je schopen vnímat vizuální vstupy, ačkoli výstup je stále omezen na text.

Navrhovaný MGIE rámec má za cíl řešit tuto otázku, a umožnit MLLM editovat vstupní obraz do výstupního obrazu na základě poskytnuté textové instrukce. Pro dosažení tohoto, MGIE rámec obsahuje MLLM a školí se odvodit stručné a explicitní expresivní textové instrukce. Kromě toho, MGIE rámec přidává speciální obrazové tokeny do své architektury, aby mostem mezi vizuální a jazykovou modalitou, a přijímá edit head pro transformaci modalit. Tyto modality slouží jako latentní vizuální představivost z Multimodálního velkého jazykového modelu, a řídí difuzní model pro provedení editačních úkolech. MGIE rámec je pak schopen provádět vizuální percepci úkolech pro rozumnou obrazovou editaci.

Stručná Expresivní Instrukce

Tradičně, multimodální velké jazykové modely mohou nabízet vizuálně související odpovědi se svou cross-modální percepcí díky instrukčnímu ladění a feature zarovnání. Pro editaci obrazů, MGIE rámec používá textový prompt jako primární jazykový vstup s obrazem, a odvozuje podrobný popis pro editační příkaz. Nicméně, tyto popisy mohou být často příliš dlouhé nebo zahrnovat opakující se popisy, což vede k nesprávným záměrům, a nutí MGIE aplikovat předškolený sumarizér pro získání stručných narací, umožňující MLLM generovat sumarizované výstupy. Rámec považuje stručnou a explicitní návod za expresivní instrukci, a aplikuje cross-entropy ztrátu pro školení multimodálního velkého jazykového modelu pomocí teacher enforcing.

Používání expresivní instrukce poskytuje konkrétnější představu ve srovnání s textovou instrukcí, protože mostem mezi vizuální a jazykovou modalitou, a zvyšuje efektivitu rámce. Kromě toho, MGIE rámec během inferenční periody odvozuje stručné expresivní instrukce místo produkce dlouhých narací a spoléhání se na externí sumarizaci. Díky tomu, MGIE rámec je schopen získat vizuální představivost editačních záměrů, ale je stále omezen na jazykovou modalitu. Pro překonání této bariéry, MGIE model přidává určitý počet vizuálních tokenů po expresivní instrukci s trénovatelnými word embeddings, umožňující MLLM generovat je pomocí jeho LM nebo Language Model head.

Obrazová Editace s Latentní Představivostí

V dalším kroku, MGIE rámec přijímá edit head pro transformaci obrazové instrukce do skutečné vizuální návodné. Edit head je sekvenční model, který pomáhá mapovat sekvenční vizuální tokeny z MLLM na smysluplné latentní semanticky jako jeho editační návod. Pro bližší specifikaci, transformace přes word embeddings může být interpretována jako obecná reprezentace ve vizuální modalitě, a používá instanci vědomou vizuální představivost komponentu pro editační záměry. Kromě toho, pro řízení obrazové editace s vizuální představivostí, MGIE rámec vkládá latentní difuzní model do své architektury, který zahrnuje variabilní autoencoder a řeší denoising difuzi v latentním prostoru. Primárním cílem latentního difuzního modelu je generovat latentní cíl z uchování latentního vstupu a následování editační návodné. Difuzní proces přidává šum k latentnímu cíli přes pravidelné časové intervaly a úroveň šumu se zvyšuje s každým časovým intervalem.

Školení MGIE

Následující obrázek souhrnně ukazuje algoritmus školení navrhovaného MGIE rámce.

Jak je vidět, MLLM se učí odvodit stručné expresivní instrukce pomocí instrukční ztráty. Používaje latentní představivost z vstupní obrazové instrukce, rámec transformuje modalitu edit head, a řídí latentní difuzní model pro syntézu výsledného obrazu, a aplikuje editační ztrátu pro difuzní školení. Nakonec, rámec zmrazí většinu váh, což vede k parametrům efektivním koncovým školením.

MGIE: Výsledky a Hodnocení

MGIE rámec používá IPr2Pr dataset jako jeho primární předškolící data, a obsahuje přes 1 milion CLIP-filtrových dat s instrukcemi extrahovanými z GPT-3 modelu, a Prompt-to-Prompt modelu pro syntézu obrazů. Kromě toho, MGIE rámec považuje InsPix2Pix rámec postavený na CLIP textovém kódéru s difuzním modelem jako jeho baseline pro instrukce založenou obrazovou editaci. Kromě toho, MGIE model také bere v úvahu LLM-řízený obrazový editační model přijatý pro expresivní instrukce z instrukce-only vstupů, ale bez vizuální percepcí.

Kvantitativní Analýza

Následující obrázek souhrnně ukazuje editační výsledky v nulové shotové situaci s modely školenými pouze na IPr2Pr datasetu. Pro GIER a EVR data zahrnující Photoshop-style úpravy, expresivní instrukce mohou odhalit konkrétní cíle místo nejasných příkazů, což umožňuje editačním výsledkům lépe připomínat editační záměry.

Ačkoli obě LGIE a MGIE jsou školeny na stejných datech jako InsPix2Pix model, mohou nabízet podrobné vysvětlení prostřednictvím učení s velkým jazykovým modelem, ale LGIE je stále omezena na jednu modalitu. Kromě toho, MGIE rámec může nabízet významný výkonový boost, protože má přístup k obrazům, a může je použít pro odvození explicitních instrukcí.

Pro hodnocení výkonu na instrukce založenou obrazovou editaci pro specifické účely, vývojáři fine-tunují několik modelů na každém datasetu, jak je souhrnně ukázáno v následující tabulce.

Jak je vidět, po přizpůsobení Photoshop-style editačních úkolech pro EVR a GIER, modely prokázaly boost v výkonu. Nicméně, je třeba poznamenat, že fine-tunování dělá expresivní instrukce více doménově specifické, MGIE rámec svědkem masivního boostu v výkonu, protože také učí doménově související návod, umožňující difuznímu modelu prokázat konkrétní editované scény z fine-tunovaného velkého jazykového modelu, prospěchující oběma lokální modifikaci a lokální optimalizaci. Kromě toho, protože vizuálně vědomá návod je více zarovnána s editačním cílem, MGIE rámec dodává konzistentně lepší výsledky ve srovnání s LGIE.

Následující obrázek ukazuje CLIP-S skóre napříč vstupními nebo ground truth cílovými obrazy a expresivní instrukcí. Vyšší CLIP skóre indikuje relevanci instrukcí s editačním zdrojem, a jak je vidět, MGIE má vyšší CLIP skóre ve srovnání s LGIE modelem napříč oběma vstupními a výstupními obrazy.

Kvalitativní Výsledky

Následující obrázek dokonale souhrnně ukazuje kvalitativní analýzu MGIE rámce.

Jak víme, LGIE rámec je omezen na jednu modalitu, protože má jeden jazykový přehled, a je náchylný k odvozování chybných nebo irelevantních vysvětlení pro editaci obrazu. Nicméně, MGIE rámec je multimodální, a s přístupem k obrazům, dokončuje editační úkoly, a poskytuje explicitní vizuální představivost, která se shoduje s cílem velmi dobře.

Závěrečné Myšlenky

V tomto článku, jsme mluvili o MGIE nebo MLLM Guided Image Editing, MLLM-inspirované studii, která má za cíl hodnotit Multimodální velké jazykové modely a analyzovat, jak podporují editaci prostřednictvím textu nebo návodných instrukcí, zatímco se učí poskytovat explicitní návod odvozováním expresivních instrukcí současně. MGIE editační model chápe vizuální informace a provádí editaci nebo manipulaci prostřednictvím koncového školení. Místo nejasných a stručných návodů, MGIE rámec produkuje explicitní vizuálně vědomé instrukce, které vedou k rozumné obrazové editaci.

Kunal Kejriwal

Inženýr z povolání, spisovatel ze srdce. Kunal je technický spisovatel s hlubokou láskou a porozuměním pro AI a ML, který se věnuje zjednodušování složitých konceptů v těchto oblastech prostřednictvím svých přitažlivých a informačních dokumentací.