Umělá inteligence
HD-Painter: Textově řízené vykreslování obrazu ve vysokém rozlišení s difúzními modely

Difúzní modely nepochybně způsobily revoluci v odvětví AI a ML, protože jejich aplikace v reálném čase se staly nedílnou součástí našeho každodenního života. Poté, co modely text-to-image předvedly své pozoruhodné schopnosti, objevily se techniky manipulace s obrázky založené na difuzi, jako je ovladatelné generování, specializovaná a personalizovaná syntéza obrázků, úpravy obrázků na úrovni objektu, promptně podmíněné variace a úpravy, jako žhavá témata výzkumu. k jejich aplikacím v průmyslu počítačového vidění.
Navzdory svým působivým schopnostem a výjimečným výsledkům však rámce text-to-image, zejména rámce text-to-image inpainting, stále mají potenciální oblasti pro rozvoj. Patří mezi ně schopnost porozumět globálním scénám, zejména při odšumování obrazu v časových krocích s vysokou difuzí. Aby se tento problém vyřešil, vědci představili HD-Painter, rámec zcela bez školení, který přesně dodržuje rychlé pokyny a souvisle přizpůsobuje malování obrázků ve vysokém rozlišení. Rámec HD-Painter využívá vrstvu Prompt Aware Introverted Attention (PAIntA), která využívá rychlé informace ke zvýšení skóre sebepozornosti, což vede k lepšímu generování zarovnání textu.
Pro další zlepšení koherence výzvy zavádí model HD-Painter přístup Reweighting Attention Score Guidance (RASG). Tento přístup hladce integruje post-hoc vzorkovací strategii do obecné formy komponenty DDIM a zabraňuje latentním posunům mimo distribuci. Kromě toho rámec HD-Painter obsahuje specializovanou techniku super-rozlišení přizpůsobenou pro malování, což umožňuje rozšířit se na větší měřítka a doplnit chybějící oblasti v obraze s rozlišením až 2K.
HD-Painter: Text-Guided Image Inpainting
Modely difúze textu do obrázku byly v posledních měsících skutečně významným tématem v odvětví AI a ML, přičemž modely demonstrují působivé schopnosti v reálném čase napříč různými praktickými aplikacemi. Předtrénované modely generování textu na obrázek jako DALL-E, Imagen a Stable Diffusion prokázaly svou vhodnost pro dokončování obrazu sloučením odšumovaných (vygenerovaných) neznámých oblastí s rozptýlenými známými oblastmi během procesu zpětné difúze. Navzdory tomu, že produkují vizuálně přitažlivé a dobře harmonizované výstupy, existující modely se snaží porozumět globální scéně, zejména v procesu odšumování v časovém kroku s vysokou difúzí. Úpravou předem trénovaných modelů difúze textu do obrázku tak, aby obsahovaly další kontextové informace, je lze doladit pro dokončování obrázků pomocí textu.
Kromě toho jsou v rámci modelů difúze hlavními oblastmi zájmu výzkumníků textem řízené malování a textem řízené dokončování obrázků. Tento zájem je poháněn skutečností, že textem řízené modely malby mohou generovat obsah v konkrétních oblastech vstupního obrazu na základě textových výzev, což vede k potenciálním aplikacím, jako je retušování konkrétních oblastí obrázku, úprava atributů předmětu, jako jsou barvy nebo oblečení, a přidání nebo nahrazování předmětů. Stručně řečeno, modely difúze textu do obrázku nedávno dosáhly nebývalého úspěchu díky svým výjimečně realistickým a vizuálně přitažlivým schopnostem generování.
Většina existujících rámců však vykazuje rychlé zanedbání ve dvou scénářích. První je Dominance pozadí když model dokončí neznámou oblast ignorováním výzvy na pozadí, zatímco druhý scénář je dominance blízkého objektu když model šíří objekty známé oblasti do neznámé oblasti pomocí pravděpodobnosti vizuálního kontextu spíše než vstupní výzvy. Je možné, že oba tyto problémy mohou být výsledkem schopnosti šíření vanilky přesně interpretovat textovou výzvu nebo ji smíchat s kontextovými informacemi získanými ze známé oblasti.
Aby se vypořádal s těmito překážkami, rámec HD-Painter zavádí vrstvu Prompt Aware Introverted Attention nebo PAIntA, která využívá rychlé informace ke zvýšení skóre sebepozornosti, což nakonec vede k lepšímu generování zarovnání textu. PAIntA používá danou textovou úpravu ke zlepšení sebe pozornost skóre s cílem snížit dopad nevyžádaných relevantních informací z oblasti obrazu a současně zvýšit příspěvek známých pixelů zarovnaných s výzvou. Pro další vylepšení zarovnání textu generovaných výsledků implementuje rámec HD-Painter metodu post-hoc vedení, která využívá skóre křížové pozornosti. Implementace vanilkového post-hoc naváděcího mechanismu však může způsobit posuny mimo distribuci v důsledku dodatečného gradientu v rovnici difúze. Posun mimo distribuci nakonec povede ke zhoršení kvality generovaného výstupu. Aby se vypořádal s touto překážkou, rámec HD-Painter implementuje metodu Reweighting Attention Score Guidance neboli RASG, metodu, která hladce integruje post-hoc vzorkovací strategii do obecné formy komponenty DDIM. Umožňuje frameworku generovat vizuálně věrohodné výsledky malby tím, že vzorek nasměruje k rychle zarovnaným latentům a zachytí je v jejich trénované doméně.
Nasazením komponent RASH a PAIntA do své architektury má framework HD-Painter významnou výhodu oproti stávajícím, včetně nejmodernějších modelů, malování a difúze textu do obrazu, protože dokáže vyřešit stávající problém rychlého zanedbání. Kromě toho komponenty RASH i PAIntA nabízejí funkci plug and play, což jim umožňuje být kompatibilní s modely difúzního základního malování, aby se vypořádaly s výše uvedenými výzvami. Dále implementací technologie časově iterativního prolínání a využitím možností difúzní modely s vysokým rozlišením, může potrubí HD-Painter efektivně pracovat pro malování v rozlišení až 2K.
Abych to shrnul, HD-Painter si klade za cíl přinést v této oblasti následující příspěvky:
- Jeho cílem je vyřešit problém rychlého zanedbání dominance pozadí a blízkých objektů, se kterými se setkávají rámce pro textově řízené obrázky pro malování pomocí implementace vrstvy Prompt Aware Introverted Attention nebo PAIntA do její architektury.
- Jeho cílem je zlepšit zarovnání textu výstupu implementací vrstvy Reweighting Attention Score Guidance nebo RASG do své architektury, která umožňuje frameworku HD-Painter provádět post-hoc řízené vzorkování a zároveň zabránit distribuci mimo směnu.
- Navrhnout efektivní kanál pro dokončování obrázků řízený textem bez školení, schopný překonat stávající nejmodernější rámce a pomocí jednoduchého, ale efektivního rámce pro superrozlišení specializovaného na inpainting k provádění textově řízeného překreslování obrázků až do rozlišení 2K.
HD-Painter: Metoda a architektura
Než se podíváme na architekturu, je důležité porozumět třem základním konceptům, které tvoří základ rámce HD-Painter: Image Inpainting, post-hoc poradenství v difúzních rámcích, si Malování specifických architektonických bloků.
Image Inpainting je přístup, jehož cílem je vyplnit chybějící oblasti v obrázku a zároveň zajistit vizuální přitažlivost generovaného obrázku. Tradiční rámce hlubokého učení implementovaly metody, které využívaly známé oblasti k šíření hlubokých funkcí. Zavedení difúzních modelů však vedlo k evoluci modelů pro malování, zejména rámců pro malování obrázků vedených textem. Tradičně předem trénovaný model difúze textu na obrázek nahrazuje nezamaskovanou oblast latentní oblasti použitím šumové verze známé oblasti během procesu vzorkování. Ačkoli tento přístup do určité míry funguje, výrazně snižuje kvalitu generovaného výstupu, protože odšumovací síť vidí pouze zašumovanou verzi známé oblasti. Abychom se vypořádali s touto překážkou, několik přístupů se zaměřilo na doladění předem připraveného modelu textu na obrázek, aby se dosáhlo textově řízeného malování obrázků. Implementací tohoto přístupu je framework schopen generovat náhodnou masku prostřednictvím zřetězení, protože model je schopen podmínit rámec pro potlačení šumu na nemaskované oblasti.
Tradiční modely hlubokého učení implementovaly speciální návrhové vrstvy pro efektivní malování, přičemž některé rámce byly schopny efektivně extrahovat informace a produkovat vizuálně přitažlivé obrazy zavedením speciálních vrstev konvoluce, které se vypořádají se známými oblastmi obrazu. Některé rámce dokonce přidaly do své architektury vrstvu kontextové pozornosti, aby se snížily nežádoucí náročné výpočetní požadavky všech na veškerou vlastní pozornost pro vysoce kvalitní malování.
A konečně, metody Post-hoc navádění jsou metody zpětného difúzního vzorkování, které vedou další krok latentní predikce směrem k určitému cíli minimalizace funkce. Metody post-hoc vedení jsou velkou pomocí, pokud jde o generování vizuálního obsahu, zejména za přítomnosti dalších omezení. Metody post-hoc navádění však mají hlavní nevýhodu: je známo, že vedou ke zhoršení kvality obrazu, protože mají tendenci posouvat proces generování latentního obrazu o gradientní člen.
Pokud jde o architekturu HD-Painter, framework nejprve formuluje textově řízený problém dokončování obrazu a poté zavádí dva modely difúze, konkrétně Stable Inpainting a Stabilní difúze. Model HD-Painter pak představuje bloky PAIntA a RASG a nakonec se dostáváme k technice super rozlišení specifické pro inpainting.
Stabilní difúze a stabilní malba
Stabilní difúze je difúzní model, který funguje v latentním prostoru autoenkodéru. Pro syntézu textu na obrázek implementuje rámec Stable Diffusion textovou výzvu k vedení procesu. Funkce navádění má strukturu podobnou architektuře UNet a vrstvy křížové pozornosti ji podmiňují textovými výzvami. Model Stable Diffusion navíc může provádět překreslování obrazu s určitými úpravami a doladěním. Aby se toho dosáhlo, jsou rysy maskovaného obrazu generovaného kodérem zřetězeny se zmenšenou binární maskou k latentům. Výsledný tenzor je pak vložen do architektury UNet, aby se získal odhadovaný šum. Rámec pak inicializuje nově přidané konvoluční filtry s nulami, zatímco zbytek UNet je inicializován pomocí předem trénovaných kontrolních bodů z modelu Stable Diffusion.
Výše uvedený obrázek ukazuje přehled frameworku HD-Painter sestávajícího ze dvou fází. V první fázi framework HD-Painter implementuje textem řízené malování obrazu, zatímco ve druhé fázi model dokresluje konkrétní super-rozlišení výstupu. Aby bylo možné vyplnit oblasti mise a zůstat konzistentní se vstupní výzvou, model používá předem trénovaný model difúze malby, nahrazuje vrstvy sebepozorování vrstvami PAIntA a implementuje mechanismus RASG k provádění procesu zpětné difúze. Model pak dekóduje konečný odhadovaný latentní obraz, jehož výsledkem je domalovaný obraz. HD-Painter pak implementuje superstabilní difúzní model k vymalování obrazu původní velikosti a implementuje zpětný difúzní proces rámce Stable Diffusion podmíněný vstupním obrazem s nízkým rozlišením. Model po každém kroku ve známé oblasti míchá odšumované předpovědi s kódováním původního obrazu a odvozuje další latentní. Nakonec model dekóduje latentní a implementuje Poissonovo prolnutí, aby se zabránilo okrajovým artefaktům.
Prompt Aware Introvert Attention neboli PAIntA
Stávající modely malování, jako je Stable Inpainting, mají tendenci více spoléhat na vizuální kontext kolem oblasti malování a ignorovat vstupní uživatelské výzvy. Na základě uživatelské zkušenosti lze tento problém kategorizovat do dvou tříd: dominance blízkého objektu a dominance pozadí. Problém dominance vizuálního kontextu nad vstupními výzvami může být důsledkem pouze prostorové a bezvýzvové povahy vrstev sebepozornosti. K vyřešení tohoto problému zavádí framework HD-Painter Prompt Aware Introverted Attention neboli PAIntA, který používá matice křížové pozornosti a masku pro malování k řízení výstupu vrstev sebepozorování v neznámé oblasti.
Komponenta Prompt Aware Introvert Attention nejprve aplikuje projekční vrstvy, aby získala klíč, hodnoty a dotazy spolu s maticí podobnosti. Model poté upraví skóre pozornosti známých pixelů, aby zmírnil silný vliv známé oblasti na neznámou oblast, a definuje novou matici podobnosti využitím textové výzvy.
Reweighting Attention Score Guidance neboli RASG
Rámec HD-Painter využívá metodu post-hoc vzorkování, aby se ještě více zlepšilo sladění generování s textovými výzvami. Spolu s objektivní funkcí se přístup post-hoc vzorkování zaměřuje na využití vlastností segmentace otevřeného slovníku vrstev křížové pozornosti. Tento přístup vanilky post-hoc vedení má však potenciál posunout doménu latentní difúze, která by mohla zhoršit kvalitu generovaného obrazu. Aby se tento problém vyřešil, model HD-Painter implementuje mechanismus Reweighting Attention Score Guidance neboli RASG, který zavádí mechanismus převažování gradientu, jehož výsledkem je zachování latentní domény.
HD-Painter: Experimenty a výsledky
Pro analýzu jeho výkonu je rámec HD-Painter porovnán se současnými nejmodernějšími modely včetně Stable Inpainting, GLIDE a BLD nebo Blended Latent Diffusion přes 10000 XNUMX náhodných vzorků, kde je výzva vybrána jako štítek masky vybrané instance.
Jak lze pozorovat, framework HD-Painter převyšuje stávající frameworky na třech různých metrikách se značným náskokem, zejména zlepšení o 1.5 bodu na metrice CLIP a rozdíl ve vygenerovaném skóre přesnosti asi 10 % od ostatních nejmodernějších metod. .
Následující obrázek ukazuje kvalitativní srovnání rámce HD-Painter s jinými rámcemi pro malování. Jak lze pozorovat, jiné základní modely buď rekonstruují chybějící oblasti v obraze jako pokračování objektů známých oblastí bez ohledu na výzvy, nebo generují pozadí. Na druhou stranu je framework HD-Painter schopen úspěšně generovat cílové objekty díky implementaci komponent PAIntA a RASG ve své architektuře.
Závěrečné myšlenky
V tomto článku jsme hovořili o HD-Painter, školicím volném textovém přístupu k malování s vysokým rozlišením, který řeší problémy, se kterými se setkávají stávající rámce pro malování, včetně rychlého zanedbání a dominance objektů v blízkosti a na pozadí. Rámec HD-Painter implementuje vrstvu Prompt Aware Introverted Attention nebo PAIntA, která využívá rychlé informace ke zlepšení skóre sebepozornosti, což nakonec vede k lepšímu generování zarovnání textu.
Aby se koherence výzvy ještě více zlepšila, model HD-Painter zavádí metodu Reweighting Attention Score Guidance neboli RASG, která integruje post-hoc vzorkovací strategii do obecné formy komponenty DDIM, aby se zabránilo latentním posunům mimo distribuci. Kromě toho rámec HD-Painter zavádí specializovanou techniku super-rozlišení přizpůsobenou pro malování, která vede k rozšíření do větších měřítek, a umožňuje frameworku HD-Painter doplnit chybějící oblasti v obrazu s rozlišením až 2K.