Connect with us

Umělá inteligence

HD-Painter: Vysoké rozlišení textem řízené inpainting s difuzními modely

mm
HD-Painter : High Resolution Text-Guided Image Inpainting with Diffusion Models

Difuzní modely bezpochyby revolucionalizovaly průmysl AI a ML, s jejich aplikacemi v reálném čase se staly nedílnou součástí našeho každodenního života. Po předvedení svých pozoruhodných schopností modely text-to-image, vyvinuly se difuzní techniky manipulace s obrazem, jako je kontrolovaná generace, specializovaná a personalizovaná syntéza obrazu, editace obrazu na úrovni objektů, podmíněné variace a editace, v důsledku jejich aplikací v počítačovém vidění.

Nicméně, navzdory jejich působivým schopnostem a výjimečným výsledkům, rámce text-to-image, zejména rámce text-to-image inpainting, stále mají potenciál pro rozvoj. Tyto zahrnují schopnost porozumět globálním scénám, zejména při odšumění obrazu ve vysokých difuzních časových krocích. Za účelem řešení této проблемы, výzkumníci představili HD-Painter, kompletně beztréninkový rámec, který přesně dodržuje pokyny pro prompt a škáluje na vysoké rozlišení inpainting koherentně. Rámec HD-Painter využívá vrstvu Prompt Aware Introverted Attention (PAIntA), která využívá informace z promptu k vylepšení skóre sebe-pozornosti, což vede k lepší generaci textové aligmentace.

Pro další vylepšení koherence promptu, model HD-Painter představuje přístup Reweighting Attention Score Guidance (RASG). Tento přístup integruje post-hoc vzorkovací strategii do obecné formy komponenty DDIM bezproblémově, čímž se zabrání posunům latentních distribucí. Kromě toho, rámec HD-Painter disponuje specializovanou super-rozlišovací technikou, přizpůsobenou pro inpainting, která umožňuje jeho rozšíření na větší škále a dokončení chybějících oblastí v obraze s rozlišením až 2K.

HD-Painter: Textem řízený inpainting

Modely difuzního text-to-image byly skutečně významným tématem v průmyslu AI a ML v posledních měsících, s modely prokazujícími působivé schopnosti v reálném čase napříč různými praktickými aplikacemi. Předtrénované modely text-to-image generace, jako je DALL-E, Imagen a Stable Diffusion, prokázaly svou vhodnost pro dokončování obrazu spojením denoisovaných (generovaných) neznámých oblastí s difuzními známými oblastmi během zpětného difuzního procesu. Navzdory produkci vizuálně přitažlivých a dobře sladěných výstupů, existující modely bojují s porozuměním globální scéně, zejména při procesu odšumění ve vysokých difuzních časových krocích. Modifikací předtrénovaných modelů text-to-image difuzního modelu pro zařazení dalších kontextových informací, lze je upravit pro textem řízené dokončování obrazu.

Dalšími významnými oblastmi zájmu pro výzkumníky jsou textem řízený inpainting a textem řízené dokončování obrazu. Tento zájem je vyvolán skutečností, že modely textem řízeného inpaintingu mohou generovat obsah v konkrétních oblastech vstupního obrazu na základě textových promptů, což vede k potenciálním aplikacím, jako je retušování konkrétních oblastí obrazu, modifikace atributů subjektů, jako jsou barvy nebo oblečení, a přidání nebo nahrazení objektů. Shrnutí, modely difuzního text-to-image nedávno dosáhly bezprecedentního úspěchu, díky svým výjimečně realistickým a vizuálně přitažlivým generativním schopnostem.

Nicméně, většina existujících rámců prokazuje zanedbání promptu ve dvou scénářích. První je dominace pozadí, kdy model dokončuje neznámou oblast ignorováním promptu na pozadí, zatímco druhý scénář je dominace blízkých objektů, kdy model propaguje objekty známých oblastí do neznámých oblastí pomocí vizuálního kontextu místo vstupního promptu. Je možné, že obě tyto problémy mohou být výsledkem schopnosti vanilového inpainting difuzního modelu interpretovat textový prompt přesně nebo jej kombinovat s kontextovými informacemi získanými z známých oblastí.

Za účelem řešení těchto problémů, rámec HD-Painter představuje vrstvu Prompt Aware Introverted Attention nebo PAIntA, která využívá informace z promptu k vylepšení skóre sebe-pozornosti, což vede k lepší generaci textové aligmentace. PAIntA využívá zadávaný textový prompt k vylepšení sebe-pozornosti skóre s cílem snížit dopad neprompt relevantních informací z oblasti obrazu a současně zvýšit příspěvek známých pixelů sladěných s promptem. Pro další vylepšení textové aligmentace generovaných výsledků, rámec HD-Painter implementuje post-hoc指导 metodu, která využívá skóre křížové pozornosti. Nicméně, implementace vanilové post-hoc guidance metody může způsobit posuny latentních distribucí jako resultado dalšího gradientního termínu v difuzní rovnici. Posuny latentních distribucí nakonec vedou ke zhoršení kvality generovaného výstupu. Za účelem řešení tohoto problému, rámec HD-Painter implementuje Reweighting Attention Score Guidance nebo RASG, metodu, která integruje post-hoc vzorkovací strategii do obecné formy komponenty DDIM bezproblémově. To umožňuje rámcům generovat vizuálně přitažlivé inpainting výsledky tím, že směruje vzorek směrem k prompt-aligmentovaným latentním a udržuje je ve svém tréninkovém doměnu.

… (zbytek překladu)

Inženýr z povolání, spisovatel ze srdce. Kunal je technický spisovatel s hlubokou láskou a porozuměním pro AI a ML, který se věnuje zjednodušování složitých konceptů v těchto oblastech prostřednictvím svých přitažlivých a informačních dokumentací.