Umělá inteligence

Instant-Style: Zachování stylu při generování textu na obrázek

Zveřejněno

Před 3 týdnů

19. dubna 2024

Během několika posledních let prokázaly difúzní modely založené na ladění pozoruhodný pokrok v celé řadě úkolů přizpůsobení obrazu a přizpůsobení. Navzdory svému potenciálu však současné modely difúze založené na ladění nadále čelí řadě složitých problémů při vytváření a generování obrázků konzistentních se stylem a mohou za tím být tři důvody. Za prvé, koncept stylu stále zůstává široce nedefinovaný a neurčený a zahrnuje kombinaci prvků včetně atmosféry, struktury, designu, materiálu, barvy a mnoha dalších. Druhé metody založené na inverzi jsou náchylné k degradaci stylu, což má za následek častou ztrátu jemnozrnných detailů. A konečně, přístupy založené na adaptéru vyžadují časté ladění hmotnosti pro každý referenční obrázek, aby byla zachována rovnováha mezi ovladatelností textu a intenzitou stylu.

Kromě toho je primárním cílem většiny přístupů k přenosu stylu nebo generování obrázků stylu použít referenční obrázek a aplikovat jeho specifický styl z dané podmnožiny nebo referenčního obrázku na cílový obrázek obsahu. Je to však velký počet atributů stylu, který výzkumníkům ztěžuje práci shromažďovat stylizované soubory dat, správně reprezentovat styl a vyhodnocovat úspěšnost přenosu. Dříve modely a rámce, které se zabývaly procesem jemného ladění založeného na šíření, dolaďovaly datovou sadu obrázků, které sdílejí společný styl, což je proces, který je časově náročný a s omezenou zobecnitelností v reálných úlohách, protože je obtížné. shromáždit podmnožinu obrázků, které sdílejí stejný nebo téměř identický styl.

V tomto článku budeme hovořit o InstantStyle, frameworku navrženém s cílem řešit problémy, kterým čelí současné modely difúze založené na ladění pro generování a přizpůsobení obrazu. Budeme mluvit o dvou klíčových strategiích implementovaných rámcem InstantStyle:

Jednoduchý, ale účinný přístup k oddělení stylu a obsahu od referenčních obrázků v prostoru prvků, předpovězený za předpokladu, že prvky ve stejném prostoru prvků lze k sobě přidávat nebo odečítat.
Předcházení únikům stylu tím, že se prvky referenčního obrázku vkládají výhradně do bloků specifických pro styl, a záměrně se vyhnete nutnosti používat těžkopádné závaží pro jemné doladění, které často charakterizuje designy s vyššími parametry.

Tento článek si klade za cíl pokrýt do hloubky rámec InstantStyle a prozkoumáme mechanismus, metodologii, architekturu rámce spolu s jeho srovnáním s nejmodernějšími rámci. Budeme také hovořit o tom, jak framework InstantStyle demonstruje pozoruhodné výsledky vizuální stylizace a dosahuje optimální rovnováhy mezi ovladatelností textových prvků a intenzitou stylu. Pojďme tedy začít.

InstantStyle: Zachování stylu při generování textu na obrázek

Rámce umělé inteligence založené na šíření textu do obrázku zaznamenaly znatelný a pozoruhodný úspěch v celé řadě úkolů přizpůsobení a personalizace, zejména v konzistentních úlohách generování obrázků, včetně přizpůsobení objektů, uchování obrázků a přenosu stylu. Navzdory nedávnému úspěchu a zvýšení výkonu však přenos stylu zůstává pro výzkumníky náročným úkolem kvůli neurčené a nedefinované povaze stylu, který často zahrnuje různé prvky včetně atmosféry, struktury, designu, materiálu, barvy a mnoha dalších. Jak již bylo řečeno, primárním cílem generování stylizovaných obrázků nebo přenosu stylu je použít specifický styl z daného referenčního obrázku nebo referenční podmnožiny obrázků. na obrázek cílového obsahu. Velký počet atributů stylu však výzkumníkům ztěžuje práci při shromažďování stylizovaných souborů dat, správně reprezentujících styl a vyhodnocování úspěšnosti přenosu. Dříve modely a rámce, které se zabývaly procesem jemného ladění založeného na šíření, dolaďovaly datovou sadu obrázků, které sdílejí společný styl, což je proces, který je časově náročný a s omezenou zobecnitelností v reálných úlohách, protože je obtížné. shromáždit podmnožinu obrázků, které sdílejí stejný nebo téměř identický styl.

S výzvami, kterým čelí současný přístup, se výzkumníci začali zajímat o vývoj přístupů pro jemné doladění pro přenos stylu nebo generování stylizovaného obrazua tyto rámce lze rozdělit do dvou různých skupin:

Přístupy bez adaptéru: Přístupy a rámce bez adaptérů využívají sílu sebepozorování v rámci procesu šíření a implementací operace sdílené pozornosti jsou tyto modely schopny přímo extrahovat základní funkce včetně klíčů a hodnot z obrázků daného referenčního stylu.

Přístupy založené na adaptéru: Přístupy a rámce založené na adaptérech na druhé straně zahrnují odlehčený model navržený k extrahování detailních reprezentací obrázků z obrázků referenčních stylů. Rámec pak integruje tyto reprezentace do procesu difúze pomocí mechanismů křížové pozornosti. Primárním cílem integračního procesu je vést proces generování a zajistit, aby výsledný obrázek byl v souladu s požadovanými stylistickými nuancemi referenčního obrázku.

Navzdory slibům však metody bez ladění často narážejí na několik problémů. Za prvé, přístup bez adaptéru vyžaduje výměnu klíče a hodnot v rámci vrstev sebepozorování a předem zachycuje matice klíče a hodnoty odvozené z obrázků referenčního stylu. Při implementaci na přirozené obrazy vyžaduje přístup bez adaptéru inverzi obrazu zpět k latentnímu šumu pomocí technik, jako je inverze DDIM nebo Denoising Diffusion Implicit Models. Použití DDIM nebo jiných inverzních přístupů však může vést ke ztrátě jemnozrnných detailů, jako je barva a textura, a tím ke snížení informací o stylu ve vygenerovaných obrázcích. Navíc další krok zavedený těmito přístupy je časově náročný proces a může představovat značné nevýhody v praktických aplikacích. Na druhé straně primární výzva pro metody založené na adaptérech spočívá v nalezení správné rovnováhy mezi únikem kontextu a intenzitou stylu. K úniku obsahu dochází, když zvýšení intenzity stylu vede k tomu, že se ve vygenerovaném výstupu objeví nestylové prvky z referenčního obrázku, přičemž hlavním problémem je efektivní oddělení stylů od obsahu v referenčním obrázku. Aby se tento problém vyřešil, některé rámce konstruují párové datové sady, které představují stejný objekt v různých stylech, což usnadňuje extrakci reprezentace obsahu a rozpojené styly. Díky inherentně neurčené reprezentaci stylu je však úkol vytvářet rozsáhlé párové datové sady omezený z hlediska rozmanitosti stylů, které může zachytit, a je to také proces náročný na zdroje.

K vyřešení těchto omezení je představen rámec InstantStyle, což je nový mechanismus bez ladění založený na existujících metodách založených na adaptéru se schopností hladce se integrovat s jinými metodami vstřikování založenými na pozornosti a účinně dosáhnout oddělení obsahu a stylu. Kromě toho rámec InstantStyle zavádí ne jeden, ale dva účinné způsoby, jak dokončit oddělení stylu a obsahu, čímž se dosáhne lepší migrace stylu, aniž by bylo nutné zavádět další metody k dosažení oddělení nebo vytváření párových datových sad.

Kromě toho byly dřívější rámce založené na adaptérech široce používány v metodách založených na CLIP jako extraktor obrazových funkcí, některé rámce prozkoumávaly možnost implementace oddělení funkcí v prostoru funkcí a ve srovnání s neurčeným stylem je snazší popsat obsah textem. Vzhledem k tomu, že obrázky a texty sdílejí prostor funkcí v metodách založených na CLIP, jednoduchá operace odečítání kontextových textových prvků a vlastností obrázků může významně snížit únik obsahu. Navíc ve většině difúzní modely, v jeho architektuře je zvláštní vrstva, která vkládá informace o stylu a provádí oddělení obsahu a stylu tím, že vkládá prvky obrázku pouze do konkrétních bloků stylu. Implementací těchto dvou jednoduchých strategií je rámec InstantStyle schopen vyřešit problémy s únikem obsahu, se kterými se setkává většina existujících rámců, a přitom zachovat sílu stylu.

Abych to shrnul, framework InstantStyle využívá dva jednoduché, přímočaré, ale účinné mechanismy k dosažení efektivního oddělení obsahu a stylu od referenčních obrázků. Rámec Instant-Style je na modelu nezávislý a bez ladění přístup, který demonstruje pozoruhodný výkon v úlohách přenosu stylu s obrovským potenciálem pro následné úlohy.

Instant-Style: Metodologie a architektura

Jak ukázaly předchozí přístupy, existuje rovnováha ve vstřikování stylových podmínek do modelů bez ladění. Pokud je intenzita stavu obrazu příliš vysoká, může dojít k úniku obsahu, zatímco pokud intenzita stavu obrazu klesne příliš nízko, styl se nemusí zdát dostatečně zřejmý. Hlavním důvodem tohoto pozorování je to, že v obrázku jsou styl a obsah vzájemně propojeny a kvůli inherentním neurčeným atributům stylu je obtížné oddělit styl a záměr. Výsledkem je, že pro každý referenční obrázek jsou často vyladěny pečlivé váhy ve snaze vyvážit ovladatelnost textu a sílu stylu. Kromě toho pro daný vstupní referenční obrázek a jeho odpovídající textový popis v metodách založených na inverzích jsou na obrázku přijaty inverzní přístupy, jako je DDIM, aby se získala inverzní difúzní trajektorie, což je proces, který aproximuje rovnici inverze a transformuje obrázek na latentní. reprezentace hluku. Tyto metody vycházejí ze stejného a počínaje inverzní trajektorií difúze spolu s novou sadou výzev a generují nový obsah, jehož styl odpovídá vstupu. Jak je však znázorněno na následujícím obrázku, přístup inverze DDIM pro skutečné obrazy je často nestabilní, protože se spoléhá na předpoklady lokální linearizace, což vede k šíření chyb a vede ke ztrátě obsahu a nesprávné rekonstrukci obrazu.

Pokud jde o metodologii, namísto použití složitých strategií k oddělení obsahu a stylu od obrázků, používá rámec Instant-Style nejjednodušší přístup k dosažení podobného výkonu. Při porovnání s nedostatečně určenými atributy stylu může být obsah reprezentován přirozeným textem, což umožňuje frameworku Instant-Style používat kodér textu z CLIP k extrahování charakteristik textu obsahu jako kontextové reprezentace. Rámec Instant-Style zároveň implementuje kodér obrazu CLIP pro extrahování vlastností referenčního obrazu. S využitím charakterizace globálních funkcí CLIP a následného odečtení textových prvků obsahu od prvků obrázku je rámec Instant-Style schopen explicitně oddělit styl a obsah. I když se jedná o jednoduchou strategii, pomáhá to, že rámec Instant-Style je docela účinný při udržování úniku obsahu na minimu.

Kromě toho je každá vrstva v hluboké síti zodpovědná za zachycení různých sémantických informací a klíčové pozorování z předchozích modelů je, že existují dvě vrstvy pozornosti, které jsou zodpovědné za styl zacházení. nahoru Konkrétně jsou to vrstvy block.0.attentions.1 a down block.2.attentions.1 zodpovědné za zachycení stylu, jako je barva, materiál, atmosféra, a vrstva prostorového rozvržení zachycuje strukturu a kompozici. Rámec Instant-Style používá tyto vrstvy implicitně k extrahování informací o stylu a zabraňuje úniku obsahu, aniž by ztratil sílu stylu. Strategie je jednoduchá, ale účinná, protože model umístil bloky stylů, které mohou do těchto bloků vložit prvky obrázku, aby bylo dosaženo bezproblémového přenosu stylu. Kromě toho, protože model výrazně snižuje počet parametrů adaptéru, je rozšířena schopnost rámce ovládat text a mechanismus je také použitelný pro další modely vkládání funkcí založené na pozornosti pro úpravy a další úkoly.

Instant-Style: Experimenty a výsledky

Rámec Instant-Style je implementován na frameworku Stable Diffusion XL a používá běžně přijímaný předtrénovaný IR adaptér jako svůj příklad k ověření své metodologie a ztlumuje všechny bloky kromě bloků stylů pro obrazové funkce. Model Instant-Style také trénuje IR-adaptér na 4 milionech rozsáhlých textových obrazových párových datových sad od nuly a místo trénování všech bloků aktualizuje pouze bloky stylů.

Aby bylo možné provést zobecnění a robustnost, rámec Instant-Style provádí četné experimenty s přenosem stylů s různými styly napříč různým obsahem a výsledky lze pozorovat na následujících obrázcích. Díky jedinému referenčnímu obrázku stylu spolu s různými výzvami poskytuje rámec Instant-Style vysoce kvalitní a konzistentní styl generování obrazu.

Kromě toho, protože model vkládá obrazové informace pouze do stylových bloků, je schopen výrazně zmírnit problém úniku obsahu, a proto nemusí provádět ladění hmotnosti.

Rámec Instant-Style dále využívá architekturu ControlNet, aby bylo dosaženo stylizace založené na obrázcích s prostorovým ovládáním, a výsledky jsou ukázány na následujícím obrázku.

Ve srovnání s předchozími nejmodernějšími metodami včetně StyleAlign, B-LoRA, Swapping Self Attention a IP-Adapter, rámec Instant-Style demonstruje nejlepší vizuální efekty.

Závěrečné myšlenky

V tomto článku jsme hovořili o Instant-Style, obecném rámci, který využívá dvě jednoduché, ale účinné strategie k dosažení efektivního oddělení obsahu a stylu od referenčních obrázků. Rámec InstantStyle je navržen s cílem řešit problémy, kterým čelí současné modely difúze založené na ladění pro generování a přizpůsobení obrazu. Rámec Instant-Style implementuje dvě životně důležité strategie: Jednoduchý, ale účinný přístup k oddělení stylu a obsahu od referenčních obrázků v prostoru rysů, předpovězený za předpokladu, že prvky ve stejném prostoru prvků lze buď k sobě přidávat, nebo od sebe odečítat. Za druhé, předcházení únikům stylu tím, že se prvky referenčního obrázku vloží výhradně do bloků specifických pro daný styl, a záměrně se vyhneme nutnosti používat těžkopádné závaží pro jemné doladění, které často charakterizuje designy s vyššími parametry.

Související témata:umělá inteligence Počítačové vidění difúzní modely generativní ai generování obrazu Okamžitý styl InstantStyle

Nahoru Další

10 nejlepších poznatků ze zprávy Stanford's 2024 AI Index Report

Nenechte si ujít

Vzestup AI softwarových inženýrů: SWE-Agent, Devin AI a budoucnost kódování

Kunal Kejriwal

„Povoláním inženýr, srdcem spisovatel“. Kunal je technický spisovatel s hlubokou láskou a porozuměním AI a ML, který se věnuje zjednodušování složitých konceptů v těchto oblastech prostřednictvím své poutavé a informativní dokumentace.