Umelá inteligencia

Okamžitý štýl: Zachovanie štýlu pri generovaní textu na obrázok

uverejnené

Pred 3 týždňov

Apríla 19, 2024

Za posledných niekoľko rokov preukázali difúzne modely založené na ladení pozoruhodný pokrok v širokej škále úloh prispôsobenia obrazu a prispôsobenia. Napriek svojmu potenciálu však súčasné modely difúzie založené na ladení naďalej čelia množstvu zložitých problémov pri vytváraní a vytváraní obrázkov konzistentných so štýlom a za tým môžu byť tri dôvody. Po prvé, koncept štýlu stále zostáva široko nedefinovaný a neurčený a zahŕňa kombináciu prvkov vrátane atmosféry, štruktúry, dizajnu, materiálu, farby a oveľa viac. Druhé metódy založené na inverzii sú náchylné na degradáciu štýlu, čo má za následok častú stratu jemnozrnných detailov. Nakoniec, prístupy založené na adaptéroch vyžadujú časté ladenie hmotnosti pre každý referenčný obrázok, aby sa zachovala rovnováha medzi ovládateľnosťou textu a intenzitou štýlu.

Okrem toho, primárnym cieľom väčšiny prístupov k prenosu štýlu alebo generovania obrázkov štýlu je použiť referenčný obrázok a aplikovať jeho špecifický štýl z danej podmnožiny alebo referenčného obrázku na cieľový obrázok obsahu. Je to však veľké množstvo atribútov štýlu, ktoré výskumníkom sťažuje zhromažďovanie štylizovaných súborov údajov, správne reprezentujúcich štýl a hodnotenie úspešnosti prenosu. Predtým modely a rámce, ktoré sa zaoberali procesom šírenia založeným na dolaďovaní, dolaďovali súbor údajov obrázkov, ktoré zdieľajú spoločný štýl, proces, ktorý je časovo náročný a s obmedzenou zovšeobecniteľnosťou v úlohách v reálnom svete, pretože je to ťažké. na zhromaždenie podmnožiny obrázkov, ktoré zdieľajú rovnaký alebo takmer identický štýl.

V tomto článku budeme hovoriť o InstantStyle, rámci navrhnutom s cieľom riešiť problémy, ktorým čelia súčasné modely difúzie založené na ladení na generovanie a prispôsobenie obrazu. Budeme hovoriť o dvoch kľúčových stratégiách implementovaných rámcom InstantStyle:

Jednoduchý, ale efektívny prístup k oddeleniu štýlu a obsahu od referenčných obrázkov v rámci priestoru funkcií, predpokladaný na základe predpokladu, že prvky v rámci toho istého priestoru je možné pridávať alebo uberať jeden od druhého.
Predchádzanie únikom štýlu vstrekovaním prvkov referenčného obrázku výlučne do blokov špecifických pre daný štýl a zámerným vyhýbaním sa potrebe používať ťažkopádne závažia na jemné dolaďovanie, ktoré často charakterizujú dizajny s vyššími parametrami.

Tento článok má za cieľ pokryť do hĺbky rámec InstantStyle a skúmame mechanizmus, metodológiu, architektúru rámca spolu s jeho porovnaním s najnovšími rámcami. Povieme si aj o tom, ako rámec InstantStyle demonštruje pozoruhodné výsledky vizuálnej štylizácie a dosahuje optimálnu rovnováhu medzi ovládateľnosťou textových prvkov a intenzitou štýlu. Tak poďme na to.

InstantStyle: Zachovanie štýlu pri generovaní textu na obrázok

Generatívne rámce AI založené na šírení textu do obrázka získali pozoruhodný a pozoruhodný úspech v širokej škále úloh prispôsobenia a personalizácie, najmä v úlohách konzistentného generovania obrázkov vrátane prispôsobenia objektov, zachovania obrázkov a prenosu štýlu. Napriek nedávnemu úspechu a zvýšeniu výkonu však prenos štýlu zostáva pre výskumníkov náročnou úlohou z dôvodu neurčitej a nedefinovanej povahy štýlu, ktorý často zahŕňa rôzne prvky vrátane atmosféry, štruktúry, dizajnu, materiálu, farby a oveľa viac. Ako už bolo povedané, primárnym cieľom generovania štylizovaného obrázka alebo prenosu štýlu je použiť špecifický štýl z daného referenčného obrázka alebo referenčnej podmnožiny obrázkov. k obrázku cieľového obsahu. Veľký počet atribútov štýlu však výskumníkom sťažuje zhromažďovanie štylizovaných súborov údajov, správne reprezentujúcich štýl a hodnotenie úspešnosti prenosu. Predtým modely a rámce, ktoré sa zaoberali procesom šírenia založeným na dolaďovaní, dolaďovali súbor údajov obrázkov, ktoré zdieľajú spoločný štýl, proces, ktorý je časovo náročný a s obmedzenou zovšeobecniteľnosťou v úlohách v reálnom svete, pretože je to ťažké. na zhromaždenie podmnožiny obrázkov, ktoré zdieľajú rovnaký alebo takmer identický štýl.

S výzvami, ktorým čelí súčasný prístup, sa výskumníci zaujímali o vývoj dolaďovacích prístupov pre prenos štýlu alebo generovanie štylizovaného obrazua tieto rámce možno rozdeliť do dvoch rôznych skupín:

Prístupy bez adaptéra: Prístupy a rámce bez adaptérov využívajú silu sebapozorovania v rámci procesu šírenia a implementáciou operácie zdieľanej pozornosti sú tieto modely schopné priamo extrahovať základné funkcie vrátane kľúčov a hodnôt z obrázkov daného referenčného štýlu.

Prístupy založené na adaptéri: Prístupy a rámce založené na adaptéroch na druhej strane zahŕňajú odľahčený model navrhnutý na extrahovanie podrobných reprezentácií obrázkov z obrázkov referenčného štýlu. Rámec potom integruje tieto reprezentácie do procesu difúzie šikovne pomocou mechanizmov krížovej pozornosti. Primárnym cieľom integračného procesu je usmerniť proces generovania a zabezpečiť, aby výsledný obrázok bol v súlade s požadovanými štylistickými nuansami referenčného obrázku.

Napriek sľubom však metódy bez ladenia často narážajú na niekoľko problémov. Po prvé, prístup bez adaptéra vyžaduje výmenu kľúča a hodnôt v rámci vrstiev sebapozorovania a predbežne zachytáva matice kľúča a hodnoty odvodené z obrázkov referenčného štýlu. Keď sa implementuje na prirodzených obrázkoch, prístup bez adaptéra vyžaduje inverziu obrazu späť na latentný šum pomocou techník ako DDIM alebo inverzia implicitných modelov odšumovania difúzie. Použitie DDIM alebo iných inverzných prístupov však môže viesť k strate jemnozrnných detailov, ako je farba a textúra, čím sa znížia informácie o štýle vo vygenerovaných obrázkoch. Okrem toho ďalší krok zavedený týmito prístupmi je časovo náročný proces a môže predstavovať značné nevýhody v praktických aplikáciách. Na druhej strane primárna výzva pre metódy založené na adaptéroch spočíva v dosiahnutí správnej rovnováhy medzi únikom kontextu a intenzitou štýlu. K úniku obsahu dochádza, keď zvýšenie intenzity štýlu spôsobí, že sa vo vygenerovanom výstupe objavia neštýlové prvky z referenčného obrázku, pričom hlavným problémom je efektívne oddelenie štýlov od obsahu v referenčnom obrázku. Na vyriešenie tohto problému niektoré rámce vytvárajú párové množiny údajov, ktoré predstavujú ten istý objekt v rôznych štýloch, čo uľahčuje extrakciu reprezentácie obsahu a rozčlenené štýly. Avšak vďaka inherentne neurčenej reprezentácii štýlu je úloha vytvárania veľkých párových súborov údajov obmedzená z hľadiska rozmanitosti štýlov, ktoré dokáže zachytiť, a je to tiež proces náročný na zdroje.

Na vyriešenie týchto obmedzení je predstavený rámec InstantStyle, ktorý je novým mechanizmom bez ladenia založeným na existujúcich metódach založených na adaptéroch so schopnosťou bezproblémovej integrácie s inými metódami vstrekovania založenými na pozornosti a efektívnym dosiahnutím oddelenia obsahu a štýlu. Okrem toho rámec InstantStyle zavádza nie jeden, ale dva účinné spôsoby na dokončenie oddelenia štýlu a obsahu, čím sa dosiahne lepšia migrácia štýlu bez potreby zavádzania ďalších metód na dosiahnutie oddelenia alebo vytvárania párových súborov údajov.

Okrem toho sa predchádzajúce rámce založené na adaptéroch široko používali v metódach založených na CLIP ako extraktor obrazových funkcií, niektoré rámce skúmali možnosť implementácie oddelenia funkcií v priestore funkcií a v porovnaní s neurčeným štýlom je jednoduchšie opísať obsah textom. Keďže obrázky a texty zdieľajú priestor funkcií v metódach založených na CLIP, jednoduchá operácia odčítania kontextových textových prvkov a obrázkových prvkov môže výrazne znížiť únik obsahu. Okrem toho vo väčšine difúzne modely, v jeho architektúre je konkrétna vrstva, ktorá vkladá informácie o štýle a vykonáva oddelenie obsahu a štýlu vložením prvkov obrázka iba do špecifických blokov štýlu. Implementáciou týchto dvoch jednoduchých stratégií je rámec InstantStyle schopný vyriešiť problémy s únikom obsahu, s ktorými sa stretáva väčšina existujúcich rámcov, pričom si zachováva silu štýlu.

Aby sme to zhrnuli, rámec InstantStyle využíva dva jednoduché, priamočiare, ale účinné mechanizmy na dosiahnutie efektívneho oddelenia obsahu a štýlu od referenčných obrázkov. Rámec Instant-Style je od modelu nezávislý prístup bez ladenia, ktorý demonštruje pozoruhodný výkon v úlohách prenosu štýlu s obrovským potenciálom pre následné úlohy.

Instant-Style: Metodológia a architektúra

Ako ukázali predchádzajúce prístupy, existuje rovnováha v vstrekovaní štýlových podmienok v modeloch difúzie bez ladenia. Ak je intenzita stavu obrazu príliš vysoká, môže dôjsť k úniku obsahu, zatiaľ čo ak intenzita stavu obrazu klesne príliš nízko, štýl sa nemusí zdať dostatočne zreteľný. Hlavným dôvodom tohto pozorovania je, že na obrázku sú štýl a obsah vzájomne prepojené a kvôli inherentným neurčeným atribútom štýlu je ťažké oddeliť štýl a zámer. Výsledkom je, že pre každý referenčný obrázok sa často vylaďujú presné váhy v snahe vyvážiť ovládateľnosť textu a silu štýlu. Okrem toho sa pre daný vstupný referenčný obrázok a jeho zodpovedajúci textový popis v metódach založených na inverzii používajú inverzné prístupy, ako je DDIM, aby sa získala inverzná difúzna trajektória, proces, ktorý aproximuje inverznú rovnicu na transformáciu obrazu na latentný reprezentácia hluku. Vychádzajúc z toho istého a vychádzajúc z obrátenej trajektórie difúzie spolu s novou sadou výziev, tieto metódy generujú nový obsah, ktorého štýl je v súlade so vstupom. Ako je však znázornené na nasledujúcom obrázku, prístup inverzie DDIM pre skutočné obrázky je často nestabilný, pretože sa spolieha na predpoklady lokálnej linearizácie, čo vedie k šíreniu chýb a vedie k strate obsahu a nesprávnej rekonštrukcii obrazu.

Pokiaľ ide o metodológiu, namiesto využívania zložitých stratégií na oddelenie obsahu a štýlu od obrázkov, rámec Instant-Style používa najjednoduchší prístup na dosiahnutie podobného výkonu. Pri porovnaní s nedostatočne určenými atribútmi štýlu môže byť obsah reprezentovaný prirodzeným textom, čo umožňuje rámcu Instant-Style použiť kódovač textu z CLIP na extrahovanie charakteristík textu obsahu ako kontextových reprezentácií. Rámec Instant-Style súčasne implementuje kodér obrazu CLIP na extrahovanie vlastností referenčného obrazu. Využitím charakterizácie globálnych funkcií CLIP a po odčítaní funkcií textu obsahu od funkcií obrázka je rámec Instant-Style schopný explicitne oddeliť štýl a obsah. Aj keď je to jednoduchá stratégia, pomáha to, že rámec Instant-Style je pomerne účinný pri udržiavaní úniku obsahu na minime.

Okrem toho je každá vrstva v rámci hlbokej siete zodpovedná za zachytávanie rôznych sémantických informácií a kľúčovým postrehom z predchádzajúcich modelov je, že existujú dve vrstvy pozornosti, ktoré sú zodpovedné za štýl spracovania. hore Konkrétne sú to vrstvy blokov.0.pozornosti.1 a nadol bloky.2.pozornosti.1 zodpovedné za zachytenie štýlu, ako je farba, materiál, atmosféra a vrstva priestorového rozloženia zachytáva štruktúru a kompozíciu. Rámec Instant-Style tieto vrstvy implicitne využíva na extrahovanie informácií o štýle a zabraňuje úniku obsahu bez straty sily štýlu. Stratégia je jednoduchá, ale efektívna, pretože model umiestnil bloky štýlu, ktoré môžu do týchto blokov vložiť prvky obrázka, aby sa dosiahol bezproblémový prenos štýlu. Okrem toho, keďže model výrazne znižuje počet parametrov adaptéra, zlepšuje sa schopnosť rámca ovládať text a mechanizmus je použiteľný aj na iné modely vstrekovania funkcií na úpravu a iné úlohy.

Instant-Style : Experimenty a výsledky

Rámec Instant-Style je implementovaný v rámci Stable Diffusion XL a používa bežne používaný predtrénovaný IR adaptér ako svoj príklad na overenie svojej metodológie a stlmí všetky bloky okrem blokov štýlov pre obrazové funkcie. Model Instant-Style tiež trénuje IR-adaptér na 4 miliónoch veľkých množín párovaných údajov s textovým obrázkom od začiatku a namiesto trénovania všetkých blokov aktualizuje iba bloky štýlu.

Na vykonanie svojich možností zovšeobecňovania a robustnosti rámca Instant-Style vykonáva množstvo experimentov s prenosom štýlov s rôznymi štýlmi naprieč rôznym obsahom a výsledky možno pozorovať na nasledujúcich obrázkoch. Vďaka jedinému referenčnému obrázku štýlu spolu s rôznymi výzvami poskytuje rámec Instant-Style vysokú kvalitu a konzistentný štýl generovanie obrazu.

Okrem toho, keďže model vkladá obrazové informácie iba do štýlových blokov, je schopný výrazne zmierniť problém s únikom obsahu, a preto nemusí vykonávať ladenie hmotnosti.

Rámec Instant-Style tiež využíva architektúru ControlNet na dosiahnutie štylizácie založenej na obrázkoch s priestorovým ovládaním a výsledky sú znázornené na nasledujúcom obrázku.

V porovnaní s predchádzajúcimi najmodernejšími metódami vrátane StyleAlign, B-LoRA, Swapping Self Attention a IP-Adapter, rámec Instant-Style demonštruje najlepšie vizuálne efekty.

Záverečné myšlienky

V tomto článku sme hovorili o Instant-Style, všeobecnom rámci, ktorý využíva dve jednoduché, ale účinné stratégie na dosiahnutie efektívneho oddelenia obsahu a štýlu od referenčných obrázkov. Rámec InstantStyle je navrhnutý s cieľom riešiť problémy, ktorým čelia súčasné modely difúzie založené na ladení pre generovanie a prispôsobenie obrazu. Rámec Instant-Style implementuje dve životne dôležité stratégie: Jednoduchý, ale efektívny prístup k oddeleniu štýlu a obsahu od referenčných obrázkov v rámci priestoru funkcií, ktorý je predpovedaný za predpokladu, že prvky v rámci toho istého priestoru je možné pridávať alebo uberať jeden od druhého. Po druhé, predchádzanie únikom štýlu vstrekovaním prvkov referenčného obrázka výlučne do blokov špecifických pre daný štýl a zámerným vyhýbaním sa potrebe používať ťažkopádne závažia na jemné dolaďovanie, ktoré často charakterizujú dizajny s väčšími parametrami.

Súvisiace témy:umelá inteligencia Počítačové videnie difúzne modely generatívna ai generovanie obrazu Okamžitý štýl InstantStyle

Nasledujúci

10 najlepších poznatkov zo správy indexu AI za rok 2024 od Stanfordu

Nenechajte si ujsť

Vzostup softvérových inžinierov AI: SWE-Agent, Devin AI a budúcnosť kódovania

Kunal Kejriwal

"Povolaním inžinier, srdcom spisovateľ." Kunal je technický spisovateľ s hlbokou láskou a porozumením AI a ML, ktorý sa venuje zjednodušovaniu zložitých konceptov v týchto oblastiach prostredníctvom svojej pútavej a informatívnej dokumentácie.