Mesterséges Intelligencia

Azonnali stílus: Stílusmegőrzés a szövegből képpé generálás során

Közzététel:

3 héttel ezelőtt

April 19, 2024

Az elmúlt néhány évben a hangoláson alapuló diffúziós modellek figyelemreméltó előrehaladást mutattak a kép-személyreszabási és testreszabási feladatok széles skálájában. Lehetőségeik ellenére azonban a jelenlegi hangoláson alapuló diffúziós modellek továbbra is számos összetett kihívással néznek szembe a stíluskonzisztens képek előállítása és generálása során, és három ok állhat a háttérben. Először is, a stílus fogalma továbbra is széles körben meghatározatlan és meghatározatlan, és olyan elemek kombinációját tartalmazza, mint a hangulat, a szerkezet, a design, az anyag, a szín és még sok más. A második inverzión alapuló módszerek hajlamosak a stílusromlásra, ami a finomszemcsés részletek gyakori elvesztését eredményezi. Végül, az adapter-alapú megközelítések minden referenciaképnél gyakori súlyhangolást igényelnek, hogy fenntartsák az egyensúlyt a szöveg szabályozhatósága és a stílusintenzitás között.

Továbbá a legtöbb stílusátviteli megközelítés vagy stílusképgenerálás elsődleges célja a referenciakép használata, és annak meghatározott stílusának alkalmazása egy adott részhalmazból vagy referenciaképből egy céltartalom-képre. A stílusjellemzők sokasága azonban megnehezíti a kutatók dolgát, hogy stilizált, a stílust helyesen ábrázoló adatkészleteket gyűjtsenek, és értékeljék az átvitel sikerességét. Korábban a finomhangoláson alapuló diffúziós folyamattal foglalkozó modellek és keretrendszerek finomhangolták a közös stílusú képek adathalmazát, ez a folyamat egyrészt időigényes, másrészt korlátozottan általánosítható a valós feladatokban, mivel nehéz. hogy összegyűjtse az azonos vagy közel azonos stílusú képek részhalmazát.

Ebben a cikkben az InstantStyle-ról fogunk beszélni, egy olyan keretrendszerről, amelyet azzal a céllal terveztek, hogy megbirkózzon a jelenlegi hangolás-alapú diffúziós modellekkel a képgenerálás és testreszabás terén. Az InstantStyle keretrendszer által megvalósított két kulcsfontosságú stratégiáról fogunk beszélni:

Egy egyszerű, de hatékony megközelítés a stílus és a tartalom szétválasztására a referenciaképektől a jellemzőtéren belül, amely abból a feltételezésből indul ki, hogy az ugyanazon tereptárgyak jellemzői egymáshoz hozzáadhatók vagy kivonhatók.
Stílusszivárgások megelőzése azáltal, hogy a referenciakép jellemzőit kizárólag a stílusspecifikus blokkokba fecskendezi be, és szándékosan elkerüli, hogy nehézkes súlyozást kelljen használni a finomhangoláshoz, ami gyakran jellemző a paraméteresebb tervekre.

Ennek a cikknek az a célja, hogy az InstantStyle keretrendszert részletesen lefedje, és megvizsgáljuk a keretrendszer mechanizmusát, módszertanát, architektúráját, valamint összehasonlítását a legkorszerűbb keretrendszerekkel. Szó lesz arról is, hogy az InstantStyle keretrendszer figyelemre méltó vizuális stilizációs eredményeket mutat be, és hogyan találja meg az optimális egyensúlyt a szöveges elemek irányíthatósága és a stílus intenzitása között. Tehát kezdjük.

InstantStyle: Stílusmegőrzés a szövegből képpé generálásban

A diffúzió alapú szöveg-kép generatív mesterséges intelligencia keretrendszerek észrevehető és figyelemre méltó sikereket értek el a testreszabási és személyre szabási feladatok széles skálájában, különösen a következetes képgenerálási feladatokban, beleértve az objektumok testreszabását, a képmegőrzést és a stílusátvitelt. A közelmúltban elért sikerek és teljesítménynövekedés ellenére azonban a stílustranszfer továbbra is kihívást jelent a kutatók számára a stílus meghatározatlan és meghatározatlan természete miatt, amely gyakran számos elemet tartalmaz, beleértve a hangulatot, a szerkezetet, a dizájnt, az anyagokat, a színeket és még sok mást. Ezzel együtt a stilizált képgenerálás vagy stílusátvitel elsődleges célja az adott referenciakép vagy a képek referencia-alkészletének adott stílusának alkalmazása. a cél tartalom képére. A stílusattribútumok széles száma azonban megnehezíti a kutatók dolgát, hogy stilizált, a stílust helyesen ábrázoló adatkészleteket gyűjtsenek, és értékeljék az átvitel sikerességét. Korábban a finomhangoláson alapuló diffúziós folyamattal foglalkozó modellek és keretrendszerek finomhangolták a közös stílusú képek adathalmazát, ez a folyamat egyrészt időigényes, másrészt korlátozottan általánosítható a valós feladatokban, mivel nehéz. hogy összegyűjtse az azonos vagy közel azonos stílusú képek részhalmazát.

A jelenlegi megközelítés kihívásaival a kutatók érdeklődést mutattak a stílustranszfer, ill. stilizált képalkotás, és ezek a keretrendszerek két különböző csoportra oszthatók:

Adapter nélküli megközelítések: Az adaptermentes megközelítések és keretrendszerek az önfigyelem erejét kamatoztatják a diffúziós folyamaton belül, és a megosztott figyelemművelet megvalósításával ezek a modellek képesek egy adott referenciastílusú képekből közvetlenül kinyerni az alapvető jellemzőket, beleértve a kulcsokat és értékeket.

Adapter alapú megközelítések: Az adapter-alapú megközelítések és keretrendszerek viszont egy könnyű modellt tartalmaznak, amelyet úgy terveztek, hogy a referenciastílusú képekből részletes képábrázolásokat vonjanak ki. A keret azután ezeket a reprezentációkat a keresztfigyelem mechanizmusok segítségével ügyesen integrálja a diffúziós folyamatba. Az integrációs folyamat elsődleges célja a generálási folyamat irányítása, illetve annak biztosítása, hogy az így létrejövő kép illeszkedjen a referenciakép kívánt stilisztikai árnyalataihoz.

Az ígéretek ellenére azonban a tuningmentes módszerek gyakran szembesülnek néhány kihívással. Először is, az adaptermentes megközelítés megköveteli a kulcs és az értékek cseréjét az önfigyelő rétegeken belül, és előre elkapja a referenciastílus-képekből származó kulcs- és értékmátrixokat. Ha természetes képeken alkalmazzák, az adapter nélküli megközelítés megköveteli a kép visszafordítását a látens zajra olyan technikák segítségével, mint a DDIM vagy a Denoising Diffusion Implicit Models inversion. A DDIM vagy más inverziós megközelítések használata azonban a finom szemcsés részletek, például a szín és a textúra elvesztését eredményezheti, ami csökkenti a stílusinformációkat a generált képekben. Ezenkívül az ezen megközelítések által bevezetett további lépés időigényes folyamat, és jelentős hátrányokat jelenthet a gyakorlati alkalmazásokban. Másrészt az adapter alapú módszerek elsődleges kihívása a kontextusszivárgás és a stílusintenzitás közötti megfelelő egyensúly megtalálása. Tartalomszivárgásról akkor beszélünk, ha a stílusintenzitás növekedése nem stíluselemek megjelenését eredményezi a referenciaképből a generált kimenetben, és az elsődleges nehézségi pont a stílusok és a referenciaképen belüli tartalom hatékony elválasztása. A probléma megoldása érdekében egyes keretrendszerek párosított adatkészleteket hoznak létre, amelyek ugyanazt az objektumot képviselik különböző stílusokban, megkönnyítve a tartalomábrázolás kinyerését és a stílusok szétválasztását. A stílusok eredendően meghatározatlan reprezentációjának köszönhetően azonban a nagyméretű párosított adatkészletek létrehozásának feladata korlátozott a megragadható stílusok sokfélesége szempontjából, és ez egyúttal erőforrás-igényes folyamat is.

E korlátok leküzdésére bevezették az InstantStyle keretrendszert, amely egy új, hangolásmentes mechanizmus, amely a meglévő adapter-alapú módszereken alapul, és képes zökkenőmentesen integrálódni más figyelem alapú injekciós módszerekkel, és hatékonyan megvalósítja a tartalom és a stílus szétválasztását. Ezenkívül az InstantStyle keretrendszer nem egy, hanem két hatékony módszert mutat be a stílus és a tartalom szétválasztásának befejezésére, jobb stílusmigrációt érve el anélkül, hogy további módszereket kellene bevezetni a szétválasztás vagy a párosított adatkészletek létrehozása érdekében.

Ezenkívül a korábbi adapter-alapú keretrendszereket széles körben használták a CLIP-alapú módszerekben képjellemző-kivonóként, egyes keretrendszerek megvizsgálták a jellemzők szétválasztásának lehetőségét a jellemzőtéren belül, és a stílus meghatározatlansághoz képest könnyebb írja le a tartalmat szöveggel. Mivel a CLIP-alapú módszerekben a képek és a szövegek közös teret használnak, a szövegkörnyezeti szöveg jellemzőinek és képi jellemzőinek egyszerű kivonása jelentősen csökkentheti a tartalomszivárgást. Ráadásul a legtöbb esetben diffúziós modellek, van egy bizonyos réteg az architektúrájában, amely beilleszti a stílusinformációkat, és úgy valósítja meg a tartalom és a stílus szétválasztását, hogy csak meghatározott stílusblokkokba szúrja be a képjellemzőket. E két egyszerű stratégia megvalósításával az InstantStyle keretrendszer képes megoldani a meglévő keretrendszerek többsége által tapasztalt tartalomszivárgási problémákat, miközben megőrzi a stílus erejét.

Összefoglalva, az InstantStyle keretrendszer két egyszerű, egyértelmű, mégis hatékony mechanizmust alkalmaz a tartalom és a stílus hatékony szétválasztására a referenciaképektől. Az Instant-Style keretrendszer egy modellfüggetlen és hangolásmentes megközelítés, amely figyelemre méltó teljesítményt mutat a stílusátviteli feladatokban, hatalmas potenciállal a későbbi feladatokhoz.

Azonnali stílus: módszertan és építészet

Amint azt a korábbi megközelítések bemutatták, a hangolásmentes diffúziós modellekben egyensúly van a stílusfeltételek injektálásában. Ha a kép állapotának intenzitása túl magas, az tartalomszivárgáshoz vezethet, míg ha a képállapot intenzitása túl alacsonyra esik, előfordulhat, hogy a stílus nem tűnik elég egyértelműnek. Ennek a megfigyelésnek a fő oka az, hogy egy képen a stílus és a tartalom összekapcsolódik, és a benne rejlő, meghatározatlan stílustulajdonságok miatt nehéz szétválasztani a stílust és a szándékot. Ennek eredményeként gyakran aprólékos súlyokat hangolnak minden referenciaképhez, hogy egyensúlyba kerüljenek a szöveg szabályozhatósága és a stílus erőssége. Továbbá egy adott bemeneti referenciakép és a hozzá tartozó szövegleírás esetében az inverzió alapú módszerekben az inverziós megközelítéseket, például a DDIM-et alkalmazzák a kép felett, hogy megkapják a fordított diffúziós pályát, amely folyamat közelíti az inverziós egyenletet, hogy egy képet látenssé alakítson át. zajábrázolás. Ugyanerre építve, és a fordított diffúziós pályából kiindulva, új promptokkal együtt, ezek a módszerek új tartalmat generálnak, stílusa illeszkedik a bemenethez. Azonban, amint az a következő ábrán látható, a valós képek DDIM inverziós megközelítése gyakran instabil, mivel lokális linearizációs feltevésekre támaszkodik, ami a hibák továbbterjedéséhez, valamint tartalomvesztéshez és helytelen képrekonstrukcióhoz vezet.

A módszertant illetően, ahelyett, hogy összetett stratégiákat alkalmazna a tartalom és a stílus szétválasztására a képektől, az Instant-Style keretrendszer a legegyszerűbb megközelítést alkalmazza hasonló teljesítmény eléréséhez. Az aluldefiniált stílusattribútumokhoz képest a tartalom természetes szöveggel ábrázolható, ami lehetővé teszi az Instant-Style keretrendszer számára, hogy a CLIP szövegkódolóját használja a tartalomszöveg jellemzőinek kontextusábrázolásként való kinyerésére. Ezzel egyidejűleg az Instant-Style keretrendszer CLIP képkódolót valósít meg a referenciakép jellemzőinek kinyerésére. Az Instant-Style keretrendszer a CLIP globális jellemzőinek jellemzését kihasználva, a tartalmi szöveg jellemzőit a képjellemzőkből kivonva, képes explicit módon szétválasztani a stílust és a tartalmat. Bár ez egy egyszerű stratégia, segít, hogy az Instant-Style keretrendszer meglehetősen hatékonyan csökkentse a tartalomszivárgást.

Ezenkívül a mély hálózaton belül minden réteg felelős a különböző szemantikai információk rögzítéséért, és a korábbi modellek legfontosabb megfigyelése az, hogy két figyelemréteg létezik, amelyek felelősek a kezelési stílusért. up Konkrétan a blocks.0.attentions.1 és down blocks.2.attentions.1 rétegek felelősek a stílusok, például színek, anyagok, atmoszféra rögzítéséért, a térbeli elrendezési réteg pedig a szerkezetet és a kompozíciót rögzíti. Az Instant-Style keretrendszer ezeket a rétegeket implicit módon használja a stílusinformációk kinyerésére, és megakadályozza a tartalom kiszivárgását anélkül, hogy elveszítené a stílus erejét. A stratégia egyszerű, de hatékony, mivel a modell olyan stílusblokkokat talált, amelyek a zökkenőmentes stílusátvitel érdekében beilleszthetik a képjellemzőket ezekbe a blokkba. Továbbá, mivel a modell nagymértékben csökkenti az adapter paramétereinek számát, a keretrendszer szövegvezérlési képessége javul, és a mechanizmus más figyelem alapú jellemzőinjektálási modellekre is alkalmazható szerkesztésre és egyéb feladatokra.

Azonnali stílus: Kísérletek és eredmények

Az Instant-Style keretrendszer a Stable Diffusion XL keretrendszeren van megvalósítva, és az általánosan elfogadott előre betanított IR-adaptert használja példaként a módszertan érvényesítésére, és elnémítja az összes blokkot, kivéve a képjellemzők stílusblokkjait. Az Instant-Style modell az IR-adaptert is 4 millió nagyméretű, szöveges képpáros adathalmazra tanítja a semmiből, és az összes blokk betanítása helyett csak a stílusblokkokat frissíti.

Az Instant-Style keretrendszer általánosítási képességeinek és robusztusságának megvalósítása érdekében számos stílusátviteli kísérletet végez különféle stílusokkal a különböző tartalmakon, és az eredmények a következő képeken láthatók. Egyetlen stílus-referenciakép és különböző felszólítások mellett az Instant-Style keretrendszer kiváló minőségű, egységes stílust biztosít képalkotás.

Továbbá, mivel a modell képinformációkat csak a stílusblokkokba injektál, így jelentősen mérsékelheti a tartalomszivárgás problémáját, ezért nincs szükség súlyhangolásra.

Tovább haladva az Instant-Style keretrendszer a ControlNet architektúrát is átveszi a képalapú stilizáció eléréséhez térvezérléssel, és az eredményeket a következő kép mutatja be.

Összehasonlítva a korábbi korszerű módszerekkel, mint például a StyleAlign, B-LoRA, Swapping Self Attention és IP-Adapter, az Instant-Style keretrendszer a legjobb vizuális effektusokat mutatja be.

Záró gondolatok

Ebben a cikkben az Instant-Style-ról beszéltünk, egy általános keretrendszerről, amely két egyszerű, de hatékony stratégiát alkalmaz a tartalom és a stílus hatékony szétválasztására a referenciaképektől. Az InstantStyle keretrendszer célja, hogy kezelje azokat a problémákat, amelyekkel a jelenlegi hangolás-alapú diffúziós modellek szembesülnek a képgenerálás és testreszabás terén. Az Instant-Style keretrendszer két létfontosságú stratégiát valósít meg: Egy egyszerű, de hatékony megközelítés a stílus és a tartalom leválasztására a referenciaképektől a jellemzőtéren belül, azzal a feltételezéssel előrevetítve, hogy az azonos tereptárgyak jellemzői egymáshoz hozzáadhatók vagy kivonhatók. Másodszor, a stílusszivárgások megelőzése azáltal, hogy a referenciakép jellemzőit kizárólag a stílusspecifikus blokkokba fecskendezi be, és szándékosan elkerüli, hogy nehézkes súlyokat kelljen használni a finomhangoláshoz, ami gyakran jellemző a nagyobb paraméterekkel rendelkező tervekre.

Kapcsolódó témák:mesterséges intelligencia Számítógépes látás diffúziós modellek generatív ai képalkotás Azonnali stílus InstantStyle

Up Next

A Stanford 10-es AI-index jelentésének 2024 legjobb kivonata

Ne hagyd ki

Az AI szoftvermérnökök felemelkedése: SWE-Agent, Devin AI és a kódolás jövője

Kunal Kejriwal

"Szakmailag mérnök, szívből író". Kunal egy műszaki író, aki mélyen szereti és érti az AI-t és az ML-t, és elkötelezett a komplex fogalmak egyszerűsítése ezeken a területeken lebilincselő és informatív dokumentációi révén.