stub Momentinis stilius: stiliaus išsaugojimas kuriant tekstą į vaizdą – Unite.AI
Susisiekti su mumis

Dirbtinis intelektas

Momentinis stilius: stiliaus išsaugojimas kuriant tekstą į vaizdą

mm

paskelbta

 on

Per pastaruosius kelerius metus derinimu pagrįsti difuzijos modeliai parodė didelę pažangą atliekant įvairias vaizdo personalizavimo ir pritaikymo užduotis. Tačiau, nepaisant jų potencialo, dabartiniai derinimu pagrįsti difuzijos modeliai ir toliau susiduria su daugybe sudėtingų iššūkių kuriant ir kuriant stilių atitinkančius vaizdus, ​​ir tai gali būti trys priežastys. Pirma, stiliaus sąvoka vis dar lieka plačiai neapibrėžta ir neapibrėžta, ir apima elementų, įskaitant atmosferą, struktūrą, dizainą, medžiagą, spalvą ir daug daugiau, derinį. Antrieji inversija pagrįsti metodai yra linkę į stiliaus degradaciją, todėl dažnai prarandamos smulkios detalės. Galiausiai, naudojant adapteriais pagrįstus metodus, reikia dažnai koreguoti kiekvieno pamatinio vaizdo svorį, kad būtų išlaikyta pusiausvyra tarp teksto valdymo ir stiliaus intensyvumo. 

Be to, pagrindinis daugelio stiliaus perkėlimo metodų arba stiliaus vaizdo generavimo tikslas yra naudoti referencinį vaizdą ir pritaikyti jo specifinį stilių iš tam tikro pogrupio arba nuorodos vaizdo tiksliniam turinio vaizdui. Tačiau būtent dėl ​​daugybės stiliaus atributų tyrėjams sunku rinkti stilizuotus duomenų rinkinius, teisingai atvaizduoti stilių ir įvertinti perdavimo sėkmę. Anksčiau modeliai ir sistemos, susijusios su patikslinimu pagrįstu sklaidos procesu, tiksliai sureguliuodavo vaizdų, turinčių bendrą stilių, duomenų rinkinį, o tai užtrunka daug laiko ir yra ribotai apibendrinama atliekant realias užduotis, nes tai yra sudėtinga. surinkti vaizdų, kurie turi tą patį arba beveik identišką stilių, poaibį. 

Šiame straipsnyje kalbėsime apie „InstantStyle“ – sistemą, sukurtą siekiant išspręsti problemas, su kuriomis susiduria dabartiniai derinimu pagrįsti vaizdo generavimo ir pritaikymo sklaidos modeliai. Kalbėsime apie dvi pagrindines InstantStyle sistemos įgyvendinamas strategijas: 

  1. Paprastas, bet efektyvus būdas atsieti stilių ir turinį nuo pamatinių vaizdų objektų erdvėje, numatant, kad toje pačioje funkcijų erdvėje esančius elementus galima pridėti arba atimti vienas nuo kito. 
  2. Užkirsti kelią stiliaus nutekėjimui įterpiant atskaitos vaizdo ypatybes tik į konkrečiam stiliui būdingus blokus ir sąmoningai vengiant naudoti sudėtingus svorius koreguojant, dažnai apibūdinant sudėtingesnius parametrus turinčius dizainus. 

Šio straipsnio tikslas yra išsamiai apžvelgti „InstantStyle“ sistemą, o mes tyrinėjame mechanizmą, metodiką, sistemos architektūrą ir palyginame ją su naujausiomis sistemomis. Taip pat kalbėsime apie tai, kaip InstantStyle sistema demonstruoja puikius vizualinio stilizavimo rezultatus ir sukuria optimalią pusiausvyrą tarp tekstinių elementų valdomumo ir stiliaus intensyvumo. Taigi pradėkime. 

InstantStyle: stiliaus išsaugojimas kuriant tekstą į vaizdą

Difūzija pagrįstos teksto į vaizdą generuojančios AI sistemos sulaukė pastebimos ir nepaprastos sėkmės atliekant daugybę tinkinimo ir personalizavimo užduočių, ypač atliekant nuoseklias vaizdų generavimo užduotis, įskaitant objektų pritaikymą, vaizdo išsaugojimą ir stiliaus perkėlimą. Tačiau, nepaisant pastarojo meto sėkmės ir našumo padidėjimo, stiliaus perkėlimas išlieka sudėtinga užduotis tyrinėtojams dėl neapibrėžto ir neapibrėžto stiliaus pobūdžio, dažnai apimančio įvairius elementus, įskaitant atmosferą, struktūrą, dizainą, medžiagą, spalvas ir daug daugiau. Atsižvelgiant į tai, pagrindinis stilizuotų vaizdų generavimo arba stiliaus perkėlimo tikslas yra pritaikyti konkretų stilių iš nurodyto pamatinio vaizdo arba nuorodos vaizdų pogrupio. į tikslinį turinio vaizdą. Tačiau dėl didelio stiliaus atributų skaičiaus tyrėjams sunku rinkti stilizuotus duomenų rinkinius, teisingai vaizduojančius stilių ir įvertinti perdavimo sėkmę. Anksčiau modeliai ir sistemos, susijusios su patikslinimu pagrįstu sklaidos procesu, tiksliai sureguliuodavo vaizdų, turinčių bendrą stilių, duomenų rinkinį, o tai užtrunka daug laiko ir yra ribotai apibendrinama atliekant realias užduotis, nes tai yra sudėtinga. surinkti vaizdų, kurie turi tą patį arba beveik identišką stilių, poaibį. 

Atsižvelgdami į iššūkius, su kuriais susiduria dabartinis metodas, mokslininkai susidomėjo tobulinant stiliaus perkėlimo metodus. stilizuoto vaizdo generavimas, ir šias sistemas galima suskirstyti į dvi skirtingas grupes: 

  • Prieigai be adapterių: Nenaudojant adapterių ir sistemos panaudoja dėmesio į save galią sklaidos procese, o įgyvendinant bendro dėmesio operaciją, šie modeliai gali tiesiogiai išgauti esmines funkcijas, įskaitant raktus ir reikšmes iš tam tikro nuorodos stiliaus vaizdų. 
  • Adapteriu pagrįsti metodai: Kita vertus, adapteriais pagrįsti metodai ir sistemos apima lengvą modelį, skirtą išsamiam vaizdų atvaizdavimui iš etaloninio stiliaus vaizdų. Tada sistema sumaniai integruoja šiuos vaizdus į sklaidos procesą, naudodama kryžminio dėmesio mechanizmus. Pagrindinis integravimo proceso tikslas yra vadovauti generavimo procesui ir užtikrinti, kad gautas vaizdas būtų suderintas su norimais pamatinio vaizdo stilistiniais niuansais. 

Tačiau, nepaisant pažadų, be derinimo metodai dažnai susiduria su keliais iššūkiais. Pirma, taikant be adapterio metodą reikia keistis raktais ir reikšmėmis dėmesio sau skirtuose sluoksniuose ir iš anksto užfiksuoti raktų ir reikšmių matricas, gautas iš atskaitos stiliaus vaizdų. Naudojant natūralius vaizdus, ​​be adapterio metodas reikalauja vaizdo inversijos atgal į latentinį triukšmą, naudojant tokius metodus kaip DDIM arba Denoising Diffusion Implicit Models inversija. Tačiau naudojant DDIM ar kitus inversijos metodus, gali būti prarastos smulkios detalės, pvz., spalva ir tekstūra, todėl sumažės stiliaus informacija sukurtuose vaizduose. Be to, taikant šiuos metodus įvestas papildomas veiksmas yra daug laiko reikalaujantis procesas ir gali turėti didelių trūkumų praktiškai. Kita vertus, pagrindinis adapteriais pagrįstų metodų iššūkis yra rasti tinkamą konteksto nutekėjimo ir stiliaus intensyvumo pusiausvyrą. Turinio nutekėjimas įvyksta, kai dėl stiliaus intensyvumo padidėjimo sugeneruotame išvestyje atsiranda ne stiliaus elementų iš atskaitos vaizdo, o pagrindinis sunkumas yra efektyvus stilių atskyrimas nuo pamatinio vaizdo turinio. Kad išspręstų šią problemą, kai kurios sistemos sukuria suporuotus duomenų rinkinius, vaizduojančius tą patį objektą skirtingais stiliais, palengvinančius turinio vaizdavimo ištraukimą ir atskirtus stilius. Tačiau dėl iš prigimties neapibrėžto stiliaus vaizdavimo didelio masto suporuotų duomenų rinkinių kūrimo užduotis yra ribota atsižvelgiant į stilių įvairovę, kurią jie gali užfiksuoti, ir tai taip pat reikalauja daug išteklių. 

Siekiant pašalinti šiuos apribojimus, pristatoma „InstantStyle“ sistema, kuri yra naujas be derinimo mechanizmas, pagrįstas esamais adapteriais pagrįstais metodais, galintis sklandžiai integruotis su kitais dėmesiu pagrįstais injekcijos metodais ir veiksmingai atsieti turinį ir stilių. Be to, „InstantStyle“ sistema pristato ne vieną, o du veiksmingus būdus, kaip užbaigti stiliaus ir turinio atsiejimą ir pasiekti geresnį stiliaus perkėlimą, nereikalaujant papildomų metodų atsiejimui arba suporuotų duomenų rinkinių kūrimui. 

Be to, ankstesnės adapteriais pagrįstos sistemos buvo plačiai naudojamos CLIP pagrįstuose metoduose kaip vaizdo ypatybių ištraukiklis, kai kuriose sistemose buvo ištirta galimybė funkcijų atskyrimui funkcijų erdvėje, o lyginant su stiliaus neapibrėžimu, lengviau apibūdinkite turinį tekstu. Kadangi naudojant CLIP metodus vaizdai ir tekstai turi bendrą funkcijų erdvę, paprasta kontekstinio teksto ir vaizdo funkcijų atėmimo operacija gali žymiai sumažinti turinio nutekėjimą. Be to, daugumoje difuzijos modeliai, jos architektūroje yra tam tikras sluoksnis, kuris įveda stiliaus informaciją ir atlieka turinio ir stiliaus atsiejimą, įterpdamas vaizdo ypatybes tik į konkrečius stiliaus blokus. Įgyvendinus šias dvi paprastas strategijas, „InstantStyle“ sistema gali išspręsti turinio nutekėjimo problemas, su kuriomis susiduria dauguma esamų sistemų, išlaikant stiliaus stiprumą. 

Apibendrinant galima pasakyti, kad „InstantStyle“ sistemoje naudojami du paprasti, nesudėtingi, tačiau veiksmingi mechanizmai, leidžiantys efektyviai atskirti turinį ir stilių nuo referencinių vaizdų. „Instant-Style“ sistema yra nuo modelio nepriklausomas ir nereikalaujantis derinimo metodas, demonstruojantis puikų stiliaus perdavimo užduočių našumą, turintį didžiulį potencialą tolesnių užduočių atlikimui. 

Momentinis stilius: metodika ir architektūra

Kaip parodyta ankstesniuose metoduose, stiliaus sąlygų įpurškimas yra subalansuotas difuzijos modeliuose be derinimo. Jei vaizdo būklės intensyvumas yra per didelis, dėl to gali nutekėti turinys, o jei vaizdo būklės intensyvumas nukrenta per žemas, stilius gali pasirodyti nepakankamai ryškus. Pagrindinė šio stebėjimo priežastis yra ta, kad įvaizdyje stilius ir turinys yra tarpusavyje susiję, o dėl būdingų neapibrėžtų stiliaus atributų sunku atskirti stilių ir tikslą. Todėl, siekiant subalansuoti teksto valdymą ir stiliaus stiprumą, kiekvienam nuorodos vaizdui dažnai pritaikomi kruopštūs svoriai. Be to, tam tikram įvesties atskaitos vaizdui ir jį atitinkančiam teksto aprašymui inversija pagrįstuose metoduose naudojami inversijos metodai, tokie kaip DDIM, kad būtų gauta atvirkštinė difuzijos trajektorija. triukšmo reprezentavimas. Remiantis tuo pačiu ir pradedant nuo atvirkštinės sklaidos trajektorijos kartu su nauju raginimų rinkiniu, šie metodai sukuria naują turinį, kurio stilius suderinamas su įvestimi. Tačiau, kaip parodyta toliau pateiktame paveikslėlyje, DDIM inversijos metodas tikriems vaizdams dažnai yra nestabilus, nes remiasi vietinėmis linijavimo prielaidomis, dėl kurių atsiranda klaidų, dėl kurių prarandamas turinys ir neteisingai atkuriami vaizdai. 

Kalbant apie metodiką, užuot taikę sudėtingas strategijas turiniui ir stiliui atskirti nuo vaizdų, momentinio stiliaus sistema naudoja paprasčiausią metodą panašiam našumui pasiekti. Palyginus su nepakankamai apibrėžtais stiliaus atributais, turinį galima pavaizduoti natūraliu tekstu, todėl momentinio stiliaus sistema gali naudoti CLIP teksto koduotuvą, kad išskirtų turinio teksto ypatybes kaip konteksto atvaizdavimą. Tuo pačiu metu Instant-Style sistema įgyvendina CLIP vaizdo kodavimo priemonę, kad išgautų pamatinio vaizdo ypatybes. Pasinaudodama visuotinių CLIP ypatybių apibūdinimu ir turinio teksto ypatybių atėmimu iš vaizdo ypatybių, momentinio stiliaus sistema gali aiškiai atskirti stilių ir turinį. Nors tai paprasta strategija, ji padeda Instant-Style sistemai gana veiksmingai sumažinti turinio nutekėjimą iki minimumo. 

Be to, kiekvienas gilaus tinklo sluoksnis yra atsakingas už skirtingos semantinės informacijos fiksavimą, o pagrindinis ankstesnių modelių pastebėjimas yra tas, kad yra du dėmesio sluoksniai, atsakingi už tvarkymo stilių. up Konkrečiai, tai yra blocks.0.attentions.1 ir down blocks.2.attentions.1 sluoksniai, atsakingi už stiliaus, pavyzdžiui, spalvos, medžiagos, atmosferos, fiksavimą, o erdvinio išdėstymo sluoksnis atitinkamai fiksuoja struktūrą ir kompoziciją. Instant-Style sistema netiesiogiai naudoja šiuos sluoksnius stiliaus informacijai išgauti ir apsaugo nuo turinio nutekėjimo neprarandant stiliaus stiprumo. Strategija yra paprasta, bet efektyvi, nes modelyje yra stiliaus blokų, kurie gali įterpti vaizdo ypatybes į šiuos blokus, kad būtų užtikrintas sklandus stiliaus perkėlimas. Be to, kadangi modelis labai sumažina adapterio parametrų skaičių, patobulintos sistemos teksto valdymo galimybės, o mechanizmas taip pat taikomas kitiems dėmesiu pagrįstiems funkcijų įpurškimo modeliams, skirtiems redaguoti ir kitoms užduotims atlikti. 

Momentinis stilius: eksperimentai ir rezultatai

„Instant-Style“ sistema yra įdiegta „Stable Diffusion XL“ sistemoje ir naudoja įprastai iš anksto paruoštą IR adapterį kaip pavyzdį, kad patvirtintų savo metodiką, ir nutildo visus blokus, išskyrus vaizdo ypatybių stiliaus blokus. „Instant-Style“ modelis taip pat apmoko IR adapterį 4 milijonuose didelio masto teksto vaizdų suporuotų duomenų rinkinių nuo nulio ir užuot mokęs visus blokus, atnaujina tik stiliaus blokus. 

Siekdama apibendrinimo ir patikimumo, Instant-Style sistema atlieka daugybę stilių perkėlimo eksperimentų su įvairiais stiliais skirtingame turinyje, o rezultatus galima stebėti toliau pateiktuose vaizduose. Atsižvelgiant į vieną stiliaus atskaitos vaizdą ir įvairius raginimus, momentinio stiliaus sistema užtikrina aukštos kokybės, nuoseklų stilių vaizdo generavimas

Be to, kadangi modelis įveda vaizdo informaciją tik į stiliaus blokus, jis gali žymiai sumažinti turinio nutekėjimo problemą, todėl nereikia koreguoti svorio. 

Be to, „Instant-Style“ sistema taip pat naudoja „ControlNet“ architektūrą, kad būtų galima atlikti vaizdu pagrįstą stilizavimą naudojant erdvinį valdymą, o rezultatai parodyti kitame paveikslėlyje. 

Lyginant su ankstesniais moderniausiais metodais, įskaitant „StyleAlign“, „B-LoRA“, „Swapping Self Attention“ ir „IP-Adapter“, „Instant-Style“ sistema demonstruoja geriausius vaizdo efektus. 

Baigiamosios mintys

Šiame straipsnyje mes kalbėjome apie momentinį stilių – bendrą sistemą, kurioje naudojamos dvi paprastos, bet veiksmingos strategijos, skirtos veiksmingam turinio ir stiliaus atskyrimui nuo referencinių vaizdų. „InstantStyle“ sistema sukurta siekiant išspręsti problemas, su kuriomis susiduria dabartiniai derinimu pagrįsti vaizdo generavimo ir pritaikymo sklaidos modeliai. Instant-Style sistema įgyvendina dvi gyvybiškai svarbias strategijas: Paprastas, bet efektyvus būdas atskirti stilių ir turinį nuo pamatinių vaizdų objektų erdvėje, numatant, kad toje pačioje funkcijų erdvėje esančius elementus galima pridėti arba atimti vienas nuo kito. Antra, užkertamas kelias stiliaus nutekėjimui įterpiant atskaitos vaizdo ypatybes tik į konkrečiam stiliui būdingus blokus ir sąmoningai vengiant naudoti sudėtingus svorius koreguojant, dažnai apibūdinant sudėtingesnius parametrus turinčius dizainus. 

„Iš profesijos inžinierius, iš širdies – rašytojas“. Kunal yra techninis rašytojas, giliai mylintis ir suprantantis dirbtinį intelektą ir ML, siekiantis supaprastinti sudėtingas sąvokas šiose srityse, pasitelkdamas patrauklią ir informatyvią dokumentaciją.