stub Kiirstiil: stiili säilitamine tekstist pildiks genereerimisel – Unite.AI
Ühenda meile

Tehisintellekt

Kiirstiil: stiili säilitamine tekstist pildiks genereerimisel

mm

avaldatud

 on

Viimastel aastatel on häälestuspõhised difusioonimudelid näidanud märkimisväärset edu paljudes piltide isikupärastamise ja kohandamise ülesannetes. Kuid vaatamata nende potentsiaalile seisavad praegused häälestuspõhised difusioonimudelid jätkuvalt silmitsi paljude keerukate väljakutsetega stiilile järjepidevate piltide loomisel ja nende taga võib olla kolm põhjust. Esiteks jääb stiili mõiste endiselt laialdaselt määratlemata ja määramata ning hõlmab elementide kombinatsiooni, sealhulgas atmosfäär, struktuur, disain, materjal, värv ja palju muud. Teised inversioonipõhised meetodid on altid stiili halvenemisele, mille tulemuseks on peeneteraliste detailide sagedane kadu. Lõpuks nõuavad adapteripõhised lähenemisviisid iga võrdluspildi sagedast kaalu reguleerimist, et säilitada tasakaal teksti juhitavuse ja stiili intensiivsuse vahel. 

Lisaks on enamiku stiiliedastusviiside või stiilikujutise genereerimise peamine eesmärk kasutada võrdluspilti ja rakendada selle konkreetset stiili antud alamhulgast või võrdluspildist sihtsisu kujutisele. Kuid just stiiliatribuutide suur arv muudab teadlaste töö keeruliseks stiliseeritud andmekogumite kogumise, stiili õigesti esitamise ja ülekande edukuse hindamise. Varem peenhäälestuspõhise difusiooniprotsessiga tegelevad mudelid ja raamistikud peenhäälestavad kujutiste andmekogu, millel on ühine stiil. See protsess on nii aeganõudev kui ka piiratud üldistusvõimega reaalsetes ülesannetes, kuna see on keeruline. sama või peaaegu identse stiiliga piltide alamhulga kogumiseks. 

Selles artiklis räägime InstantStyle'ist, raamistikust, mis on loodud selleks, et lahendada probleeme, millega seisavad silmitsi praegused häälestuspõhised kujutise genereerimise ja kohandamise difusioonimudelid. Räägime kahest peamisest strateegiast, mida InstantStyle raamistik rakendab: 

  1. Lihtne, kuid tõhus lähenemine stiili ja sisu lahutamiseks funktsiooniruumis olevatest võrdluspiltidest, eeldades, et samas funktsiooniruumis olevaid funktsioone saab üksteisele lisada või lahutada. 
  2. Stiililekke vältimine, sisestades võrdluspildi funktsioonid eranditult stiilispetsiifilistesse plokkidesse ja vältides tahtlikult vajadust kasutada peenhäälestamiseks tülikaid kaalusid, mis iseloomustavad sageli parameetririkkamaid kujundusi. 

Selle artikli eesmärk on käsitleda InstantStyle'i raamistikku põhjalikult ning me uurime raamistiku mehhanismi, metoodikat, arhitektuuri ja selle võrdlust nüüdisaegsete raamistikega. Räägime ka sellest, kuidas InstantStyle'i raamistik demonstreerib silmapaistvaid visuaalseid stiliseerimistulemusi ning loob optimaalse tasakaalu tekstielementide juhitavuse ja stiili intensiivsuse vahel. Nii et alustame. 

InstantStyle: stiilide säilitamine tekstist pildi genereerimisel

Hajutuspõhised tekstist pildiks genereerivad AI-raamistikud on saavutanud märkimisväärset ja märkimisväärset edu paljude kohandamis- ja isikupärastamisülesannete puhul, eriti järjepidevate kujutiste genereerimise ülesannete puhul, sealhulgas objektide kohandamine, kujutise säilitamine ja stiilide ülekandmine. Kuid vaatamata hiljutisele edule ja jõudluse kasvule on stiili ülekandmine endiselt keeruline ülesanne teadlaste jaoks, kuna stiil on määratlemata ja määratlemata, hõlmates sageli mitmesuguseid elemente, sealhulgas atmosfäär, struktuur, disain, materjal, värv ja palju muud. Seda arvestades on stiliseeritud kujutiste genereerimise või stiilide ülekandmise esmane eesmärk rakendada konkreetset stiili antud võrdluspildilt või piltide alamhulgast. sihtsisu pildile. Stiili atribuutide suur arv muudab aga teadlaste töö keeruliseks stiliseeritud andmekogumite kogumise, stiili õigesti esitamise ja ülekande edukuse hindamise. Varem peenhäälestuspõhise difusiooniprotsessiga tegelevad mudelid ja raamistikud peenhäälestavad kujutiste andmekogu, millel on ühine stiil. See protsess on nii aeganõudev kui ka piiratud üldistusvõimega reaalsetes ülesannetes, kuna see on keeruline. sama või peaaegu identse stiiliga piltide alamhulga kogumiseks. 

Seoses praeguse lähenemisviisiga seotud väljakutsetega on teadlased tundnud huvi stiilide ülekandmise või peenhäälestusviiside väljatöötamise vastu. stiliseeritud kujutiste genereerimineja need raamistikud saab jagada kahte erinevasse rühma: 

  • Adapterivabad lähenemised: Adapterivabad lähenemisviisid ja raamistikud kasutavad difusiooniprotsessis enesetähelepanu võimet ning jagatud tähelepanu toimingut rakendades on need mudelid võimelised eraldama olulisi funktsioone, sealhulgas võtmeid ja väärtusi, otse antud võrdlusstiili piltidest. 
  • Adapteripõhised lähenemisviisid: Adapteripõhised lähenemisviisid ja raamistikud sisaldavad seevastu kerget mudelit, mille eesmärk on eraldada võrdlusstiili piltidest üksikasjalikud kujutised. Seejärel integreerib raamistik need esitused difusiooniprotsessi oskuslikult, kasutades risttähelepanu mehhanisme. Integreerimisprotsessi esmane eesmärk on genereerimisprotsessi suunamine ja tulemuseks saadava kujutise vastavusse viimine võrdluspildi soovitud stiilinüanssidega. 

Kuid vaatamata lubadustele puutuvad häälestusvabad meetodid sageli kokku mõne väljakutsega. Esiteks nõuab adapterivaba lähenemine võtmete ja väärtuste vahetamist enesetähelepanu kihtides ning püüab eelnevalt kinni viitestiili piltidest tuletatud võtme- ja väärtusmaatriksid. Looduslike piltide puhul nõuab adapterivaba lähenemine kujutise ümberpööramist varjatud müraks, kasutades selliseid tehnikaid nagu DDIM või Denoising Diffusion Implicit Models inversion. DDIM-i või muude inversioonimeetodite kasutamine võib aga kaasa tuua peeneteraliste detailide (nt värvi ja tekstuuri) kadumise, vähendades seega loodud piltide stiiliteavet. Peale selle on nende lähenemisviisidega kasutusele võetud lisaetapp aeganõudev protsess ja võib praktilistes rakendustes tuua kaasa olulisi puudusi. Teisest küljest on adapteripõhiste meetodite peamine väljakutse leida õige tasakaal konteksti lekke ja stiili intensiivsuse vahel. Sisu lekkimine ilmneb siis, kui stiili intensiivsuse suurenemise tulemusel ilmuvad loodud väljundisse võrdluspildist stiilivälised elemendid, kusjuures peamine raskuspunkt on stiilide tõhus eraldamine võrdluspildi sisust. Selle probleemi lahendamiseks loovad mõned raamistikud paarisandmekogumeid, mis esindavad sama objekti eri stiilides, hõlbustades sisu esituse eraldamist ja eraldatud stiile. Kuid tänu stiili olemuslikult määramatule esitusviisile on suuremahuliste paarisandmekogumite loomise ülesanne piiratud stiilide mitmekesisuse poolest, mida see saab hõivata, ja see on ka ressursimahukas protsess. 

Nende piirangutega toimetulemiseks tutvustatakse InstantStyle'i raamistikku, mis on uudne häälestamisevaba mehhanism, mis põhineb olemasolevatel adapteripõhistel meetoditel ja mis suudab sujuvalt integreeruda teiste tähelepanupõhiste süstimismeetoditega ning saavutada sisu ja stiili tõhusa lahtisidumise. Lisaks tutvustab InstantStyle'i raamistik mitte ühte, vaid kahte tõhusat viisi stiili ja sisu lahtisidumise lõpuleviimiseks, saavutades parema stiilimigratsiooni, ilma et oleks vaja kasutusele võtta täiendavaid meetodeid lahtisidumise saavutamiseks või paarisandmekogumite loomiseks. 

Lisaks on varasemaid adapteripõhiseid raamistikke CLIP-põhistes meetodites laialdaselt kasutatud pildifunktsioonide eraldajana, mõned raamistikud on uurinud võimalust rakendada funktsioonide lahtisidumist funktsiooniruumis ja kui võrrelda stiili määramatusega, on seda lihtsam teha. kirjelda sisu tekstiga. Kuna CLIP-põhiste meetodite puhul jagavad kujutised ja tekstid funktsiooniruumi, võib kontekstiteksti funktsioonide ja pildifunktsioonide lihtne lahutamisoperatsioon sisu leket oluliselt vähendada. Lisaks enamikus difusioonimudelid, on selle arhitektuuris konkreetne kiht, mis sisestab stiiliteabe ning viib sisu ja stiili lahtiühendamiseni, sisestades pildifunktsioonid ainult kindlatesse stiiliplokkidesse. Neid kahte lihtsat strateegiat rakendades suudab InstantStyle'i raamistik lahendada sisu lekkeprobleemid, millega enamik olemasolevaid raamistikke kokku puutub, säilitades samas stiili tugevuse. 

Kokkuvõtteks võib öelda, et InstantStyle'i raamistik kasutab kahte lihtsat, arusaadavat, kuid tõhusat mehhanismi, et saavutada sisu ja stiili tõhus lahutamine võrdluspiltidest. Instant-Style'i raamistik on mudelist sõltumatu ja häälestamisevaba lähenemine, mis näitab tähelepanuväärset jõudlust stiiliedastusülesannetes, millel on tohutu potentsiaal järgnevateks ülesanneteks. 

Instant-Style: metoodika ja arhitektuur

Nagu varasemad lähenemisviisid näitasid, valitseb häälestusvabade difusioonimudelite stiilitingimuste sisestamisel tasakaal. Kui pilditingimuste intensiivsus on liiga kõrge, võib see põhjustada sisu leket, samas kui pilditingimuste intensiivsus langeb liiga madalale, ei pruugi stiil olla piisavalt selge. Selle tähelepaneku peamine põhjus on see, et kujutise stiil ja sisu on omavahel seotud ning stiilile omaste määramatute stiiliatribuutide tõttu on stiili ja kavatsuste lahutamine keeruline. Selle tulemusena häälestatakse sageli iga võrdluspildi jaoks hoolikalt kaalu, et tasakaalustada teksti juhitavust ja stiili tugevust. Lisaks kasutatakse antud sisendi võrdluspildi ja sellele vastava tekstikirjelduse puhul inversioonipõhistes meetodites ümberpööratud difusioonitrajektoori saamiseks pildile inversioonimeetodeid, nagu DDIM – protsess, mis läheneb inversioonivõrrandile, et muuta kujutis latentseks. müra esitus. Toetudes samale ja alustades ümberpööratud difusioonitrajektoorist koos uute viipade komplektiga, genereerivad need meetodid uut sisu, mille stiil ühtib sisendiga. Kuid nagu on näidatud järgmisel joonisel, on reaalsete piltide DDIM-i inversiooni lähenemisviis sageli ebastabiilne, kuna see tugineb kohalikele lineariseerimise eeldustele, mille tulemuseks on vigade levik ning sisu kadumine ja vale kujutise rekonstrueerimine. 

Metoodika juurde tulles, selle asemel, et kasutada keerulisi strateegiaid sisu ja stiili piltidest lahutamiseks, kasutab Instant-Style raamistik sarnase jõudluse saavutamiseks kõige lihtsamat lähenemist. Võrreldes alamääratletud stiiliatribuutidega, saab sisu esitada loomuliku tekstiga, mis võimaldab Instant-Style'i raamistikul kasutada CLIP-i tekstikodeerijat, et eraldada sisuteksti omadused konteksti esitustena. Samal ajal rakendab Instant-Style raamistik CLIP-kujutise kodeerija, et eraldada võrdluspildi funktsioonid. Kasutades ära CLIP-i globaalsete funktsioonide iseloomustust ja lahutades pildifunktsioonidest sisuteksti funktsioonid, suudab Instant-Style'i raamistik stiili ja sisu selgesõnaliselt lahti siduda. Ehkki see on lihtne strateegia, aitab see Instant-Style'i raamistikul sisu lekke minimeerimisel üsna tõhusalt hoida. 

Lisaks vastutab iga sügava võrgu iga kiht erineva semantilise teabe hõivamise eest ja eelmiste mudelite peamine tähelepanek on see, et on olemas kaks tähelepanu kihti, mis vastutavad käsitlemisstiili eest. üles Täpsemalt vastutavad kihid blocks.0.attentions.1 ja down blocks.2.attentions.1 stiilide (nt värvi, materjali, atmosfääri) jäädvustamise eest ning ruumilise paigutuse kiht jäädvustab vastavalt struktuuri ja kompositsiooni. Instant-Style'i raamistik kasutab neid kihte kaudselt stiiliteabe eraldamiseks ja hoiab ära sisu lekke ilma stiili tugevust kaotamata. Strateegia on lihtne, kuid tõhus, kuna mudel on paigutanud stiiliplokid, mis suudavad nendesse plokkidesse pildifunktsioone sisestada, et saavutada sujuv stiiliülekanne. Lisaks, kuna mudel vähendab oluliselt adapteri parameetrite arvu, on raamistiku tekstijuhtimise võime täiustatud ja mehhanism on rakendatav ka muudele tähelepanupõhistele funktsioonide süstimismudelitele redigeerimiseks ja muudeks ülesanneteks. 

Kiirstiil: katsed ja tulemused

Instant-Style raamistik on rakendatud Stable Diffusion XL raamistikus ja see kasutab oma metoodika kinnitamiseks eeskujuks tavaliselt kasutatavat eelkoolitatud IR-adapterit ning vaigistab kõik plokid, välja arvatud pildifunktsioonide stiiliplokid. Instant-Style mudel treenib ka IR-adapterit 4 miljonil suuremahulisel tekstipildiga seotud andmekogumil nullist ja värskendab kõigi plokkide treenimise asemel ainult stiiliplokke. 

Oma üldistusvõimaluste ja töökindluse tagamiseks viib Instant-Style'i raamistik läbi arvukalt stiiliedastuskatseid erinevate stiilidega ja erineva sisuga ning tulemusi saab jälgida järgmistel piltidel. Arvestades ühe stiili võrdluspilti koos erinevate viipadega, pakub Instant-Style raamistik kvaliteetset ja ühtlast stiili pildi genereerimine

Lisaks, kuna mudel sisestab pilditeavet ainult stiiliplokkidesse, suudab see sisu lekke probleemi oluliselt leevendada ja seetõttu ei pea ta kaalu häälestamist tegema. 

Edasi liikudes võtab Instant-Style'i raamistik kasutusele ka ControlNeti arhitektuuri, et saavutada pildipõhine stiliseerimine ruumilise juhtimisega ning tulemusi näidatakse järgmisel pildil. 

Võrreldes varasemate nüüdisaegsete meetoditega, sealhulgas StyleAlign, B-LoRA, Swapping Self Attention ja IP-adapter, näitab Instant-Style raamistik parimaid visuaalseid efekte. 

Final Thoughts

Selles artiklis oleme rääkinud Instant-Style'ist, üldisest raamistikust, mis kasutab kahte lihtsat, kuid tõhusat strateegiat sisu ja stiili tõhusaks lahutamiseks võrdluspiltidest. InstantStyle'i raamistik on loodud selleks, et lahendada probleeme, millega seisavad silmitsi praegused häälestuspõhised kujutise genereerimise ja kohandamise difusioonimudelid. Instant-Style'i raamistik rakendab kahte olulist strateegiat: lihtne, kuid tõhus lähenemisviis stiili ja sisu lahutamiseks funktsiooniruumis olevatest võrdluspiltidest, eeldades, et samas funktsiooniruumis olevaid funktsioone saab üksteisele lisada või lahutada. Teiseks, stiililekke vältimine, sisestades võrdluspildi funktsioonid eranditult stiilispetsiifilistesse plokkidesse ja vältides tahtlikult vajadust kasutada peenhäälestamiseks tülikaid kaalusid, mis sageli iseloomustavad parameetririkkamaid kujundusi. 

"Elukutselt insener, hingelt kirjanik". Kunal on tehniline kirjanik, kes armastab ja mõistab sügavalt AI-d ja ML-i ning on pühendunud nende valdkondade keerukate kontseptsioonide lihtsustamisele oma kaasahaarava ja informatiivse dokumentatsiooni kaudu.