stubbur Augnablik-stíll: Stílvarðveisla í texta-í-mynd kynslóð - Unite.AI
Tengja við okkur

Artificial Intelligence

Augnablik-stíll: Stíl-varðveisla í texta-í-mynd kynslóð

mm

Útgefið

 on

Undanfarin ár hafa dreifingarlíkön sem byggjast á stillingu sýnt fram á ótrúlegar framfarir í margs konar sérsniðnum myndum og sérsniðnum verkefnum. Hins vegar, þrátt fyrir möguleika þeirra, halda núverandi dreifingarlíkön sem byggjast á stilli áfram að standa frammi fyrir fjölda flókinna áskorana við að framleiða og búa til myndir í samræmi við stíl, og það gætu verið þrjár ástæður á bak við það sama. Í fyrsta lagi er hugtakið stíl enn víða óskilgreint og óákveðið og samanstendur af samsetningu þátta, þar á meðal andrúmsloft, uppbyggingu, hönnun, efni, lit og margt fleira. Aðferðir sem byggjast á annarri öfugsnúningi eru viðkvæmar fyrir niðurbroti á stíl, sem leiðir til tíðar taps á fínkornum smáatriðum. Að lokum, aðferðir sem byggjast á millistykki krefjast tíðrar þyngdarstillingar fyrir hverja viðmiðunarmynd til að viðhalda jafnvægi milli stjórnunar texta og stílstyrks. 

Ennfremur er aðalmarkmið meirihluta stílflutningsaðferða eða myndgerð stílmyndar að nota viðmiðunarmyndina og beita tilteknum stíl hennar frá tilteknu hlutmengi eða tilvísunarmynd á markefnismynd. Hins vegar er það hinn mikli fjöldi eiginleika stíls sem gerir starfið erfitt fyrir rannsakendur að safna stílfærðum gagnasöfnum, tákna stíl rétt og meta árangur flutningsins. Áður hafa líkön og rammar sem fjalla um fínstillingar byggt dreifingarferli fínstillt gagnasafn mynda sem deila sameiginlegum stíl, ferli sem er bæði tímafrekt og með takmarkaðan alhæfanleika í verkefnum í raunheimum þar sem það er erfitt. til að safna undirmengi mynda sem deila sama eða næstum eins stíl. 

Í þessari grein munum við tala um InstantStyle, ramma sem er hannaður með það að markmiði að takast á við vandamálin sem núverandi dreifingarlíkön standa frammi fyrir að stilla á til að mynda og sérsníða. Við munum tala um tvær lykilaðferðir sem innleiddar eru af InstantStyle ramma: 

  1. Einföld en áhrifarík nálgun til að aftengja stíl og innihald frá tilvísunarmyndum innan eiginleikarýmisins, spáð á þeirri forsendu að hægt sé að bæta eiginleikum innan sama eiginleikarýmis við eða draga hver frá öðrum. 
  2. Koma í veg fyrir stílleka með því að sprauta tilvísunarmyndareiginleikum eingöngu inn í stílsértæku blokkirnar og forðast vísvitandi þörfina á að nota fyrirferðarmikil lóð til að fínstilla, sem einkennir oft breytuþunga hönnun. 

Þessi grein miðar að því að fjalla ítarlega um InstantStyle rammann og við könnum gangverkið, aðferðafræðina, arkitektúr rammans ásamt samanburði við nýjustu ramma. Við munum einnig tala um hvernig InstantStyle ramminn sýnir ótrúlega útkomu sjónrænnar stílstillingar og nær ákjósanlegu jafnvægi á milli stjórnunar textaþátta og styrks stíls. Svo skulum við byrja. 

InstantStyle: Stílvarðveisla í texta til myndgerðar

Texti sem byggir á dreifingu til myndsköpunar gervigreindarramma hefur náð áberandi og eftirtektarverðum árangri í fjölmörgum aðlögunar- og sérstillingarverkefnum, sérstaklega í samræmdum myndsköpunarverkefnum, þar með talið aðlögun hluta, varðveislu myndar og stílflutning. Hins vegar, þrátt fyrir nýlegan árangur og uppörvun í frammistöðu, er stílflutningur enn krefjandi verkefni fyrir rannsakendur vegna óákveðins og óskilgreinds eðlis stíls, sem inniheldur oft margvíslega þætti þar á meðal andrúmsloft, uppbyggingu, hönnun, efni, lit og margt fleira. Með því að segja, er aðalmarkmið stílfærðrar myndgerðar eða stílflutnings að beita tilteknum stíl frá tiltekinni tilvísunarmynd eða tilvísunarhlutmengi mynda að markefnismyndinni. Hins vegar gerir hinn mikli fjöldi eiginleika stíla starfið erfitt fyrir rannsakendur að safna stílfærðum gagnasöfnum, sem tákna stíl rétt, og meta árangur flutningsins. Áður hafa líkön og rammar sem fjalla um fínstillingar byggt dreifingarferli fínstillt gagnasafn mynda sem deila sameiginlegum stíl, ferli sem er bæði tímafrekt og með takmarkaðan alhæfanleika í verkefnum í raunheimum þar sem það er erfitt. til að safna undirmengi mynda sem deila sama eða næstum eins stíl. 

Með þeim áskorunum sem núverandi nálgun stendur frammi fyrir hafa vísindamenn haft áhuga á að þróa fínstillandi nálganir fyrir stílflutning eða stílfærð myndsköpun, og þessum ramma má skipta í tvo mismunandi hópa: 

  • Millistykkislausar aðferðir: Millistykkislausar nálganir og rammar nýta kraftinn í sjálfsathygli innan dreifingarferlisins og með því að innleiða aðgerð með sameiginlegri athygli eru þessi líkön fær um að draga út nauðsynlega eiginleika, þar á meðal lykla og gildi, beint úr tilteknum tilvísunarstílsmyndum. 
  • Aðferðir sem byggja á millistykki: Aðferðir og rammar sem byggja á millistykki fela aftur á móti í sér létt líkan sem er hannað til að draga út nákvæmar myndbirtingar úr tilvísunarstílsmyndunum. Ramminn samþættir síðan þessar framsetningar inn í dreifingarferlið á kunnáttusamlegan hátt með því að nota krossathygli. Meginmarkmið samþættingarferlisins er að leiðbeina kynslóðarferlinu og tryggja að myndin sem myndast sé í takt við æskileg stílbrigði viðmiðunarmyndarinnar. 

Hins vegar, þrátt fyrir loforð, lenda stillingarlausar aðferðir oft við nokkrar áskoranir. Í fyrsta lagi krefst millistykkislausa nálgunin að skiptast á lyklum og gildum innan sjálfsathyglis laganna, og grípur fyrirfram lykil- og gildisfylki sem fengin eru úr tilvísunarstílmyndum. Þegar hún er innleidd á náttúrulegar myndir, krefst millistykkislausa nálgunin að mynd snúist aftur í dulda hávaðann með því að nota tækni eins og DDIM eða Denoising Diffusion Implicit Models inversion. Hins vegar, með því að nota DDIM eða aðrar snúningsaðferðir, gæti það leitt til taps á fínkornum smáatriðum eins og lit og áferð, og þar af leiðandi minnkað stílupplýsingarnar í myndunum. Ennfremur er viðbótarskrefið sem kynnt er með þessum aðferðum tímafrekt ferli og getur valdið verulegum göllum í hagnýtri notkun. Á hinn bóginn liggur aðal áskorunin fyrir aðferðir sem byggja á millistykki í því að ná réttu jafnvægi á milli samhengileka og stílstyrks. Efnisleki á sér stað þegar aukning á stílstyrknum leiðir til þess að þættir sem ekki eru stílhreinir birtast úr tilvísunarmyndinni í mynduðu úttakinu, þar sem aðal erfiðleikinn er að aðskilja stíl frá efni innan viðmiðunarmyndarinnar á áhrifaríkan hátt. Til að takast á við þetta vandamál, búa sumir rammar til pöruð gagnasöfn sem tákna sama hlutinn í mismunandi stílum, sem auðveldar útdrátt á framsetningu efnis og sundurfléttuðum stílum. Hins vegar, þökk sé í eðli sínu óákveðinn framsetning stíls, er verkefnið að búa til stórfelld pöruð gagnasöfn takmörkuð með tilliti til fjölbreytileika stíla sem það getur fanga, og það er auðlindafrekt ferli líka. 

Til að takast á við þessar takmarkanir er InstantStyle rammainn kynntur sem er nýr stilla-frjáls vélbúnaður sem byggir á núverandi millistykki sem byggir á aðferðum með getu til að samþætta óaðfinnanlega öðrum athyglisbundnum inndælingaraðferðum og ná að aftengja efni og stíl á áhrifaríkan hátt. Ennfremur kynnir InstantStyle ramminn ekki eina, heldur tvær árangursríkar leiðir til að ljúka aftengingu stíls og innihalds, til að ná betri stílflutningi án þess að þurfa að kynna viðbótaraðferðir til að ná aftengingu eða byggja upp pöruð gagnasöfn. 

Ennfremur hafa fyrri umgjörð sem byggir á millistykki verið notuð víða í CLIP-byggðum aðferðum sem myndeiginleikaútdráttur, sumir rammar hafa kannað möguleikann á að innleiða aftengingu eiginleika innan eiginleikarýmisins, og þegar borið er saman við óákvörðun á stíl, er auðveldara að lýsa innihaldinu með texta. Þar sem myndir og textar deila eiginleikarými í aðferðum sem byggjast á CLIP, getur einföld frádráttaraðgerð á samhengistextaeiginleikum og myndeiginleikum dregið verulega úr efnisleka. Ennfremur, í meirihluta dreifingarlíkön, það er sérstakt lag í arkitektúr þess sem dælir inn stílupplýsingunum og nær að aftengja innihald og stíl með því að sprauta myndeiginleikum aðeins inn í sérstaka stílblokka. Með því að innleiða þessar tvær einföldu aðferðir, er InstantStyle ramminn fær um að leysa efnislekavandamál sem meirihluti núverandi ramma lendir í en viðheldur styrkleika stílsins. 

Til að draga þetta saman, þá notar InstantStyle ramma tvær einfaldar, einfaldar en áhrifaríkar aðferðir til að ná skilvirkri sundrun efnis og stíls frá tilvísunarmyndum. Instant-Style ramma er óháð fyrirmynd og stilla-frjáls nálgun sem sýnir ótrúlega frammistöðu í stílflutningsverkefnum með mikla möguleika fyrir downstream verkefni. 

Augnablik-stíll: Aðferðafræði og arkitektúr

Eins og sýnt hefur verið fram á með fyrri aðferðum er jafnvægi í innspýtingu stílskilyrða í stillingarlausum dreifingarlíkönum. Ef styrkleiki myndástandsins er of hár gæti það leitt til innihaldsleka, en ef styrkleiki myndástandsins lækkar of lágt virðist stíllinn ekki vera nógu augljós. Aðalástæðan á bak við þessa athugun er sú að í mynd eru stíll og innihald samtengd, og vegna óákveðinna óákveðinna stíleiginleika er erfitt að aftengja stíl og ásetning. Fyrir vikið eru nákvæmar lóðir oft stilltar fyrir hverja viðmiðunarmynd til að reyna að koma jafnvægi á textastýranleika og stílstyrk. Ennfremur, fyrir tiltekna inntaksviðmiðunarmynd og samsvarandi textalýsingu hennar í öfugsnúnum aðferðum, eru öfugsnúningaraðferðir eins og DDIM notaðar yfir myndina til að fá öfuga dreifingarferil, ferli sem nálgast öfugjöfnuna til að breyta mynd í dulda hávaðaframsetning. Byggt á því sama og byrjað á öfugum dreifingarferil ásamt nýju setti af leiðbeiningum, mynda þessar aðferðir nýtt efni með stíl þess í takt við inntakið. Hins vegar, eins og sést á eftirfarandi mynd, er DDIM öfugsnúningsaðferðin fyrir raunverulegar myndir oft óstöðug þar sem hún byggir á staðbundnum línugreiningarforsendum, sem leiðir til útbreiðslu villna og leiðir til taps á innihaldi og rangrar mynduppbyggingar. 

Þegar kemur að aðferðafræðinni, í stað þess að nota flóknar aðferðir til að sundurgreina efni og stíl frá myndum, tekur Instant-Style ramma einfaldasta aðferðina til að ná svipuðum árangri. Þegar borið er saman við vanákveðna stíleiginleika, getur innihald verið táknað með náttúrulegum texta, sem gerir Instant-Style ramma kleift að nota textakóðarann ​​frá CLIP til að draga út eiginleika innihaldstextans sem samhengisframsetningu. Samtímis innleiðir Instant-Style ramma CLIP myndkóðara til að draga út eiginleika tilvísunarmyndarinnar. Með því að nýta sér eiginleika CLIP alþjóðlegra eiginleika og eftir að draga efnistextaeiginleikana frá myndeiginleikum, er Instant-Style ramminn fær um að aftengja stílinn og innihaldið sérstaklega. Þó að það sé einföld stefna, hjálpar það að Instant-Style ramma er nokkuð árangursríkur við að halda efnisleka í lágmarki. 

Ennfremur er hvert lag innan djúps netkerfis ábyrgt fyrir að fanga mismunandi merkingarfræðilegar upplýsingar og lykilathugun fyrri gerða er að það eru til tvö athyglislög sem bera ábyrgð á meðhöndlun stíl. upp Nánar tiltekið, það eru blokkir.0.athygli.1 og niður blokkir.2.athygli.1 lögin sem bera ábyrgð á að fanga stíl eins og lit, efni, andrúmsloft og staðbundna skipulagslagið fangar uppbyggingu og samsetningu í sömu röð. The Instant-Style ramma notar þessi lög óbeint til að draga út stílupplýsingar og kemur í veg fyrir að efni leki án þess að tapa stílstyrknum. Stefnan er einföld en áhrifarík þar sem líkanið hefur staðsett stílkubba sem geta sprautað myndeiginleikum inn í þessar blokkir til að ná óaðfinnanlegum stílflutningi. Ennfremur, þar sem líkanið dregur verulega úr fjölda breytum millistykkisins, er textastýringargeta rammans aukin og vélbúnaðurinn á einnig við um önnur athyglisbundin innspýtingarlíkön fyrir klippingu og önnur verkefni. 

Augnablik-stíll: Tilraunir og niðurstöður

Instant-Style umgjörðin er útfærð á Stable Diffusion XL ramma, og hann notar almennt notaða fyrirfram þjálfaða IR-millistykkið sem fyrirmynd til að sannreyna aðferðafræði sína, og þaggar alla kubba nema stílkubbana fyrir myndeiginleika. Instant-Style líkanið þjálfar einnig IR-millistykkið á 4 milljón stórum textamyndapöruðum gagnasettum frá grunni, og í stað þess að þjálfa alla kubba, uppfærir aðeins stílkubbana. 

Til að framkvæma alhæfingargetu sína og styrkleika, gerir Instant-Style ramma fjölmargar stílflutningstilraunir með ýmsum stílum á mismunandi efni, og niðurstöðurnar má sjá á eftirfarandi myndum. Með einni stíl viðmiðunarmynd ásamt mismunandi leiðbeiningum, skilar Instant-Style ramma hágæða, stöðugum stíl myndsköpun

Þar að auki, þar sem líkanið dælir aðeins myndupplýsingum inn í stílblokkina, er það fær um að draga verulega úr efnisleka og þarf því ekki að framkvæma þyngdarstillingar. 

Meðfram, Instant-Style ramma samþykkir einnig ControlNet arkitektúrinn til að ná myndtengdri stílgerð með staðbundinni stjórn, og niðurstöðurnar eru sýndar á eftirfarandi mynd. 

Þegar borið er saman við fyrri nýjustu aðferðir, þar á meðal StyleAlign, B-LoRA, Skipta um sjálfs athygli og IP-adapter, sýnir Instant-Style ramma bestu sjónræn áhrif. 

Final Thoughts

Í þessari grein höfum við talað um Instant-Style, almennan ramma sem notar tvær einfaldar en árangursríkar aðferðir til að ná skilvirkri sundrun efnis og stíls frá tilvísunarmyndum. InstantStyle ramminn er hannaður með það að markmiði að takast á við vandamálin sem núverandi dreifingarlíkön standa frammi fyrir að stilla út til að mynda og sérsníða. Augnablik-stíll ramminn útfærir tvær mikilvægar aðferðir: Einföld en áhrifarík nálgun til að aftengja stíl og efni frá tilvísunarmyndum innan eiginleikarýmisins, spáð á þeirri forsendu að eiginleikar innan sama eiginleikarýmis geti annaðhvort verið bætt við eða dregið hver frá öðrum. Í öðru lagi, koma í veg fyrir stílleka með því að sprauta tilvísunarmyndareiginleikum eingöngu inn í stílsértæku blokkina og forðast vísvitandi þörfina á að nota fyrirferðarmikil lóð til að fínstilla, sem einkennir oft breytuþunga hönnun. 

"Verkfræðingur að atvinnu, rithöfundur utanbókar". Kunal er tæknilegur rithöfundur með djúpa ást og skilning á gervigreind og ML, tileinkað því að einfalda flókin hugtök á þessum sviðum með grípandi og upplýsandi skjölum.