Mākslīgais intelekts

Tūlītējs stils: stila saglabāšana teksta pārveidošanā attēlā

Izdots

pirms 3 nedēļas

Aprīlis 19, 2024

Dažu pēdējo gadu laikā uz regulēšanu balstīti difūzijas modeļi ir parādījuši ievērojamu progresu plašā attēlu personalizēšanas un pielāgošanas uzdevumu klāstā. Tomēr, neskatoties uz to potenciālu, pašreizējie uz regulēšanu balstītie difūzijas modeļi joprojām saskaras ar daudzām sarežģītām problēmām, veidojot un ģenerējot stilam atbilstošus attēlus, un tam var būt trīs iemesli. Pirmkārt, stila jēdziens joprojām ir plaši nedefinēts un nenoteikts, un tas ietver elementu kombināciju, tostarp atmosfēru, struktūru, dizainu, materiālu, krāsu un daudz ko citu. Otrās uz inversiju balstītās metodes ir pakļautas stila degradācijai, kā rezultātā bieži tiek zaudētas smalkas detaļas. Visbeidzot, uz adapteriem balstītām pieejām ir nepieciešama bieža svara regulēšana katram atsauces attēlam, lai saglabātu līdzsvaru starp teksta vadāmību un stila intensitāti.

Turklāt vairuma stila pārsūtīšanas pieeju vai stila attēla ģenerēšanas galvenais mērķis ir izmantot atsauces attēlu un piemērot tā īpašo stilu no noteiktas apakškopas vai atsauces attēla mērķa satura attēlam. Tomēr lielais stila atribūtu skaits apgrūtina pētnieku darbu, lai savāktu stilizētas datu kopas, pareizi attēlotu stilu un novērtētu pārsūtīšanas panākumus. Iepriekš modeļi un ietvari, kas nodarbojas ar precizējošu difūzijas procesu, precizēja attēlu datu kopu, kam ir kopīgs stils, process, kas ir gan laikietilpīgs, gan ar ierobežotu vispārināmību reālos uzdevumos, jo tas ir sarežģīti. lai apkopotu attēlu apakškopu, kam ir vienāds vai gandrīz identisks stils.

Šajā rakstā mēs runāsim par InstantStyle — sistēmu, kas izstrādāta, lai risinātu problēmas, ar kurām saskaras pašreizējie uz regulēšanu balstītie difūzijas modeļi attēlu ģenerēšanai un pielāgošanai. Mēs runāsim par divām galvenajām stratēģijām, ko īsteno InstantStyle ietvars:

Vienkārša, bet efektīva pieeja stila un satura atdalīšanai no atsauces attēliem objektu telpā, kas tiek prognozēts, pieņemot, ka vienu un to pašu objektu telpas objektus var pievienot vai atņemt vienu no otra.
Stila noplūdes novēršana, ievadot atsauces attēla līdzekļus tikai stilam raksturīgos blokos un apzināti izvairoties no nepieciešamības izmantot apgrūtinošus svarus precīzai pielāgošanai, kas bieži raksturo konstrukcijas, kurās ir daudz parametru.

Šī raksta mērķis ir padziļināti aptvert InstantStyle ietvaru, un mēs izpētām mehānismu, metodoloģiju, ietvara arhitektūru, kā arī tās salīdzinājumu ar jaunākajiem ietvariem. Mēs arī runāsim par to, kā InstantStyle ietvars demonstrē ievērojamus vizuālās stilizācijas rezultātus un nodrošina optimālu līdzsvaru starp teksta elementu vadāmību un stila intensitāti. Tātad sāksim.

InstantStyle: stila saglabāšana teksta pārveidē par attēlu

Teksta uz attēlu ģeneratīvās mākslīgā intelekta sistēmas, kas balstītas uz difūziju, ir guvušas ievērojamus un ievērojamus panākumus plašā pielāgošanas un personalizācijas uzdevumu klāstā, jo īpaši konsekventos attēlu ģenerēšanas uzdevumos, tostarp objektu pielāgošanā, attēla saglabāšanā un stila pārsūtīšanā. Tomēr, neskatoties uz nesenajiem panākumiem un veiktspējas pieaugumu, stila pārnešana joprojām ir izaicinājums pētniekiem, ņemot vērā nenoteikto un nenoteikto stila raksturu, kas bieži ietver dažādus elementus, tostarp atmosfēru, struktūru, dizainu, materiālu, krāsu un daudz ko citu. Ņemot to vērā, stilizētu attēlu ģenerēšanas vai stila pārsūtīšanas galvenais mērķis ir piemērot konkrētu stilu no dotā atsauces attēla vai atsauces attēlu apakškopas. uz mērķa satura attēlu. Tomēr lielais stila atribūtu skaits apgrūtina pētnieku darbu, lai savāktu stilizētas datu kopas, pareizi attēlojot stilu un novērtējot pārsūtīšanas panākumus. Iepriekš modeļi un ietvari, kas nodarbojas ar precizējošu difūzijas procesu, precizēja attēlu datu kopu, kam ir kopīgs stils, process, kas ir gan laikietilpīgs, gan ar ierobežotu vispārināmību reālos uzdevumos, jo tas ir sarežģīti. lai apkopotu attēlu apakškopu, kam ir vienāds vai gandrīz identisks stils.

Ņemot vērā problēmas, ar kurām saskaras pašreizējā pieeja, pētnieki ir izrādījuši interesi izstrādāt precizējošas pieejas stila pārņemšanai vai stilizētu attēlu ģenerēšana, un šīs sistēmas var iedalīt divās dažādās grupās:

Bez adaptera pieejas: Bezadapteru pieejas un ietvari difūzijas procesā izmanto pašapziņas spējas, un, ieviešot kopīgas uzmanības darbību, šie modeļi spēj iegūt būtiskas funkcijas, tostarp atslēgas un vērtības, no noteikta atsauces stila attēliem tieši.

Uz adapteriem balstītas pieejas: No otras puses, uz adapteriem balstītās pieejas un ietvari ietver vieglu modeli, kas izstrādāts, lai no atsauces stila attēliem iegūtu detalizētus attēlu attēlojumus. Pēc tam sistēma prasmīgi integrē šos attēlojumus difūzijas procesā, izmantojot savstarpējas uzmanības mehānismus. Integrācijas procesa galvenais mērķis ir vadīt ģenerēšanas procesu un nodrošināt, ka iegūtais attēls tiek saskaņots ar vēlamajām atsauces attēla stilistiskajām niansēm.

Tomēr, neskatoties uz solījumiem, bez regulēšanas metodes bieži saskaras ar dažām problēmām. Pirmkārt, pieejai bez adaptera ir nepieciešama atslēgas un vērtību apmaiņa pašapziņas slāņos, kā arī tiek iepriekš uztvertas atslēgu un vērtību matricas, kas iegūtas no atsauces stila attēliem. Ieviešot dabiskos attēlos, bezadaptera pieeja prasa attēla inversiju atpakaļ uz latento troksni, izmantojot tādas metodes kā DDIM vai Denoising Diffusion Implicit Models inversion. Tomēr, izmantojot DDIM vai citas inversijas pieejas, var tikt zaudētas smalkas detaļas, piemēram, krāsa un faktūra, tādējādi samazinot stila informāciju ģenerētajos attēlos. Turklāt papildu solis, ko ievieš šīs pieejas, ir laikietilpīgs process un var radīt ievērojamus trūkumus praktiskajā lietošanā. No otras puses, galvenais izaicinājums uz adapteriem balstītām metodēm ir atrast pareizo līdzsvaru starp konteksta noplūdi un stila intensitāti. Satura noplūde rodas, ja stila intensitātes palielināšanās rezultātā ģenerētajā izvadē parādās atsauces attēla elementi, kas nav stila elementi, un galvenais grūtības punkts ir efektīvi atdalīt stilus no satura atsauces attēlā. Lai risinātu šo problēmu, daži ietvari veido pārī savienotas datu kopas, kas attēlo vienu un to pašu objektu dažādos stilos, atvieglojot satura attēlojuma izgūšanu un atdalītos stilus. Tomēr, pateicoties raksturīgi nenoteiktam stila attēlojumam, liela mēroga pāru datu kopu izveides uzdevums ir ierobežots, ņemot vērā stilu daudzveidību, ko tas var uztvert, un tas ir arī resursietilpīgs process.

Lai novērstu šos ierobežojumus, tiek ieviests InstantStyle ietvars, kas ir jauns bez regulēšanas mehānisms, kura pamatā ir esošās uz adapteri balstītas metodes, ar spēju nemanāmi integrēties ar citām uz uzmanību balstītām injekcijas metodēm un efektīvi panākt satura un stila atsaisti. Turklāt InstantStyle sistēma ievieš nevis vienu, bet divus efektīvus veidus, kā pabeigt stila un satura atsaisti, panākot labāku stila migrāciju bez nepieciešamības ieviest papildu metodes, lai panāktu atsaistīšanu vai pārī savienotu datu kopu izveidi.

Turklāt iepriekšējie uz adapteri balstīti ietvari ir plaši izmantoti uz CLIP balstītajās metodēs kā attēla funkciju izvilkējs, dažos ietvaros ir izpētīta iespēja funkciju atsaistīšanai funkciju telpā, un, salīdzinot ar stila nenoteiktību, ir vieglāk aprakstiet saturu ar tekstu. Tā kā uz CLIP balstītajās metodēs attēliem un tekstiem ir kopīga funkciju telpa, vienkārša konteksta teksta līdzekļu un attēla līdzekļu atņemšanas darbība var ievērojami samazināt satura noplūdi. Turklāt lielākajā daļā no difūzijas modeļi, tās arhitektūrā ir noteikts slānis, kas ievada stila informāciju un veic satura un stila atsaisti, ievietojot attēla līdzekļus tikai noteiktos stila blokos. Ieviešot šīs divas vienkāršās stratēģijas, InstantStyle ietvars spēj atrisināt satura noplūdes problēmas, ar kurām saskaras lielākā daļa esošo sistēmu, vienlaikus saglabājot stila spēku.

Rezumējot, InstantStyle sistēma izmanto divus vienkāršus, vienkāršus, bet efektīvus mehānismus, lai panāktu efektīvu satura un stila atdalīšanu no atsauces attēliem. Instant-Style sistēma ir no modeļa neatkarīga un bez regulēšanas pieeja, kas demonstrē ievērojamu veiktspēju stila pārsūtīšanas uzdevumos ar milzīgu potenciālu pakārtotajiem uzdevumiem.

Tūlītējs stils: metodoloģija un arhitektūra

Kā liecina iepriekšējās pieejas, stila apstākļu ievadīšanā pastāv līdzsvars difūzijas modeļos bez regulēšanas. Ja attēla stāvokļa intensitāte ir pārāk augsta, tas var izraisīt satura noplūdi, savukārt, ja attēla stāvokļa intensitāte samazinās pārāk zemu, stils var nebūt pietiekami skaidrs. Galvenais šī novērojuma iemesls ir tas, ka attēlā stils un saturs ir savstarpēji saistīti, un raksturīgo nenoteikto stila atribūtu dēļ stilu ir grūti atsaistīt no nodoma. Rezultātā katram atsauces attēlam bieži tiek pielāgots rūpīgs svars, cenšoties līdzsvarot teksta vadāmību un stila stiprumu. Turklāt konkrētam ievades atsauces attēlam un tam atbilstošajam teksta aprakstam uz inversiju balstītajās metodēs attēlam tiek izmantotas inversijas pieejas, piemēram, DDIM, lai iegūtu apgriezto difūzijas trajektoriju, process, kas tuvina inversijas vienādojumu, lai pārveidotu attēlu latentā formā. trokšņa attēlojums. Pamatojoties uz to pašu un sākot no apgrieztās difūzijas trajektorijas un jaunu uzvedņu kopu, šīs metodes rada jaunu saturu, kura stils ir saskaņots ar ievadi. Tomēr, kā parādīts nākamajā attēlā, DDIM inversijas pieeja reāliem attēliem bieži ir nestabila, jo tā balstās uz lokāliem linearizācijas pieņēmumiem, kā rezultātā tiek izplatītas kļūdas un tiek zaudēts saturs un tiek veikta nepareiza attēla rekonstrukcija.

Runājot par metodoloģiju, tā vietā, lai izmantotu sarežģītas stratēģijas satura un stila atdalīšanai no attēliem, Instant-Style sistēma izmanto vienkāršāko pieeju līdzīgas veiktspējas sasniegšanai. Salīdzinot ar nepietiekami noteiktajiem stila atribūtiem, saturu var attēlot ar dabisku tekstu, ļaujot Instant-Style ietvaram izmantot teksta kodētāju no CLIP, lai izvilktu satura teksta īpašības kā konteksta reprezentācijas. Vienlaikus Instant-Style sistēma ievieš CLIP attēla kodētāju, lai iegūtu atsauces attēla funkcijas. Izmantojot CLIP globālo līdzekļu raksturojumu un pēc satura teksta elementu atņemšanu no attēla līdzekļiem, Instant-Style sistēma spēj skaidri atsaistīt stilu un saturu. Lai gan tā ir vienkārša stratēģija, tā palīdz Instant-Style sistēmai diezgan efektīvi samazināt satura noplūdi līdz minimumam.

Turklāt katrs dziļā tīkla slānis ir atbildīgs par dažādas semantiskās informācijas uztveršanu, un galvenais novērojums no iepriekšējiem modeļiem ir tāds, ka pastāv divi uzmanības slāņi, kas ir atbildīgi par apstrādes stilu. uz augšu Konkrēti, bloki.0.attentions.1 un down blocks.2.attentions.1 ir atbildīgi par stila, piemēram, krāsas, materiāla, atmosfēras, tveršanu, un telpiskā izkārtojuma slānis tver attiecīgi struktūru un kompozīciju. Instant-Style sistēma izmanto šos slāņus netieši, lai iegūtu informāciju par stilu, un novērš satura noplūdi, nezaudējot stila spēku. Stratēģija ir vienkārša, taču efektīva, jo modelī ir izvietoti stila bloki, kas šajos blokos var ievadīt attēla iezīmes, lai panāktu vienmērīgu stila pārsūtīšanu. Turklāt, tā kā modelis ievērojami samazina adaptera parametru skaitu, tiek uzlabota ietvara teksta vadības spēja, un mehānisms ir piemērojams arī citiem uz uzmanību balstītiem funkciju ievadīšanas modeļiem rediģēšanai un citiem uzdevumiem.

Tūlītējs stils: eksperimenti un rezultāti

Instant-Style ietvars ir ieviests Stable Diffusion XL ietvarā, un tas izmanto vispārpieņemto iepriekš apmācītu IR adapteri kā piemēru, lai apstiprinātu metodiku, un izslēdz visus blokus, izņemot stila blokus attēla funkcijām. Instant-Style modelis arī apmāca IR adapteri 4 miljoniem liela mēroga teksta attēlu pārī savienotu datu kopu no nulles, un tā vietā, lai apmācītu visus blokus, tiek atjaunināti tikai stila bloki.

Lai īstenotu vispārināšanas iespējas un noturību, Instant-Style ietvars veic daudzus stilu pārsūtīšanas eksperimentus ar dažādiem stiliem dažādos saturos, un rezultātus var novērot turpmākajos attēlos. Ņemot vērā vienu stila atsauces attēlu un dažādas uzvednes, Instant-Style sistēma nodrošina augstas kvalitātes, konsekventu stilu attēla ģenerēšana.

Turklāt, tā kā modelis ievada attēla informāciju tikai stila blokos, tas spēj ievērojami mazināt satura noplūdes problēmu, un tāpēc tam nav jāveic svara regulēšana.

Turpinot, Instant-Style sistēma izmanto arī ControlNet arhitektūru, lai panāktu uz attēlu balstītu stilizāciju ar telpisko vadību, un rezultāti ir parādīti nākamajā attēlā.

Salīdzinot ar iepriekšējām jaunākajām metodēm, tostarp StyleAlign, B-LoRA, Swapping Self Attention un IP-Adapter, Instant-Style sistēma demonstrē labākos vizuālos efektus.

Final Domas

Šajā rakstā mēs runājām par Instant-Style — vispārīgu sistēmu, kurā tiek izmantotas divas vienkāršas, bet efektīvas stratēģijas, lai panāktu efektīvu satura un stila atdalīšanu no atsauces attēliem. InstantStyle sistēma ir izstrādāta, lai risinātu problēmas, ar kurām saskaras pašreizējie uz regulēšanu balstīti difūzijas modeļi attēlu ģenerēšanai un pielāgošanai. Instant-Style sistēma īsteno divas svarīgas stratēģijas: Vienkārša, bet efektīva pieeja stila un satura atdalīšanai no atsauces attēliem objektu telpā, kas tiek prognozēta, pieņemot, ka vienu un to pašu objektu telpas objektus var pievienot vai atņemt vienu no otra. Otrkārt, stila noplūdes novēršana, ievadot atsauces attēla līdzekļus tikai stilam raksturīgos blokos, un apzināti izvairoties no nepieciešamības izmantot apgrūtinošus svarus precizēšanai, kas bieži raksturo dizainus, kuros ir daudz parametru.

Saistītās tēmas:mākslīgais intelekts Datoru vīzija difūzijas modeļi ģeneratīvā ai attēla ģenerēšana Tūlītējs stils InstantStyle

Nākošais

10 populārākās Stenfordas 2024. gada AI indeksa atskaites

Nepalaidiet garām

AI programmatūras inženieru uzplaukums: SWE-Agent, Devin AI un kodēšanas nākotne

Kunāls Kejrivals

"Pēc profesijas inženieris, pēc sirds rakstnieks". Kunals ir tehnisks rakstnieks ar dziļu mīlestību un izpratni par mākslīgo intelektu un mākslīgo intelektu, kura mērķis ir vienkāršot sarežģītas koncepcijas šajās jomās, izmantojot savu saistošo un informatīvo dokumentāciju.