Umetna inteligenca

Instant-Style: Ohranjanje sloga pri ustvarjanju besedila v sliko

objavljeno

3 tedni

April 19, 2024

V zadnjih nekaj letih so difuzijski modeli, ki temeljijo na uglaševanju, pokazali izjemen napredek pri široki paleti nalog personalizacije in prilagajanja slik. Kljub svojemu potencialu pa se trenutni difuzijski modeli, ki temeljijo na uglaševanju, še naprej soočajo s številnimi zapletenimi izzivi pri izdelavi in ustvarjanju slogovno skladnih slik, za to pa so morda trije razlogi. Prvič, koncept sloga še vedno ostaja v veliki meri nedefiniran in nedoločen ter obsega kombinacijo elementov, vključno z vzdušjem, strukturo, dizajnom, materialom, barvo in še veliko več. Druge metode, ki temeljijo na inverziji, so nagnjene k degradaciji sloga, kar povzroči pogosto izgubo drobnozrnatih podrobnosti. Nazadnje, pristopi, ki temeljijo na adapterju, zahtevajo pogosto prilagajanje teže za vsako referenčno sliko, da se ohrani ravnovesje med možnostjo nadzora besedila in intenzivnostjo sloga.

Poleg tega je primarni cilj večine pristopov prenosa sloga ali ustvarjanja slogovne slike uporaba referenčne slike in uporaba njenega posebnega sloga iz dane podnabora ali referenčne slike na ciljno sliko vsebine. Vendar je veliko število atributov sloga tisto, kar raziskovalcem otežuje delo pri zbiranju stiliziranih nizov podatkov, ki pravilno predstavljajo slog in ocenjujejo uspešnost prenosa. Prejšnji modeli in ogrodja, ki se ukvarjajo s postopkom razširjanja na podlagi natančnega prilagajanja, natančno prilagajajo nabor podatkov slik, ki imajo skupen slog, proces, ki je dolgotrajen in z omejeno možnostjo posploševanja v nalogah v resničnem svetu, saj je težko da zberete podnabor slik, ki imajo enak ali skoraj enak slog.

V tem članku bomo govorili o InstantStyle, ogrodju, zasnovanem z namenom reševanja težav, s katerimi se soočajo trenutni difuzijski modeli, ki temeljijo na uglaševanju, za ustvarjanje in prilagajanje slik. Govorili bomo o dveh ključnih strategijah, ki ju izvaja ogrodje InstantStyle:

Preprost, a učinkovit pristop za ločevanje sloga in vsebine od referenčnih slik znotraj prostora funkcij, predviden ob predpostavki, da je mogoče funkcije znotraj istega prostora funkcij dodati ali odvzeti ena drugi.
Preprečevanje uhajanja sloga z vbrizgavanjem funkcij referenčne slike izključno v bloke, specifične za slog, in namerno izogibanje potrebi po uporabi okornih uteži za fino uravnavanje, kar je pogosto značilno za dizajne z več parametri.

Namen tega članka je poglobljeno obravnavati ogrodje InstantStyle in raziskati mehanizem, metodologijo, arhitekturo ogrodja skupaj z njegovo primerjavo z najsodobnejšimi ogrodji. Govorili bomo tudi o tem, kako ogrodje InstantStyle prikazuje izjemne rezultate vizualne stilizacije in vzpostavlja optimalno ravnovesje med možnostjo nadzora besedilnih elementov in intenzivnostjo sloga. Pa začnimo.

InstantStyle : Ohranjanje sloga pri ustvarjanju besedila v sliko

Ogrodja umetne inteligence za generiranje besedila v sliko, ki temeljijo na difuziji, so dosegla opazen in izjemen uspeh pri širokem naboru nalog prilagajanja in personalizacije, zlasti pri nalogah doslednega ustvarjanja slik, vključno s prilagajanjem predmetov, ohranjanjem slike in prenosom sloga. Vendar kljub nedavnemu uspehu in povečanju učinkovitosti prenos sloga ostaja izziv za raziskovalce zaradi nedoločene in nedefinirane narave sloga, ki pogosto vključuje različne elemente, vključno z vzdušjem, strukturo, dizajnom, materialom, barvo in še veliko več. Glede na to je glavni cilj ustvarjanja stilizirane slike ali prenosa sloga uporaba specifičnega sloga iz dane referenčne slike ali referenčne podmnožice slik na sliko ciljne vsebine. Vendar pa veliko število atributov sloga raziskovalcem oteži delo pri zbiranju stiliziranih naborov podatkov, pravilnem predstavljanju sloga in ocenjevanju uspešnosti prenosa. Prejšnji modeli in ogrodja, ki se ukvarjajo s postopkom razširjanja na podlagi natančnega prilagajanja, natančno prilagajajo nabor podatkov slik, ki imajo skupen slog, proces, ki je dolgotrajen in z omejeno možnostjo posploševanja v nalogah v resničnem svetu, saj je težko da zberete podnabor slik, ki imajo enak ali skoraj enak slog.

Zaradi izzivov, s katerimi se sooča sedanji pristop, so se raziskovalci zanimali za razvoj pristopov natančnega prilagajanja za prenos sloga oz. ustvarjanje stilizirane slike, ta ogrodja pa lahko razdelimo v dve različni skupini:

Pristopi brez adapterjev: Pristopi in ogrodja brez adapterjev izkoriščajo moč samoosredotočenosti znotraj procesa razširjanja in z izvajanjem operacije skupne pozornosti so ti modeli sposobni izvleči bistvene značilnosti, vključno s ključi in vrednostmi, neposredno iz danih slik referenčnega sloga.

Pristopi, ki temeljijo na adapterju: Pristopi in okviri, ki temeljijo na adapterjih, na drugi strani vključujejo lahek model, zasnovan za pridobivanje podrobnih predstavitev slik iz slik referenčnega sloga. Ogrodje nato te predstavitve integrira v proces razširjanja z spretno uporabo mehanizmov navzkrižne pozornosti. Primarni cilj procesa integracije je usmerjati proces generiranja in zagotoviti, da je nastala slika usklajena z želenimi slogovnimi niansami referenčne slike.

Vendar kljub obljubam metode brez uglaševanja pogosto naletijo na nekaj izzivov. Prvič, pristop brez adapterja zahteva izmenjavo ključev in vrednosti znotraj plasti samopozornosti ter vnaprej zajame matrike ključev in vrednosti, izpeljane iz slik referenčnega sloga. Ko se izvaja na naravnih slikah, pristop brez adapterja zahteva inverzijo slike nazaj na latentni šum z uporabo tehnik, kot sta DDIM ali inverzija implicitnih modelov z odpravljanjem šumov. Vendar pa lahko uporaba DDIM ali drugih pristopov inverzije povzroči izgubo drobnozrnatih podrobnosti, kot sta barva in tekstura, zaradi česar se zmanjšajo informacije o slogu v ustvarjenih slikah. Poleg tega je dodatni korak, ki ga uvedejo ti pristopi, dolgotrajen proces in lahko povzroči pomembne pomanjkljivosti v praktičnih aplikacijah. Po drugi strani je glavni izziv za metode, ki temeljijo na adapterju, iskanje pravega ravnovesja med uhajanjem konteksta in intenzivnostjo sloga. Do uhajanja vsebine pride, ko povečanje intenzivnosti sloga povzroči pojav neslogovnih elementov iz referenčne slike v ustvarjenem izhodu, pri čemer je glavna težava učinkovito ločevanje slogov od vsebine znotraj referenčne slike. Da bi rešili to težavo, nekatera ogrodja sestavijo seznanjene nize podatkov, ki predstavljajo isti objekt v različnih slogih, kar olajša ekstrakcijo predstavitve vsebine in ločenih slogov. Vendar pa je zaradi inherentno nedoločene predstavitve sloga naloga ustvarjanja obsežnih seznanjenih nizov podatkov omejena v smislu raznolikosti slogov, ki jih lahko zajame, poleg tega pa je to proces, ki zahteva veliko virov.

Za reševanje teh omejitev je uveden okvir InstantStyle, ki je nov mehanizem brez prilagajanja, ki temelji na obstoječih metodah, ki temeljijo na adapterju, z zmožnostjo brezhibne integracije z drugimi metodami vbrizgavanja, ki temeljijo na pozornosti, in učinkovitega doseganja ločevanja vsebine in sloga. Poleg tega ogrodje InstantStyle ne uvaja enega, ampak dva učinkovita načina za dokončanje ločevanja sloga in vsebine, s čimer se doseže boljša migracija sloga, ne da bi bilo treba uvesti dodatne metode za doseganje ločevanja ali gradnje seznanjenih nizov podatkov.

Poleg tega so se predhodna ogrodja, ki temeljijo na adapterjih, pogosto uporabljala v metodah, ki temeljijo na CLIP, kot ekstraktor funkcij slike, nekatera ogrodja so raziskala možnost izvajanja ločevanja funkcij znotraj prostora funkcij in v primerjavi z nedoločenostjo sloga je lažje opišite vsebino z besedilom. Ker si slike in besedila delijo prostor funkcij v metodah, ki temeljijo na CLIP, lahko preprosta operacija odštevanja funkcij besedila konteksta in funkcij slike znatno zmanjša uhajanje vsebine. Poleg tega v večini difuzijski modeli, obstaja določena plast v njegovi arhitekturi, ki vbrizga informacije o slogu in doseže ločevanje vsebine in sloga z vbrizgavanjem funkcij slike samo v določene slogovne bloke. Z izvajanjem teh dveh preprostih strategij lahko ogrodje InstantStyle reši težave z uhajanjem vsebine, s katerimi se srečuje večina obstoječih ogrodij, hkrati pa ohranja moč sloga.

Če povzamemo, ogrodje InstantStyle uporablja dva preprosta, enostavna, a učinkovita mehanizma za doseganje učinkovitega ločevanja vsebine in sloga iz referenčnih slik. Ogrodje Instant-Style je pristop, neodvisen od modela in brez prilagajanja, ki prikazuje izjemno zmogljivost pri nalogah prenosa sloga z velikim potencialom za naloge na nižji stopnji.

Instant-Slog: Metodologija in arhitektura

Kot je razvidno iz prejšnjih pristopov, obstaja ravnotežje pri vbrizgavanju slogovnih pogojev v difuzijske modele brez uglaševanja. Če je intenzivnost stanja slike previsoka, lahko povzroči uhajanje vsebine, medtem ko če intenzivnost stanja slike pade prenizko, se slog morda ne zdi dovolj očiten. Glavni razlog za to opazko je, da sta na sliki slog in vsebina povezana, zaradi inherentnih nedoločenih atributov sloga pa je težko ločiti slog in namen. Posledično so za vsako referenčno sliko pogosto prilagojene natančne uteži, da bi uravnotežili možnost upravljanja besedila in moč sloga. Poleg tega se za dano vhodno referenčno sliko in njen ustrezen besedilni opis v metodah, ki temeljijo na inverziji, nad sliko sprejmejo inverzijski pristopi, kot je DDIM, da dobimo obrnjeno difuzijsko trajektorijo, postopek, ki približa inverzijsko enačbo za pretvorbo slike v latentno predstavitev šuma. Na podlagi istega in izhajajoč iz obrnjene difuzijske trajektorije skupaj z novim naborom pozivov te metode ustvarijo novo vsebino, njen slog pa je usklajen z vnosom. Vendar pa je, kot je prikazano na naslednji sliki, inverzijski pristop DDIM za resnične slike pogosto nestabilen, saj temelji na predpostavkah lokalne linearizacije, kar povzroča širjenje napak ter vodi do izgube vsebine in nepravilne rekonstrukcije slike.

Kar zadeva metodologijo, namesto uporabe zapletenih strategij za ločevanje vsebine in sloga od slik, okvir Instant-Style uporablja najpreprostejši pristop za doseganje podobne učinkovitosti. V primerjavi s premalo določenimi slogovnimi atributi je vsebino mogoče predstaviti z naravnim besedilom, kar ogrodju Instant-Style omogoča uporabo kodirnika besedila iz CLIP za ekstrahiranje značilnosti besedila vsebine kot predstavitev konteksta. Hkrati ogrodje Instant-Style implementira kodirnik slike CLIP za ekstrahiranje značilnosti referenčne slike. Z izkoriščanjem prednosti karakterizacije globalnih funkcij CLIP in po odštevanju funkcij besedila vsebine od funkcij slike lahko ogrodje Instant-Style eksplicitno loči slog in vsebino. Čeprav je to preprosta strategija, pomaga, da je okvir Instant-Style precej učinkovit pri ohranjanju uhajanja vsebine na minimum.

Poleg tega je vsaka plast v globokem omrežju odgovorna za zajemanje različnih semantičnih informacij, ključna ugotovitev prejšnjih modelov pa je, da obstajata dve ravni pozornosti, ki sta odgovorni za slog ravnanja. Natančneje, plasti blocks.0.attentions.1 in down blocks.2.attentions.1 so odgovorne za zajem sloga, kot so barva, material, atmosfera, plast prostorske postavitve pa zajame strukturo oziroma kompozicijo. Ogrodje Instant-Style implicitno uporablja te plasti za pridobivanje informacij o slogu in preprečuje uhajanje vsebine, ne da bi pri tem izgubil moč sloga. Strategija je preprosta, a učinkovita, saj ima model locirane slogovne bloke, ki lahko v te bloke vbrizgajo slikovne značilnosti in tako dosežejo brezhiben prenos sloga. Nadalje, ker model močno zmanjša število parametrov adapterja, je zmožnost nadzora besedila ogrodja izboljšana, mehanizem pa je uporaben tudi za druge modele vbrizgavanja funkcij, ki temeljijo na pozornosti, za urejanje in druga opravila.

Instant-Style: poskusi in rezultati

Ogrodje Instant-Style je implementirano na ogrodju Stable Diffusion XL in uporablja običajno sprejet vnaprej usposobljen IR-adapter kot svoj primer za potrditev svoje metodologije in utiša vse bloke, razen slogovnih blokov za funkcije slike. Model Instant-Style prav tako usposablja IR-adapter na 4 milijonih obsežnih naborov podatkov, seznanjenih s sliko in besedilom, od začetka in namesto da bi usposabljal vse bloke, posodobi samo slogovne bloke.

Za izvedbo svojih zmožnosti posploševanja in robustnosti okvir Instant-Style izvaja številne poskuse prenosa slogov z različnimi slogi v različnih vsebinah, rezultate pa lahko opazujete na naslednjih slikah. Glede na eno slogovno referenčno sliko skupaj z različnimi pozivi okvir Instant-Style zagotavlja visoko kakovost in dosleden slog generiranje slik.

Poleg tega, ker model vnaša slikovne informacije samo v slogovne bloke, lahko znatno ublaži težavo z uhajanjem vsebine, zato mu ni treba izvajati prilagajanja teže.

Poleg tega ogrodje Instant-Style prevzame tudi arhitekturo ControlNet za doseganje stilizacije na podlagi slike s prostorskim nadzorom, rezultati pa so prikazani na naslednji sliki.

V primerjavi s prejšnjimi najsodobnejšimi metodami, vključno s StyleAlign, B-LoRA, Swapping Self Attention in IP-Adapter, okvir Instant-Style prikazuje najboljše vizualne učinke.

Končna thoughts

V tem članku smo govorili o Instant-Style, splošnem okviru, ki uporablja dve preprosti, a učinkoviti strategiji za doseganje učinkovitega ločevanja vsebine in sloga iz referenčnih slik. Ogrodje InstantStyle je zasnovano z namenom reševanja težav, s katerimi se soočajo trenutni difuzijski modeli, ki temeljijo na uglaševanju, za ustvarjanje in prilagajanje slik. Ogrodje Instant-Style izvaja dve ključni strategiji: Preprost, a učinkovit pristop za ločevanje sloga in vsebine od referenčnih slik v prostoru funkcij, predviden ob predpostavki, da je mogoče funkcije v istem prostoru funkcij dodajati ali odštevati ena od druge. Drugič, preprečevanje uhajanja sloga z vbrizgavanjem funkcij referenčne slike izključno v bloke, specifične za slog, in namerno izogibanje potrebi po uporabi okornih uteži za fino uravnavanje, kar je pogosto značilno za modele z več parametri.

Sorodne teme:Umetna inteligenca Računalniška vizija difuzijski modeli generativni ai generiranje slik Instant-Slog InstantStyle

Up Next

10 najpomembnejših izsledkov Stanfordovega poročila o indeksu umetne inteligence za leto 2024

Ne zamudite

Vzpon inženirjev programske opreme AI: SWE-Agent, Devin AI in prihodnost kodiranja

Kunal Kejriwal

"Po poklicu inženir, po srcu pisatelj". Kunal je tehnični pisec z globoko ljubeznijo in razumevanjem umetne inteligence in strojnega upravljanja, ki je predan poenostavljanju zapletenih konceptov na teh področjih s svojo privlačno in informativno dokumentacijo.