Liity verkostomme!

Tekoäly

Instant-Style: tyylin säilyttäminen tekstistä kuvaksi luomisessa

mm

Julkaistu

 on

Muutaman viime vuoden aikana virityspohjaiset diffuusiomallit ovat osoittaneet huomattavaa edistystä useissa kuvien personointi- ja mukauttamistehtävissä. Huolimatta mahdollisuuksistaan, nykyiset virityspohjaiset diffuusiomallit kohtaavat edelleen monia monimutkaisia ​​haasteita tyylien yhtenäisten kuvien tuottamisessa ja luomisessa, ja samojen taustalla voi olla kolme syytä. Ensinnäkin tyylin käsite on edelleen laajalti määrittelemätön ja määrittelemätön, ja se sisältää yhdistelmän elementtejä, kuten tunnelmaa, rakennetta, muotoilua, materiaalia, väriä ja paljon muuta. Toiset inversioon perustuvat menetelmät ovat alttiita tyylin huonontumiseen, mikä johtaa usein hienorakeisten yksityiskohtien häviämiseen. Lopuksi sovitinpohjaiset lähestymistavat vaativat toistuvaa painonsäätöä jokaiselle viitekuvalle, jotta tekstin ohjattavuus ja tyylin voimakkuus säilyvät tasapainossa. 

Lisäksi useimpien tyylinsiirtomenetelmien tai tyylikuvan luomisen ensisijainen tavoite on käyttää viitekuvaa ja soveltaa sen tiettyä tyyliä tietystä osajoukosta tai viitekuvasta kohdesisältökuvaan. Tyylimääritteiden suuri määrä tekee kuitenkin tutkijoille vaikeaksi kerätä tyyliteltyjä, tyyliä oikein edustavia aineistoja ja arvioida siirron onnistumista. Aikaisemmin hienosäätöön perustuvaa diffuusioprosessia käsittelevät mallit ja puitteet hienosäätävät kuvien tietojoukkoa, joilla on yhteinen tyyli. Tämä prosessi on sekä aikaa vievä että rajoitetusti yleistettävissä reaalimaailman tehtävissä, koska se on vaikeaa. koota alajoukon kuvia, joilla on sama tai lähes identtinen tyyli. 

Tässä artikkelissa puhumme InstantStyle-kehyksestä, joka on suunniteltu ratkaisemaan ongelmia, joita nykyiset virityspohjaiset kuvan luomiseen ja mukauttamiseen liittyvät diffuusiomallit kohtaavat. Puhumme kahdesta InstantStyle-kehyksen toteuttamasta keskeisestä strategiasta: 

  1. Yksinkertainen mutta tehokas tapa erottaa tyyli ja sisältö ominaisuustilan viitekuvista, ennustetaan olettaen, että saman ominaisuustilan ominaisuuksia voidaan joko lisätä tai vähentää toisistaan. 
  2. Tyylivuotojen estäminen lisäämällä viitekuvan ominaisuuksia yksinomaan tyylikohtaisiin lohkoihin ja välttämällä tarkoituksella tarvetta käyttää hankalia painotuksia hienosäätöön, mikä usein luonnehtii raskaampia parametreja sisältäviä malleja. 

Tämän artikkelin tarkoituksena on kattaa InstantStyle-kehys perusteellisesti, ja tutkimme puitteiden mekanismia, metodologiaa, arkkitehtuuria sekä sen vertailua uusimpien kehysten kanssa. Puhumme myös siitä, kuinka InstantStyle-kehys osoittaa merkittäviä visuaalisia tyylityksiä ja löytää optimaalisen tasapainon tekstielementtien hallittavuuden ja tyylin intensiivisyyden välillä. Joten aloitetaan. 

InstantStyle: tyylin säilyttäminen tekstin luomisessa kuvaksi

Diffuusiopohjaiset tekstistä kuvaksi luovat tekoälykehykset ovat saavuttaneet huomattavaa ja merkittävää menestystä useissa räätälöinti- ja personointitehtävissä, erityisesti johdonmukaisissa kuvien luontitehtävissä, mukaan lukien objektien mukauttaminen, kuvan säilyttäminen ja tyylin siirto. Viimeaikaisesta menestyksestä ja suorituskyvyn kasvusta huolimatta tyylin siirto on kuitenkin edelleen haastava tehtävä tutkijoille, koska tyyli on määrittelemätön ja määrittelemätön, ja se sisältää usein erilaisia ​​elementtejä, kuten tunnelmaa, rakennetta, muotoilua, materiaalia, väriä ja paljon muuta. Tästä huolimatta tyylitellyn kuvan luomisen tai tyylin siirron ensisijainen tavoite on soveltaa tiettyä tyyliä tietystä viitekuvasta tai kuvien viiteosajoukosta. kohdesisältökuvaan. Tyylimääritteiden suuri määrä tekee kuitenkin tutkijoille vaikeaksi kerätä tyyliteltyjä, tyyliä oikein edustavia aineistoja ja arvioida siirron onnistumista. Aikaisemmin hienosäätöön perustuvaa diffuusioprosessia käsittelevät mallit ja puitteet hienosäätävät kuvien tietojoukkoa, joilla on yhteinen tyyli. Tämä prosessi on sekä aikaa vievä että rajoitetusti yleistettävissä reaalimaailman tehtävissä, koska se on vaikeaa. koota alajoukon kuvia, joilla on sama tai lähes identtinen tyyli. 

Nykyisen lähestymistavan kohtaamien haasteiden myötä tutkijat ovat kiinnostuneet kehittämään hienosäätömenetelmiä tyylin siirtoon tai tyylitellyn kuvan luominen, ja nämä puitteet voidaan jakaa kahteen eri ryhmään: 

  • Adapterittomat lähestymistavat: Adapterittomat lähestymistavat ja viitekehykset hyödyntävät itsetarkkailun voimaa diffuusioprosessissa, ja toteuttamalla jaetun huomiotoiminnon nämä mallit pystyvät poimimaan olennaiset ominaisuudet, mukaan lukien avaimet ja arvot, tietystä viitetyylikuvista suoraan. 
  • Adapteripohjaiset lähestymistavat: Adapteripohjaiset lähestymistavat ja puitteet toisaalta sisältävät kevyen mallin, joka on suunniteltu poimimaan yksityiskohtaiset kuvaesitykset referenssityylikuvista. Kehys sitten integroi nämä esitykset diffuusioprosessiin taitavasti käyttämällä ristiin huomioivia mekanismeja. Integrointiprosessin ensisijaisena tavoitteena on ohjata generointiprosessia ja varmistaa, että tuloksena oleva kuva on linjassa referenssikuvan haluttujen tyylin vivahteiden kanssa. 

Lupauksista huolimatta viritysvapaat menetelmät kohtaavat kuitenkin usein muutamia haasteita. Ensinnäkin sovitinvapaa lähestymistapa edellyttää avainten ja arvojen vaihtoa itsetarkkailukerroksissa, ja se sieppaa valmiiksi viitetyylikuvista johdetut avain- ja arvomatriisit. Kun sovitinvapaa lähestymistapa toteutetaan luonnollisissa kuvissa, se vaatii kuvan kääntämisen takaisin piileväksi kohinaksi käyttämällä tekniikoita, kuten DDIM tai Denoising Diffusion Implicit Models -inversio. DDIM:n tai muiden käänteislähestymistapojen käyttäminen saattaa kuitenkin johtaa hienorakeisten yksityiskohtien, kuten värin ja tekstuurin, menettämiseen, mikä heikentää luotujen kuvien tyylitietoja. Lisäksi näiden lähestymistapojen tuoma lisävaihe on aikaa vievä prosessi ja voi aiheuttaa merkittäviä haittoja käytännön sovelluksissa. Toisaalta adapteripohjaisten menetelmien ensisijainen haaste on löytää oikea tasapaino kontekstivuodon ja tyylin intensiteetin välillä. Sisältövuoto tapahtuu, kun tyylin intensiteetin kasvu johtaa ei-tyylielementtien ilmestymiseen referenssikuvasta luotuun tuotteeseen, ja ensisijainen vaikeuskohta on erottaa tyylejä tehokkaasti viitekuvan sisällöstä. Tämän ongelman ratkaisemiseksi jotkin viitekehykset muodostavat parillisia tietojoukkoja, jotka edustavat samaa objektia eri tyyleissä, mikä helpottaa sisällön esityksen poimimista ja eri tyylejä. Tyylin luonnostaan ​​määrittämättömän esityksen ansiosta suuren mittakaavan parillisten tietojoukkojen luominen on kuitenkin rajoitettu sen kaapattavissa olevien tyylien monimuotoisuuden suhteen, ja se on myös resursseja vaativa prosessi. 

Näiden rajoitusten poistamiseksi esitellään InstantStyle-kehys, joka on uusi viritysvapaa mekanismi, joka perustuu olemassa oleviin sovitinpohjaisiin menetelmiin ja joka pystyy integroitumaan saumattomasti muihin tarkkaavaisiin injektiomenetelmiin ja saavuttamaan sisällön ja tyylin erottamisen tehokkaasti. Lisäksi InstantStyle-kehys esittelee ei yhden, vaan kaksi tehokasta tapaa viimeistellä tyylin ja sisällön erottaminen toisistaan. Näin saadaan aikaan parempi tyylin siirtyminen ilman, että tarvitsee ottaa käyttöön lisämenetelmiä yhteyden poistamiseksi tai parillisten tietojoukkojen muodostamiseksi. 

Lisäksi aikaisempia sovitinpohjaisia ​​kehyksiä on käytetty laajasti CLIP-pohjaisissa menetelmissä kuvan piirteiden poimijana, joissakin kehyksissä on tutkittu mahdollisuutta toteuttaa ominaisuuden irrottaminen ominaisuusavaruudessa, ja verrattuna tyylin määrittämättömyyteen on helpompi kuvaile sisältöä tekstillä. Koska kuvat ja tekstit jakavat ominaisuustilan CLIP-pohjaisissa menetelmissä, yksinkertainen kontekstitekstin ominaisuuksien ja kuvaominaisuuksien vähennystoiminto voi vähentää sisällön vuotamista merkittävästi. Lisäksi suurimmassa osassa diffuusio malleja, sen arkkitehtuurissa on tietty kerros, joka syöttää tyylitiedot ja suorittaa sisällön ja tyylin välisen yhteyden lisäämällä kuvaominaisuuksia vain tiettyihin tyylilohkoihin. Toteuttamalla nämä kaksi yksinkertaista strategiaa InstantStyle-kehys pystyy ratkaisemaan sisällön vuotoongelmia, joita useimmat olemassa olevat puitteet kohtaavat, säilyttäen samalla tyylin vahvuuden. 

Yhteenvetona voidaan todeta, että InstantStyle-kehys käyttää kahta yksinkertaista, suoraviivaista mutta tehokasta mekanismia sisällön ja tyylin tehokkaaseen erottamiseen viitekuvista. Instant-Style-kehys on malliriippumaton ja virittämätön lähestymistapa, joka osoittaa huomattavaa suorituskykyä tyylinsiirtotehtävissä, joilla on valtava potentiaali loppupään tehtäviin. 

Instant-Style: Metodologia ja arkkitehtuuri

Kuten aikaisemmat lähestymistavat ovat osoittaneet, tyyliolosuhteiden injektoinnissa on tasapaino viritysvapaissa diffuusiomalleissa. Jos kuvatilan intensiteetti on liian korkea, se voi johtaa sisällön vuotamiseen, kun taas jos kuvan intensiteetti putoaa liian alhaiseksi, tyyli ei ehkä näytä riittävän selkeältä. Suurin syy tähän havaintoon on se, että kuvassa tyyli ja sisältö liittyvät toisiinsa, ja luontaisten määrittelemättömien tyyliominaisuuksien vuoksi on vaikeaa erottaa tyyliä ja tarkoitusta. Tästä johtuen kullekin viitekuvalle säädetään usein huolellisia painotuksia, jotta tekstin hallittavuus ja tyylin vahvuus tasapainotettaisiin. Lisäksi tietylle syöttöviitekuvalle ja sitä vastaavalle tekstikuvaukselle inversiopohjaisissa menetelmissä käänteislähestymistapoja, kuten DDIM, käytetään kuvan päälle käänteisen diffuusioradan saamiseksi, prosessi, joka approksimoi inversioyhtälön kuvan muuntamiseksi latentiksi. melun esitys. Nämä menetelmät perustuvat samaan ja alkavat käänteisestä diffuusioradalla uusien kehotteiden kanssa, ja ne luovat uutta sisältöä, jonka tyyli on linjassa syötteen kanssa. Kuten seuraavasta kuvasta näkyy, DDIM-inversion lähestymistapa todellisille kuville on usein epävakaa, koska se perustuu paikallisiin linearisointioletuksiin, mikä johtaa virheiden leviämiseen ja johtaa sisällön menettämiseen ja virheelliseen kuvan rekonstruointiin. 

Metodologiaan liittyen Instant-Style -kehys käyttää yksinkertaisinta lähestymistapaa samanlaisen suorituskyvyn saavuttamiseksi sen sijaan, että se käyttäisi monimutkaisia ​​strategioita sisällön ja tyylin erottamiseksi kuvista. Kun verrataan alimääritettyihin tyylimääritteisiin, sisältö voidaan esittää luonnollisella tekstillä, jolloin Instant-Style-kehys voi käyttää CLIP:n tekstikooderia sisältötekstin ominaisuuksien poimimiseen kontekstiesityksinä. Samanaikaisesti Instant-Style-kehys ottaa käyttöön CLIP-kuvaenkooderin referenssikuvan ominaisuuksien poimimiseksi. Hyödyntämällä CLIP:n globaalien ominaisuuksien luonnehdintaa ja vähentämällä sisältötekstiominaisuudet kuvan ominaisuuksista Instant-Style -kehys pystyy erottamaan tyylin ja sisällön selkeästi. Vaikka se on yksinkertainen strategia, se auttaa Instant-Style-kehystä pitämään varsin tehokkaasti sisällön vuotamisen minimissä. 

Lisäksi jokainen syvän verkon kerros on vastuussa erilaisen semanttisen tiedon kaappaamisesta, ja keskeinen havainto aikaisemmista malleista on, että on olemassa kaksi huomiotasoa, jotka vastaavat käsittelytyylistä. ylös Tarkemmin sanottuna kerrokset blocks.0.attentions.1 ja down blocks.2.attentions.1 vastaavat tyylien, kuten värin, materiaalin, tunnelman, vangitsemisesta, ja spatiaalinen asettelukerros vangitsee rakenteen ja koostumuksen vastaavasti. Instant-Style-kehys käyttää näitä tasoja epäsuorasti tyylitietojen poimimiseen ja estää sisällön vuotamisen menettämättä tyylin vahvuutta. Strategia on yksinkertainen mutta tehokas, koska mallissa on tyylilohkoja, jotka voivat lisätä kuvan piirteitä näihin lohkoihin saavuttaakseen saumattoman tyylinsiirron. Lisäksi, koska malli vähentää huomattavasti sovittimen parametrien määrää, kehyksen tekstinhallintakyky paranee ja mekanismi on sovellettavissa myös muihin huomioihin perustuviin ominaisuusinjektiomalleihin editointia ja muita tehtäviä varten. 

Instant-Style: Kokeilut ja tulokset

Instant-Style-kehys on toteutettu Stable Diffusion XL -kehyksessä, ja se käyttää yleisesti hyväksyttyä esikoulutettua IR-sovitinta esimerkkinä menetelmänsä validoimiseksi ja mykistää kaikki lohkot paitsi kuvaominaisuuksien tyylilohkot. Instant-Style-malli myös kouluttaa IR-sovittimen 4 miljoonalle laajamittaiselle tekstikuvaparitiedostolle tyhjästä, ja kaikkien lohkojen harjoittamisen sijaan päivittää vain tyylilohkot. 

Instant-Style-kehys tekee yleistysominaisuuksiensa ja kestävyytensä toteuttamiseksi lukuisia tyylinsiirtokokeita eri tyyleillä eri sisällöissä, ja tulokset voidaan havaita seuraavissa kuvissa. Yksittäisen tyylin viitekuvan ja vaihtelevien kehotteiden ansiosta Instant-Style-kehys tarjoaa korkealaatuisen, yhtenäisen tyylin kuvan sukupolvi

Lisäksi, koska malli ruiskuttaa kuvainformaatiota vain tyylilohkoihin, se pystyy lieventämään sisällön vuotamista merkittävästi, eikä sen vuoksi tarvitse suorittaa painosäätöä. 

Jatkossa Instant-Style-kehys ottaa käyttöön myös ControlNet-arkkitehtuurin kuvapohjaisen tyylin saavuttamiseksi tilaohjauksella, ja tulokset esitetään seuraavassa kuvassa. 

Verrattuna aikaisempiin uusimpiin menetelmiin, kuten StyleAlign, B-LoRA, Swapping Self Attention ja IP-Adapter, Instant-Style-kehys näyttää parhaat visuaaliset tehosteet. 

Tiivistelmä

Tässä artikkelissa olemme puhuneet Instant-Stylesta, yleisestä viitekehyksestä, joka käyttää kahta yksinkertaista mutta tehokasta strategiaa sisällön ja tyylin tehokkaaseen erottamiseen viitekuvista. InstantStyle-kehys on suunniteltu ratkaisemaan ongelmia, joita nykyiset virityspohjaiset kuvan luomiseen ja mukauttamiseen liittyvät diffuusiomallit kohtaavat. Instant-Style -kehys toteuttaa kaksi tärkeää strategiaa: Yksinkertainen mutta tehokas tapa erottaa tyyli ja sisältö ominaisuustilan viitekuvista, ennustetaan olettaen, että saman ominaisuustilan ominaisuuksia voidaan joko lisätä tai vähentää toisistaan. Toiseksi tyylivuodojen estäminen injektoimalla viitekuvan ominaisuuksia yksinomaan tyylikohtaisiin lohkoihin ja välttämällä tietoisesti tarvetta käyttää hankalia painotuksia hienosäätöön, mikä usein luonnehtii raskaampia parametreja sisältäviä malleja. 

"Ammatiltaan insinööri, sydämeltään kirjailija". Kunal on tekninen kirjoittaja, jolla on syvä rakkaus ja ymmärrys tekoälystä ja ML:stä. Hän on omistautunut yksinkertaistamaan monimutkaisia ​​käsitteitä näillä aloilla kiinnostavan ja informatiivisen dokumentaationsa avulla.