stomp Kitsstyl: Stylbehoud in teks-na-beeld-generering - Unite.AI
Verbinding met ons

Kunsmatige Intelligensie

Kitsstyl: Stylbehoud in teks-na-beeld-generering

mm

Gepubliseer

 on

Oor die afgelope paar jaar het stemmingsgebaseerde diffusiemodelle merkwaardige vordering getoon oor 'n wye verskeidenheid beeldverpersoonlikings- en aanpassingstake. Ten spyte van hul potensiaal, hou huidige stemmingsgebaseerde diffusiemodelle egter steeds 'n magdom komplekse uitdagings in die gesig met die vervaardiging en generering van stylkonsekwente beelde, en daar kan drie redes agter dieselfde wees. Eerstens, die konsep van styl bly steeds wyd ongedefinieerd en onbepaald, en bestaan ​​uit 'n kombinasie van elemente insluitend atmosfeer, struktuur, ontwerp, materiaal, kleur, en nog baie meer. Tweede inversie-gebaseerde metodes is geneig tot styldegradasie, wat lei tot gereelde verlies van fynkorrelige besonderhede. Ten slotte, adapter-gebaseerde benaderings vereis gereelde gewigsverstelling vir elke verwysingsbeeld om 'n balans tussen teksbeheerbaarheid en stylintensiteit te handhaaf. 

Verder is die primêre doel van 'n meerderheid styloordragbenaderings of stylbeeldgenerering om die verwysingsbeeld te gebruik, en die spesifieke styl daarvan vanaf 'n gegewe subset of verwysingsbeeld op 'n teikeninhoudbeeld toe te pas. Dit is egter die groot aantal kenmerke van styl wat die taak vir navorsers moeilik maak om gestileerde datastelle te versamel, styl korrek voor te stel en die sukses van die oordrag te evalueer. Voorheen het modelle en raamwerke wat handel oor fyninstellingsgebaseerde diffusieproses, die datastel van beelde wat 'n gemeenskaplike styl deel, 'n proses wat beide tydrowend en met beperkte veralgemeenbaarheid in werklike take is, verfyn, aangesien dit moeilik is om 'n subset van beelde te versamel wat dieselfde of amper identiese styl deel. 

In hierdie artikel sal ons praat oor InstantStyle, 'n raamwerk wat ontwerp is met die doel om die kwessies wat die huidige tuning-gebaseerde diffusiemodelle in die gesig staar vir beeldgenerering en aanpassing aan te pak. Ons sal praat oor die twee sleutelstrategieë wat deur die InstantStyle-raamwerk geïmplementeer word: 

  1. 'n Eenvoudige dog effektiewe benadering om styl en inhoud te ontkoppel van verwysingsbeelde binne die kenmerkruimte, voorspel met die aanname dat kenmerke binne dieselfde kenmerkruimte óf by mekaar gevoeg of van mekaar afgetrek kan word. 
  2. Voorkoming van styllekkasies deur die verwysingsbeeldeienskappe uitsluitlik in die stylspesifieke blokke in te spuit, en doelbewus vermy die behoefte om omslagtige gewigte te gebruik vir fynverstelling, wat dikwels meer parameter-swaar ontwerpe kenmerk. 

Hierdie artikel het ten doel om die InstantStyle-raamwerk in diepte te dek, en ons ondersoek die meganisme, die metodologie, die argitektuur van die raamwerk tesame met die vergelyking daarvan met moderne raamwerke. Ons sal ook praat oor hoe die InstantStyle-raamwerk merkwaardige visuele stileringsuitkomste demonstreer, en 'n optimale balans tussen die beheerbaarheid van tekselemente en die intensiteit van styl skep. So kom ons begin. 

InstantStyle: Stylbewaring in teks-na-beeld-generering

Verspreidingsgebaseerde teks-na-beeldgeneratiewe KI-raamwerke het merkbare en merkwaardige sukses behaal oor 'n wye verskeidenheid aanpassings- en verpersoonlikingstake, veral in konsekwente beeldgenereringstake, insluitend objekaanpassing, beeldbewaring en styloordrag. Ten spyte van die onlangse sukses en hupstoot in prestasie, bly styloordrag egter 'n uitdagende taak vir navorsers as gevolg van die onbepaalde en ongedefinieerde aard van styl, wat dikwels 'n verskeidenheid elemente insluit, insluitend atmosfeer, struktuur, ontwerp, materiaal, kleur, en nog baie meer. Met dit gesê, is die primêre doel van gestileerde beeldgenerering of styloordrag om die spesifieke styl toe te pas vanaf 'n gegewe verwysingsbeeld of 'n verwysingsubset van beelde na die teikeninhoudbeeld. Die groot aantal kenmerke van styl maak die werk egter moeilik vir navorsers om gestileerde datastelle te versamel, styl korrek voor te stel en die sukses van die oordrag te evalueer. Voorheen het modelle en raamwerke wat handel oor fyninstellingsgebaseerde diffusieproses, die datastel van beelde wat 'n gemeenskaplike styl deel, 'n proses wat beide tydrowend en met beperkte veralgemeenbaarheid in werklike take is, verfyn, aangesien dit moeilik is om 'n subset van beelde te versamel wat dieselfde of amper identiese styl deel. 

Met die uitdagings wat die huidige benadering teëkom, het navorsers belang gestel in die ontwikkeling van fynverstellingsbenaderings vir styloordrag of gestileerde beeld generering, en hierdie raamwerke kan in twee verskillende groepe verdeel word: 

  • Adaptervrye benaderings: Adaptervrye benaderings en raamwerke benut die krag van selfaandag binne die verspreidingsproses, en deur 'n gedeelde aandag-operasie te implementeer, is hierdie modelle in staat om noodsaaklike kenmerke, insluitend sleutels en waardes, direk uit 'n gegewe verwysingstylbeelde te onttrek. 
  • Adapter-gebaseerde benaderings: Adapter-gebaseerde benaderings en raamwerke inkorporeer aan die ander kant 'n liggewig model wat ontwerp is om gedetailleerde beeldvoorstellings uit die verwysingstylbeelde te onttrek. Die raamwerk integreer dan hierdie voorstellings in die verspreidingsproses met behulp van kruisaandagmeganismes. Die primêre doel van die integrasieproses is om die genereringsproses te lei, en om te verseker dat die resulterende beeld belyn is met die verlangde stilistiese nuanses van die verwysingsbeeld. 

Ten spyte van die beloftes, ondervind tuning-vrye metodes egter dikwels 'n paar uitdagings. Eerstens, die adapter-vrye benadering vereis 'n uitruil van sleutel en waardes binne die self-aandag lae, en pre-vang die sleutel en waarde matrikse afgelei van die verwysing styl beelde. Wanneer dit op natuurlike beelde geïmplementeer word, vereis die adapter-vrye benadering die inversie van beeld terug na die latente geraas met behulp van tegnieke soos DDIM of Denoising Diffusion Implicit Models inversion. Die gebruik van DDIM of ander inversiebenaderings kan egter lei tot die verlies van fynkorrelige besonderhede soos kleur en tekstuur, wat dus die stylinligting in die gegenereerde beelde verminder. Verder is die bykomende stap wat deur hierdie benaderings ingestel word 'n tydrowende proses, en kan aansienlike nadele in praktiese toepassings inhou. Aan die ander kant lê die primêre uitdaging vir adapter-gebaseerde metodes daarin om die regte balans tussen die kontekslekkasie en stylintensiteit te vind. Inhoudlekkasie vind plaas wanneer 'n toename in die stylintensiteit die voorkoms van nie-stylelemente van die verwysingsbeeld in die gegenereerde uitvoer tot gevolg het, met die primêre probleem om style effektief van inhoud binne die verwysingsbeeld te skei. Om hierdie probleem aan te spreek, konstrueer sommige raamwerke gepaarde datastelle wat dieselfde objek in verskillende style verteenwoordig, wat die onttrekking van inhoudsvoorstelling en ontstrengelde style vergemaklik. Danksy die inherent onbepaalde voorstelling van styl is die taak om grootskaalse gepaarde datastelle te skep egter beperk in terme van die diversiteit van style wat dit kan vaslê, en dit is ook 'n hulpbron-intensiewe proses. 

Om hierdie beperkings aan te pak, word die InstantStyle-raamwerk bekendgestel wat 'n nuwe afstem-vrye meganisme is wat gebaseer is op bestaande adapter-gebaseerde metodes met die vermoë om naatloos te integreer met ander aandag-gebaseerde inspuitmetodes, en die ontkoppeling van inhoud en styl effektief te bewerkstellig. Verder stel die InstantStyle-raamwerk nie een nie, maar twee effektiewe maniere bekend om die ontkoppeling van styl en inhoud te voltooi, om beter stylmigrasie te bewerkstellig sonder dat dit nodig is om bykomende metodes in te voer om ontkoppeling te bewerkstellig of gepaarde datastelle te bou. 

Verder is vorige adapter-gebaseerde raamwerke wyd gebruik in die CLIP-gebaseerde metodes as 'n beeldkenmerk-onttrekking, sommige raamwerke het die moontlikheid ondersoek om kenmerkontkoppeling binne die kenmerkruimte te implementeer, en in vergelyking met onbepaaldheid van styl, is dit makliker om beskryf die inhoud met teks. Aangesien beelde en tekste 'n kenmerkruimte in CLIP-gebaseerde metodes deel, kan 'n eenvoudige aftrekking van kontekstekskenmerke en beeldkenmerke inhoudlekkasie aansienlik verminder. Verder, in 'n meerderheid van diffusie modelle, is daar 'n spesifieke laag in sy argitektuur wat die stylinligting inspuit, en die ontkoppeling van inhoud en styl bewerkstellig deur beeldkenmerke slegs in spesifieke stylblokke in te spuit. Deur hierdie twee eenvoudige strategieë te implementeer, is die InstantStyle-raamwerk in staat om inhoudlekprobleme op te los wat deur 'n meerderheid bestaande raamwerke teëgekom word, terwyl die sterkte van styl behou word. 

Om dit op te som, gebruik die InstantStyle-raamwerk twee eenvoudige, reguit dog effektiewe meganismes om 'n effektiewe ontknoping van inhoud en styl van verwysingsbeelde te bewerkstellig. Die Instant-Styl-raamwerk is 'n model-onafhanklike en stemvrye benadering wat merkwaardige prestasie in styloordragtake met 'n groot potensiaal vir stroomaftake demonstreer. 

Kitsstyl: Metodologie en argitektuur

Soos gedemonstreer deur vorige benaderings, is daar 'n balans in die inspuiting van styltoestande in stemvrye diffusiemodelle. As die intensiteit van die beeldtoestand te hoog is, kan dit lei tot inhoudlekkasie, terwyl as die intensiteit van die beeldtoestand te laag daal, die styl dalk nie duidelik genoeg blyk te wees nie. 'n Groot rede agter hierdie waarneming is dat in 'n beeld die styl en inhoud met mekaar verbind is, en as gevolg van die inherente onbepaalde stylkenmerke, is dit moeilik om die styl en bedoeling te ontkoppel. Gevolglik word noukeurige gewigte dikwels vir elke verwysingsbeeld ingestel in 'n poging om teksbeheerbaarheid en sterkte van styl te balanseer. Verder, vir 'n gegewe invoerverwysingsbeeld en sy ooreenstemmende teksbeskrywing in die inversiegebaseerde metodes, word inversiebenaderings soos DDIM oor die beeld aangeneem om die omgekeerde diffusiebaan te kry, 'n proses wat die inversievergelyking benader om 'n beeld in 'n latente te transformeer geraasvoorstelling. Voortbou op dieselfde, en begin van die omgekeerde verspreidingstrajek saam met 'n nuwe stel aanwysings, genereer hierdie metodes nuwe inhoud met sy styl wat ooreenstem met die insette. Soos in die volgende figuur getoon, is die DDIM-inversiebenadering vir werklike beelde egter dikwels onstabiel aangesien dit staatmaak op plaaslike linearisasie-aannames, wat lei tot die voortplanting van foute, en lei tot verlies aan inhoud en verkeerde beeldrekonstruksie. 

Wat die metodologie betref, in plaas daarvan om komplekse strategieë te gebruik om inhoud en styl van beelde te ontwarren, neem die Instant-Style-raamwerk die eenvoudigste benadering om soortgelyke prestasie te behaal. In vergelyking met die onderbepaalde stylkenmerke, kan inhoud deur natuurlike teks voorgestel word, wat die Instant-Style-raamwerk toelaat om die tekskodeerder van CLIP te gebruik om die kenmerke van die inhoudteks as konteksvoorstellings te onttrek. Terselfdertyd implementeer die Instant-Style-raamwerk CLIP-beeldenkodeerder om die kenmerke van die verwysingsbeeld te onttrek. Deur voordeel te trek uit die karakterisering van CLIP globale kenmerke, en die inhoudtekskenmerke van die beeldkenmerke af te trek, is die Instant-Style-raamwerk in staat om die styl en inhoud eksplisiet te ontkoppel. Alhoewel dit 'n eenvoudige strategie is, help dit dat die Instant-Style-raamwerk redelik effektief is om inhoudlekkasie tot 'n minimum te beperk. 

Verder is elke laag binne 'n diep netwerk verantwoordelik vir die vaslegging van verskillende semantiese inligting, en die sleutelwaarneming van vorige modelle is dat daar twee aandaglae bestaan ​​wat verantwoordelik is vir die hantering van styl. op Spesifiek, dit is die blokke.0.aandag.1 en af ​​blokke.2.aandag.1 lae wat verantwoordelik is vir die vaslegging van styl soos kleur, materiaal, atmosfeer, en die ruimtelike uitleglaag vang struktuur en samestelling onderskeidelik vas. Die Instant-Styl-raamwerk gebruik hierdie lae implisiet om stylinligting te onttrek, en voorkom inhoudlek sonder om die stylsterkte te verloor. Die strategie is eenvoudig maar doeltreffend aangesien die model stylblokke opgespoor het wat die beeldkenmerke in hierdie blokke kan inspuit om naatlose styloordrag te verkry. Verder, aangesien die model die aantal parameters van die adapter aansienlik verminder, word die teksbeheervermoë van die raamwerk verbeter, en die meganisme is ook van toepassing op ander aandag-gebaseerde kenmerkinspuitingsmodelle vir redigering en ander take. 

Kitsstyl: eksperimente en resultate

Die Instant-Style-raamwerk word op die Stable Diffusion XL-raamwerk geïmplementeer, en dit gebruik die algemeen aanvaarde vooraf-opgeleide IR-adapter as sy voorbeeld om sy metodologie te valideer, en demp alle blokke behalwe die stylblokke vir beeldkenmerke. Die Instant-Style-model lei ook die IR-adapter op 4 miljoen grootskaalse teks-beeld-gepaarde datastelle van nuuts af, en in plaas daarvan om alle blokke op te lei, dateer net die stylblokke op. 

Om sy veralgemeningsvermoëns en robuustheid uit te voer, voer die Instant-Styl-raamwerk talle styloordrageksperimente uit met verskeie style oor verskillende inhoud, en die resultate kan in die volgende beelde waargeneem word. Gegewe 'n enkele stylverwysingsbeeld tesame met verskillende opdragte, lewer die Instant-Style-raamwerk hoë kwaliteit, konsekwente styl beeld generering

Verder, aangesien die model beeldinligting slegs in die stylblokke inspuit, is dit in staat om die kwessie van inhoudlekkasie aansienlik te versag, en hoef dus nie gewigsinstelling uit te voer nie. 

Deur voort te beweeg, neem die Instant-Style-raamwerk ook die ControlNet-argitektuur aan om beeldgebaseerde stilering met ruimtelike beheer te bereik, en die resultate word in die volgende prent gedemonstreer. 

In vergelyking met vorige moderne metodes, insluitend StyleAlign, B-LoRA, Swapping Self Attention, en IP-Adapter, toon die Instant-Style-raamwerk die beste visuele effekte. 

Harde Gedagtes

In hierdie artikel het ons gepraat oor Instant-Style, 'n algemene raamwerk wat twee eenvoudige dog doeltreffende strategieë gebruik om effektiewe ontknoping van inhoud en styl van verwysingsbeelde te bewerkstellig. Die InstantStyle-raamwerk is ontwerp met die doel om die kwessies wat die huidige tuning-gebaseerde diffusiemodelle in die gesig staar, aan te pak vir beeldgenerering en aanpassing. Die Instant-Styl-raamwerk implementeer twee belangrike strategieë: 'n Eenvoudige dog effektiewe benadering om styl en inhoud van verwysingsbeelde binne die kenmerkruimte te ontkoppel, voorspel met die aanname dat kenmerke binne dieselfde kenmerkruimte óf by of van mekaar afgetrek kan word. Tweedens, voorkoming van styllekkasies deur die verwysingsbeeldeienskappe uitsluitlik in die stylspesifieke blokke in te spuit, en doelbewus vermy die behoefte om omslagtige gewigte te gebruik vir fynverstelling, wat dikwels meer parameter-swaar ontwerpe kenmerk. 

"'n Ingenieur van beroep, 'n skrywer uit sy kop". Kunal is 'n tegniese skrywer met 'n diep liefde en begrip van KI en ML, toegewy aan die vereenvoudiging van komplekse konsepte in hierdie velde deur sy boeiende en insiggewende dokumentasie.