stomp HD-skilder: hoë-resolusie teks-geleide beeldverf met diffusiemodelle - Unite.AI
Verbinding met ons

Kunsmatige Intelligensie

HD-skilder: hoë-resolusie teks-geleide beeldverf met diffusiemodelle

mm

Gepubliseer

 on

HD-skilder: hoë-resolusie teksgeleide beeldverf met diffusiemodelle

Diffusie modelle het ongetwyfeld die KI- en ML-industrie 'n rewolusie teweeggebring, met hul toepassings wat intyds 'n integrale deel van ons alledaagse lewens geword het. Nadat teks-na-beeld-modelle hul merkwaardige vermoëns ten toon gestel het, het diffusie-gebaseerde beeldmanipuleringstegnieke, soos beheerbare generering, gespesialiseerde en gepersonaliseerde beeldsintese, objekvlak-beeldredigering, vinnige gekondisioneerde variasies en redigering, na vore gekom as warm navorsingsonderwerpe as gevolg van aan hul toepassings in die rekenaarvisiebedryf.

Ten spyte van hul indrukwekkende vermoëns en uitsonderlike resultate, het teks-na-beeld-raamwerke, veral teks-na-beeld-inskilderyraamwerke, steeds potensiële areas vir ontwikkeling. Dit sluit in die vermoë om globale tonele te verstaan, veral wanneer die beeld in hoë diffusie-tydstappe ontleed word. Om hierdie kwessie aan te spreek, het navorsers HD-Painter bekendgestel, 'n heeltemal opleidingsvrye raamwerk wat vinnige instruksies en skale akkuraat volg tot hoë-resolusie beeld inverf samehangend. Die HD-Painter-raamwerk maak gebruik van 'n Prompt Aware Introverted Attention (PAIntA)-laag, wat vinnige inligting gebruik om selfaandagtellings te verbeter, wat lei tot beter teksbelyning generering.

Om die samehang van die aansporing verder te verbeter, stel die HD-Painter-model 'n Reweighting Attention Score Guidance (RASG)-benadering bekend. Hierdie benadering integreer 'n post-hoc steekproefnemingstrategie naatloos in die algemene vorm van die DDIM-komponent, wat uit-verspreiding latente verskuiwings voorkom. Daarbenewens het die HD-Painter-raamwerk 'n gespesialiseerde super-resolusie-tegniek wat aangepas is vir inverf, wat dit toelaat om uit te brei na groter skale en ontbrekende streke in die beeld te voltooi met resolusies tot 2K.

HD-skilder: Teksgeleide beeldverf

Teks-na-beeld verspreidingsmodelle was inderdaad 'n belangrike onderwerp in die KI- en ML-industrie die afgelope maande, met modelle wat indrukwekkende intydse vermoëns oor verskeie praktiese toepassings toon. Vooraf opgeleide teks-na-beeld generasie modelle soos DALL-E, Imagen en Stable Diffusion het hul geskiktheid vir beeldvoltooiing getoon deur gedenoise (gegenereerde) onbekende streke saam te smelt met verspreide bekende streke tydens die terugwaartse diffusieproses. Ten spyte van die vervaardiging van visueel aantreklike en goed geharmoniseerde uitsette, sukkel bestaande modelle om die globale toneel te verstaan, veral onder die hoë diffusie-tydstap-ontkenningsproses. Deur vooraf opgeleide teks-na-beeld-verspreidingsmodelle te wysig om addisionele konteksinligting in te sluit, kan hulle verfyn word vir teksgeleide beeldvoltooiing.

Verder, binne diffusiemodelle, is teksgeleide inverf en teksgeleide beeldvoltooiing belangrike areas van belangstelling vir navorsers. Hierdie belangstelling word gedryf deur die feit dat teksgeleide inverfmodelle inhoud in spesifieke streke van 'n insetbeeld kan genereer op grond van teksaanwysings, wat lei tot potensiële toepassings soos die retouchering van spesifieke beeldstreke, die wysiging van onderwerpkenmerke soos kleure of klere, en die byvoeging van of voorwerpe te vervang. Samevattend, teks-na-beeld-verspreidingsmodelle het onlangs ongekende sukses behaal, as gevolg van hul buitengewoon realistiese en visueel aantreklike generasievermoëns.

Die meerderheid van bestaande raamwerke toon egter vinnige verwaarlosing in twee scenario's. Die eerste is Agtergrond dominansie wanneer die model die onbekende streek voltooi deur die prompt in die agtergrond te ignoreer terwyl die tweede scenario is nabygeleë voorwerp dominansie wanneer die model die bekende streekvoorwerpe na die onbekende streek voortplant deur gebruik te maak van visuele konteks waarskynlikheid eerder as die insetprompt. Dit is 'n moontlikheid dat beide hierdie kwessies 'n gevolg kan wees van vanielje-inskilderydiffusie se vermoë om die teksopdrag akkuraat te interpreteer of dit te meng met die kontekstuele inligting verkry uit die bekende streek. 

Om hierdie padblokkades aan te pak, stel die HD-Painter-raamwerk die Prompt Aware Introverted Attention of PAIntA-laag bekend, wat vinnige inligting gebruik om die selfaandagtellings te verbeter wat uiteindelik lei tot beter teksbelyning generering. PAIntA gebruik die gegewe tekstuele kondisionering om die self aandag telling met die doel om die impak van nie-spoedige relevante inligting uit die beeldstreek te verminder, terwyl terselfdertyd die bydrae van die bekende pieksels wat met die prompt belyn is, verhoog word. Om die teksbelyning van die gegenereerde resultate verder te verbeter, implementeer die HD-Painter-raamwerk 'n post-hoc-leidingsmetode wat die kruisaandagtellings benut. Die implementering van die vanielje post-hoc leidingmeganisme kan egter buite verspreiding verskuiwings veroorsaak as gevolg van die addisionele gradiëntterm in die diffusievergelyking. Die verskuiwing uit verspreiding sal uiteindelik lei tot kwaliteit agteruitgang van die gegenereerde uitset. Om hierdie padblokkade aan te pak, implementeer die HD-Painter-raamwerk 'n Reweighting Attention Score Guidance of RASG, 'n metode wat 'n post-hoc steekproefstrategie naatloos in die algemene vorm van die DDIM-komponent integreer. Dit laat die raamwerk toe om visueel aanneemlike inverfresultate te genereer deur die monster na die prompt-belynde latente te lei, en dit in hul opgeleide domein te bevat.

Deur beide die RASH- en PAIntA-komponente in sy argitektuur te ontplooi, hou die HD-Painter-raamwerk 'n beduidende voordeel bo bestaande, insluitend moderne, inverf- en teks-na-beeld-verspreidingsmodelle omdat dit daarin slaag om die bestaande kwessie van vinnige verwaarlosing op te los. Verder bied beide die RASH- en die PAIntA-komponente plug-and-play-funksionaliteit, wat hulle in staat stel om versoenbaar te wees met diffusiebasis-verfmodelle om die uitdagings wat hierbo genoem is, aan te pak. Verder, deur die implementering van 'n tyd-iteratiewe vermenging tegnologie en deur gebruik te maak van die vermoëns van hoë-resolusie diffusie modelle, kan die HD-Painter-pyplyn effektief werk vir tot 2K-resolusie inverf. 

Om dit op te som, die HD-Skilder poog om die volgende bydraes in die veld te maak:

  1. Dit is daarop gemik om die vinnige verwaarlosingskwessie van die agtergrond en nabygeleë objekdominansie wat deur teksgeleide beeldverfraamwerke ervaar word op te los deur die Prompt Aware Introverted Attention of PAIntA-laag in sy argitektuur te implementeer. 
  2. Dit is daarop gemik om die teksbelyning van die uitset te verbeter deur die Herweeg Aandagtelling Leiding of RASG-laag in sy argitektuur te implementeer wat die HD-Painter-raamwerk in staat stel om post-hoc geleide steekproefneming uit te voer, terwyl uit-verskuiwing verspreidings voorkom word. 
  3. Om 'n effektiewe opleidingsvrye teksgeleide beeldvoltooiingspyplyn te ontwerp wat in staat is om beter te presteer as die bestaande moderne raamwerke, en om die eenvoudige dog effektiewe inverf-gespesialiseerde superresolusie-raamwerk te gebruik om teksgeleide beeldverf tot 2K-resolusie uit te voer. 

HD-Skilder: Metode en Argitektuur

Voordat ons na die argitektuur kyk, is dit noodsaaklik om die drie fundamentele konsepte te verstaan ​​wat die grondslag van die HD-Painter-raamwerk vorm: Beeldverf, post-hoc leiding in diffusieraamwerke, en Spesifieke argitektoniese blokke inverf. 

Image Inpainting is 'n benadering wat daarop gemik is om die ontbrekende streke binne 'n beeld te vul, terwyl die visuele aantrekkingskrag van die gegenereerde beeld verseker word. Tradisionele diepleerraamwerke het metodes geïmplementeer wat bekende streke gebruik het om diep kenmerke te propageer. Die bekendstelling van diffusiemodelle het egter gelei tot die evolusie van inskilderymodelle, veral die teksgeleide beeldinskilderyraamwerke. Tradisioneel vervang 'n vooraf-opgeleide teks-na-beeld-diffusiemodel die ontmaskerde streek van die latente deur die geraasweergawe van die bekende streek tydens die steekproefproses te gebruik. Alhoewel hierdie benadering tot 'n mate werk, verswak dit die kwaliteit van die gegenereerde uitset aansienlik aangesien die ruisende netwerk slegs die geraasde weergawe van die bekende streek sien. Om hierdie struikelblok aan te pak, was 'n paar benaderings daarop gemik om die vooraf-opgeleide teks-na-beeld-model te verfyn om teksgeleide beeldverf te verkry. Deur hierdie benadering te implementeer, is die raamwerk in staat om 'n ewekansige masker via aaneenskakeling te genereer aangesien die model in staat is om die denoiserende raamwerk op die ontmaskerde streek te kondisioneer. 

Deur voort te beweeg, het die tradisionele diepleermodelle spesiale ontwerplae geïmplementeer vir doeltreffende inverf met sommige raamwerke wat inligting effektief kon onttrek en visueel aantreklike beelde kon produseer deur spesiale konvolusie-lae in te voer om die bekende streke van die beeld te hanteer. Sommige raamwerke het selfs 'n kontekstuele aandaglaag in hul argitektuur bygevoeg om die ongewenste swaar berekeningsvereistes van almal te verminder tot alle selfaandag vir hoë kwaliteit inverf. 

Ten slotte, die Post-hoc leiding metodes is terugwaartse diffusie steekproefmetodes wat die volgende stap latente voorspelling lei na 'n spesifieke funksie minimalisering doelwit. Post-hoc leidingmetodes is van groot hulp wanneer dit kom by die generering van visuele inhoud, veral in die teenwoordigheid van bykomende beperkings. Die Post-hoc-begeleidingsmetodes het egter 'n groot nadeel: dit is bekend dat dit tot verswakking van beeldkwaliteit lei, aangesien dit geneig is om die latente generasieproses met 'n gradiëntterm te verskuif. 

Wat die argitektuur van HD-Painter betref, formuleer die raamwerk eers die teksgeleide beeldvoltooiingsprobleem, en stel dan twee diffusiemodelle bekend, naamlik die Stable Inpainting en Stabiele verspreiding. Die HD-Painter-model stel dan die PAIntA- en die RASG-blokke bekend, en uiteindelik kom ons by die inpainting-spesifieke superresolusie-tegniek. 

Stabiele diffusie en stabiele inverf

Stabiele diffusie is 'n diffusiemodel wat binne die latente ruimte van 'n outo-enkodeerder werk. Vir teks-na-beeld-sintese, implementeer die Stabiele Diffusie-raamwerk 'n tekstuele aansporing om die proses te lei. Die leidende funksie het 'n struktuur soortgelyk aan die UNet-argitektuur, en die kruisaandaglae kondisioneer dit op die tekstuele aanwysings. Verder kan die Stable Diffusion-model beeldverf met 'n paar wysigings en fynverstellings uitvoer. Om dit te bereik, word die kenmerke van die gemaskerde beeld wat deur die enkodeerder gegenereer word, aaneengeskakel met die afgeskaalde binêre masker na die latente. Die resulterende tensor word dan in die UNet-argitektuur ingevoer om die geraamde geraas te verkry. Die raamwerk inisialiseer dan die nuut bygevoegde konvolusiefilters met nulle terwyl die res van die UNet geïnisialiseer word deur vooraf opgeleide kontrolepunte van die Stable Diffusion-model te gebruik. 

Die figuur hierbo demonstreer die oorsig van die HD-Painter-raamwerk wat uit twee fases bestaan. In die eerste fase implementeer die HD-Painter-raamwerk teksgeleide beeldverf, terwyl die model in die tweede fase spesifieke superresolusie van die uitvoer verf. Om die missiestreke in te vul en om konsekwent te bly met die insette-opdrag, neem die model 'n vooraf-opgeleide inverfdiffusiemodel, vervang die selfaandaglae met PAIntA-lae, en implementeer die RASG-meganisme om 'n terugwaartse diffusieproses uit te voer. Die model dekodeer dan die finale beraamde latente wat 'n ingeverfde beeld tot gevolg het. HD-Painter implementeer dan die superstabiele diffusiemodel om die oorspronklike grootte beeld in te verf, en implementeer die diffusie terugwaartse proses van die Stable Diffusion raamwerk gekondisioneer op die lae resolusie insetbeeld. Die model meng die gedenoise voorspellings met die oorspronklike beeld se enkodering na elke stap in die bekende streek en lei die volgende latente af. Laastens dekodeer die model die latente en implementeer Poisson-vermenging om randartefakte te vermy. 

Vinnige Bewuste Introverte Aandag of PAIntA

Bestaande inpainting-modelle soos Stable Inpainting is geneig om meer staat te maak op die visuele konteks rondom die inpainting-area en ignoreer die invoergebruikersaanwysings. Op grond van die gebruikerservaring kan hierdie kwessie in twee klasse gekategoriseer word: nabygeleë objekdominansie en agtergronddominansie. Die kwessie van visuele konteks-oorheersing oor die insette-aansporings kan 'n gevolg wees van die slegs-ruimtelike en vinnige-vrye aard van die self-aandaglae. Om hierdie probleem aan te pak, stel die HD-Painter-raamwerk die Prompt Aware Introverted Attention of PAIntA bekend wat kruisaandagmatrikse en 'n inverfmasker gebruik om die uitset van die selfaandaglae in die onbekende streek te beheer. 

Die Prompt Aware Introverted Attention-komponent pas eers projeksielae toe om die sleutel, waardes en navrae saam met die ooreenkomsmatriks te kry. Die model pas dan die aandagtelling van die bekende pixels aan om die sterk invloed van die bekende streek oor die onbekende streek te versag, en definieer 'n nuwe ooreenkomsmatriks deur gebruik te maak van die tekstuele aansporing. 

Hergewig Aandagtelling Leiding of RASG

Die HD-Painter-raamwerk neem 'n post-hoc-steekproefvoorligtingsmetode aan om die generasiebelyning met die tekstuele aanwysings nog verder te verbeter. Saam met 'n objektiewe funksie, is die post-hoc steekproefvoorligtingsbenadering daarop gemik om die oop-woordeskatsegmentasie-eienskappe van die kruisaandaglae te benut. Hierdie benadering van vanielje post-hoc leiding het egter die potensiaal om die domein van diffusie latent te verskuif wat die kwaliteit van die gegenereerde beeld kan verswak. Om hierdie kwessie aan te pak, implementeer die HD-Painter-model die Reweighting Attention Score Guidance of RASG-meganisme wat 'n gradiënt-hergewigmeganisme bekendstel wat tot latente domeinbewaring lei. 

HD-skilder: eksperimente en resultate

Om sy werkverrigting te ontleed, word die HD-Painter-raamwerk vergelyk met huidige moderne modelle, insluitend Stable Inpainting, GLIDE en BLD of Blended Latent Diffusion oor 10000 ewekansige monsters waar die prompt gekies word as die etiket van die geselekteerde instansiemasker. 

Soos waargeneem kan word, presteer die HD-Painter-raamwerk bestaande raamwerke op drie verskillende metrieke met 'n beduidende marge, veral die verbetering van 1.5 punte op die CLIP-metriek en verskil in gegenereerde akkuraatheidtelling van ongeveer 10% van ander moderne metodes. . 

Die volgende figuur demonstreer die kwalitatiewe vergelyking van die HD-Painter-raamwerk met ander inpainting-raamwerke. Soos dit waargeneem kan word, rekonstrueer ander basislynmodelle óf die ontbrekende streke in die beeld as 'n voortsetting van die bekende streekobjekte wat die opdragte verontagsaam óf hulle genereer 'n agtergrond. Aan die ander kant is die HD-Painter-raamwerk in staat om die teikenobjekte suksesvol te genereer as gevolg van die implementering van die PAIntA en die RASG-komponente in sy argitektuur. 

Harde Gedagtes

In hierdie artikel het ons gepraat oor HD-Painter, 'n gratis teks-geleide hoë-resolusie-inskilderybenadering wat die uitdagings aanspreek wat deur bestaande inpainting-raamwerke ervaar word, insluitend vinnige verwaarlosing, en nabygeleë en agtergrond-objekdominansie. Die HD-Painter-raamwerk implementeer 'n Prompt Aware Introverted Attention of PAIntA-laag, wat vinnige inligting gebruik om die self-aandagtellings te verbeter wat uiteindelik lei tot beter teksbelyning generering. 

Om die samehang van die aansporing nog verder te verbeter, stel die HD-Painter-model 'n Reweighting Attention Score Guidance of RASG-benadering bekend wat 'n post-hoc steekproefstrategie naatloos in die algemene vorm van die DDIM-komponent integreer om latente verskuiwings buite verspreiding te voorkom. Verder stel die HD-Painter-raamwerk 'n gespesialiseerde superresolusie-tegniek bekend wat aangepas is vir inverf wat lei tot uitbreiding na groter skale, en laat die HD-Painter-raamwerk toe om die ontbrekende streke in die beeld te voltooi met 'n resolusie tot 2K.

"'n Ingenieur van beroep, 'n skrywer uit sy kop". Kunal is 'n tegniese skrywer met 'n diep liefde en begrip van KI en ML, toegewy aan die vereenvoudiging van komplekse konsepte in hierdie velde deur sy boeiende en insiggewende dokumentasie.