stomp Leidende instruksie-gebaseerde beeldredigering via multimodale groottaalmodelle - Unite.AI
Verbinding met ons

Kunsmatige Intelligensie

Leidende instruksie-gebaseerde beeldredigering via multimodale groottaalmodelle

mm

Gepubliseer

 on

GELEIDENDE INSTRUKSIE-GEBASEERDE BEELDREDIGERING VIA MULTIMODALE GROOTTAAL MODELLE

Visuele ontwerpgereedskap en visietaalmodelle het wydverspreide toepassings in die multimediabedryf. Ten spyte van aansienlike vordering in die afgelope jaar, is 'n goeie begrip van hierdie gereedskap steeds nodig vir hul werking. Om toeganklikheid en beheer te verbeter, neem die multimedia-industrie toenemend teksgeleide of instruksie-gebaseerde beeldbewerkingstegnieke aan. Hierdie tegnieke gebruik natuurlike taalopdragte in plaas van tradisionele streeksmaskers of uitgebreide beskrywings, wat meer buigsame en beheerde beeldmanipulasie moontlik maak. Instruksiegebaseerde metodes verskaf egter dikwels kort aanwysings wat vir bestaande modelle uitdagend kan wees om ten volle vas te lê en uit te voer. Boonop is diffusiemodelle, bekend vir hul vermoë om realistiese beelde te skep, in groot aanvraag binne die beeldbewerkingsektor.

Verder, Multimodale groottaalmodelle (MLLMs) het indrukwekkende prestasie getoon in take wat visueel-bewuste reaksie generering en kruis-modale begrip behels. MLLM Guided Image Editing (MGIE) is 'n studie geïnspireer deur MLLM's wat hul vermoëns evalueer en ontleed hoe hulle redigering deur teks of geleide instruksies ondersteun. Hierdie benadering behels om te leer om eksplisiete leiding te verskaf en om ekspressiewe instruksies af te lei. Die MGIE-redigeermodel verstaan ​​visuele inligting en voer wysigings uit deur middel van end-tot-end opleiding. In hierdie artikel sal ons diep in MGIE delf en die impak daarvan op globale beeldoptimalisering, Photoshop-styl wysigings en plaaslike redigering beoordeel. Ons sal ook die belangrikheid van MGIE in instruksie-gebaseerde beeldbewerkingstake bespreek wat op ekspressiewe instruksies staatmaak. Kom ons begin ons verkenning.

MLLM Begeleide beeldredigering of MGIE: An Introduction

Multimodale groottaalmodelle en verspreidingsmodelle is twee van die mees gebruikte KI- en ML-raamwerke wat tans as gevolg van hul merkwaardige generatiewe vermoëns. Aan die een kant het jy Diffusion-modelle, veral bekend vir die vervaardiging van hoogs realistiese en visueel aantreklike beelde, terwyl jy aan die ander kant multimodale groottaalmodelle het, bekend vir hul besonderse vaardigheid in die generering van 'n wye verskeidenheid inhoud, insluitend teks, taal, spraak, en beelde/video's. 

Diffusiemodelle ruil die latente kruismodale kaarte om om visuele manipulasie uit te voer wat die verandering van die insetdoelbyskrif weerspieël, en hulle kan ook 'n geleide masker gebruik om 'n spesifieke streek van die prent te wysig. Maar die primêre rede waarom Diffusie-modelle wyd gebruik word vir multimedia-toepassings, is omdat in plaas daarvan om op uitgebreide beskrywings of streeksmaskers staat te maak, Diffusie-modelle instruksiegebaseerde redigeringbenaderings gebruik wat gebruikers toelaat om uit te druk hoe om die prent direk te wysig deur teksinstruksies of -opdragte te gebruik. . Deur voort te beweeg, het groot taalmodelle geen bekendstelling nodig nie, aangesien hulle aansienlike vordering getoon het oor 'n verskeidenheid uiteenlopende taaltake, insluitend teksopsomming, masjienvertaling, teksgenerering en die beantwoording van die vrae. LLM's word gewoonlik opgelei op 'n groot en diverse hoeveelheid opleidingsdata wat hulle toerus met visuele kreatiwiteit en kennis, wat hulle ook in staat stel om verskeie visietaaltake uit te voer. Om voort te bou op LLM'e, kan MLLM's of multimodale groottaalmodelle beelde as natuurlike insette gebruik en gepaste visueel-bewuste antwoorde verskaf. 

Met dit gesê, hoewel diffusiemodelle en MLLM-raamwerke wyd gebruik word vir beeldbewerkingstake, bestaan ​​daar 'n paar leidingkwessies met teksgebaseerde instruksies wat die algehele prestasie belemmer, wat lei tot die ontwikkeling van MGIE of MLLM Guided Image Editing, 'n KI-aangedrewe raamwerk wat bestaan ​​uit 'n diffusiemodel en 'n MLLM-model soos gedemonstreer in die volgende beeld. 

Binne die MGIE-argitektuur is die verspreidingsmodel end-tot-end opgelei om beeldredigering uit te voer met latente verbeelding van die beoogde doel, terwyl die MLLM-raamwerk leer om presiese ekspressiewe instruksies te voorspel. Saam maak die verspreidingsmodel en die MLLM-raamwerk voordeel uit die inherente visuele afleiding wat dit toelaat om dubbelsinnige menslike opdragte aan te spreek wat lei tot realistiese redigering van die beelde, soos gedemonstreer in die volgende prent. 

Die MGIE-raamwerk put groot inspirasie uit twee bestaande benaderings: Instruksie-gebaseerde beeldbewerking en Visie Groot Taalmodelle

Instruksie-gebaseerde beeldredigering kan die toeganklikheid en beheerbaarheid van visuele manipulasie aansienlik verbeter deur aan menslike opdragte te voldoen. Daar is twee hoofraamwerke wat gebruik word vir instruksiegebaseerde beeldredigering: GAN-raamwerke en Diffusiemodelle. GAN of Generative Adversarial Networks is in staat om beelde te verander, maar is óf beperk tot spesifieke domeine óf lewer onrealistiese resultate. Aan die ander kant kan diffusiemodelle met grootskaalse opleiding die kruismodale aandagkaarte vir globale kaarte beheer om beeldredigering en transformasie te bewerkstellig. Instruksie-gebaseerde redigering werk deur reguit opdragte as invoer te ontvang, dikwels nie beperk tot streeksmaskers en uitgebreide beskrywings nie. Daar is egter 'n waarskynlikheid dat die verskafde instruksies óf dubbelsinnig óf nie akkuraat genoeg is om instruksies vir redigering van take te volg nie. 

Visie Groottaalmodelle is bekend vir hul teksgeneratiewe en veralgemenende vermoëns oor verskeie take, en hulle het dikwels 'n robuuste tekstuele begrip, en hulle kan verder uitvoerbare programme of pseudokode produseer. Hierdie vermoë van groot taalmodelle stel MLLM's in staat om beelde waar te neem en voldoende reaksies te verskaf deur visuele kenmerkbelyning met instruksie-instelling te gebruik, met onlangse modelle wat MLLM's aanneem om beelde te genereer wat verband hou met die klets of die invoerteks. Wat egter MGIE van MLLMs of VLLMs skei, is die feit dat hoewel laasgenoemde beelde kan produseer wat van nuuts af verskil van insette, MGIE die vermoëns van MLLMs benut om beeldredigeringsvermoëns met afgeleide instruksies te verbeter. 

MGIE: Argitektuur en Metodiek

Tradisioneel is groot taalmodelle gebruik vir natuurlike taalverwerking generatiewe take. Maar sedert MLLM's hoofstroom geword het, is LLM's bemagtig met die vermoë om redelike antwoorde te verskaf deur beeldinsette waar te neem. Konvensioneel word 'n multimodale groottaalmodel geïnisialiseer vanaf 'n voorafopgeleide LLM, en dit bevat 'n visuele enkodeerder en 'n adapter om die visuele kenmerke te onttrek, en die visuele kenmerke onderskeidelik in taalmodaliteit te projekteer. As gevolg hiervan is die MLLM-raamwerk in staat om visuele insette waar te neem, hoewel die uitset steeds tot teks beperk is. 

Die voorgestelde MGIE-raamwerk het ten doel om hierdie probleem op te los, en om 'n MLLM te fasiliteer om 'n insetbeeld in 'n uitvoerbeeld te redigeer op grond van die gegewe tekstuele instruksie. Om dit te bereik, huisves die MGIE-raamwerk 'n MLLM en lei dit af om bondige en eksplisiete ekspressiewe teksinstruksies af te lei. Verder voeg die MGIE-raamwerk spesiale beeldtekens in sy argitektuur by om die gaping tussen visie en taalmodaliteit te oorbrug, en aanvaar die wysigingshoof vir die transformasie van die modaliteite. Hierdie modaliteite dien as die latente visuele verbeelding van die Multimodale Groottaalmodel, en lei die verspreidingsmodel om die redigeertake te bereik. Die MGIE-raamwerk is dan in staat om visuele persepsietake uit te voer vir redelike beeldredigering. 

Beknopte ekspressiewe instruksie

Tradisioneel kan multimodale groottaalmodelle visuele-verwante response bied met sy kruis-modale persepsie as gevolg van instruksieafstemming en kenmerkbelyning. Om beelde te redigeer, gebruik die MGIE-raamwerk 'n tekstuele prompt as die primêre taalinvoer met die beeld, en kry 'n gedetailleerde verduideliking vir die redigeeropdrag. Hierdie verduidelikings kan egter dikwels te lank wees of herhalende beskrywings behels wat lei tot verkeerd geïnterpreteerde bedoelings, wat MGIE dwing om 'n vooraf opgeleide opsomming te gebruik om bondige vertellings te verkry, wat die MLLM in staat stel om opgesomde uitsette te genereer. Die raamwerk hanteer die bondige dog eksplisiete leiding as 'n ekspressiewe instruksie, en pas die kruis-entropieverlies toe om die multimodale groottaalmodel op te lei deur onderwyserafdwinging te gebruik.

Die gebruik van 'n ekspressiewe instruksie bied 'n meer konkrete idee in vergelyking met die teksinstruksie, aangesien dit die gaping vir redelike beeldredigering oorbrug, wat die doeltreffendheid van die raamwerk verder verbeter. Boonop lei die MGIE-raamwerk gedurende die afleidingsperiode bondige ekspressiewe instruksies af in plaas daarvan om lang vertellings te produseer en op eksterne opsomming staat te maak. As gevolg hiervan is die MGIE-raamwerk in staat om die visuele verbeelding van die redigeervoornemens in die hande te kry, maar is steeds beperk tot die taalmodaliteit. Om hierdie struikelblok te oorkom, voeg die MGIE-model 'n sekere aantal visuele tekens by na die ekspressiewe instruksie met opleibare woordinbeddings wat die MLLM toelaat om dit te genereer met behulp van sy LM- of Taalmodelkop. 

Beeldredigering met Latente Verbeelding

In die volgende stap neem die MGIE-raamwerk die redigeerkop aan om die beeldinstruksie in werklike visuele leiding te omskep. Die redigeerkop is 'n volgorde-na-volgorde-model wat help met die kartering van die opeenvolgende visuele tekens van die MLLM na die betekenisvolle latente semanties as sy redigeringsleiding. Om meer spesifiek te wees, die transformasie oor die woord inbeddings kan geïnterpreteer word as algemene voorstelling in die visuele modaliteit, en gebruik 'n instansie-bewuste visuele verbeelding komponent vir die redigering bedoelings. Verder, om beeldredigering met visuele verbeelding te lei, sluit die MGIE-raamwerk 'n latente diffusiemodel in sy argitektuur in wat 'n variasie-outo-enkodeerder insluit en die ontlastende diffusie in die latente ruimte aanspreek. Die primêre doel van die latente diffusiemodel is om die latente doelwit te genereer deur die latente insette te bewaar en die redigeringsleiding te volg. Die diffusieproses voeg geraas by die latente doelwit oor gereelde tydintervalle en die geraasvlak verhoog met elke tydstap. 

Leer van MGIE

Die volgende figuur som die algoritme van die leerproses van die voorgestelde MGIE-raamwerk op. 

Soos dit waargeneem kan word, leer die MLLM om bondige ekspressiewe instruksies af te lei deur die instruksieverlies te gebruik. Deur die latente verbeelding van die insetbeeldinstruksies te gebruik, transformeer die raamwerk die modaliteit van die redigeerkop, en lei die latente diffusiemodel om die resulterende beeld te sintetiseer, en pas die redigeringsverlies toe vir diffusie-opleiding. Ten slotte, die raamwerk vries 'n meerderheid van gewigte wat lei tot parameter-doeltreffende einde tot einde opleiding. 

MGIE: Resultate en Evaluering

Die MGIE-raamwerk gebruik die IPr2Pr-datastel as sy primêre vooropleidingsdata, en dit bevat meer as 1 miljoen CLIP-gefiltreerde data met instruksies wat uit GPT-3-model onttrek is, en 'n Prompt-to-Prompt-model om die beelde te sintetiseer. Verder behandel die MGIE-raamwerk die InsPix2Pix-raamwerk gebou op die CLIP-tekskodeerder met 'n diffusiemodel as sy basislyn vir instruksie-gebaseerde beeldbewerkingstake. Verder neem die MGIE-model ook 'n LLM-geleide beeldbewerkingsmodel in ag wat aangeneem is vir ekspressiewe instruksies vanaf instruksie-alleen-insette maar sonder visuele persepsie. 

Kwantitatiewe analise

Die volgende figuur som die redigeringsresultate op in 'n nul-skoot-instelling met die modelle wat slegs op die IPr2Pr-datastel opgelei word. Vir GIER- en EVR-data wat Photoshop-styl wysigings behels, kan die ekspressiewe instruksies konkrete doelwitte openbaar in plaas van dubbelsinnige opdragte wat die redigeringsresultate beter laat lyk soos die redigeringsvoornemens. 

Alhoewel beide die LGIE en die MGIE opgelei is op dieselfde data as die InsPix2Pix-model, kan hulle gedetailleerde verduidelikings bied deur met die groottaalmodel te leer, maar steeds is die LGIE tot 'n enkele modaliteit beperk. Verder kan die MGIE-raamwerk 'n aansienlike prestasie-hupstoot gee aangesien dit toegang tot beelde het, en kan hierdie beelde gebruik om eksplisiete instruksies af te lei. 

Om die prestasie op instruksie-gebaseerde beeldbewerkingstake vir spesifieke doeleindes te evalueer, verfyn ontwikkelaars verskeie modelle op elke datastel soos opgesom in die volgende tabel. 

Soos dit waargeneem kan word, toon die modelle 'n hupstoot in werkverrigting nadat die Photoshop-styl redigeertake vir EVR en GIER aangepas is. Dit is egter opmerklik dat aangesien fynverstelling ekspressiewe instruksies ook meer domeinspesifiek maak, die MGIE-raamwerk 'n massiewe hupstoot in prestasie toon, aangesien dit ook domeinverwante leiding leer, wat die verspreidingsmodel toelaat om konkrete geredigeerde tonele uit die verfynde groottaalmodel wat beide die plaaslike wysiging en plaaslike optimalisering bevoordeel. Verder, aangesien die visueel-bewuste leiding meer in lyn is met die beoogde redigeerdoelwitte, lewer die MGIE-raamwerk voortreflike resultate konsekwent in vergelyking met LGIE. 

Die volgende figuur demonstreer die CLIP-S-telling oor die inset- of grondwaarheidsdoelbeelde en ekspressiewe instruksie. 'n Hoër CLIP-telling dui op die relevansie van die instruksies met die redigeringsbron, en soos dit waargeneem kan word, het die MGIE 'n hoër CLIP-telling in vergelyking met die LGIE-model oor beide die inset- en die uitsetbeelde. 

Kwalitatiewe resultate

Die volgende beeld som die kwalitatiewe ontleding van die MGIE-raamwerk perfek op. 

Soos ons weet, is die LGIE-raamwerk beperk tot 'n enkele modaliteit, waardeur dit 'n enkele taalgebaseerde insig het, en is dit geneig om verkeerde of irrelevante verduidelikings vir die redigering van die beeld af te lei. Die MGIE-raamwerk is egter multimodaal, en met toegang tot beelde voltooi dit die redigeertake, en bied eksplisiete visuele verbeelding wat regtig goed in lyn is met die doelwit. 

Harde Gedagtes

In hierdie artikel het ons gepraat oor MGIE of MLLM Guided Image Editing, 'n MLLM-geïnspireerde studie wat daarop gemik is om multimodale groottaalmodelle te evalueer en te analiseer hoe dit redigering fasiliteer deur teks of geleide instruksies te gebruik, terwyl ons leer hoe om eksplisiete leiding te verskaf deur ekspressiewe instruksies af te lei gelyktydig. Die MGIE-redigeermodel vang die visuele inligting vas en voer redigering of manipulasie uit met behulp van end-to-end-opleiding. In plaas van dubbelsinnige en kort leiding, produseer die MGIE-raamwerk eksplisiete visueel-bewuste instruksies wat lei tot redelike beeldredigering. 

"'n Ingenieur van beroep, 'n skrywer uit sy kop". Kunal is 'n tegniese skrywer met 'n diep liefde en begrip van KI en ML, toegewy aan die vereenvoudiging van komplekse konsepte in hierdie velde deur sy boeiende en insiggewende dokumentasie.