stomp InstructIR: Herstel van hoë gehalte beeld volgens menslike instruksies - Unite.AI
Verbinding met ons

Kunsmatige Intelligensie

InstructIR: Herstel van hoë gehalte beeld volgens menslike instruksies

mm

Gepubliseer

 on

Hoë-gehalte beeld herstel volgens menslike instruksies

'n Beeld kan baie oordra, maar dit kan ook deur verskeie kwessies soos bewegingsvervaging, waas, geraas en lae dinamiese omvang ontsier word. Hierdie probleme, wat algemeen na verwys word as agteruitgang in laevlak rekenaarvisie, kan ontstaan ​​as gevolg van moeilike omgewingstoestande soos hitte of reën of as gevolg van beperkings van die kamera self. Beeldherstel verteenwoordig 'n kernuitdaging in rekenaarvisie, wat daarna streef om 'n hoëgehalte, skoon beeld te herstel van een wat sulke agteruitgang vertoon. Beeldherstel is kompleks omdat daar verskeie oplossings kan wees vir die herstel van enige gegewe beeld. Sommige benaderings teiken spesifieke agteruitgang, soos die vermindering van geraas of die verwydering van wasigheid of waas.

Alhoewel hierdie metodes goeie resultate vir spesifieke kwessies kan oplewer, sukkel hulle dikwels om oor verskillende tipes agteruitgang te veralgemeen. Baie raamwerke gebruik 'n generiese neurale netwerk vir 'n wye reeks beeldhersteltake, maar hierdie netwerke word elk afsonderlik opgelei. Die behoefte aan verskillende modelle vir elke tipe agteruitgang maak hierdie benadering rekenkundig duur en tydrowend, wat lei tot 'n fokus op Alles-in-een-herstelmodelle in onlangse ontwikkelings. Hierdie modelle gebruik 'n enkele, diep blinde herstelmodel wat verskeie vlakke en tipes degradasie aanspreek, wat dikwels degradasie-spesifieke aanwysings of leidingsvektore gebruik om werkverrigting te verbeter. Alhoewel Alles-in-een-modelle tipies belowende resultate toon, staan ​​hulle steeds voor uitdagings met omgekeerde probleme.

InstructIR verteenwoordig 'n baanbrekende benadering in die veld, synde die eerste beeld herstel raamwerk wat ontwerp is om die herstelmodel deur mensgeskrewe instruksies te lei. Dit kan natuurlike taalopdragte verwerk om beelde van hoë gehalte van gedegradeerdes te herwin, met inagneming van verskillende tipes agteruitgang. InstructIR stel 'n nuwe standaard in werkverrigting vir 'n breë spektrum van beeldhersteltake, insluitend ontreiniging, ontvriesing, ontwaseming, vervaag en verbetering van lae-lig beelde.

Hierdie artikel het ten doel om die InstructIR-raamwerk in diepte te dek, en ons ondersoek die meganisme, die metodologie, die argitektuur van die raamwerk tesame met die vergelyking daarvan met die nuutste beeld- en videogenereringsraamwerke. So kom ons begin.

InstructIR: Beeldherstel van hoë gehalte

Beeldherstel is 'n fundamentele probleem in rekenaarvisie, aangesien dit daarop gemik is om 'n skoon beeld van hoë gehalte te herstel van 'n beeld wat agteruitgang toon. In laevlak rekenaarvisie is Degradations 'n term wat gebruik word om onaangename effekte voor te stel wat binne 'n beeld waargeneem word, soos bewegingsvervaging, waas, geraas, lae dinamiese omvang, en meer. Die rede waarom beeldherstel 'n komplekse omgekeerde uitdaging is, is omdat daar verskeie verskillende oplossings vir die herstel van enige beeld kan wees. Sommige raamwerke fokus op spesifieke agteruitgang soos die vermindering van geraas of die vermindering van die beeld, terwyl ander dalk meer fokus op die verwydering van vervaag of vervaag, of die skoonmaak van waas of ontwaseming. 

Onlangse diepleermetodes het sterker en meer konsekwente prestasie getoon in vergelyking met tradisionele beeldherstelmetodes. Hierdie diepleer-beeldherstelmodelle stel voor om neurale netwerke te gebruik gebaseer op Transformers en Convolutional Neurale Networks. Hierdie modelle kan onafhanklik opgelei word vir uiteenlopende beeldhersteltake, en hulle beskik ook oor die vermoë om plaaslike en globale kenmerkinteraksies vas te vang en te verbeter, wat lei tot bevredigende en konsekwente werkverrigting. Alhoewel sommige van hierdie metodes voldoende kan werk vir spesifieke tipes degradasie, ekstrapoleer hulle tipies nie goed na verskillende tipes degradasie nie. Verder, terwyl baie bestaande raamwerke dieselfde neurale netwerk gebruik vir 'n menigte beeldhersteltake, word elke neurale netwerkformulering afsonderlik opgelei. Dit is dus duidelik dat die gebruik van 'n aparte neurale model vir elke denkbare agteruitgang onprakties en tydrowend is, en daarom het onlangse beeldherstelraamwerke gekonsentreer op Alles-in-een-herstelgevolmagtigdes.

Alles-in-een of multi-degradasie of multi-taak beeld herstel modelle wen gewildheid in die rekenaarvisie veld, aangesien hulle in staat is om veelvuldige tipes en vlakke van degradasies in 'n beeld te herstel sonder dat dit nodig is om die modelle onafhanklik op te lei vir elke degradasie . Alles-in-een beeldherstelmodelle gebruik 'n enkele diep blinde beeldherstelmodel om verskillende tipes en vlakke van beelddegradasie aan te pak. Verskillende Alles-in-een-modelle implementeer verskillende benaderings om die blinde model te lei om die gedegradeerde beeld te herstel, byvoorbeeld 'n hulpmodel om die degradasie te klassifiseer of multidimensionele leidingsvektore of aansporings om die model te help om verskillende tipes degradasie binne 'n beeld. 

Met dit gesê, kom ons by teksgebaseerde beeldmanipulasie, aangesien dit in die afgelope paar jaar deur verskeie raamwerke geïmplementeer is vir teks-na-beeld-generering, en teksgebaseerde beeldbewerkingstake. Hierdie modelle gebruik dikwels teksaanwysings om aksies of beelde saam te beskryf diffusie-gebaseerde modelle om die ooreenstemmende beelde te genereer. Die hoofinspirasie vir die InstructIR-raamwerk is die InstructPix2Pix-raamwerk wat die model in staat stel om die prent te redigeer deur gebruik te maak van gebruikersinstruksies wat die model opdrag gee oor watter aksie om uit te voer in plaas van teksetikette, beskrywings of byskrifte van die invoerprent. Gevolglik kan gebruikers natuurlike geskrewe tekste gebruik om die model opdrag te gee oor watter aksie om uit te voer sonder dat dit nodig is om voorbeeldbeelde of bykomende beeldbeskrywings te verskaf. 

Voortbou op hierdie basiese beginsels, is die InstructIR-raamwerk die eerste rekenaarvisiemodel ooit wat mensgeskrewe instruksies gebruik om beeldherstel te bewerkstellig en omgekeerde probleme op te los. Vir natuurlike taalaanwysings kan die InstructIR-model beelde van hoë gehalte van hul gedegradeerde eweknieë herwin en neem ook verskeie tipes agteruitgang in ag. Die InstructIR-raamwerk is in staat om die nuutste prestasie te lewer op 'n wye verskeidenheid beeldhersteltake, insluitend beeldontreiniging, ontvriesing, ontwaseming, vervaag en beeldverbetering in lae lig. In teenstelling met bestaande werke wat beeldherstel verkry deur gebruik te maak van geleerde leidingsvektore of vinnige inbeddings, gebruik die InstructIR-raamwerk rou gebruikeraanwysings in teksvorm. Die InstructIR-raamwerk kan veralgemeen na die herstel van beelde deur menslike geskrewe instruksies te gebruik, en die enkele alles-in-een-model wat deur InstructIR geïmplementeer is, dek meer hersteltake as vroeëre modelle. Die volgende figuur demonstreer die diverse herstelmonsters van die InstructIR-raamwerk. 

InstructIR: Metode en Argitektuur

Die InstructIR-raamwerk bestaan ​​in sy kern uit 'n tekskodeerder en 'n beeldmodel. Die model gebruik die NAFNet-raamwerk, 'n doeltreffende beeldherstelmodel wat 'n U-Net-argitektuur as beeldmodel volg. Verder implementeer die model taakroeteringstegnieke om veelvuldige take te leer deur 'n enkele model suksesvol te gebruik. Die volgende figuur illustreer die opleiding- en evalueringsbenadering vir die InstructIR-raamwerk. 

Met inspirasie uit die InstructPix2Pix-model, neem die InstructIR-raamwerk menslike geskrewe instruksies aan as die beheermeganisme aangesien dit nie nodig is vir die gebruiker om bykomende inligting te verskaf nie. Hierdie instruksies bied 'n ekspressiewe en duidelike manier om interaksie te hê wat gebruikers in staat stel om die presiese ligging en tipe agteruitgang in die beeld uit te wys. Verder, die gebruik van gebruikersaanwysings in plaas van vaste degradasie-spesifieke aanwysings verhoog die bruikbaarheid en toepassings van die model, aangesien dit ook gebruik kan word deur gebruikers wat nie die vereiste domeinkundigheid het nie. Om die InstructIR-raamwerk toe te rus met die vermoë om diverse aanwysings te verstaan, gebruik die model GPT-4, 'n groot taalmodel om diverse versoeke te skep, met dubbelsinnige en onduidelike aanwysings wat na 'n filterproses verwyder word. 

Teks Encoder

'n Tekskodeerder word deur taalmodelle gebruik om die gebruikeraanwysings na 'n teksinbedding of 'n vaste grootte vektorvoorstelling te karteer. Tradisioneel is die teksenkodeerder van 'n CLIP model is 'n noodsaaklike komponent vir teksgebaseerde beeldgenerering, en teksgebaseerde beeldmanipulasiemodelle om gebruikersaanwysings te enkodeer aangesien die CLIP-raamwerk uitblink in visuele aanwysings. Die meerderheid van die kere bevat gebruikersaanwysings vir agteruitgang egter min of geen visuele inhoud nie, wat die groot CLIP-enkodeerders dus nutteloos maak vir sulke take, aangesien dit die doeltreffendheid aansienlik sal belemmer. Om hierdie kwessie aan te pak, kies die InstructIR-raamwerk vir 'n teksgebaseerde sinkodeerder wat opgelei is om sinne in 'n betekenisvolle inbeddingsruimte te enkodeer. Sin-enkodeerders is vooraf opgelei op miljoene voorbeelde en is tog kompak en doeltreffend in vergelyking met tradisionele CLIP-gebaseerde teksenkodeerders terwyl hulle die vermoë het om die semantiek van uiteenlopende gebruikersaanwysings te enkodeer. 

Teksleiding

'n Belangrike aspek van die InstructIR-raamwerk is die implementering van die geënkodeerde instruksie as 'n beheermeganisme vir die beeldmodel. Voortbouend hierop, en geïnspireer in taakroetering vir baie taakleer, stel die InstructIR-raamwerk 'n Instruksiekonstruksieblok of ICB voor om taakspesifieke transformasies binne die model moontlik te maak. Konvensionele taakroetering pas taakspesifieke binêre maskers toe op kanaalkenmerke. Aangesien die InstructIR-raamwerk egter nie die agteruitgang ken nie, word hierdie tegniek nie direk geïmplementeer nie. Verder, vir beeldkenmerke en die geënkodeerde instruksies, pas die InstructIR-raamwerk taakroetering toe, en produseer die masker met behulp van 'n lineêre laag wat geaktiveer is met behulp van die Sigmoid-funksie om 'n stel gewigte te produseer afhangende van die teksinbeddings, en verkry sodoende 'n c-dimensionele per kanaal binêre masker. Die model verbeter die gekondisioneerde kenmerke verder deur 'n NAFBlock te gebruik, en gebruik die NAFBlock en Instruction Conditioned Block om die kenmerke by beide die enkodeerderblok en die dekodeerderblok te kondisioneer. 

Alhoewel die InstructIR-raamwerk nie die neurale netwerkfilters eksplisiet kondisioneer nie, fasiliteer die masker die model om die kanale wat mees relevant is op grond van die beeldinstruksie en inligting te kies. 

InstructIR: Implementering en resultate

Die InstructIR-model is end-tot-end opleibaar, en die beeldmodel vereis nie voorafopleiding nie. Dit is slegs die teksinbedprojeksies en klassifikasiekop wat opgelei moet word. Die tekskodeerder word geïnisialiseer met behulp van 'n BGE-enkodeerder, 'n BERT-agtige enkodeerder wat vooraf opgelei is op 'n massiewe hoeveelheid data onder toesig en sonder toesig vir generiese doelsinkodering. Die InstructIR-raamwerk gebruik die NAFNet-model as beeldmodel, en die argitektuur van NAFNet bestaan ​​uit 'n 4-vlak enkodeerder-dekodeerder met 'n wisselende aantal blokke op elke vlak. Die model voeg ook 4 middelblokke tussen die enkodeerder en die dekodeerder by om die kenmerke verder te verbeter. Verder, in plaas van aaneenskakeling vir die oorslaan-verbindings, implementeer die dekodeerder byvoeging, en die InstructIR-model implementeer slegs die ICB of Instruction Conditioned Block vir taakroetering slegs in enkodeerder en dekodeerder. Deur voort te gaan, word die InstructIR-model geoptimaliseer deur die verlies tussen die herstelde beeld en die grondwaarheidskoon beeld te gebruik, en die kruis-entropieverlies word gebruik vir bedoelingsklassifikasiehoof van die tekskodeerder. Die InstructIR-model gebruik die AdamW-optimaliseerder met 'n bondelgrootte van 32, en 'n leertempo van 5e-4 vir byna 500 tydperke, en implementeer ook die cosinusgloei-leertempo-verval. Aangesien die beeldmodel in die InstructIR-raamwerk slegs 16 miljoen parameters bevat, en daar slegs 100 duisend geleerde teksprojeksieparameters is, kan die InstructIR-raamwerk maklik op standaard GPU's opgelei word, en sodoende die berekeningskoste verminder en die toepaslikheid verhoog. 

Veelvuldige agteruitgang resultate

Vir veelvuldige degradasies en multi-taak herstel, definieer die InstructIR raamwerk twee aanvanklike opstellings:

  1. 3D vir drie-degradasie-modelle om agteruitgangskwessies soos ontwaseming, verontreiniging en ontwatering aan te pak. 
  2. 5D vir vyf degradasie-modelle om agteruitgangskwessies soos beeldverkleuring, lae ligverbeterings, ontwaseming, degradasie en ontreiniging aan te pak. 

Die werkverrigting van 5D-modelle word in die volgende tabel gedemonstreer en vergelyk dit met die nuutste beeldherstel en alles-in-een-modelle. 

Soos dit waargeneem kan word, kan die InstructIR-raamwerk met 'n eenvoudige beeldmodel en net 16 miljoen parameters vyf verskillende beeldhersteltake suksesvol hanteer danksy die instruksie-gebaseerde leiding, en lewer mededingende resultate. Die volgende tabel demonstreer die werkverrigting van die raamwerk op 3D-modelle, en die resultate is vergelykbaar met die bogenoemde resultate. 

Die hoofhoogtepunt van die InstructIR-raamwerk is instruksiegebaseerde beeldherstel, en die volgende figuur demonstreer die ongelooflike vermoëns van die InstructIR-model om 'n wye reeks instruksies vir 'n gegewe taak te verstaan. Ook, vir 'n teenstrydige instruksie, voer die InstructIR-model 'n identiteit uit wat nie gedwing word nie. 

Harde Gedagtes

Beeldherstel is 'n fundamentele probleem in rekenaarvisie, aangesien dit daarop gemik is om 'n skoon beeld van hoë gehalte te herstel van 'n beeld wat agteruitgang toon. In laevlak rekenaarvisie is Degradations 'n term wat gebruik word om onaangename effekte voor te stel wat binne 'n beeld waargeneem word, soos bewegingsvervaging, waas, geraas, lae dinamiese omvang, en meer. In hierdie artikel het ons gepraat oor InstructIR, die wêreld se eerste beeldherstelraamwerk wat daarop gemik is om die beeldherstelmodel te lei deur mensgeskrewe instruksies te gebruik. Vir natuurlike taalaanwysings kan die InstructIR-model beelde van hoë gehalte van hul gedegradeerde eweknieë herwin en neem ook verskeie tipes agteruitgang in ag. Die InstructIR-raamwerk is in staat om die nuutste prestasie te lewer op 'n wye verskeidenheid beeldhersteltake, insluitend beeldontreiniging, ontvriesing, ontwaseming, vervaag en beeldverbetering in lae lig. 

"'n Ingenieur van beroep, 'n skrywer uit sy kop". Kunal is 'n tegniese skrywer met 'n diep liefde en begrip van KI en ML, toegewy aan die vereenvoudiging van komplekse konsepte in hierdie velde deur sy boeiende en insiggewende dokumentasie.