Umelá inteligencia

InstructIR: Vysokokvalitná obnova obrazu podľa ľudských pokynov

uverejnené

Pred mesiacom 1

Apríla 2, 2024

Vysokokvalitná obnova obrazu podľa ľudských pokynov

Obraz môže povedať veľa, ale môže byť tiež narušený rôznymi problémami, ako je rozmazanie pohybu, závoj, šum a nízky dynamický rozsah. Tieto problémy, bežne označované ako degradácia počítačového videnia na nízkej úrovni, môžu vzniknúť z ťažkých podmienok prostredia, ako je teplo alebo dážď, alebo z obmedzení samotnej kamery. Obnova obrazu predstavuje kľúčovú výzvu v počítačovom videní, ktorá sa snaží obnoviť vysokokvalitný a čistý obraz z obrazu vykazujúceho takéto degradácie. Obnova obrazu je zložitá, pretože môže existovať viacero riešení na obnovenie akéhokoľvek daného obrazu. Niektoré prístupy sa zameriavajú na špecifické degradácie, ako je zníženie hluku alebo odstránenie rozmazania alebo závoja.

Aj keď tieto metódy môžu priniesť dobré výsledky pre konkrétne problémy, často sa snažia zovšeobecniť rôzne typy degradácie. Mnohé rámce využívajú generickú neurónovú sieť pre širokú škálu úloh obnovy obrazu, ale každá z týchto sietí je trénovaná samostatne. Potreba rôznych modelov pre každý typ degradácie robí tento prístup výpočtovo nákladným a časovo náročným, čo vedie k zameraniu sa na modely obnovy All-In-One v poslednom vývoji. Tieto modely využívajú jediný, hlboko slepý model obnovy, ktorý sa zaoberá viacerými úrovňami a typmi degradácie, pričom na zvýšenie výkonu často využíva výzvy alebo vektory navádzania špecifické pre degradáciu. Hoci modely All-In-One zvyčajne vykazujú sľubné výsledky, stále čelia problémom s inverznými problémami.

InstructIR predstavuje prelomový prístup v tejto oblasti a je prvým obnova obrazu rámec navrhnutý tak, aby viedol model obnovy prostredníctvom inštrukcií napísaných človekom. Dokáže spracovať výzvy v prirodzenom jazyku na obnovenie vysokokvalitných obrázkov z degradovaných obrázkov, berúc do úvahy rôzne typy degradácie. InstructIR nastavuje nový štandard výkonu pre široké spektrum úloh obnovy obrazu, vrátane odstránenia nečistôt, odšumovania, odhmlievania, rozmazania a vylepšenia obrázkov pri slabom osvetlení.

Tento článok má za cieľ pokryť do hĺbky rámec InstructIR a skúmame mechanizmus, metodológiu, architektúru rámca spolu s jeho porovnaním s najmodernejšími rámcami na generovanie obrázkov a videa. Tak poďme na to.

InstructIR: Vysokokvalitná obnova obrazu

Obnova obrazu je základným problémom počítačového videnia, pretože jeho cieľom je obnoviť vysokokvalitný čistý obraz z obrazu, ktorý vykazuje degradáciu. V počítačovom videní na nízkej úrovni je degradácia termín používaný na označenie nepríjemných efektov pozorovaných na obrázku, ako je rozmazanie pohybu, zákal, šum, nízky dynamický rozsah a ďalšie. Dôvod, prečo je obnova obrazu komplexnou inverznou výzvou, je ten, že na obnovu akéhokoľvek obrazu môže existovať viacero rôznych riešení. Niektoré rámce sa zameriavajú na špecifické degradácie, ako je zníženie šumu inštancií alebo odšumenie obrazu, zatiaľ čo iné sa môžu zamerať viac na odstránenie rozmazania alebo rozmazania alebo odstránenie zákalu alebo odhmlievania.

Nedávne metódy hlbokého učenia preukázali silnejší a konzistentnejší výkon v porovnaní s tradičnými metódami obnovy obrazu. Tieto modely obnovy obrazu hlbokého učenia navrhujú použiť neurónové siete založené na transformátoroch a konvolučných neurónových sieťach. Tieto modely môžu byť trénované nezávisle pre rôzne úlohy obnovy obrazu a majú tiež schopnosť zachytiť lokálne a globálne interakcie funkcií a zlepšiť ich, čo vedie k uspokojivému a konzistentnému výkonu. Hoci niektoré z týchto metód môžu primerane fungovať pre špecifické typy degradácie, zvyčajne sa nedajú dobre extrapolovať na rôzne typy degradácie. Okrem toho, zatiaľ čo mnohé existujúce rámce používajú rovnakú neurónovú sieť pre množstvo úloh obnovy obrazu, každá formulácia neurónovej siete je trénovaná samostatne. Je teda zrejmé, že použitie samostatného neurónového modelu pre každú mysliteľnú degradáciu je neuskutočniteľné a časovo náročné, a preto sa nedávne rámce obnovy obrazu sústredili na proxy obnovy typu All-In-One.

All-In-One alebo Multi-degradation alebo Multi-task modely obnovy obrazu získavajú na popularite v oblasti počítačového videnia, pretože sú schopné obnoviť viaceré typy a úrovne degradácie v obraze bez potreby trénovania modelov nezávisle pre každú degradáciu. . All-In-One modely obnovy obrazu používajú jediný model obnovy hlboko slepého obrazu na riešenie rôznych typov a úrovní degradácie obrazu. Rôzne modely All-In-One implementujú rôzne prístupy na vedenie slepého modelu pri obnove degradovaného obrazu, napríklad pomocný model na klasifikáciu degradácie alebo viacrozmerné navádzacie vektory alebo výzvy, ktoré pomôžu modelu obnoviť rôzne typy degradácie v rámci obrázok.

Tým sa dostávame k textovej manipulácii s obrázkami, pretože ju v posledných rokoch implementovalo niekoľko rámcov na generovanie textu na obrázok a úlohy úpravy obrázkov založené na texte. Tieto modely často využívajú textové výzvy na popis akcií alebo obrázkov modely založené na difúzii na vytvorenie zodpovedajúcich obrázkov. Hlavnou inšpiráciou pre rámec InstructIR je rámec InstructPix2Pix, ktorý umožňuje modelu upravovať obrázok pomocou používateľských inštrukcií, ktoré modelu dávajú pokyn, akú akciu má vykonať namiesto textových štítkov, popisov alebo titulkov vstupného obrázka. Výsledkom je, že používatelia môžu použiť prirodzené písané texty, aby dali modelu pokyn, akú akciu má vykonať, bez toho, aby museli poskytovať ukážkové obrázky alebo dodatočné popisy obrázkov.

Na základe týchto základov je rámec InstructIR vôbec prvým modelom počítačového videnia, ktorý využíva pokyny písané ľuďmi na dosiahnutie obnovy obrazu a riešenie inverzných problémov. Pre výzvy v prirodzenom jazyku môže model InstructIR obnoviť vysokokvalitné obrázky z ich degradovaných náprotivkov a tiež berie do úvahy viaceré typy degradácie. Rámec InstructIR je schopný poskytnúť najmodernejší výkon pri širokom spektre úloh obnovy obrazu vrátane odstraňovania škvŕn obrazu, odšumovania, odhmlievania, rozmazania a vylepšenia obrazu pri slabom osvetlení. Na rozdiel od existujúcich prác, ktoré dosahujú obnovu obrazu pomocou naučených navádzacích vektorov alebo vložení výziev, rámec InstructIR využíva surové používateľské výzvy v textovej forme. Rámec InstructIR je schopný zovšeobecniť na obnovu obrázkov pomocou ľudských písomných inštrukcií a jediný model typu všetko v jednom implementovaný InstructIR pokrýva viac úloh obnovy ako predchádzajúce modely. Nasledujúci obrázok ukazuje rôzne vzorky obnovy rámca InstructIR.

InstructIR: Metóda a architektúra

Vo svojom jadre sa rámec InstructIR skladá z textového kódovača a obrazového modelu. Model využíva rámec NAFNet, efektívny model obnovy obrazu, ktorý ako obrazový model sleduje architektúru U-Net. Okrem toho model implementuje techniky smerovania úloh na úspešné naučenie sa viacerých úloh pomocou jedného modelu. Nasledujúci obrázok ilustruje tréningový a hodnotiaci prístup pre rámec InstructIR.

Rámec InstructIR, ktorý čerpá inšpiráciu z modelu InstructPix2Pix, používa ľudské písané pokyny ako riadiaci mechanizmus, pretože používateľ nemusí poskytovať ďalšie informácie. Tieto pokyny ponúkajú expresívny a jasný spôsob interakcie, ktorý používateľom umožňuje poukázať na presné miesto a typ degradácie na obrázku. Okrem toho, používanie užívateľských výziev namiesto fixných výziev špecifických pre degradáciu zlepšuje použiteľnosť a aplikácie modelu, pretože ho môžu používať aj užívatelia, ktorí nemajú potrebné odborné znalosti v oblasti domény. Aby bol rámec InstructIR vybavený schopnosťou porozumieť rôznym výzvam, model používa GPT-4, veľký jazykový model na vytváranie rôznych požiadaviek, pričom nejednoznačné a nejasné výzvy sú odstránené po procese filtrovania.

Textový kódovač

Kódovač textu používajú jazykové modely na mapovanie výziev používateľa na vkladanie textu alebo vektorovú reprezentáciu s pevnou veľkosťou. Tradične kódovač textu a CLIP model je dôležitým komponentom pre generovanie obrázkov na základe textu a modely manipulácie s obrázkami na kódovanie používateľských výziev, pretože rámec CLIP vyniká vo vizuálnych výzvach. Vo väčšine prípadov však používateľské výzvy na degradáciu obsahujú malý alebo žiadny vizuálny obsah, a preto sú veľké kódovače CLIP na takéto úlohy nepoužiteľné, pretože to výrazne zníži efektivitu. Na vyriešenie tohto problému sa rámec InstructIR rozhodol pre textový kódovač viet, ktorý je vyškolený na kódovanie viet v zmysluplnom priestore na vkladanie. Kódovače viet sú vopred natrénované na miliónoch príkladov a napriek tomu sú kompaktné a efektívne v porovnaní s tradičnými textovými kódovačmi založenými na CLIP, pričom majú schopnosť kódovať sémantiku rôznych používateľských výziev.

Textové usmernenie

Hlavným aspektom rámca InstructIR je implementácia zakódovanej inštrukcie ako riadiaceho mechanizmu pre obrazový model. Na tomto základe a inšpirovaný smerovaním úloh pre mnohé učenia sa úloh, rámec InstructIR navrhuje inštrukčný stavebný blok alebo ICB na umožnenie transformácií špecifických pre úlohu v rámci modelu. Konvenčné smerovanie úloh aplikuje na funkcie kanála binárne masky špecifické pre úlohu. Keďže však framework InstructIR nepozná degradáciu, táto technika nie je implementovaná priamo. Okrem toho, pre obrazové funkcie a kódované inštrukcie, rámec InstructIR aplikuje smerovanie úloh a vytvára masku pomocou lineárnej vrstvy aktivovanej pomocou funkcie Sigmoid na vytvorenie množiny váh v závislosti od vložených textov, čím sa získa c-rozmerná per. kanálová binárna maska. Model ďalej vylepšuje podmienené funkcie pomocou NAFBlock a používa NAFBlock a Instruction Conditioned Block na úpravu funkcií v bloku kódovača aj bloku dekodéra.

Hoci rámec InstructIR explicitne nepodmieňuje filtre neurónovej siete, maska uľahčuje modelu výber kanálov, ktoré sú najrelevantnejšie na základe obrázkovej inštrukcie a informácií.

InstructIR: Implementácia a výsledky

Model InstructIR je trénovateľný od začiatku do konca a obrazový model nevyžaduje predbežné školenie. Je potrebné trénovať iba projekcie na vkladanie textu a klasifikačnú hlavu. Textový kódovač sa inicializuje pomocou kódovača BGE, kódovača typu BERT, ktorý je vopred pripravený na veľké množstvo kontrolovaných a nekontrolovaných údajov na kódovanie viet na všeobecné účely. Rámec InstructIR používa model NAFNet ako obrazový model a architektúra NAFNet pozostáva zo 4-úrovňového dekodéra kódovania s rôznym počtom blokov na každej úrovni. Model tiež pridáva 4 stredné bloky medzi kodér a dekodér na ďalšie vylepšenie funkcií. Okrem toho, namiesto zreťazenia pre preskočené spojenia, dekodér implementuje sčítanie a model InstructIR implementuje iba ICB alebo Instruction Conditioned Block pre smerovanie úloh iba v kódovači a dekodéri. Pokračujúc ďalej, model InstructIR je optimalizovaný pomocou straty medzi obnoveným obrazom a čistým obrazom s čistou základnou pravdou a strata krížovej entropie sa používa na klasifikáciu zámerov v kódovači textu. Model InstructIR používa optimalizátor AdamW s veľkosťou dávky 32 a rýchlosťou učenia 5e-4 pre takmer 500 epoch a tiež implementuje pokles rýchlosti učenia kosínusového žíhania. Keďže obrazový model v rámci InstructIR obsahuje iba 16 miliónov parametrov a existuje len 100 XNUMX naučených parametrov premietania textu, rámec InstructIR možno ľahko trénovať na štandardných GPU, čím sa znížia výpočtové náklady a zvýši sa použiteľnosť.

Výsledky viacnásobnej degradácie

Pre viacnásobné degradácie a viacúlohové obnovy definuje rámec InstructIR dve počiatočné nastavenia:

3D pre modely s tromi degradáciami na riešenie problémov s degradáciou, ako je odhmlievanie, odšumovanie a odvodňovanie.
5D pre päť modelov degradácie na riešenie problémov s degradáciou, ako je odšumovanie obrazu, vylepšenia pri slabom osvetlení, odhmlievanie, odšumovanie a odlupovanie.

Výkonnosť 5D modelov je demonštrovaná v nasledujúcej tabuľke a porovnáva sa s najmodernejšou reštauráciou obrazu a all-in-one modelmi.

Ako je možné vidieť, rámec InstructIR s jednoduchým obrazovým modelom a iba 16 miliónmi parametrov dokáže úspešne zvládnuť päť rôznych úloh obnovy obrazu vďaka inštrukciám založeným na pokynoch a prináša konkurencieschopné výsledky. Nasledujúca tabuľka ukazuje výkonnosť rámca na 3D modeloch a výsledky sú porovnateľné s vyššie uvedenými výsledkami.

Hlavným vrcholom rámca InstructIR je obnova obrazu založená na inštrukciách a nasledujúci obrázok ukazuje neuveriteľné schopnosti modelu InstructIR porozumieť širokému spektru inštrukcií pre danú úlohu. Tiež v prípade kontradiktórnej inštrukcie model InstructIR vykonáva identitu, ktorá nie je vynútená.

Záverečné myšlienky

Obnova obrazu je základným problémom počítačového videnia, pretože jeho cieľom je obnoviť vysokokvalitný čistý obraz z obrazu, ktorý vykazuje degradáciu. V počítačovom videní na nízkej úrovni je degradácia termín používaný na označenie nepríjemných efektov pozorovaných na obrázku, ako je rozmazanie pohybu, zákal, šum, nízky dynamický rozsah a ďalšie. V tomto článku sme hovorili o InstructIR, prvom systéme obnovy obrazu na svete, ktorého cieľom je viesť model obnovy obrazu pomocou inštrukcií napísaných človekom. Pre výzvy v prirodzenom jazyku môže model InstructIR obnoviť vysokokvalitné obrázky z ich degradovaných náprotivkov a tiež berie do úvahy viaceré typy degradácie. Rámec InstructIR je schopný poskytnúť najmodernejší výkon pri širokom spektre úloh obnovy obrazu vrátane odstraňovania škvŕn obrazu, odšumovania, odhmlievania, rozmazania a vylepšenia obrazu pri slabom osvetlení.

Súvisiace témy:CLIP Počítačové videnie hlboké vzdelávanie generatívna ai generovanie obrazu obnova obrazu InstructIR LLM triedenie textu generovanie textu text do video modelov

Nasledujúci

Dátové centrá GPU namáhajú napájacie siete: Vyvažovanie inovácií AI a spotreby energie

Nenechajte si ujsť

Od statických snímok k inteligentným prejavom: Vzostup prezentácií poháňaných umelou inteligenciou

Kunal Kejriwal

"Povolaním inžinier, srdcom spisovateľ." Kunal je technický spisovateľ s hlbokou láskou a porozumením AI a ML, ktorý sa venuje zjednodušovaniu zložitých konceptov v týchto oblastiach prostredníctvom svojej pútavej a informatívnej dokumentácie.