Tehisintellekt

InstructIR: kvaliteetne kujutise taastamine inimese juhiste järgi

avaldatud

1 kuu tagasi

Aprill 2, 2024

Kvaliteetne kujutise taastamine inimese juhiste järgi

Pilt võib palju edasi anda, kuid seda võivad rikkuda ka mitmesugused probleemid, nagu liikumise hägusus, hägusus, müra ja madal dünaamiline ulatus. Need probleemid, mida tavaliselt nimetatakse madala tasemega arvutinägemise halvenemiseks, võivad tuleneda keerulistest keskkonnatingimustest, nagu kuumus või vihm, või kaamera enda piirangutest. Kujutise taastamine kujutab endast arvutinägemise peamist väljakutset, mille eesmärk on taastada kvaliteetne ja puhas pilt selliselt halvenenud pildilt. Kujutise taastamine on keeruline, kuna iga pildi taastamiseks võib olla mitu lahendust. Mõned lähenemisviisid on suunatud konkreetsetele halvenemistele, nagu müra vähendamine või hägususe või udususe eemaldamine.

Kuigi need meetodid võivad teatud probleemide korral anda häid tulemusi, on neil sageli raske üldistada erinevate lagunemistüüpide lõikes. Paljud raamistikud kasutavad üldist närvivõrku paljude kujutiste taastamise ülesannete jaoks, kuid neid võrgustikke õpetatakse eraldi välja. Vajadus erinevate mudelite järele iga degradatsioonitüübi jaoks muudab selle lähenemisviisi arvutuslikult kulukaks ja aeganõudvaks, mistõttu on viimastes arengutes keskendutud kõik-ühes taastamismudelitele. Need mudelid kasutavad ühte sügavat pimedat taastamismudelit, mis käsitleb mitut kahjustuse taset ja tüüpi, kasutades jõudluse parandamiseks sageli lagunemisspetsiifilisi viipeid või juhtvektoreid. Kuigi kõik-ühes mudelid näitavad tavaliselt paljulubavaid tulemusi, seisavad need siiski silmitsi pöördprobleemidega.

InstructIR esindab selles valdkonnas murrangulist lähenemist, olles esimene pildi taastamine raamistik, mis on loodud taastamismudeli juhendamiseks inimeste kirjutatud juhiste kaudu. See suudab töödelda loomuliku keele viipasid, et taastada kvaliteetseid pilte halvenenud piltidest, võttes arvesse erinevaid halvenemise tüüpe. InstructIR seab uue jõudlusstandardi laia spektri kujutiste taastamisülesannete jaoks, sealhulgas hämaras piltide eemaldamine, müra vähendamine, hägustamine, hägustamine ja täiustamine.

Selle artikli eesmärk on käsitleda InstructIR raamistikku põhjalikult ning me uurime mehhanismi, metoodikat, raamistiku arhitektuuri ning selle võrdlust nüüdisaegsete piltide ja videote genereerimise raamistikega. Nii et alustame.

InstructIR: kvaliteetne pildi taastamine

Kujutise taastamine on arvutinägemise põhiprobleem, kuna selle eesmärk on taastada kvaliteetne puhas pilt pildilt, mis näitab halvenemist. Madala tasemega arvutinägemise puhul on degradatsioonid termin, mida kasutatakse kujutisel täheldatud ebameeldivate mõjude tähistamiseks, nagu liikumise hägusus, udusus, müra, madal dünaamiline ulatus ja palju muud. Põhjus, miks kujutise taastamine on keeruline pöördülesanne, on see, et mis tahes kujutise taastamiseks võib olla mitu erinevat lahendust. Mõned raamistikud keskenduvad konkreetsetele halvenemistele, nagu näiteks müra vähendamine või pildi müra vähendamine, samas kui teised võivad keskenduda rohkem hägususe või hägususe eemaldamisele või udususe või hägususe eemaldamisele.

Hiljutised süvaõppemeetodid on traditsiooniliste kujutise taastamise meetoditega võrreldes näidanud tugevamat ja ühtlasemat tulemust. Need süvaõppekujutise taastamise mudelid teevad ettepaneku kasutada transformeritel ja konvolutsioonilistel närvivõrkudel põhinevaid närvivõrke. Neid mudeleid saab iseseisvalt koolitada erinevate kujutiste taastamise ülesannete jaoks ning neil on ka võime jäädvustada kohalike ja globaalsete funktsioonide koostoimeid ning neid täiustada, mille tulemuseks on rahuldav ja järjepidev jõudlus. Kuigi mõned neist meetoditest võivad teatud tüüpi lagunemise korral adekvaatselt toimida, ei ole need tavaliselt hästi ekstrapoleeritud erinevatele lagunemistüüpidele. Lisaks, kuigi paljud olemasolevad raamistikud kasutavad sama närvivõrku paljude kujutiste taastamise ülesannete jaoks, koolitatakse iga närvivõrgu formulatsiooni eraldi. Seega on ilmne, et iga mõeldava degradatsiooni jaoks eraldi närvimudeli kasutamine on teostamatu ja aeganõudev, mistõttu on hiljutised kujutise taastamise raamistikud keskendunud kõik-ühes taastamise puhverserveritele.

Kõik-ühes või mitme lagunemise või mitme ülesandega kujutise taastamise mudelid on arvutinägemisväljas populaarsust kogumas, kuna need on võimelised taastama kujutisel mitut tüüpi ja erinevat kahjustuse taset, ilma et oleks vaja mudeleid iga halvenemise jaoks eraldi koolitada. . Kõik-ühes kujutise taastamise mudelid kasutavad üht sügavat pimedat kujutise taastamise mudelit, et tulla toime erinevat tüüpi ja erineva tasemega kujutise halvenemisega. Erinevad kõik-ühes mudelid rakendavad erinevaid lähenemisviise, et suunata pimedat mudelit halvenenud kujutise taastamiseks, näiteks abimudel halvenemise klassifitseerimiseks või mitmemõõtmelised juhtvektorid või juhised, mis aitavad mudelil taastada erinevat tüüpi halvenemist. pilt.

Seda öeldes jõuame tekstipõhise pilditöötluseni, kuna seda on viimastel aastatel rakendanud mitmed raamistikud tekstist pildiks genereerimiseks ja tekstipõhisteks pilditöötlusülesanneteks. Need mudelid kasutavad sageli tekstiviipasid, et kirjeldada toiminguid või pilte koos difusioonipõhised mudelid vastavate piltide genereerimiseks. InstructIR raamistiku peamine inspiratsioon on InstructPix2Pix raamistik, mis võimaldab mudelil pilti redigeerida kasutajajuhiste abil, mis juhendavad mudelit, milliseid toiminguid sisendpildi tekstisiltide, kirjelduste või pealkirjade asemel teha. Selle tulemusena saavad kasutajad kasutada loomulikke kirjalikke tekste, et anda mudelile juhiseid selle kohta, milliseid toiminguid teha, ilma et oleks vaja esitada näidispilte või täiendavaid pildikirjeldusi.

Nendele põhitõdedele tuginev InstructIR raamistik on esimene arvutinägemise mudel, mis kasutab kujutise taastamiseks ja pöördprobleemide lahendamiseks inimese kirjutatud juhiseid. Loomuliku keele viipade puhul saab InstructIR-mudel taastada kvaliteetseid pilte nende halvenenud kolleegidelt ja võtab arvesse ka mitut halvenemise tüüpi. InstructIR raamistik on võimeline pakkuma tipptasemel jõudlust paljude kujutiste taastamise ülesannete puhul, sealhulgas kujutise pinnase eemaldamine, müra vähendamine, hägustamine, hägustamine ja hämaras pildi täiustamine. Erinevalt olemasolevatest töödest, mis saavutavad kujutise taastamise õpitud juhiste vektorite või viipade manustamise abil, kasutab InstructIR raamistik toores kasutajaviipasid teksti kujul. InstructIR-i raamistik on võimeline üldistama piltide taastamisele, kasutades inimese kirjutatud juhiseid, ja InstructIR-i rakendatud üks kõik-ühes-mudel hõlmab rohkem taastamisülesandeid kui varasemad mudelid. Järgmine joonis näitab InstructIR raamistiku erinevaid taastamisnäidiseid.

InstructIR: meetod ja arhitektuur

Põhimõtteliselt koosneb InstructIR raamistik tekstikodeerijast ja pildimudelist. Mudel kasutab NAFNeti raamistikku, tõhusat kujutise taastamise mudelit, mis järgib pildimudelina U-Neti arhitektuuri. Lisaks rakendab mudel ülesannete marsruutimise tehnikaid, et õppida edukalt ühte mudelit kasutades mitut ülesannet. Järgmine joonis illustreerib koolituse ja hindamise lähenemisviisi InstructIR raamistiku jaoks.

InstructPix2Pix mudelist inspiratsiooni ammutades kasutab InstructIR raamistik juhtimismehhanismina inimese poolt kirjutatud juhiseid, kuna kasutajal pole vaja lisateavet esitada. Need juhised pakuvad väljendusrikast ja selget suhtlemisviisi, võimaldades kasutajatel näidata pildi halvenemise täpset asukohta ja tüüpi. Lisaks suurendab kasutajaviipade kasutamine fikseeritud halvenemise spetsiifiliste viipade asemel mudeli kasutatavust ja rakendusi, kuna seda saavad kasutada ka kasutajad, kellel puuduvad vajalikud domeeniteadmised. InstructIR-i raamistiku varustamiseks erinevate viipade mõistmise võimega kasutab mudel GPT-4, suurt keelemudelit erinevate päringute loomiseks, kusjuures mitmetähenduslikud ja ebaselged viipad eemaldatakse pärast filtreerimisprotsessi.

Teksti kodeerija

Keelemudelid kasutavad tekstikodeerijat kasutajaviipade vastendamiseks teksti manustamiseks või fikseeritud suurusega vektoresitluseks. Traditsiooniliselt on tekstikooder a CLIP mudel on oluline komponent tekstipõhiste piltide genereerimiseks ja tekstipõhiste pilditöötlusmudelite jaoks, et kodeerida kasutaja viipasid, kuna CLIP-raamistik paistab silma visuaalsete viipade osas. Kuid enamikul juhtudel on kasutajate viipadel visuaalne sisu vähe või üldse mitte, mistõttu on suured CLIP-kodeerijad selliste ülesannete jaoks kasutud, kuna see vähendab oluliselt tõhusust. Selle probleemi lahendamiseks valib InstructIR raamistik tekstipõhise lausekodeerija, mis on koolitatud lauseid kodeerima tähendusrikkas manustamisruumis. Lausekodeerijad on eelkoolitatud miljonite näidete põhjal, kuid samas on need kompaktsed ja tõhusad võrreldes traditsiooniliste CLIP-põhiste tekstikodeerijatega, võimaldades samas kodeerida erinevate kasutajaviipade semantikat.

Teksti juhend

InstructIR raamistiku põhiaspektiks on kodeeritud käsu rakendamine pildimudeli juhtimismehhanismina. Sellele tuginedes ja paljude ülesannete õppimise jaoks ülesannete marsruutimisest inspireerituna pakub InstructIR raamistik juhiste ehitusploki või ICB-d, et võimaldada mudelis ülesandepõhiseid teisendusi. Tavaline ülesannete marsruutimine rakendab kanali funktsioonidele ülesandespetsiifilisi binaarmaske. Kuna aga InstructIR raamistik ei tunne degradatsiooni, ei rakendata seda tehnikat otse. Lisaks kasutab InstructIR raamistik pildifunktsioonide ja kodeeritud käskude jaoks ülesande marsruutimist ja loob maski kasutades lineaarset kihti, mis on aktiveeritud funktsiooniga Sigmoid, et luua teksti manustest olenevalt kaalude komplekt, saades seega c-dimensiooni. kanali binaarne mask. Mudel täiustab veelgi konditsioneeritud funktsioone, kasutades NAFBlocki, ning kasutab NAFBlocki ja juhiste tingimusega plokki funktsioonide konditsioneerimiseks nii kodeerijaplokis kui ka dekoodriplokis.

Kuigi InstructIR raamistik ei tingi selgelt närvivõrgu filtreid, hõlbustab mask mudelil pildijuhiste ja teabe põhjal kõige asjakohasemaid kanaleid valida.

InstructIR: rakendamine ja tulemused

InstructIR mudel on otsast lõpuni treenitav ja pildimudel ei vaja eelkoolitust. Koolitada tuleb ainult teksti manustavaid projektsioone ja klassifitseerimispead. Tekstikodeerija lähtestatakse BGE-kodeerija abil, BERT-laadse kodeerija abil, mis on üldotstarbeliseks lausekodeerimiseks eelkoolitatud suure hulga jälgitavate ja järelevalveta andmete jaoks. InstructIR raamistik kasutab pildimudelina NAFNeti mudelit ja NAFNeti arhitektuur koosneb 4-tasemelisest kodeerija dekoodrist, millel on igal tasemel erinev arv plokke. Mudel lisab ka 4 keskmist plokki kodeerija ja dekoodri vahele, et funktsioone veelgi täiustada. Veelgi enam, vahelejätmise ühenduste ühendamise asemel rakendab dekooder liitmist ja InstructIR-mudel rakendab ülesannete marsruutimiseks ainult ICB-d või juhiste tingimusega plokki ainult kooderis ja dekooderis. Edasi liikudes optimeeritakse InstructIR-mudelit, kasutades taastatud pildi ja põhitõepuhta kujutise vahelist kadu ning ristentroopia kadu kasutatakse tekstikodeerija kavatsuste klassifitseerimispea jaoks. InstructIR mudel kasutab AdamW optimeerijat partii suurusega 32 ja õppimiskiirusega 5e-4 peaaegu 500 epohhi jaoks ning rakendab ka koosinuslõõmutamise õppimiskiiruse vähenemist. Kuna InstructIR raamistikus olev pildimudel sisaldab vaid 16 miljonit parameetrit ja õpitud teksti projitseerimisparameetreid on vaid 100 tuhat, saab InstructIR raamistikku lihtsalt tavalistel GPU-del treenida, vähendades nii arvutuskulusid ja suurendades rakendatavust.

Mitmed lagunemise tulemused

Mitme degradatsiooni ja mitme ülesandega taastamise jaoks määratleb InstructIR raamistik kaks algset seadistust:

3D kolme lagunemise mudelite jaoks, et lahendada degradatsiooniprobleeme, nagu hägustumine, müra vähendamine ja pinnase kaotamine.
5D viie halvenemismudeli jaoks, et lahendada halvenemisprobleeme, nagu pildi müra vähenemine, vähese valguse täiustamine, hägustumine, müra vähendamine ja pinnase kaotamine.

5D-mudelite jõudlust on demonstreeritud järgmises tabelis ning seda võrreldakse nüüdisaegsete kujutiste taastamise ja kõik-ühes mudelitega.

Nagu näha, saab lihtsa pildimudeli ja kõigest 16 miljoni parameetriga InstructIR raamistik tänu juhistepõhisele juhendamisele edukalt hakkama viie erineva pildi taastamise ülesandega ning annab konkurentsivõimelisi tulemusi. Järgmine tabel näitab raamistiku toimivust 3D-mudelitel ja tulemused on võrreldavad ülaltoodud tulemustega.

InstructIR-i raamistiku peamine esiletõst on juhistepõhine kujutise taastamine ja järgmine joonis näitab InstructIR-mudeli uskumatuid võimeid mõista mitmesuguseid juhiseid antud ülesande jaoks. Samuti esitab InstructIR-mudel võistleva juhise puhul identiteedi, mida ei sunnita.

Final Thoughts

Kujutise taastamine on arvutinägemise põhiprobleem, kuna selle eesmärk on taastada kvaliteetne puhas pilt pildilt, mis näitab halvenemist. Madala tasemega arvutinägemise puhul on degradatsioonid termin, mida kasutatakse kujutisel täheldatud ebameeldivate mõjude tähistamiseks, nagu liikumise hägusus, udusus, müra, madal dünaamiline ulatus ja palju muud. Selles artiklis oleme rääkinud InstructIR-ist, maailma esimesest pildi taastamise raamistikust, mille eesmärk on suunata pildi taastamise mudelit, kasutades inimese kirjutatud juhiseid. Loomuliku keele viipade puhul saab InstructIR-mudel taastada kvaliteetseid pilte nende halvenenud kolleegidelt ja võtab arvesse ka mitut halvenemise tüüpi. InstructIR raamistik on võimeline pakkuma tipptasemel jõudlust paljude kujutiste taastamise ülesannete puhul, sealhulgas kujutise pinnase eemaldamine, müra vähendamine, hägustamine, hägustamine ja hämaras pildi täiustamine.

Seotud teemad:CLIP Arvuti visioon sügav õpe generatiivne ai pildi genereerimine pildi taastamine InstructIR LLM teksti klassifikatsioon teksti genereerimine tekstist videomudelitesse

Järgmisena

GPU andmekeskused kurnavad elektrivõrke: tehisintellekti innovatsiooni ja energiatarbimise tasakaalustamine

Ära jäta

Staatilistest slaididest nutikate kõnedeni: tehisintellektil põhinevate esitluste tõus

Kunal Kejriwal

"Elukutselt insener, hingelt kirjanik". Kunal on tehniline kirjanik, kes armastab ja mõistab sügavalt AI-d ja ML-i ning on pühendunud nende valdkondade keerukate kontseptsioonide lihtsustamisele oma kaasahaarava ja informatiivse dokumentatsiooni kaudu.