Вештачка интелигенција

ИнструцтИР: Висококвалитетна рестаурација слике према људским упутствима

објављен

КСНУМКС пре месец дана

Април КСНУМКС, КСНУМКС

Висококвалитетна рестаурација слике према људским упутствима

Слика може да пренесе много тога, али је такође могу ометати различити проблеми као што су замућење покрета, замагљивање, шум и низак динамички опсег. Ови проблеми, који се обично називају деградацијом компјутерског вида ниског нивоа, могу настати због тешких услова околине као што су топлота или киша или због ограничења саме камере. Рестаурација слике представља суштински изазов у компјутерском виду, настојећи да поврати квалитетну, чисту слику од оне која показује такве деградације. Обнављање слике је сложено јер може постојати више решења за враћање било које слике. Неки приступи циљају на специфичне деградације, као што је смањење шума или уклањање замућења или замагљења.

Иако ове методе могу дати добре резултате за одређена питања, често се боре да генерализују различите типове деградације. Многи оквири користе генеричку неуронску мрежу за широк спектар задатака рестаурације слике, али свака од ових мрежа се обучава засебно. Потреба за различитим моделима за сваку врсту деградације чини овај приступ рачунарски скупим и дуготрајним, што доводи до фокусирања на моделе рестаурације Алл-Ин-Оне у недавним развојима. Ови модели користе један, дубоко слепи модел рестаурације који се бави вишеструким нивоима и типовима деградације, често користећи упите специфичне за деградацију или векторе навођења за побољшање перформанси. Иако Алл-Ин-Оне модели обично показују обећавајуће резултате, они се и даље суочавају са изазовима са инверзним проблемима.

ИнструцтИР представља револуционарни приступ у овој области, јер је први рестаурација слике оквир дизајниран да води модел рестаурације кроз упутства која су написали људи. Може да обрађује упите природног језика да поврати висококвалитетне слике од деградираних, с обзиром на различите типове деградације. ИнструцтИР поставља нови стандард у перформансама за широк спектар задатака рестаурације слике, укључујући дераининг, смањење шума, замагљивање, уклањање замућења и побољшање слика при слабом осветљењу.

Овај чланак има за циљ да детаљно покрије оквир ИнструцтИР, а ми истражујемо механизам, методологију, архитектуру оквира заједно са његовим поређењем са најсавременијим оквирима за слику и видео генерисање. Па хајде да почнемо.

ИнструцтИР: Рестаурација слике високог квалитета

Рестаурација слике је фундаментални проблем у компјутерском виду јер има за циљ да поврати чисту слику високог квалитета са слике која показује деградације. У компјутерском виду ниског нивоа, Деградације је термин који се користи за представљање непријатних ефеката уочених на слици као што су замућење покрета, замагљивање, шум, низак динамички опсег и још много тога. Разлог зашто је рестаурација слике сложен инверзни изазов је тај што може постојати више различитих решења за враћање било које слике. Неки оквири се фокусирају на специфичне деградације као што је смањење шума инстанце или смањење шума на слици, док се други могу више фокусирати на уклањање замућења или замућења, или уклањање замагљења или замагљивања.

Недавне методе дубоког учења показале су јаче и доследније перформансе у поређењу са традиционалним методама рестаурације слике. Ови модели обнављања слике дубоког учења предлажу коришћење неуронских мрежа заснованих на трансформаторима и конволуционим неуронским мрежама. Ови модели се могу самостално обучавати за различите задатке рестаурације слике, а такође поседују способност да ухвате локалне и глобалне интеракције карактеристика и побољшају их, што резултира задовољавајућим и доследним перформансама. Иако неке од ових метода могу да функционишу адекватно за специфичне типове деградације, оне обично не екстраполирају добро на различите типове деградације. Штавише, док многи постојећи оквири користе исту неуронску мрежу за мноштво задатака рестаурације слике, свака формулација неуронске мреже се обучава засебно. Отуда је очигледно да је коришћење посебног неуронског модела за сваку замисливу деградацију неизводљиво и дуготрајно, због чега су се недавни оквири за рестаурацију слике концентрисали на све-у-једном проксије за рестаурацију.

Модели „све у једном“ или „вишеструка деградација“ или „мулти-таск“ модели обнављања слике постају све популарнији у пољу компјутерског вида јер су способни да обнове више типова и нивоа деградације на слици без потребе да се модели обучавају независно за сваку деградацију. . Вишенаменски модели рестаурације слике користе један модел обнављања дубоког слепог снимка за решавање различитих типова и нивоа деградације слике. Различити модели Алл-Ин-Оне имплементирају различите приступе за вођење слепог модела да врати деградирану слику, на пример, помоћни модел за класификацију деградације или вишедимензионалне векторе навођења или упите који ће помоћи моделу да врати различите типове деградације унутар слика.

Уз то, долазимо до манипулације сликама засноване на тексту, јер је то имплементирано у неколико оквира у протеклих неколико година за генерисање текста у слику и задатке уређивања слика заснованих на тексту. Ови модели често користе текстуалне упите да опишу радње или слике заједно са њима модели засновани на дифузији за генерисање одговарајућих слика. Главна инспирација за оквир ИнструцтИР је оквир ИнструцтПик2Пик који омогућава моделу да уређује слику користећи корисничка упутства која упућују моделу коју радњу да изврши уместо текстуалних ознака, описа или натписа улазне слике. Као резултат тога, корисници могу да користе природне писане текстове да упуте моделу коју радњу да изведе без потребе да дају узорке слика или додатне описе слика.

Надовезујући се на ове основе, ИнструцтИР оквир је први икада модел компјутерског вида који користи упутства написана од стране људи за постизање рестаурације слике и решавање инверзних проблема. За упутства на природном језику, ИнструцтИР модел може да поврати слике високог квалитета од њихових деградираних колега и такође узима у обзир више типова деградације. ИнструцтИР оквир је у стању да испоручи врхунске перформансе на широком спектру задатака рестаурације слике, укључујући дераининг слике, смањење шума, замагљивање, уклањање замућења и побољшање слике при слабом осветљењу. За разлику од постојећих радова који постижу рестаурацију слике коришћењем научених вектора вођења или брзих уградњи, оквир ИнструцтИР користи необрађене корисничке упите у текстуалном облику. ИнструцтИР оквир је у стању да се генерализује на враћање слика користећи људске писмене инструкције, а јединствени модел све-у-једном који имплементира ИнструцтИР покрива више задатака рестаурације од ранијих модела. Следећа слика приказује различите узорке рестаурације оквира ИнструцтИР.

ИнструцтИР : Метод и архитектура

У својој основи, оквир ИнструцтИР се састоји од кодера текста и модела слике. Модел користи НАФНет оквир, ефикасан модел рестаурације слике који прати У-Нет архитектуру као модел слике. Штавише, модел имплементира технике усмеравања задатака како би успешно научио више задатака користећи један модел. Следећа слика илуструје приступ обуци и евалуацији за ИнструцтИР оквир.

Црпећи инспирацију из ИнструцтПик2Пик модела, ИнструцтИР оквир усваја људске писмене инструкције као контролни механизам пошто нема потребе да корисник даје додатне информације. Ова упутства нуде експресиван и јасан начин интеракције омогућавајући корисницима да укажу на тачну локацију и врсту деградације на слици. Штавише, коришћење корисничких упутстава уместо специфичних захтева за фиксну деградацију побољшава употребљивост и примену модела јер га могу користити и корисници који немају потребну експертизу у домену. Да би ИнструцтИР оквир опремио могућношћу разумевања различитих упита, модел користи ГПТ-4, велики језички модел за креирање различитих захтева, са двосмисленим и нејасним упитима који су уклоњени након процеса филтрирања.

Тект Енцодер

Језички модели користе кодер текста за мапирање корисничких упита на уграђивање текста или векторску репрезентацију фиксне величине. Традиционално, кодер текста а ЦЛИП модел је витална компонента за генерисање слика заснованих на тексту и моделе манипулације сликама заснованим на тексту за кодирање корисничких упита пошто се ЦЛИП оквир истиче у визуелним упитима. Међутим, у већини случајева, упити корисника за деградацију садрже мало или нимало визуелног садржаја, због чега велики ЦЛИП енкодери постају бескорисни за такве задатке јер ће значајно ометати ефикасност. Да би се позабавио овим проблемом, оквир ИнструцтИР се одлучује за текстуални кодер реченица који је обучен да кодира реченице у смисленом простору за уграђивање. Кодери реченица су претходно обучени на милионима примера, а ипак су компактни и ефикасни у поређењу са традиционалним кодерима текста заснованим на ЦЛИП-у, а истовремено имају могућност да кодирају семантику различитих корисничких упита.

Тект Гуиданце

Главни аспект ИнструцтИР оквира је имплементација кодиране инструкције као контролног механизма за модел слике. Надовезујући се на ово, и инспирисан рутирањем задатака за учење многих задатака, оквир ИнструцтИР предлаже блок конструкције инструкција или ИЦБ да омогући трансформације специфичне за задатак унутар модела. Конвенционално рутирање задатака примењује бинарне маске специфичне за задатак на карактеристике канала. Међутим, пошто оквир ИнструцтИР не познаје деградацију, ова техника се не примењује директно. Штавише, за карактеристике слике и кодиране инструкције, оквир ИнструцтИР примењује рутирање задатака и производи маску користећи линеарни слој активиран коришћењем функције Сигмоид да би произвео скуп тежина у зависности од уградње текста, чиме се добија ц-димензионална по бинарна маска канала. Модел даље унапређује условљене карактеристике коришћењем НАФБлоцк-а и користи НАФБлоцк и Условљени блок инструкција да условљава карактеристике и у блоку кодера и у блоку декодера.

Иако оквир ИнструцтИР не условљава експлицитно филтере неуронске мреже, маска олакшава моделу да изабере најрелевантније канале на основу инструкција и информација слике.

ИнструцтИР: Имплементација и резултати

ИнструцтИР модел се може обучити од краја до краја, а модел слике не захтева претходну обуку. Само пројекције у које се уграђује текст и глава за класификацију треба да се обуче. Кодер текста се иницијализује коришћењем БГЕ енкодера, кодера сличног БЕРТ-у који је унапред обучен за огромну количину надгледаних и ненадзираних података за генеричко кодирање реченица. ИнструцтИР оквир користи НАФНет модел као модел слике, а архитектура НАФНет-а се састоји од декодера са 4 нивоа са променљивим бројем блокова на сваком нивоу. Модел такође додаје 4 средња блока између енкодера и декодера како би додатно побољшао карактеристике. Штавише, уместо конкатенације за везе за прескакање, декодер имплементира сабирање, а модел ИнструцтИР имплементира само ИЦБ или инструкцијски условљени блок за рутирање задатака само у кодеру и декодеру. Настављајући даље, модел ИнструцтИР је оптимизован коришћењем губитка између рестауриране слике и чисте слике приземне истине, а губитак унакрсне ентропије се користи за главу класификације намере кодера текста. ИнструцтИР модел користи АдамВ оптимизатор са величином серије од 32 и брзином учења од 5е-4 за скоро 500 епоха, а такође имплементира опадање брзине учења косинусног жарења. Пошто модел слике у оквиру ИнструцтИР обухвата само 16 милиона параметара, а постоји само 100 хиљада научених параметара пројекције текста, ИнструцтИР оквир се може лако обучити на стандардним ГПУ-има, чиме се смањују трошкови рачунара и повећава применљивост.

Вишеструки резултати деградације

За вишеструке деградације и рестаурације са више задатака, оквир ИнструцтИР дефинише два почетна подешавања:

3Д за моделе са три деградације за решавање проблема деградације као што су замагљивање, смањење шума и дераининг.
5Д за пет модела деградације за решавање проблема деградације као што су смањење шума на слици, побољшања при слабом осветљењу, затамњивање, смањење шума и дераининг.

Перформансе 5Д модела су приказане у следећој табели и упоређене су са најсавременијом рестаурацијом слике и моделима све у једном.

Као што се може приметити, ИнструцтИР оквир са једноставним моделом слике и само 16 милиона параметара може успешно да се носи са пет различитих задатака рестаурације слике захваљујући упутствима заснованим на упутствима и даје конкурентне резултате. Следећа табела показује перформансе оквира на 3Д моделима, а резултати су упоредиви са горњим резултатима.

Главни врхунац ИнструцтИР оквира је рестаурација слике заснована на инструкцији, а следећа слика показује невероватне способности ИнструцтИР модела да разуме широк спектар инструкција за дати задатак. Такође, за контрадикторну инструкцију, ИнструцтИР модел изводи идентитет који није присиљен.

Завршне мисли

Рестаурација слике је фундаментални проблем у компјутерском виду јер има за циљ да поврати чисту слику високог квалитета са слике која показује деградације. У компјутерском виду ниског нивоа, Деградације је термин који се користи за представљање непријатних ефеката уочених на слици као што су замућење покрета, замагљивање, шум, низак динамички опсег и још много тога. У овом чланку смо говорили о ИнструцтИР, првом светском оквиру за рестаурацију слике који има за циљ да води модел рестаурације слике користећи људска упутства. За упутства на природном језику, ИнструцтИР модел може да поврати слике високог квалитета од њихових деградираних колега и такође узима у обзир више типова деградације. ИнструцтИР оквир је у стању да испоручи врхунске перформансе на широком спектру задатака рестаурације слике, укључујући дераининг слике, смањење шума, замагљивање, уклањање замућења и побољшање слике при слабом осветљењу.

Повезане теме:ЦЛИП Цомпутер Висион дубоко учење генеративни аи генерисање слике рестаурација слике ИнструцтИР ЛЛМ класификација текста генерисање текста текст у видео моделе

Уп Нект

ГПУ центри података напрезају електричне мреже: балансирање АИ иновација и потрошње енергије

Не пропустите

Од статичних слајдова до паметних говора: успон презентација које покреће вештачка интелигенција

Кунал Кејривал

„Инжењер по занимању, писац по срцу“. Кунал је технички писац са дубоком љубављу и разумевањем АИ и МЛ, посвећен поједностављивању сложених концепата у овим областима кроз своју занимљиву и информативну документацију.