стуб Визуелно ауторегресивно моделирање: скалабилно генерисање слике путем предвиђања следеће скале - Уните.АИ
Повежите се са нама

Вештачка интелигенција

Визуелно ауторегресивно моделирање: скалабилно генерисање слике путем предвиђања следеће скале

mm

објављен

 on

Визуелно ауторегресивно моделирање: скалабилно генерисање слике путем предвиђања следеће скале

Појава ГПТ модела, заједно са другим ауторегресивним или АР великим језичким моделима, отворила је нову епоху у области машинског учења и вештачке интелигенције. ГПТ и ауторегресивни модели често показују општу интелигенцију и свестраност за које се сматра да представљају значајан корак ка општој вештачкој интелигенцији или АГИ упркос томе што имају неке проблеме као што су халуцинације. Међутим, збуњујући проблем са овим великим моделима је самонадзирана стратегија учења која омогућава моделу да предвиди следећи токен у низу, једноставна, али ефикасна стратегија. Недавни радови су показали успех ових великих ауторегресивних модела, истичући њихову генерализацију и скалабилност. Скалабилност је типичан пример постојећих закона скалирања који омогућава истраживачима да предвиде перформансе великог модела из перформанси мањих модела, што резултира бољом алокацијом ресурса. С друге стране, генерализација је често доказана стратегијама учења као што су учење са нултим, једним и неколико хитаца, наглашавајући способност ненадгледаних, али обучених модела да се прилагоде различитим и невидљивим задацима. Заједно, генерализација и скалабилност откривају потенцијал ауторегресивних модела да уче из огромне количине неозначених података. 

Надовезујући се на исто, у овом чланку ћемо говорити о Висуал АутоРегрессиве или ВАР оквиру, обрасцу нове генерације који редефинише ауторегресивно учење на сликама као грубо до фино „предвиђање следеће резолуције“ или „предвиђање следеће скале“ . Иако једноставан, приступ је ефикасан и омогућава ауторегресивним трансформаторима да боље науче визуелне дистрибуције и побољшану генерализацију. Штавише, модели Висуал АутоРегрессиве омогућавају ауторегресивним моделима у ГПТ стилу да по први пут надмаше преносе дифузије у генерисању слике. Експерименти такође показују да ВАР оквир значајно побољшава ауторегресивне основне линије и надмашује Диффусион Трансформер или ДиТ оквир у више димензија укључујући ефикасност података, квалитет слике, скалабилност и брзину закључивања. Даље, скалирање Висуал АутоРегрессиве модела демонстрира законе скалирања по закону моћи сличне онима који се примећују код великих језичких модела, а такође показује способност генерализације нулте слике у низводним задацима, укључујући уређивање, уцртавање и пресликавање. 

Овај чланак има за циљ да детаљно покрије Висуал АутоРегрессиве фрамеворк, а ми истражујемо механизам, методологију, архитектуру оквира заједно са његовим поређењем са најсавременијим оквирима. Такође ћемо говорити о томе како Висуал АутоРегрессиве фрамеворк демонстрира два важна својства ЛЛМ-а: Законе о скалирању и генерализацију нулте тачке. Па хајде да почнемо.

Визуелно ауторегресивно моделирање: Скалирање генерисања слике

Уобичајени образац међу недавним великим језичким моделима је имплементација стратегије учења под самонадзором, једноставног, али ефикасног приступа који предвиђа следећи токен у низу. Захваљујући приступу, ауторегресивни и велики језички модели данас су показали изузетну скалабилност као и генерализацију, својства која откривају потенцијал ауторегресивних модела да уче из великог скупа неозначених података, сумирајући суштину Опште вештачке интелигенције. Штавише, истраживачи у области компјутерског вида паралелно раде на развоју великих ауторегресивних или светских модела са циљем да упореде или надмаше њихову импресивну скалабилност и генерализацију, са моделима као што су ДАЛЛ-Е и ВКГАН који већ демонстрирају потенцијал ауторегресивних модела на терену. генерисања слике. Ови модели често имплементирају визуелни токенизер који представља или апроксимира континуалне слике у мрежу 2Д токена, који се затим спљоште у 1Д секвенцу за ауторегресивно учење, чиме се одражава секвенцијални процес моделирања језика. 

Међутим, истраживачи тек треба да истраже законе скалирања ових модела, а оно што је више фрустрирајуће је чињеница да перформансе ових модела често значајно заостају за дифузионим моделима, као што је приказано на следећој слици. Разлика у перформансама указује на то да су у поређењу са великим језичким моделима, могућности ауторегресивних модела у компјутерском виду недовољно истражене. 

С једне стране, традиционални ауторегресивни модели захтевају дефинисан редослед података, док са друге стране, визуелни ауторегресивни или ВАР модел преиспитује како да пореде слику, и то је оно што разликује ВАР од постојећих АР метода. Типично, људи креирају или перципирају слику на хијерархијски начин, хватајући глобалну структуру праћену локалним детаљима, вишесмерни приступ од грубог до финог који сугерише природни редослед слике. Штавише, црпећи инспирацију из дизајна на више нивоа, ВАР оквир дефинише ауторегресивно учење за слике као предвиђање следеће скале за разлику од конвенционалних приступа који дефинишу учење као предвиђање следећег токена. Приступ који имплементира ВАР оквир се развија кодирањем слике у вишесмерне мапе токена. Оквир тада покреће ауторегресивни процес са мапе токена 1×1 и прогресивно се шири у резолуцији. На сваком кораку, трансформатор предвиђа следећу мапу токена веће резолуције условљену свим претходним, методологију коју ВАР оквир назива ВАР моделирањем. 

ВАР оквир покушава да искористи трансформаторску архитектуру ГПТ-2 за визуелно ауторегресивно учење, а резултати су очигледни на ИмагеНет бенцхмарку где ВАР модел значајно побољшава своју АР основну линију, постижући ФИД од 1.80 и почетни резултат од 356 заједно са 20к побољшањем у брзини закључивања. Оно што је интересантније је да ВАР оквир успева да надмаши перформансе оквира ДиТ или Диффусион Трансформер у погледу ФИД & ИС резултата, скалабилности, брзине закључивања и ефикасности података. Штавише, модел Висуал АутоРегрессиве показује јаке законе скалирања сличне онима који се виде у великим језичким моделима. 

Да сумирамо, ВАР оквир покушава да да следеће доприносе. 

  1. Предлаже нови визуелни генеративни оквир који користи ауторегресивни приступ на више скала са предвиђањем следеће скале, супротно традиционалном предвиђању следећег токена, што резултира дизајнирањем ауторегресивног алгоритма за задатке компјутерског вида. 
  2. Он покушава да потврди законе скалирања за ауторегресивне моделе заједно са потенцијалом генерализације нулте тачке који емулира привлачна својства ЛЛМ-а. 
  3. Нуди напредак у перформансама визуелних ауторегресивних модела, омогућавајући ауторегресивним оквирима у ГПТ стилу да надмаше постојеће дифузиони модели у задацима синтезе слике по први пут икада. 

Штавише, такође је од виталног значаја да се дискутује о постојећим законима скалирања по степену који математички описују однос између величина скупова података, параметара модела, побољшања перформанси и рачунарских ресурса модела машинског учења. Прво, ови закони о степену скалирања олакшавају примену перформанси већег модела повећавајући величину модела, рачунске трошкове и величину података, штедећи непотребне трошкове и додељивање буџета за обуку обезбеђивањем принципа. Друго, закони о скалирању су показали конзистентно и незасићено повећање перформанси. Напредујући са принципима закона о скалирању у моделима неуронског језика, неколико ЛЛМ-ова утјеловљује принцип да повећање скале модела има тенденцију да доведе до побољшаних резултата перформанси. С друге стране, генерализација нулте тачке се односи на способност модела, посебно ЛЛМ који обавља задатке за које није експлицитно обучен. У домену компјутерског вида, интересовање за изградњу у нултом смислу и способности учења у контексту основних модела. 

Језички модели се ослањају на ВордПиеце алгоритме или приступ кодирања пара бајтова за токенизацију текста. Модели визуелне генерације засновани на језичким моделима такође се у великој мери ослањају на кодирање 2Д слика у 1Д секвенце токена. Рани радови као што је ВКВАЕ показали су способност представљања слика као дискретних токена са умереним квалитетом реконструкције. Наследник ВКВАЕ, ВКГАН оквир је укључио перцептивне и супротстављене губитке да би побољшао верност слике, а такође је користио трансформатор само за декодер за генерисање токена слике на стандардни ауторегресивни начин растерског скенирања. С друге стране, дифузиони модели се дуго сматрају предводницима за задатке визуелне синтезе под условом да су различити и супериорни квалитет генерације. Напредак модела дифузије био је усредсређен на побољшање техника узорковања, архитектонска побољшања и брже узорковање. Модели латентне дифузије примењују дифузију у латентном простору што побољшава ефикасност тренинга и закључивање. Модели Диффусион Трансформер замењују традиционалну У-Нет архитектуру архитектуром заснованом на трансформатору, а она је примењена у недавним моделима синтезе слика или видео записа као што је СОРА, и Стабле Диффусион

Висуал АутоРегрессиве : Методологија и архитектура

У својој основи, ВАР оквир има две дискретне фазе обуке. У првој фази, вишесмерни квантизовани аутоенкодер или ВКВАЕ кодира слику у мапе токена, а губитак сложене реконструкције се примењује у сврхе обуке. На горњој слици, уграђивање је реч која се користи за дефинисање претварања дискретних токена у континуалне векторе за уграђивање. У другој фази, трансформатор у ВАР моделу се обучава или минимизирањем губитка унакрсне ентропије или максимизирањем вероватноће коришћењем приступа предвиђања следеће скале. Обучени ВКВАЕ затим производи основну истину мапе токена за ВАР оквир. 

Ауторегресивно моделирање путем предвиђања следећег токена

За дати низ дискретних токена, где је сваки токен цео број из речника величине В, ауторегресивни модел следећег токена истиче да вероватноћа посматрања тренутног токена зависи само од његовог префикса. Претпоставка једносмерне зависности од токена омогућава ВАР оквиру да разложи шансе секвенце у производ условних вероватноћа. Обука ауторегресивног модела укључује оптимизацију модела преко скупа података, а овај процес оптимизације је познат као предвиђање следећег токена, и омогућава обученом моделу да генерише нове секвенце. Штавише, слике су 2Д континуирани сигнали по наслеђу, а за примену приступа ауторегресивног моделирања на слике преко процеса оптимизације предвиђања следећег токена има неколико предуслова. Прво, слику треба токенизирати у неколико дискретних токена. Обично се имплементира квантизовани аутоматски кодер за претварање мапе карактеристика слике у дискретне токене. Друго, 1Д редослед токена мора бити дефинисан за једносмерно моделирање. 

Токени слике у дискретним токенима су распоређени у 2Д мрежу, и за разлику од реченица природног језика које инхерентно имају редослед с лева на десно, редослед токена слике мора бити експлицитно дефинисан за једносмерно ауторегресивно учење. Ранији ауторегресивни приступи су спљоштили 2Д мрежу дискретних токена у 1Д секвенцу користећи методе као што су скенирање великог реда растера, з-крива или спирални редослед. Када су дискретни токени били изравнани, АР модели су издвојили скуп секвенци из скупа података, а затим обучили ауторегресивни модел да максимизирају вероватноћу у производ Т условних вероватноћа користећи предвиђање следећег токена. 

Визуелно-ауторегресивно моделирање путем предвиђања следеће скале

ВАР оквир реконцептуализује ауторегресивно моделирање на сликама преласком са предвиђања следећег токена на приступ предвиђања следеће скале, процес у којем уместо да буде један токен, ауторегресивна јединица је цела мапа токена. Модел прво квантизује мапу обележја у вишеразмерне мапе токена, свака са вишом резолуцијом од претходне, а кулминира тако што се подудара са резолуцијом оригиналних мапа обележја. Штавише, ВАР оквир развија нови кодер за квантизацију на више скала за кодирање слике у вишеразмерне дискретне мапе токена, неопходне за ВАР учење. ВАР оквир користи исту архитектуру као ВКГАН, али са модификованим слојем квантизације на више скала, са алгоритмима приказаним на следећој слици. 

Висуал АутоРегрессиве : Резултати и експерименти

ВАР оквир користи ванилла ВКВАЕ архитектуру са шемом квантизације на више скала са К додатном конволуцијом, и користи заједнички шифрарник за све скале и латентну дим од 32. Примарни фокус лежи на ВАР алгоритму захваљујући којем је дизајн архитектуре модела је једноставно, али ефикасно. Оквир усваја архитектуру стандардног трансформатора само за декодер сличан онима који су имплементирани на ГПТ-2 моделима, при чему је једина модификација замена традиционалне нормализације слоја за адаптивну нормализацију или АдаЛН. За условну синтезу класа, ВАР оквир имплементира уграђивање класа као почетни токен, а такође и услов адаптивног нормализационог слоја. 

Најсавременији резултати генерисања слике

Када је упарен са постојећим генеративним оквирима укључујући ГАН-ови или генеративне адверсаријске мреже, модели маскираних предвиђања у БЕРТ стилу, модели дифузије и ауторегресивни модели у ГПТ стилу, Висуал АутоРегрессиве фрамеворк показује обећавајуће резултате сажете у следећој табели. 

Као што се може приметити, Висуал АутоРегрессиве фрамеворк не само да је у стању да постигне најбоље ФИД и ИС резултате, већ такође показује изузетну брзину генерисања слике, упоредиву са најсавременијим моделима. Штавише, ВАР оквир такође одржава задовољавајућу прецизност и резултате присећања, што потврђује његову семантичку доследност. Али право изненађење су изванредне перформансе које пружа ВАР оквир на традиционалним задацима АР могућности, што га чини првим ауторегресивним моделом који је надмашио модел дифузионог трансформатора, као што је приказано у следећој табели. 

Резултат генерализације задатка Зеро-Схот

За задатке ин- и оут-паинтинг, наставник оквира ВАР-форсира основне токене истине изван маске и дозвољава моделу да генерише само токене унутар маске, без убризгавања информација о ознакама класе у модел. Резултати су приказани на следећој слици, а као што се може видети, ВАР модел постиже прихватљиве резултате на низводним задацима без подешавања параметара или модификације мрежне архитектуре, демонстрирајући генерализабилност ВАР оквира. 

Завршне мисли

У овом чланку смо говорили о новом визуелном генеративном оквиру под називом Висуал АутоРегрессиве моделинг (ВАР) који 1) теоретски решава нека питања инхерентна стандардним моделима ауторегресије слике (АР) и 2) чини да АР модели засновани на језичком моделу прво превазиђу јаки модели дифузије у смислу квалитета слике, разноврсности, ефикасности података и брзине закључивања. С једне стране, традиционални ауторегресивни модели захтевају дефинисан редослед података, док са друге стране, визуелни ауторегресивни или ВАР модел преиспитује како да пореде слику, и то је оно што разликује ВАР од постојећих АР метода. Након скалирања ВАР-а на 2 милијарде параметара, програмери ВАР оквира су уочили јасну везу по степену између перформанси теста и параметара модела или тренинга, са Пирсоновим коефицијентом који се приближава -0.998, што указује на робустан оквир за предвиђање перформанси. Ови закони скалирања и могућност генерализације задатака нулте тачке, као обележја ЛЛМ-а, сада су првобитно верификовани у нашим моделима ВАР трансформатора. 

„Инжењер по занимању, писац по срцу“. Кунал је технички писац са дубоком љубављу и разумевањем АИ и МЛ, посвећен поједностављивању сложених концепата у овим областима кроз своју занимљиву и информативну документацију.