никулец Визуелно авторегресивно моделирање: скалабилно генерирање слики преку предвидување на следната скала - Unite.AI
Поврзете се со нас

Вештачка интелигенција

Визуелно авторегресивно моделирање: Скалабилно генерирање слики преку предвидување на следната скала

mm

Објавено

 on

Визуелно авторегресивно моделирање: Скалабилно генерирање слики преку предвидување на следната скала

Доаѓањето на GPT моделите, заедно со другите авторегресивни или AR модели со големи јазици, отвори нова епоха во областа на машинското учење и вештачката интелигенција. GPT и авторегресивните модели често покажуваат општа интелигенција и разноврсност што се смета за значаен чекор кон општата вештачка интелигенција или AGI и покрај тоа што имаат некои проблеми како халуцинации. Сепак, збунувачкиот проблем со овие големи модели е стратегијата за учење само-надгледувана која му овозможува на моделот да го предвиди следниот токен во низа, едноставна, но ефикасна стратегија. Неодамнешните дела го покажаа успехот на овие големи авторегресивни модели, истакнувајќи ја нивната генерализираност и приспособливост. Приспособливоста е типичен пример за постојните закони за скалирање што им овозможува на истражувачите да ги предвидат перформансите на големиот модел од перформансите на помалите модели, што резултира со подобра распределба на ресурсите. Од друга страна, генерализираноста честопати се докажува со стратегии за учење како учење со нула, еден истрел и неколку снимки, нагласувајќи ја способноста на ненадгледуваните, но обучени модели да се прилагодат на различни и невидени задачи. Заедно, генерализираноста и приспособливоста го откриваат потенцијалот на авторегресивните модели да учат од огромно количество неозначени податоци. 

Надоврзувајќи се на истото, во овој напис, ќе зборуваме за Visual AutoRegressive или VAR рамката, шема на нова генерација која го редефинира авторегресивното учење на слики како грубо до ситно „предвидување со следната резолуција“ или „предвидување на следната скала“. . Иако е едноставен, пристапот е ефикасен и им овозможува на авторегресивните трансформатори подобро да ги научат визуелните распределби и зголемена генерализираност. Понатаму, Visual AutoRegressive моделите им овозможуваат на GPT-стилот на авторегресивни модели за првпат да ги надминат преносите на дифузија во генерирањето слики. Експериментите, исто така, покажуваат дека рамката VAR значително ги подобрува авторегресивните основни линии и ја надминува рамката за дифузија трансформатор или DiT во повеќе димензии, вклучувајќи ја ефикасноста на податоците, квалитетот на сликата, приспособливоста и брзината на заклучоци. Понатаму, зголемувањето на визуелните авторегресивни модели ги демонстрира законите за скалирање на законот за моќ, слични на оние забележани кај големите јазични модели, а исто така ја прикажува способноста за генерализација на нула снимки во долните задачи, вклучувајќи уредување, внатрешно сликање и надворешно сликање. 

Оваа статија има за цел да ја опфати длабинската рамка за визуелна авторегресија, а ние ги истражуваме механизмите, методологијата, архитектурата на рамката заедно со нејзината споредба со најсовремените рамки. Ќе зборуваме и за тоа како Визуелната авторегресивна рамка демонстрира две важни својства на LLM: Закони за скалирање и генерализација со нула. Па ајде да започнеме.

Визуелно авторегресивно моделирање: скалирање на генерирање слики

Честа шема меѓу неодамнешните големи јазични модели е имплементацијата на стратегија за учење само-надгледувана, едноставен, но ефективен пристап кој го предвидува следниот знак во низата. Благодарение на пристапот, авторегресивните и големите јазични модели денес покажаа извонредна приспособливост, како и генерализираност, својства кои го откриваат потенцијалот на авторегресивните модели да учат од голем број неозначени податоци, со што ја сумираат суштината на Општата вештачка интелигенција. Понатаму, истражувачите од областа на компјутерската визија работеа паралелно на развој на големи авторегресивни или светски модели со цел да се совпаднат или надминат нивната импресивна приспособливост и генерализираност, при што моделите како DALL-E и VQGAN веќе го демонстрираат потенцијалот на авторегресивните модели на теренот. на генерирање слики. Овие модели често имплементираат визуелен токенизатор што ги претставува или приближува континуираните слики во мрежа од 2D токени, кои потоа се срамнети со земја во 1D секвенца за авторегресивно учење, со што се пресликува процесот на секвенцијално моделирање на јазикот. 

Сепак, истражувачите допрва треба да ги истражуваат законите за скалирање на овие модели, а она што е пофрустрирачко е фактот што перформансите на овие модели често паѓаат зад моделите на дифузија со значителна разлика, како што е прикажано на следната слика. Јазот во перформансите покажува дека кога се споредуваат со големите јазични модели, способностите на авторегресивните модели во компјутерската визија се недоволно истражени. 

Од една страна, традиционалните авторегресивни модели бараат дефиниран редослед на податоци, додека од друга страна, Visual AutoRegressive или VAR моделот преиспитува како да нарача слика, и тоа е она што го разликува VAR од постоечките AR методи. Вообичаено, луѓето создаваат или перцепираат слика на хиерархиски начин, доловувајќи ја глобалната структура проследена со локалните детали, пристап од повеќе размери, груб до фин што сугерира редослед на сликата природно. Понатаму, црпејќи инспирација од дизајни со повеќе размери, рамката VAR го дефинира авторегресивното учење за слики како следно предвидување на скалата за разлика од конвенционалните пристапи кои го дефинираат учењето како следно предвидување со знаци. Пристапот имплементиран од рамката ВАР полетува со кодирање на слика во карти на токени со повеќе размери. Рамката потоа го започнува авторегресивниот процес од мапата на токени 1×1 и прогресивно се проширува во резолуција. На секој чекор, трансформаторот ја предвидува следната мапа на токени со поголема резолуција, условена од сите претходни, методологија која VAR рамката ја нарекува VAR моделирање. 

Рамката VAR се обидува да ја искористи трансформаторската архитектура на GPT-2 за визуелно авторегресивно учење, а резултатите се евидентни на реперот ImageNet каде VAR моделот значително ја подобрува основната линија на AR, постигнувајќи FID од 1.80 и почетна оценка од 356 заедно. со 20x подобрување на брзината на заклучување. Она што е поинтересно е што рамката VAR успева да ги надмине перформансите на рамката DiT или Diffusion Transformer во однос на резултатите од FID и IS, приспособливост, брзина на заклучување и ефикасност на податоците. Понатаму, Visual AutoRegressive моделот покажува силни закони за скалирање слични на оние што се забележани кај моделите на големи јазици. 

Да се ​​сумира, рамката ВАР се обидува да ги даде следните придонеси. 

  1. Тој предлага нова визуелна генеративна рамка која користи авторегресивен пристап со повеќе размери со предвидување на следната скала, спротивно на традиционалното следно предвидување, што резултира со дизајнирање на авторегресивен алгоритам за задачи за компјутерска визија. 
  2. Се обидува да ги потврди законите за скалирање за авторегресивни модели заедно со потенцијалот за генерализација со нула што ги имитира привлечните својства на LLM. 
  3. Тој нуди чекор напред во перформансите на визуелните авторегресивни модели, овозможувајќи им на авторегресивните рамки во стилот на GPT да ги надминат постоечките модели на дифузија во задачите за синтеза на слики за прв пат досега. 

Понатаму, исто така е од витално значење да се дискутираат постојните закони за скалирање на моќ-законот кои математички ја опишуваат врската помеѓу големини на податоци, параметрите на моделот, подобрувањата на перформансите и пресметковните ресурси на моделите за машинско учење. Прво, овие закони за скалирање на моќ-закон ја олеснуваат примената на перформансите на поголем модел со зголемување на големината на моделот, пресметковните трошоци и големината на податоците, заштедувајќи ги непотребните трошоци и распределувајќи го буџетот за обука преку обезбедување на принципи. Второ, законите за скалирање покажаа конзистентно и незаситено зголемување на перформансите. Движејќи се напред со принципите на законите за скалирање во моделите на нервни јазици, неколку LLM го отелотворуваат принципот дека зголемувањето на скалата на модели има тенденција да даде подобри резултати на перформансите. Генерализацијата со нула од друга страна се однесува на способноста на моделот, особено на LLM што извршува задачи за кои не бил експлицитно обучен. Во доменот на компјутерска визија, интересот за градење на способности за учење нула и во контекст на моделите на темели. 

Јазичните модели се потпираат на алгоритми WordPiece или пристап за кодирање со пар бајти за токенизација на текст. Моделите за визуелно генерирање базирани на јазични модели, исто така, во голема мера се потпираат на кодирање на 2D слики во 1D секвенци на токени. Раните дела како VQVAE ја покажаа способноста да се претстават сликите како дискретни токени со умерен квалитет на реконструкција. Наследникот на VQVAE, рамката VQGAN инкорпорираше перцептивни и противнички загуби за да ја подобри верноста на сликата, а исто така употреби трансформатор само за декодер за да генерира токени за слики на стандарден авторегресивен начин со растерско скенирање. Од друга страна, моделите за дифузија долго време се сметаа за фаворити за задачите за визуелна синтеза под услов нивната разновидност и супериорен квалитет на генерацијата. Напредокот на моделите за дифузија се фокусираше на подобрување на техниките за земање примероци, архитектонски подобрувања и побрзо земање примероци. Моделите на латентна дифузија применуваат дифузија во латентниот простор што ја подобрува ефикасноста на тренингот и заклучоците. Моделите на дифузионен трансформатор ја заменуваат традиционалната U-Net архитектура со архитектура базирана на трансформатор, а таа е имплементирана во неодамнешните модели за синтеза на слики или видео како SORA, и Стабилна дифузија

Визуелен авторегресивен: методологија и архитектура

Во неговото јадро, рамката ВАР има две дискретни фази на обука. Во првата фаза, квантизиран автоенкодер со повеќе размери или VQVAE шифрира слика во мапи на токени, а загубата на реконструкција на соединение се имплементира за цели на обука. На горната слика, вградување е збор што се користи за дефинирање на конвертирање на дискретни токени во вектори за континуирано вградување. Во втората фаза, трансформаторот во моделот VAR се тренира или со минимизирање на загубата на вкрстена ентропија или со максимизирање на веројатноста со користење на пристапот за предвидување на следната скала. Обучениот VQVAE потоа ја произведува токенската мапа на основата на вистината за рамката VAR. 

Авторегресивно моделирање преку Next-Token Prediction

За дадена низа на дискретни токени, каде што секој токен е цел број од вокабулар со големина V, следниот токен авторегресивен модел истакнува дека веројатноста за набљудување на тековниот токен зависи само од неговиот префикс. Претпоставувајќи ја еднонасочната зависност на токенот и овозможува на рамката VAR да ги разложи шансите за низа во производ на условни веројатности. Обуката за авторегресивен модел вклучува оптимизирање на моделот низ базата на податоци, а овој процес на оптимизација е познат како следното предвидување, и му овозможува на обучениот модел да генерира нови секвенци. Понатаму, сликите се 2D континуирани сигнали по наследување, а за да се примени пристапот на авторегресивно моделирање на сликите преку процесот на оптимизација за предвидување следен знак има неколку предуслови. Прво, сликата треба да се токенизира во неколку дискретни токени. Вообичаено, квантизиран автоенкодер се имплементира за конвертирање на мапата на карактеристики на сликата во дискретни токени. Второ, мора да се дефинира 1D редослед на токени за еднонасочно моделирање. 

Токените на сликата во дискретни токени се распоредени во 2D мрежа, и за разлика од речениците на природниот јазик кои инхерентно имаат редослед од лево кон десно, редоследот на токените на слики мора да биде експлицитно дефиниран за еднонасочно авторегресивно учење. Претходните авторегресивни пристапи ја израмнија 2D мрежата на дискретни токени во 1D секвенца користејќи методи како растерско скенирање со големи редови, z-крива или спирален редослед. Откако дискретните токени беа срамнети со земја, моделите AR извлекоа збир на секвенци од базата на податоци, а потоа тренираа авторегресивен модел за да ја максимизираат веројатноста во производот на T условните веројатности користејќи предвидување на следниот знак. 

Визуелно-авторегресивно моделирање преку предвидување на следната скала

Рамката VAR го реконцептуализира авторегресивното моделирање на сликите со префрлање од пристапот на предвидување следен токен кон пристап на предвидување на следната скала, процес според кој наместо да биде единствен токен, авторегресивната единица е цела мапа на токен. Моделот најпрво ја квантизира картата на карактеристики во карти со токени со повеќе размери, секоја со повисока резолуција од претходната, и кулминира со усогласување на резолуцијата на оригиналните карти на карактеристики. Понатаму, рамката VAR развива нов енкодер за квантизација со повеќе размери за кодирање на слика на повеќеразмерни дискретни мапи на токени, неопходни за учење VAR. Рамката VAR ја користи истата архитектура како VQGAN, но со модифициран слој за квантизација со повеќе размери, со алгоритмите прикажани на следната слика. 

Визуелен авторегресивен: резултати и експерименти

Рамката VAR ја користи архитектурата VQVAE од ванила со шема за квантизација со повеќе размери со К дополнителна конволуција и користи заеднички шифрарник за сите скали и латентно затемнување од 32. Примарниот фокус е на алгоритмот VAR поради кој дизајнот на архитектурата на моделот се одржува едноставно, но ефективно. Рамката ја усвојува архитектурата на стандарден трансформатор само за декодер, сличен на оние што се имплементирани на моделите GPT-2, со единствена модификација е замената на традиционалната нормализација на слојот за адаптивна нормализација или AdaLN. За класична условна синтеза, рамката VAR ги имплементира вградувањата на класи како почетен токен, а исто така и состојбата на слојот за адаптивна нормализација. 

Најсовремени резултати за генерирање слики

Кога се спаруваат со постојните генеративни рамки вклучувајќи GAN или Генеративни противнички мрежи, маскирани модели на предвидување во стилот на BERT, модели на дифузија и авторегресивни модели во стилот на GPT, рамката Visual AutoRegressive покажува ветувачки резултати сумирани во следната табела. 

Како што може да се забележи, Visual AutoRegressive рамката не само што е способна да ги постигне најдобрите FID и IS резултати, туку исто така демонстрира извонредна брзина на создавање слики, споредлива со најсовремените модели. Понатаму, рамката VAR, исто така, одржува задоволителна прецизност и оценки за потсетување, што ја потврдува нејзината семантичка конзистентност. Но, вистинското изненадување е извонредната изведба што ја дава рамката VAR на традиционалните задачи за AR способности, што го прави првиот авторегресивен модел кој го надмина моделот на трансформатор на дифузија, како што е прикажано во следната табела. 

Резултат од генерализација на задачата со нула истрел

За задачите за внатрешно и надворешно сликање, VAR-рамковниот учител ги принудува токените за главна вистина надвор од маската и му дозволува на моделот да ги генерира само токените во маската, без информации за етикетата на класата да се инјектираат во моделот. Резултатите се прикажани на следнава слика, и како што може да се види, VAR моделот постигнува прифатливи резултати на downstream задачи без подесување параметри или менување на мрежната архитектура, демонстрирајќи ја генерализираноста на VAR рамката. 

Последни мисли

Во овој напис, зборувавме за нова визуелна генеративна рамка наречена Визуелно авторегресивно моделирање (VAR) која 1) теоретски се занимава со некои прашања својствени за стандардните модели со авторегресивни слики (AR) и 2) прави моделите AR базирани на јазични модели прво да ги надминат силни модели на дифузија во однос на квалитетот на сликата, разновидноста, ефикасноста на податоците и брзината на заклучоците. Од една страна, традиционалните авторегресивни модели бараат дефиниран редослед на податоци, додека од друга страна, Visual AutoRegressive или VAR моделот преиспитува како да нарача слика, и тоа е она што го разликува VAR од постоечките AR методи. По скалирање на VAR до 2 милијарди параметри, развивачите на рамката VAR забележаа јасна врска со законот за моќ помеѓу перформансите на тестот и параметрите на моделот или пресметувањето на обуката, со коефициенти на Пирсон приближно до -0.998, што укажува на робусна рамка за предвидување на перформансите. Овие закони за скалирање и можноста за генерализација на задачите со нула истрели, како белег на LLM, сега првично се потврдени во нашите модели на трансформатори VAR. 

„Инженер по професија, писател напамет“. Кунал е технички писател со длабока љубов и разбирање за вештачката интелигенција и ML, посветен на поедноставување на сложените концепти во овие области преку неговата ангажирана и информативна документација.