кочан Визуално авторегресивно моделиране: Генериране на мащабируемо изображение чрез прогнозиране в следващ мащаб - Unite.AI
Свържете се с нас

Изкуствен интелект

Визуално авторегресивно моделиране: Генериране на мащабируемо изображение чрез прогнозиране в следващ мащаб

mm

Публикуван

 on

Визуално авторегресивно моделиране: Генериране на мащабируемо изображение чрез прогнозиране в следващ мащаб

Появата на GPT модели, заедно с други авторегресивни или AR големи езикови модели, откри нова епоха в областта на машинното обучение и изкуствения интелект. GPT и авторегресивните модели често показват обща интелигентност и гъвкавост, които се считат за значителна стъпка към общ изкуствен интелект или AGI, въпреки че имат някои проблеми като халюцинации. Въпреки това, озадачаващият проблем с тези големи модели е стратегия за самоконтролирано обучение, която позволява на модела да предвиди следващия токен в последователност, проста, но ефективна стратегия. Последните разработки демонстрираха успеха на тези големи авторегресивни модели, подчертавайки тяхната обобщаемост и мащабируемост. Мащабируемостта е типичен пример за съществуващите закони за мащабиране, който позволява на изследователите да прогнозират производителността на големия модел от производителността на по-малките модели, което води до по-добро разпределение на ресурсите. От друга страна, възможността за обобщаване често се доказва от стратегии за учене като нулев изстрел, еднократно и няколко изстрела обучение, подчертавайки способността на неконтролирани, но обучени модели да се адаптират към различни и невидими задачи. Заедно възможността за генерализиране и мащабируемост разкриват потенциала на авторегресивните модели да се учат от огромно количество немаркирани данни. 

Въз основа на същото, в тази статия ще говорим за Visual AutoRegressive или VAR framework, модел от ново поколение, който предефинира авторегресивното обучение върху изображения като грубо към фино „предсказание на следваща резолюция“ или „предсказание в следващ мащаб“ . Въпреки че е прост, подходът е ефективен и позволява на авторегресивните трансформатори да научат по-добре визуалните разпределения и подобрената възможност за обобщаване. Освен това визуалните авторегресивни модели позволяват на авторегресивните модели в стил GPT да надминат дифузионните трансфери при генериране на изображения за първи път. Експериментите също показват, че VAR рамката подобрява значително авторегресивните базови линии и превъзхожда рамката на дифузионния трансформатор или DiT в множество измерения, включително ефективност на данните, качество на изображението, мащабируемост и скорост на извод. Освен това, увеличаването на визуалните авторегресивни модели демонстрира степенни закони за мащабиране, подобни на тези, наблюдавани при големи езикови модели, и също така показва способност за нулева генерализация при задачи надолу по веригата, включително редактиране, рисуване и рисуване. 

Тази статия има за цел да покрие рамката Visual AutoRegressive в дълбочина и ние изследваме механизма, методологията, архитектурата на рамката заедно с нейното сравнение с най-съвременните рамки. Ще говорим и за това как рамката Visual AutoRegressive демонстрира две важни свойства на LLM: закони за мащабиране и генерализация с нулев удар. Така че да започваме.

Визуално авторегресивно моделиране: Генериране на мащабирано изображение

Често срещан модел сред последните големи езикови модели е прилагането на стратегия за самоконтролирано обучение, прост, но ефективен подход, който предвижда следващия знак в последователността. Благодарение на подхода авторегресивните и големите езикови модели днес демонстрират забележителна мащабируемост, както и възможност за обобщаване, свойства, които разкриват потенциала на авторегресивните модели да се учат от голям набор от немаркирани данни, като по този начин обобщават същността на общия изкуствен интелект. Освен това, изследователи в областта на компютърното зрение работят паралелно за разработване на големи авторегресивни или световни модели с цел да съвпаднат или надминат тяхната впечатляваща скалируемост и възможност за обобщаване, като модели като DALL-E и VQGAN вече демонстрират потенциала на авторегресивните модели в областта на генериране на изображение. Тези модели често прилагат визуален токенизатор, който представя или приближава непрекъснати изображения в решетка от 2D токени, които след това се изравняват в 1D последователност за авторегресивно обучение, като по този начин отразява процеса на моделиране на последователен език. 

Изследователите обаче тепърва ще изследват законите за мащабиране на тези модели и това, което е по-разочароващо, е фактът, че производителността на тези модели често изостава от дифузионните модели със значителна разлика, както е показано на следното изображение. Разликата в производителността показва, че в сравнение с големите езикови модели, възможностите на авторегресивните модели в компютърното зрение са недостатъчно проучени. 

От една страна, традиционните авторегресивни модели изискват определен ред на данните, докато от друга страна, Visual AutoRegressive или VAR моделът преразглежда как да се подреди изображение и това е, което отличава VAR от съществуващите AR методи. Обикновено хората създават или възприемат изображение по йерархичен начин, улавяйки глобалната структура, последвана от локалните детайли, многомащабен подход от груб към фин, който предполага естествен ред за изображението. Освен това, черпейки вдъхновение от многомащабни дизайни, рамката VAR дефинира авторегресивното обучение за изображения като прогноза за следващ мащаб, за разлика от конвенционалните подходи, които определят обучението като прогноза за следващ токен. Подходът, приложен от рамката VAR, се развива чрез кодиране на изображение в многомащабни токен карти. След това рамката стартира процеса на авторегресия от картата на токена 1 × 1 и постепенно се разширява в резолюция. На всяка стъпка трансформаторът предвижда следващата карта на токени с по-висока разделителна способност, обусловена от всички предишни, методология, която VAR рамката нарича VAR моделиране. 

Рамката VAR се опитва да използва трансформаторната архитектура на GPT-2 за визуално авторегресивно обучение и резултатите са очевидни в бенчмарка на ImageNet, където моделът VAR значително подобрява базовата линия на AR, постигайки FID от 1.80 и начален резултат от 356 заедно с 20-кратно подобрение на скоростта на извод. По-интересното е, че рамката VAR успява да надмине производителността на рамката DiT или Diffusion Transformer по отношение на FID & IS резултати, мащабируемост, скорост на извод и ефективност на данните. Освен това моделът Visual AutoRegressive показва силни закони за мащабиране, подобни на тези, наблюдавани в големите езикови модели. 

За да обобщим, рамката VAR се опитва да направи следните приноси. 

  1. Той предлага нова визуална генеративна рамка, която използва многомащабен авторегресивен подход с прогнозиране на следващ мащаб, противно на традиционното прогнозиране на следващ токен, което води до проектиране на авторегресивен алгоритъм за задачи с компютърно зрение. 
  2. Той се опитва да потвърди законите за мащабиране за авторегресивни модели заедно с потенциала за нулево обобщение, който емулира привлекателните свойства на LLM. 
  3. Той предлага пробив в производителността на визуални авторегресивни модели, позволявайки на авторегресивните рамки в стил GPT да надминат съществуващите дифузионни модели в задачи за синтез на изображения за първи път. 

Освен това също така е жизненоважно да се обсъдят съществуващите закони за степенно мащабиране, които математически описват връзката между размерите на набора от данни, параметрите на модела, подобренията в производителността и изчислителните ресурси на моделите за машинно обучение. Първо, тези степенни закони за мащабиране улесняват прилагането на производителността на по-голям модел чрез увеличаване на размера на модела, изчислителните разходи и размера на данните, спестяване на ненужни разходи и разпределяне на бюджета за обучение чрез предоставяне на принципи. Второ, законите за мащабиране демонстрират последователно и ненасищащо увеличение на производителността. Продължавайки напред с принципите на законите за мащабиране в невронни езикови модели, няколко LLM въплъщават принципа, че увеличаването на мащаба на моделите има тенденция да дава подобрени резултати за ефективност. Обобщението с нулев удар от друга страна се отнася до способността на модел, особено LLM, който изпълнява задачи, за които не е бил обучен изрично. В рамките на домейна на компютърното зрение, интересът към изграждането на нулев изстрел и способности за учене в контекст на базови модели. 

Езиковите модели разчитат на алгоритми на WordPiece или на подход за кодиране на двойки байтове за токенизиране на текст. Моделите за визуално генериране, базирани на езикови модели, също разчитат в голяма степен на кодиране на 2D изображения в последователности от 1D токени. Ранни произведения като VQVAE демонстрираха способността да представят изображения като отделни токени с умерено качество на реконструкция. Наследникът на VQVAE, рамката VQGAN включи перцептивни и конкурентни загуби за подобряване на прецизността на изображението и също така използва трансформатор само за декодер за генериране на токени на изображение по стандартен авторегресивен начин на растерно сканиране. Дифузионните модели, от друга страна, отдавна се считат за водещи при задачите за визуален синтез, при условие че имат разнообразие и превъзходно качество на генериране. Напредъкът на дифузионните модели е съсредоточен около подобряване на техниките за вземане на проби, архитектурни подобрения и по-бързо вземане на проби. Моделите на латентна дифузия прилагат дифузия в латентното пространство, което подобрява ефективността на обучението и извода. Моделите на дифузионен трансформатор заменят традиционната U-Net архитектура с архитектура, базирана на трансформатор, и тя е внедрена в последните модели за синтез на изображения или видео като SORA и Стабилна дифузия

Визуална авторегресия: методология и архитектура

В основата си рамката VAR има два отделни етапа на обучение. В първия етап многомащабен квантован автоенкодер или VQVAE кодира изображение в карти на токени и загубата на комбинирана реконструкция се прилага за целите на обучението. В горната фигура вграждането е дума, използвана за дефиниране на конвертиране на дискретни токени в непрекъснати вектори за вграждане. Във втория етап трансформаторът в модела VAR се обучава или чрез минимизиране на загубата на кръстосана ентропия, или чрез максимизиране на вероятността с помощта на подхода за прогнозиране на следваща скала. След това обученият VQVAE произвежда основната истина за картата на токена за рамката VAR. 

Авторегресивно моделиране чрез предсказване на следващия токен

За дадена последователност от отделни токени, където всеки токен е цяло число от речник с размер V, авторегресивният модел на следващия токен излага, че вероятността за наблюдение на текущия токен зависи само от неговия префикс. Приемането на еднопосочна зависимост на токена позволява на рамката VAR да разлага шансовете за последователност в произведение на условни вероятности. Обучението на авторегресивен модел включва оптимизиране на модела в набор от данни и този процес на оптимизация е известен като прогноза за следващ токени позволява на обучения модел да генерира нови последователности. Освен това изображенията са 2D непрекъснати сигнали по наследство и за прилагане на подхода за авторегресивно моделиране към изображения чрез процеса на оптимизация на прогнозиране на следващия токен има няколко предпоставки. Първо, изображението трябва да бъде токенизирано в няколко отделни токена. Обикновено се прилага квантован автоенкодер за преобразуване на картата на характеристиките на изображението в дискретни токени. Второ, трябва да се дефинира 1D ред на токени за еднопосочно моделиране. 

Токените за изображения в отделни токени са подредени в 2D решетка и за разлика от изреченията на естествен език, които по своята същност имат подреждане отляво надясно, редът на токените за изображения трябва да бъде дефиниран изрично за еднопосочно авторегресивно обучение. Предишни авторегресивни подходи сплескаха 2D мрежата от отделни токени в 1D последователност, използвайки методи като растерно сканиране на основен ред, z-крива или спирален ред. След като дискретните токени бяха сплескани, AR моделите извличат набор от последователности от набора от данни и след това обучават авторегресивен модел, за да увеличат максимално вероятността в произведението на T условни вероятности, използвайки прогнозиране на следващия токен. 

Визуално-авторегресивно моделиране чрез прогнозиране в следващ мащаб

Рамката VAR преосмисля авторегресивното моделиране върху изображения чрез преминаване от прогнозиране на следващ токен към подход на прогнозиране в следващ мащаб, процес, при който вместо да бъде единичен токен, авторегресивната единица е цяла карта на токена. Моделът първо квантува картата на характеристиките в многомащабни токен карти, всяка с по-висока разделителна способност от предишната, и кулминира чрез съпоставяне на разделителната способност на оригиналните карти на характеристиките. Освен това рамката VAR разработва нов многомащабен енкодер за квантуване за кодиране на изображение в многомащабни дискретни токен карти, необходими за обучението на VAR. Рамката VAR използва същата архитектура като VQGAN, но с модифициран многомащабен слой за квантуване, с алгоритмите, показани на следното изображение. 

Визуална авторегресия: резултати и експерименти

Рамката VAR използва ваниловата VQVAE архитектура с многомащабна схема за квантуване с K допълнителна конволюция и използва споделена кодова книга за всички мащаби и латентен дим от 32. Основният фокус е върху алгоритъма VAR, благодарение на който дизайнът на архитектурата на модела се поддържа проста, но ефективна. Рамката приема архитектурата на стандартен трансформатор само за декодер, подобен на тези, внедрени в моделите GPT-2, като единствената модификация е замяната на традиционната нормализация на слоя с адаптивна нормализация или AdaLN. За условен синтез на клас, VAR рамката внедрява вгражданията на класове като начален токен, а също и състоянието на адаптивния нормализационен слой. 

Най-съвременни резултати за генериране на изображения

Когато се съчетае със съществуващи генеративни рамки, включително GAN или генериращи състезателни мрежи, маскирани прогнозни модели в стил BERT, дифузионни модели и авторегресивни модели в стил GPT, рамката Visual AutoRegressive показва обещаващи резултати, обобщени в следващата таблица. 

Както може да се види, рамката Visual AutoRegressive е не само в състояние да постигне най-добрите FID и IS резултати, но също така демонстрира забележителна скорост на генериране на изображения, сравнима с най-съвременните модели. Освен това рамката VAR също така поддържа задоволителни резултати за точност и припомняне, което потвърждава нейната семантична последователност. Но истинската изненада е забележителната производителност, осигурена от рамката VAR при традиционните задачи с AR възможности, което я прави първият авторегресивен модел, който превъзхожда модел на дифузионен трансформатор, както е показано в следващата таблица. 

Резултат от генерализиране на задачата Zero-Shot

За задачи за влизане и извеждане на рисуване учителят на рамката VAR принуждава базовите токени за истина извън маската и позволява на модела да генерира само токените в маската, без да се инжектира информация за етикет на клас в модела. Резултатите са демонстрирани на следното изображение и както може да се види, моделът VAR постига приемливи резултати при задачи надолу по веригата без настройка на параметри или модифициране на мрежовата архитектура, демонстрирайки възможността за обобщаване на рамката VAR. 

Заключителни мисли

В тази статия говорихме за нова визуална генеративна рамка, наречена Visual AutoRegressive modeling (VAR), която 1) теоретично адресира някои проблеми, присъщи на стандартните авторегресивни (AR) модели на изображения, и 2) кара базираните на езикови модели AR модели да надминат силни модели на дифузия по отношение на качество на изображението, разнообразие, ефективност на данните и скорост на извод. От една страна, традиционните авторегресивни модели изискват определен ред на данните, докато от друга страна, Visual AutoRegressive или VAR моделът преразглежда как да се подреди изображение и това е, което отличава VAR от съществуващите AR методи. При мащабиране на VAR до 2 милиарда параметъра, разработчиците на рамката VAR наблюдават ясна степенна връзка между производителността на теста и параметрите на модела или изчисленията за обучение, с коефициенти на Pearson, близки до −0.998, което показва стабилна рамка за прогнозиране на производителността. Тези закони за мащабиране и възможността за генерализиране на задачите с нулев изстрел, като отличителни белези на LLMs, вече са първоначално проверени в нашите VAR трансформаторни модели. 

„Инженер по професия, писател по душа“. Kunal е технически писател с дълбока любов и разбиране на AI и ML, посветен на опростяването на сложни концепции в тези области чрез своята ангажираща и информативна документация.