Штучний інтелект

Візуальне Авторегресивне Моделювання: Масштабування Генерації Зображень за допомогою Наступного Масштабу Прогнозування

Published April 10, 2024

Updated April 4, 2026

Kunal Kejriwal

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

Поява моделей GPT, разом з іншими автoregresивними або AR великими мовними моделями, розпочала нову епоху в галузі машинного навчання та штучного інтелекту. GPT та автoregresивні моделі часто демонструють загальну інтелект та універсальність, які вважаються значним кроком до загального штучного інтелекту або AGI, незважаючи на наявність деяких проблем, таких як галюцинації. Однак, дивна проблема з цими великими моделями полягає в тому, що вони використовують стратегію самонавчання, яка дозволяє моделі прогнозувати наступний токен в послідовності, проста, але ефективна стратегія. Останні роботи продемонстрували успіх цих великих автoregresивних моделей, підкреслюючи їхню узагальнюваність та масштабованість. Масштабованість – це типовий приклад існуючих законів масштабування, які дозволяють дослідникам прогнозувати продуктивність великої моделі з продуктивності менших моделей, що призводить до кращого розподілу ресурсів. З іншого боку, узагальнюваність часто доводиться стратегіями навчання, такими як нульове, одноразове та багаторазове навчання, підкреслюючи здатність ненавчених, але навчених моделей адаптуватися до різних та невидимих завдань. Разом узагальнюваність та масштабованість розкривають потенціал автoregresивних моделей для навчання на великих кількостях ненавчених даних.

Будуючи на цьому, в цій статті ми будемо говорити про Візуальне Авторегресивне або VAR-фреймворк, новий шаблон генерації, який переозначає автoregresивне навчання на зображеннях як грубий до тонкого “наступний масштаб прогнозування” або “наступний масштаб прогнозування”. Хоча простий, підхід є ефективним і дозволяє автoregresивним трансформерам краще навчатися візуальним розподілам, і покращує узагальнюваність. Крім того, Візуальні Авторегресивні моделі дозволяють GPT-стиль автoregresивним моделям вперше перевершити дифузійні трансфери в генерації зображень. Експерименти також вказують на те, що VAR-фреймворк суттєво покращує автoregresивні базові лінії, і перевершує Дифузійний Трансформер або DiT-фреймворк у декількох вимірах, включаючи ефективність даних, якість зображення, масштабованість та швидкість висновку. Крім того, масштабування Візуальних Авторегресивних моделей демонструє потокове масштабування законів, подібних до тих, які спостерігаються у великих мовних моделях, і також демонструє нульове навчання узагальнюваність у завданнях нижнього рівня, включаючи редагування, заповнення та виведення.

Ця стаття має на меті охопити VAR-фреймворк у глибину, і ми досліджуємо механізм, методологію, архітектуру фреймворка разом з його порівнянням з фреймворками стану мистецтва. Ми також поговоримо про те, як VAR-фреймворк демонструє дві важливі властивості LLM: Масштабні Закони та нульове навчання узагальнюваність. Тому давайте почнемо.

Візуальне Авторегресивне Моделювання: Масштабування Генерації Зображень

Спільний шаблон серед останніх великих мовних моделей полягає у реалізації стратегії самонавчання, простої, але ефективної підходу, який прогнозує наступний токен в послідовності. Завдяки цьому підходу, автoregresивні та великі мовні моделі сьогодні продемонстрували вражаючу масштабованість, а також узагальнюваність, властивості, які розкривають потенціал автoregresивних моделей для навчання на великих кількостях ненавчених даних, тому підсумовуючи сутність Загального Штучного Інтелекту. Крім того, дослідники в галузі комп’ютерного зору працюють паралельно над розробкою великих автoregresивних або світових моделей з метою відповідати або перевершити їхню вражаючу масштабованість та узагальнюваність, з моделями, такими як DALL-E та VQGAN, які вже демонструють потенціал автoregresивних моделей у галузі генерації зображень. Ці моделі часто реалізують візуальний токенізаційний апарат, який представляє або наближує безперервні зображення до сітки 2D-токенів, які потім розплющуються у 1D-послідовність для автoregresивного навчання, тим самим дзеркально відображаючи послідовний процес моделювання мови.

Однак, дослідники ще не дослідили закони масштабування цих моделей, і що ще більше розчаровує, це те, що продуктивність цих моделей часто відстає від дифузійних моделей на значну відстань, як це демонструється на наступному зображенні. Пропуск у продуктивності вказує на те, що порівняно з великими мовними моделями, можливості автoregresивних моделей у комп’ютерному зорі недостатньо досліджені.

З одного боку, традиційні автoregresивні моделі вимагають визначеного порядку даних, тоді як з іншого боку, Візуальне Авторегресивне або VAR-модель переозначає, як замовити зображення, і це те, що відрізняє VAR від існуючих AR-методів. Зазвичай, люди створюють або сприймають зображення ієрархічним чином, захоплюючи глобальну структуру, а потім локальні деталі, багатошкалівий, грубий до тонкого підхід, який пропонує порядок для зображення природно. Крім того, черпаючи натхнення з багатошкалівих дизайнів, VAR-фреймворк визначає автoregresивне навчання для зображень як наступний масштаб прогнозування, на відміну від традиційних підходів, які визначають навчання як наступний токен прогнозування. Підхід, реалізований VAR-фреймворком, починається з кодування зображення у багатошкалічні токен-мапи. Потім фреймворк починає автoregresивний процес з 1×1 токен-мапи та розширюється в роздільній здатності поступово. На кожному етапі трансформер прогнозує наступну вищу роздільну здатність токен-мапу, умовно на всіх попередніх, методологію, яку VAR-фреймворк називає VAR-моделюванням.

VAR-фреймворк намагається використати архітектуру трансформера GPT-2 для візуального автoregresивного навчання, і результати очевидні на бенчмарку ImageNet, де VAR-модель суттєво покращує свою автoregresивну базову лінію, досягнувши FID 1,80, та інцепшн-скору 356, разом з 20-разовим покращенням швидкості висновку. Що ще цікавіше, VAR-фреймворк вдається перевершити продуктивність Дифузійного Трансформера або DiT-фреймворка у термінах FID та інцепшн-скору, масштабованість, швидкість висновку та ефективність даних. Крім того, Візуальна Авторегресивна модель демонструє сильні закони масштабування, подібні до тих, які спостерігаються у великих мовних моделях.

Підсумувавши, VAR-фреймворк намагається зробити наступні внески.

Він пропонує новий візуальний генеративний фреймворк, який використовує багатошкалічний автoregresивний підхід з наступним масштабом прогнозування, на відміну від традиційного наступного токену прогнозування, що призводить до розробки автoregresивного алгоритму для завдань комп’ютерного зору.
Він намагається перевірити закони масштабування для автoregresивних моделей разом з потенціалом нульового навчання узагальнюваність, який імітує привабливі властивості LLM.
Він пропонує прорив у продуктивності візуальних автoregresивних моделей, дозволяючи GPT-стиль автoregresивним фреймворкам вперше перевершити існуючі дифузійні моделі у завданнях синтезу зображень.

Крім того, також важливо обговорити існуючі потокові масштабування закони, які математично описують відносини між розмірами наборів даних, параметрами моделі, покращеннями продуктивності та обчислювальними ресурсами моделей машинного навчання. По-перше, ці потокові масштабування закони полегшують застосування продуктивності великої моделі шляхом масштабування моделі, обчислювальної вартості та розміру даних, що зберігає непотрібні витрати та розподіляє бюджет навчання, надаючи принципи. По-друге, закони масштабування продемонстрували постійне та ненасичене покращення продуктивності. Перейшовши до принципів законів масштабування у нейронних мовних моделях, кілька LLM ембедить принцип, що збільшення масштабу моделей призводить до покращення продуктивності. Нульове навчання узагальнюваність, з іншого боку, відноситься до здатності моделі, зокрема LLM, виконувати завдання, які вона не була навчена явно. У галузі комп’ютерного зору інтерес до побудови нульового навчання та контекстного навчання здатностей фондів моделей.

Мовні моделі залежать від алгоритмів WordPiece або підходу Byte Pair Encoding для токенізації тексту. Візуальні генеративні моделі, засновані на мовних моделях, також сильно залежать від кодування 2D-зображень у 1D-токен-послідовності. Ранні роботи, такі як VQVAE, продемонстрували здатність представляти зображення у вигляді дискретних токенів з помірною якістю реконструкції. Наступник VQVAE, фреймворк VQGAN, включив перцептивні та адверсивні втрати для покращення якості зображення, та також використовував декодер-тільки трансформер для генерації токенів зображення у стандартному порядку розгортання. Дифузійні моделі, з іншого боку, давно вважаються лідерами у візуальному синтезі завдань, наданими їх різноманітністю та вищою якістю генерації. Покращення дифузійних моделей було зосереджено навколо вдосконалення методів вибірки, архітектурних удосконалень та швидшої вибірки. Латентні дифузійні моделі застосовують дифузію у латентному просторі, що покращує ефективність навчання та висновку. Дифузійні Трансформер-моделі замінюють традиційну архітектуру U-Net на трансформер-основану архітектуру, та були розгорнуті у недавніх моделях синтезу зображень чи відео, таких як SORA та Stable Diffusion.

Візуальне Авторегресивне Моделювання: Методологія та Архітектура

У своєму ядрі VAR-фреймворк має два окремі етапи навчання. На першому етапі, багатошкалічний квантований автоенкодер або VQVAE кодує зображення у токен-мапи, та реалізує складну реконструкційну втрату для навчання. У вищезазначеному зображенні, ембеддинг – це слово, яке використовується для визначення перетворення дискретних токенів у безперервні ембеддинг-вектори. На другому етапі трансформер у VAR-моделі тренується шляхом мінімізації крос-ентропійної втрати або максимізації ймовірності за допомогою наступного масштабу прогнозування. Навчений VQVAE потім генерує токен-мапу ґраунд-труту для VAR-фреймворка.

Авторегресивне Моделювання за допомогою Наступного Токену Прогнозування

Для заданої послідовності дискретних токенів, де кожен токен є цілим числом з словника розміру V, наступний токен автoregresивної моделі припускає, що ймовірність спостереження поточного токену залежить тільки від його префіксу. Припускаючи уніді렉ціональну залежність токенів дозволяє VAR-фреймворку розбити шанси послідовності на добуток умовних ймовірностей. Навчання автoregresивної моделі полягає у оптимізації моделі над набором даних, та цей процес оптимізації відомий як наступне токену прогнозування, та дозволяє навченій моделі генерувати нові послідовності. Крім того, зображення – це 2D безперервні сигнали за спадщиною, та застосування автoregresивного моделювання до зображень за допомогою процесу наступного токену прогнозування має кілька передумов. По-перше, зображення потрібно токенізацію у декілька дискретних токенів. Зазвичай, квантований автоенкодер реалізується для перетворення карти особливостей зображення у дискретні токени. По-друге, 1D порядок токенів повинен бути визначений явно для унідірекціонального моделювання.

Токени зображення у дискретних токенах розташовані у 2D сітці, та на відміну від природних мовних речень, які мають внутрішній ліво-правий порядок, порядок токенів зображення повинен бути визначений явно для унідірекціонального автoregresивного навчання. Попередні автoregresивні підходи розплющували 2D сітку дискретних токенів у 1D-послідовність за допомогою методів, таких як рядковий головний розгортання, z-крива чи спіральний порядок. Як тільки дискретні токени були розплющені, AR-моделі витягували набір послідовностей з набору даних, та потім тренували автoregresивну модель для максимізації ймовірності у добуток T умовних ймовірностей за допомогою наступного токену прогнозування.

Візуальне Авторегресивне Моделювання за допомогою Наступного Масштабу Прогнозування

VAR-фреймворк переозначає автoregresивне моделювання на зображеннях шляхом переходу від наступного токену прогнозування до наступного масштабу прогнозування, процес, під час якого замість того, щоб бути одним токеном, автoregresивна одиниця є цілою токен-мапою. Модель спочатку квантує карту особливостей у багатошкалічні токен-мапи, кожна з вищою роздільною здатністю, ніж попередня, та завершується тим, що відповідає роздільній здатності оригінальної карти особливостей. Крім того, VAR-фреймворк розробляє новий багатошкалічний квантуючий кодувальник для кодування зображення у багатошкалічні дискретні токен-мапи, необхідні для VAR-навчання. VAR-фреймворк використовує ту ж архітектуру, що й VQGAN, але з модифікованим багатошкалічним квантуючим шаром, з алгоритмами, продемонстрованими у наступному зображенні.

Візуальне Авторегресивне Моделювання: Результати та Експерименти

VAR-фреймворк використовує ванільну архітектуру VQVAE з багатошкалічною квантуючою схемою з K додатковими конволюціями, та використовує спільний кодобук для всіх масштабів та латентного розміру 32. Основна увага зосереджена на VAR-алгоритмі, через який дизайн моделі залишається простим, але ефективним. Фреймворк采用є архітектуру стандартного декодер-тільки трансформера, подібного до тих, які реалізовані у моделях GPT-2, з єдиною модифікацією, яка полягає у заміні традиційної шарової нормалізації на адаптивну нормалізацію або AdaLN. Для клас-умовної синтезу VAR-фреймворк реалізує клас-ембеддинги як початковий токен, та також умову адаптивної нормалізації шару.

Результати Генерації Зображень Стану Мистецтва

Коли порівнюється з існуючими генеративними фреймворками, включаючи GAN або Генеративні Адверсивні Мережі, BERT-стиль маскованого прогнозування моделей, дифузійні моделі та GPT-стиль автoregresивні моделі, Візуальний Авторегресивний фреймворк демонструє перспективні результати, підсумовані у наступній таблиці.

Як можна побачити, Візуальний Авторегресивний фреймворк не тільки能够 найкраще FID та інцепшн-скори, але також демонструє вражаючу швидкість генерації зображень, порівнянну зі станом мистецтва моделей. Крім того, VAR-фреймворк також демонструє задовільну точність та відозву, що підтверджує його семантичну узгодженість. Але справжнє сюрприз полягає у вражаючій продуктивності, продемонстрований VAR-фреймворком на традиційних автoregresивних можливостях завдань, роблячи його першою автoregresивною моделлю, яка перевершує Дифузійний Трансформер-модель, як це продемонстровано у наступній таблиці.

Результати Нульового Навчання Узагальнюваність

Для завдань в- та out-пейнтінгу VAR-фреймворк примусово вводить ґраунд-труту токени зовні маски, та дозволяє моделі генерувати тільки токени всередині маски, без жодної інформації про клас-лейбл, введеної у модель. Результати продемонстровані у наступному зображенні, та як можна побачити, VAR-модель досягає прийнятних результатів у завдань нижнього рівня без налаштування параметрів або модифікації мережевої архітектури, демонструючи узагальнюваність VAR-фреймворка.

Остаточні Думки

У цій статті ми говорили про новий візуальний генеративний фреймворк під назвою Візуальне Авторегресивне Моделювання (VAR), який 1) теоретично адресує деякі питання, властиві стандартним зображенням автoregresивних моделей, та 2) робить мовні моделі на основі AR першою, яка перевершує сильні дифузійні моделі у термінах якості зображення, різноманітності, ефективності даних та швидкості висновку. З одного боку, традиційні автoregresивні моделі вимагають визначеного порядку даних, тоді як з іншого боку, Візуальне Авторегресивне або VAR-модель переозначає, як замовити зображення, і це те, що відрізняє VAR від існуючих AR-методів. При масштабуванні VAR до 2 мільярдів параметрів розробники VAR-фреймворка спостерігали чітку потокову залежність між тестовою продуктивністю та модельними параметрами або обчислювальними витратами, з коефіцієнтами Пірсона, що наближаються до −0,998, вказуючи на надійний фреймворк для прогнозування продуктивності. Ці закони масштабування та можливість нульового навчання узагальнюваність, як відмітні ознаки LLM, тепер були вперше підтверджені у наших VAR-трансформер моделях.

Kunal Kejriwal

Інженер за професією, письменник серцем. Kunal є технічним письменником з глибокою любов'ю та розумінням AI і ML, присвяченим спрощенню складних концепцій у цих галузях завдяки його цікавим та інформативним документам.