Штучний Інтелект

Візуальне авторегресійне моделювання: генерація масштабованих зображень за допомогою прогнозування наступного масштабу

опублікований

4 тижнів тому

Квітень 10, 2024

Візуальне авторегресійне моделювання: генерація масштабованих зображень за допомогою прогнозування наступного масштабу

Поява моделей GPT, а також інших авторегресійних або великих мовних моделей AR відкрила нову епоху в галузі машинного навчання та штучного інтелекту. GPT і авторегресійні моделі часто демонструють загальний інтелект і універсальність, які вважаються значним кроком до загального штучного інтелекту або AGI, незважаючи на деякі проблеми, як-от галюцинації. Однак загадковою проблемою цих великих моделей є стратегія самоконтрольованого навчання, яка дозволяє моделі передбачити наступний маркер у послідовності, проста, але ефективна стратегія. Останні роботи продемонстрували успіх цих великих авторегресійних моделей, підкресливши їх узагальненість і масштабованість. Масштабованість є типовим прикладом існуючих законів масштабування, які дозволяють дослідникам прогнозувати продуктивність великої моделі на основі продуктивності менших моделей, що призводить до кращого розподілу ресурсів. З іншого боку, можливість узагальнення часто підтверджується такими стратегіями навчання, як нульове, одномоментне та кількакратне навчання, що підкреслює здатність неконтрольованих, але навчених моделей адаптуватися до різноманітних і невидимих завдань. Разом узагальнюваність і масштабованість розкривають потенціал авторегресійних моделей для вивчення величезної кількості немаркованих даних.

Спираючись на те ж саме, у цій статті ми будемо говорити про Visual AutoRegressive або структуру VAR, шаблон нового покоління, який переосмислює авторегресійне навчання на зображеннях як «прогнозування наступної роздільної здатності» або «прогнозування наступного масштабу» від грубого до точного. . Незважаючи на те, що цей підхід простий, він ефективний і дозволяє авторегресійним трансформаторам краще вивчати візуальні розподіли та покращувати можливість узагальнення. Крім того, моделі візуальної авторегресії дозволяють авторегресійним моделям у стилі GPT вперше перевершити дифузійні передачі у створенні зображень. Експерименти також показують, що структура VAR значно покращує базові лінії авторегресії та перевершує структуру дифузійного трансформатора або DiT у багатьох вимірах, включаючи ефективність даних, якість зображення, масштабованість і швидкість висновку. Крім того, масштабування моделей Visual AutoRegressive демонструє закони степеневого масштабування, подібні до тих, що спостерігаються у великих мовних моделях, а також демонструє здатність до нульового узагальнення в подальших завданнях, включаючи редагування, малювання та малювання.

Ця стаття має на меті детально розглянути фреймворк Visual AutoRegressive, і ми досліджуємо механізм, методологію, архітектуру фреймворку разом із його порівнянням із сучасними фреймворками. Ми також поговоримо про те, як фреймворк Visual AutoRegressive демонструє дві важливі властивості LLM: закони масштабування та нульове узагальнення. Тож почнемо.

Візуальне авторегресивне моделювання: генерація масштабованого зображення

Загальною моделлю серед останніх великих мовних моделей є реалізація стратегії самоконтрольованого навчання, простий, але ефективний підхід, який передбачає наступну лексему в послідовності. Завдяки цьому підходу авторегресійні та великі мовні моделі сьогодні продемонстрували надзвичайну масштабованість, а також можливість узагальнення, властивості, які розкривають потенціал авторегресійних моделей для навчання з великого пулу немаркованих даних, таким чином підсумовуючи суть загального штучного інтелекту. Крім того, дослідники в області комп’ютерного зору паралельно працювали над розробкою великих авторегресійних або світових моделей з метою відповідати або перевершити їх вражаючу масштабованість і можливість узагальнення, причому такі моделі, як DALL-E і VQGAN, уже демонструють потенціал авторегресійних моделей у цій галузі. створення зображення. Ці моделі часто реалізують візуальний токенізатор, який представляє або апроксимує безперервні зображення в сітку 2D-токенів, які потім зводяться в одновимірну послідовність для авторегресійного навчання, таким чином віддзеркалюючи послідовний процес моделювання мови.

Однак дослідникам ще належить дослідити закони масштабування цих моделей, і що більш засмучує той факт, що продуктивність цих моделей часто значно відстає від дифузійних моделей, як показано на наступному зображенні. Розрив у продуктивності вказує на те, що порівняно з великими мовними моделями можливості авторегресійних моделей у комп’ютерному зорі недостатньо вивчені.

З одного боку, традиційні моделі авторегресії вимагають певного порядку даних, тоді як з іншого боку, візуальна авторегресія або модель VAR переглядають спосіб упорядкування зображення, і це те, що відрізняє VAR від існуючих методів AR. Як правило, люди створюють або сприймають зображення в ієрархічній манері, захоплюючи глобальну структуру, за якою слідують локальні деталі, багатомасштабний підхід від грубого до тонкого, який передбачає природний порядок для зображення. Крім того, черпаючи натхнення з багатомасштабних дизайнів, структура VAR визначає авторегресійне навчання для зображень як прогнозування наступного масштабу на відміну від традиційних підходів, які визначають навчання як прогнозування наступного маркера. Підхід, реалізований фреймворком VAR, розвивається шляхом кодування зображення в багатомасштабні карти токенів. Потім фреймворк починає процес авторегресії з карти токенів 1 × 1 і поступово розширює роздільну здатність. На кожному кроці трансформатор прогнозує наступну карту токенів з вищою роздільною здатністю на основі всіх попередніх, методологія, яку структура VAR називає моделюванням VAR.

Фреймворк VAR намагається використовувати трансформаторну архітектуру GPT-2 для візуального авторегресійного навчання, і результати очевидні в еталонному тесті ImageNet, де модель VAR значно покращує базову лінію AR, досягаючи FID 1.80 і початкової оцінки 356 із 20-кратним підвищенням швидкості висновку. Більш цікавим є те, що фреймворку VAR вдалося перевершити продуктивність фреймворку DiT або Diffusion Transformer з точки зору балів FID та IS, масштабованості, швидкості логічного висновку та ефективності даних. Крім того, модель Visual AutoRegressive демонструє сильні закони масштабування, подібні до тих, що спостерігаються у великих мовних моделях.

Підсумовуючи, структура VAR намагається зробити наступні внески.

Він пропонує нову візуальну генеративну структуру, яка використовує багатомасштабний авторегресійний підхід із прогнозуванням наступного масштабу, на відміну від традиційного прогнозування наступного маркера, що призводить до розробки авторегресійного алгоритму для завдань комп’ютерного зору.
Він намагається підтвердити закони масштабування для авторегресійних моделей разом із потенціалом нульового узагальнення, який емулює привабливі властивості LLM.
Він пропонує прорив у продуктивності візуальних авторегресійних моделей, дозволяючи системам авторегресії у стилі GPT перевершити існуючі дифузійні моделі у завданнях синтезу зображень вперше.

Крім того, життєво важливо обговорити існуючі степеневі закони масштабування, які математично описують зв’язок між розмірами набору даних, параметрами моделі, покращенням продуктивності та обчислювальними ресурсами моделей машинного навчання. По-перше, ці степеневі закони масштабування полегшують застосування більшої продуктивності моделі шляхом збільшення розміру моделі, обчислювальних витрат і розміру даних, заощаджуючи непотрібні витрати та розподіляючи бюджет навчання шляхом надання принципів. По-друге, закони масштабування продемонстрували послідовне та ненасичене підвищення продуктивності. Рухаючись вперед із застосуванням принципів законів масштабування в моделях нейронних мов, кілька LLM втілюють принцип, що збільшення масштабу моделей має тенденцію давати покращені результати продуктивності. З іншого боку, нульове узагальнення стосується здатності моделі, зокрема магістра права, яка виконує завдання, яким її не навчали явно. У сфері комп’ютерного бачення зацікавленість у побудові базових моделей у нульовому режимі та в контекстному навчанні.

Мовні моделі покладаються на алгоритми WordPiece або підхід кодування пари байтів для токенізації тексту. Моделі візуальної генерації, засновані на мовних моделях, також значною мірою покладаються на кодування 2D-зображень у послідовності 1D-токенів. Ранні роботи, такі як VQVAE, продемонстрували здатність представляти зображення як дискретні токени з помірною якістю реконструкції. Наступник VQVAE, фреймворк VQGAN включив перцептивні та протилежні втрати для покращення точності зображення, а також використовував трансформатор лише декодера для генерації маркерів зображення стандартним авторегресійним способом растрового сканування. З іншого боку, моделі розповсюдження протягом тривалого часу вважалися передовими для завдань візуального синтезу за умови їх різноманітності та кращої якості генерації. Удосконалення дифузійних моделей було зосереджено навколо вдосконалення методів вибірки, архітектурних удосконалень і швидшої вибірки. Моделі латентної дифузії застосовують дифузію в латентному просторі, що покращує ефективність навчання та логічний висновок. Моделі дифузійного трансформатора замінюють традиційну архітектуру U-Net на архітектуру на основі трансформатора, і вона була розгорнута в останніх моделях синтезу зображень або відео, таких як SORA та Стабільна дифузія.

Візуальна авторегресія: методологія та архітектура

У своїй основі структура VAR має два окремі етапи навчання. На першому етапі багатомасштабний квантований автокодер або VQVAE кодує зображення в карти маркерів, а втрата складної реконструкції реалізується з метою навчання. На наведеному вище малюнку вбудовування — це слово, яке використовується для визначення перетворення дискретних токенів у безперервні вектори вбудовування. На другому етапі трансформатор у моделі VAR навчається або шляхом мінімізації втрати перехресної ентропії, або шляхом максимізації ймовірності за допомогою підходу прогнозування наступного масштабу. Потім навчений VQVAE створює базову істину карти токенів для структури VAR.

Авторегресійне моделювання за допомогою прогнозування наступного маркера

Для даної послідовності окремих токенів, де кожен токен є цілим числом зі словника розміру V, авторегресійна модель наступного токена висуває, що ймовірність спостереження поточного токена залежить лише від його префікса. Припущення односпрямованої залежності маркера дозволяє структурі VAR розкласти шанси послідовності на добуток умовних ймовірностей. Навчання авторегресійної моделі передбачає оптимізацію моделі в наборі даних, і цей процес оптимізації відомий як передбачення наступного токенаі дозволяє навченій моделі генерувати нові послідовності. Крім того, зображення є двовимірними безперервними сигналами у спадок, і для застосування підходу авторегресійного моделювання до зображень за допомогою процесу оптимізації передбачення наступного маркера має кілька передумов. По-перше, зображення потрібно розділити на кілька окремих токенів. Зазвичай квантований автокодер реалізується для перетворення карти функцій зображення на дискретні токени. По-друге, одновимірний порядок токенів повинен бути визначений для односпрямованого моделювання.

Токени зображень у дискретних лексемах розташовано у двовимірній сітці, і на відміну від речень природної мови, які за своєю суттю мають порядок зліва направо, порядок лексем зображень має бути визначено явно для односпрямованого авторегресійного навчання. Попередні авторегресійні підходи зводили двовимірну сітку дискретних токенів у одновимірну послідовність за допомогою таких методів, як растрове сканування за великим рядком, z-крива або спіральний порядок. Після того, як дискретні маркери були зведені, моделі AR витягли набір послідовностей із набору даних, а потім навчили авторегресійну модель, щоб максимізувати ймовірність добутку T умовних ймовірностей за допомогою передбачення наступного маркера.

Візуальне авторегресивне моделювання за допомогою прогнозування наступного масштабу

Фреймворк VAR змінює концептуалізацію авторегресійного моделювання на зображеннях шляхом переходу від передбачення наступного маркера до підходу прогнозування наступного масштабу, процесу, за якого замість окремого маркера одиницею авторегресії є ціла карта маркерів. Модель спочатку квантує карту функцій у багатомасштабні карти маркерів, кожна з яких має вищу роздільну здатність, ніж попередня, і завершується зіставленням роздільної здатності вихідних карт функцій. Крім того, структура VAR розробляє новий багатомасштабний кодувальник квантування для кодування зображення в багатомасштабні карти дискретних токенів, необхідні для навчання VAR. Фреймворк VAR використовує ту саму архітектуру, що й VQGAN, але зі зміненим багатомасштабним рівнем квантування з алгоритмами, показаними на наступному зображенні.

Візуальна авторегресія: результати та експерименти

Структура VAR використовує унікальну архітектуру VQVAE з багатомасштабною схемою квантування з K додатковою згорткою та використовує спільну кодову книгу для всіх масштабів і прихований dim 32. Основна увага приділяється алгоритму VAR, завдяки якому проект архітектури моделі простий, але ефективний. Фреймворк приймає архітектуру стандартного трансформатора лише для декодера, подібного до тих, що реалізовані на моделях GPT-2, з єдиною модифікацією, яка полягає в заміні традиційної нормалізації рівня на адаптивну нормалізацію або AdaLN. Для умовного синтезу класу структура VAR реалізує вбудовані класи як початковий маркер, а також умову рівня адаптивної нормалізації.

Сучасні результати генерації зображень

У парі проти існуючих генеративних фреймворків включно GANs або Generative Adversarial Networks, масковані моделі прогнозування у стилі BERT, дифузійні моделі та авторегресійні моделі у стилі GPT, фреймворк Visual AutoRegressive показує багатообіцяючі результати, узагальнені в наведеній нижче таблиці.

Як можна помітити, фреймворк Visual AutoRegressive не тільки здатний отримати найкращі показники FID та IS, але також демонструє надзвичайну швидкість створення зображень, порівнянну з сучасними моделями. Крім того, структура VAR також підтримує задовільні показники точності та запам’ятовування, що підтверджує її семантичну послідовність. Але справжньою несподіванкою є надзвичайна продуктивність VAR-фреймворку в традиційних завданнях можливостей AR, що робить її першою авторегресійною моделлю, яка перевершила модель дифузійного трансформатора, як показано в наведеній нижче таблиці.

Результат узагальнення завдання Zero-Shot

Для завдань малювання всередині та з малювання вчитель фреймворку VAR змушує базові маркери істинності виводити за межі маски та дозволяє моделі генерувати лише маркери всередині маски, без введення інформації про мітки класу в модель. Результати продемонстровані на наступному зображенні, і, як видно, модель VAR досягає прийнятних результатів у подальших завданнях без налаштування параметрів або модифікації архітектури мережі, демонструючи можливість узагальнення структури VAR.

Заключні думки

У цій статті ми говорили про нову візуальну генеративну структуру під назвою Visual AutoRegressive Modeling (VAR), яка 1) теоретично вирішує деякі проблеми, притаманні стандартним моделям авторегресії зображень (AR), і 2) робить моделі AR на основі мовної моделі першими перевершити сильні моделі дифузії з точки зору якості зображення, різноманітності, ефективності даних і швидкості висновку. З одного боку, традиційні моделі авторегресії вимагають певного порядку даних, тоді як з іншого боку, візуальна авторегресія або модель VAR переглядають спосіб упорядкування зображення, і це те, що відрізняє VAR від існуючих методів AR. Збільшивши VAR до 2 мільярдів параметрів, розробники VAR-фреймворку спостерігали чіткий степеневий зв’язок між продуктивністю тесту та параметрами моделі або навчальними обчисленнями з коефіцієнтами Пірсона, що наближаються до −0.998, що вказує на надійну структуру для прогнозування продуктивності. Ці закони масштабування та можливість узагальнення завдання з нульовим ударом, як характерні риси LLM, тепер були спочатку перевірені в наших моделях трансформаторів VAR.

Вгору Далі

Meta представляє навчальний чіп ШІ нового покоління, який обіцяє більш високу продуктивність

Не пропустіть

Як AI покращує лояльність клієнтів

Кунал Кейрівал

«За фахом інженер, душею — письменник». Кунал є технічним письменником, який глибоко любить і розуміє штучний інтелект і машинне навчання, відданий справі спрощення складних концепцій у цих сферах за допомогою своєї цікавої та інформативної документації.