заглушки Визуальное авторегрессионное моделирование: создание масштабируемых изображений посредством прогнозирования следующего масштаба - Unite.AI
Свяжитесь с нами:

Artificial Intelligence

Визуальное авторегрессионное моделирование: создание масштабируемых изображений посредством прогнозирования следующего масштаба

mm

опубликованный

 on

Визуальное авторегрессионное моделирование: создание масштабируемых изображений посредством прогнозирования следующего масштаба

Появление моделей GPT, а также других моделей авторегрессии или больших языков AR открыло новую эпоху в области машинного обучения и искусственного интеллекта. GPT и авторегрессионные модели часто демонстрируют общий интеллект и универсальность, что считается важным шагом на пути к общему искусственному интеллекту или AGI, несмотря на некоторые проблемы, такие как галлюцинации. Однако загадочной проблемой этих больших моделей является стратегия самоконтролируемого обучения, которая позволяет модели предсказывать следующий токен в последовательности — простая, но эффективная стратегия. Недавние работы продемонстрировали успех этих крупных моделей авторегрессии, подчеркнув их обобщаемость и масштабируемость. Масштабируемость — типичный пример существующих законов масштабирования, который позволяет исследователям прогнозировать производительность большой модели на основе производительности меньших моделей, что приводит к лучшему распределению ресурсов. С другой стороны, о возможности обобщения часто свидетельствуют такие стратегии обучения, как обучение с нулевым, однократным и малократным обучением, подчеркивающие способность неконтролируемых, но обученных моделей адаптироваться к разнообразным и невидимым задачам. Вместе обобщаемость и масштабируемость раскрывают потенциал авторегрессионных моделей для обучения на огромном объеме неразмеченных данных. 

Опираясь на то же самое, в этой статье мы будем говорить о визуальной авторегрессии или структуре VAR, шаблоне нового поколения, который переопределяет авторегрессионное обучение изображений как «прогнозирование следующего разрешения» или «прогнозирование следующего масштаба» от грубого к точному. . Несмотря на простоту, этот подход эффективен и позволяет авторегрессионным преобразователям лучше изучать визуальные распределения и расширять возможности обобщения. Кроме того, модели Visual AutoRegressive позволяют моделям авторегрессии в стиле GPT впервые превзойти диффузионный перенос при создании изображений. Эксперименты также показывают, что платформа VAR значительно улучшает базовые показатели авторегрессии и превосходит структуру Diffusion Transformer или DiT по многим параметрам, включая эффективность данных, качество изображения, масштабируемость и скорость вывода. Кроме того, масштабирование моделей визуальной авторегрессии демонстрирует степенные законы масштабирования, аналогичные тем, которые наблюдаются в больших языковых моделях, а также демонстрирует возможность нулевого обобщения в последующих задачах, включая редактирование, прорисовку и отрисовку. 

Целью этой статьи является более глубокое освещение фреймворка Visual AutoRegressive, и мы исследуем механизм, методологию, архитектуру фреймворка, а также его сравнение с современными фреймворками. Мы также поговорим о том, как среда визуальной авторегрессии демонстрирует два важных свойства LLM: законы масштабирования и обобщение с нулевым выстрелом. Итак, давайте начнем.

Визуальное авторегрессионное моделирование: масштабирование генерации изображений

Распространенной закономерностью среди последних моделей больших языков является реализация стратегии самоконтролируемого обучения — простого, но эффективного подхода, который прогнозирует следующий токен в последовательности. Благодаря этому подходу авторегрессионные и большие языковые модели сегодня продемонстрировали замечательную масштабируемость, а также обобщаемость, свойства, которые раскрывают потенциал авторегрессионных моделей для обучения на большом пуле немаркированных данных, тем самым обобщая суть общего искусственного интеллекта. Кроме того, исследователи в области компьютерного зрения параллельно работают над разработкой крупных авторегрессионных моделей или моделей мира с целью соответствовать или превосходить их впечатляющую масштабируемость и обобщаемость, причем такие модели, как DALL-E и VQGAN, уже демонстрируют потенциал авторегрессионных моделей в этой области. генерации изображения. Эти модели часто реализуют визуальный токенизатор, который представляет или аппроксимирует непрерывные изображения в сетку 2D-токенов, которые затем сводятся в 1D-последовательность для авторегрессионного обучения, тем самым отражая процесс последовательного языкового моделирования. 

Однако исследователям еще предстоит изучить законы масштабирования этих моделей, и что еще больше разочаровывает тот факт, что производительность этих моделей часто значительно отстает от диффузионных моделей, как показано на следующем изображении. Разрыв в производительности указывает на то, что по сравнению с большими языковыми моделями возможности авторегрессионных моделей в компьютерном зрении недостаточно изучены. 

С одной стороны, традиционные модели авторегрессии требуют определенного порядка данных, тогда как, с другой стороны, модель Visual AutoRegressive или VAR пересматривает порядок упорядочивания изображения, и это то, что отличает VAR от существующих методов AR. Обычно люди создают или воспринимают изображение иерархически, фиксируя глобальную структуру, за которой следуют локальные детали, - многомасштабный подход от грубого к мелкому, который естественным образом предполагает порядок изображения. Кроме того, черпая вдохновение из многомасштабных проектов, структура VAR определяет авторегрессионное обучение для изображений как прогнозирование следующего масштаба, в отличие от традиционных подходов, которые определяют обучение как прогнозирование следующего токена. Подход, реализуемый инфраструктурой VAR, основан на кодировании изображения в многомасштабные карты токенов. Затем фреймворк запускает авторегрессионный процесс с карты токенов 1×1 и постепенно расширяет разрешение. На каждом этапе преобразователь прогнозирует следующую карту токенов с более высоким разрешением, обусловленную всеми предыдущими, - методология, которую среда VAR называет VAR-моделированием. 

Платформа VAR пытается использовать архитектуру преобразователя GPT-2 для визуального авторегрессионного обучения, и результаты очевидны в тесте ImageNet, где модель VAR значительно улучшает базовый уровень AR, достигая FID 1.80 и начального балла 356. с 20-кратным улучшением скорости вывода. Что еще более интересно, платформе VAR удается превзойти производительность платформы DiT или Diffusion Transformer с точки зрения показателей FID и IS, масштабируемости, скорости вывода и эффективности данных. Более того, модель визуальной авторегрессии демонстрирует строгие законы масштабирования, аналогичные тем, которые наблюдаются в моделях больших языков. 

Подводя итог, можно сказать, что структура VAR пытается внести следующий вклад. 

  1. Он предлагает новую визуальную генеративную структуру, которая использует многомасштабный авторегрессионный подход с прогнозированием следующего масштаба, в отличие от традиционного прогнозирования следующего токена, что приводит к разработке алгоритма авторегрессии для задач компьютерного зрения. 
  2. Он пытается проверить законы масштабирования для авторегрессионных моделей, а также потенциал обобщения с нулевым выстрелом, который имитирует привлекательные свойства LLM. 
  3. Он предлагает прорыв в производительности моделей визуальной авторегрессии, позволяя фреймворкам авторегрессии в стиле GPT превзойти существующие диффузионные модели впервые в задачах синтеза изображений. 

Кроме того, также важно обсудить существующие степенные законы масштабирования, которые математически описывают взаимосвязь между размерами наборов данных, параметрами модели, повышением производительности и вычислительными ресурсами моделей машинного обучения. Во-первых, эти степенные законы масштабирования облегчают применение производительности более крупной модели за счет увеличения размера модели, вычислительных затрат и размера данных, экономя ненужные затраты и распределяя бюджет обучения, предоставляя принципы. Во-вторых, законы масштабирования продемонстрировали последовательное и ненасыщающее увеличение производительности. Развивая принципы масштабирования в моделях нейронного языка, некоторые программы LLM воплощают в себе принцип, согласно которому увеличение масштаба моделей приводит к повышению производительности. С другой стороны, обобщение с нулевым выстрелом относится к способности модели, особенно LLM, выполнять задачи, которым она не была обучена явно. В области компьютерного зрения — интерес к созданию возможностей начального и контекстного обучения базовых моделей. 

Языковые модели основаны на алгоритмах WordPiece или подходе кодирования пар байтов для токенизации текста. Модели визуальной генерации, основанные на языковых моделях, также в значительной степени полагаются на кодирование 2D-изображений в последовательности 1D-токенов. Ранние работы, такие как VQVAE, продемонстрировали способность представлять изображения в виде дискретных токенов с умеренным качеством реконструкции. Преемник VQVAE, структура VQGAN включала перцепционные и состязательные потери для повышения точности изображения, а также использовала преобразователь только для декодера для генерации токенов изображения стандартным авторегрессионным способом растрового сканирования. С другой стороны, диффузионные модели уже давно считаются лидерами в решении задач визуального синтеза благодаря их разнообразию и превосходному качеству генерации. Развитие диффузионных моделей было сосредоточено на совершенствовании методов выборки, усовершенствовании архитектуры и ускорении выборки. Модели скрытой диффузии применяют диффузию в скрытом пространстве, что повышает эффективность обучения и качество вывода. Модели диффузионного трансформатора заменяют традиционную архитектуру U-Net архитектурой на основе трансформатора, и она была развернута в последних моделях синтеза изображений или видео, таких как SORA, и Стабильная диффузия

Визуальная авторегрессия: методология и архитектура

По своей сути система VAR имеет два отдельных этапа обучения. На первом этапе многомасштабный квантованный автоэнкодер или VQVAE кодирует изображение в карты токенов, а потери составной реконструкции реализуются в учебных целях. На приведенном выше рисунке встраивание — это слово, используемое для определения преобразования дискретных токенов в непрерывные векторы внедрения. На втором этапе преобразователь в модели VAR обучается либо минимизируя потери перекрестной энтропии, либо максимизируя вероятность с использованием подхода прогнозирования следующего масштаба. Затем обученный VQVAE создает основную информацию о карте токенов для платформы VAR. 

Авторегрессионное моделирование посредством прогнозирования следующего токена

Для заданной последовательности дискретных токенов, где каждый токен представляет собой целое число из словаря размера V, авторегрессионная модель следующего токена предполагает, что вероятность наблюдения текущего токена зависит только от его префикса. Предположение об однонаправленной зависимости токенов позволяет платформе VAR разлагать шансы последовательности на произведение условных вероятностей. Обучение модели авторегрессии включает в себя оптимизацию модели по набору данных, и этот процесс оптимизации известен как предсказание следующего токенаи позволяет обученной модели генерировать новые последовательности. Кроме того, изображения представляют собой непрерывные двумерные сигналы по наследству, и для применения подхода авторегрессионного моделирования к изображениям посредством процесса оптимизации прогнозирования следующего токена необходимо выполнить несколько предварительных условий. Во-первых, изображение необходимо разбить на несколько отдельных токенов. Обычно для преобразования карты признаков изображения в дискретные токены реализуется квантованный автоэнкодер. Во-вторых, для однонаправленного моделирования необходимо определить одномерный порядок токенов. 

Токены изображений в дискретных токенах расположены в двумерной сетке, и в отличие от предложений естественного языка, которые по своей сути имеют порядок слева направо, порядок токенов изображений должен быть определен явно для однонаправленного авторегрессионного обучения. Предыдущие авторегрессионные подходы сводили двумерную сетку дискретных токенов в одномерную последовательность с использованием таких методов, как растровое сканирование по строкам, z-кривая или спиральный порядок. После того, как дискретные токены были сглажены, модели AR извлекли набор последовательностей из набора данных, а затем обучили авторегрессионную модель, чтобы максимизировать правдоподобие в произведении T условных вероятностей с использованием прогнозирования следующего токена. 

Визуально-авторегрессивное моделирование посредством прогнозирования следующего масштаба

Платформа VAR переосмысливает авторегрессионное моделирование на изображениях, переходя от прогнозирования следующего токена к подходу прогнозирования следующего масштаба, процесс, при котором авторегрессионная единица представляет собой не один токен, а целую карту токенов. Модель сначала квантует карту объектов в многомасштабные карты токенов, каждая из которых имеет более высокое разрешение, чем предыдущая, и завершается сопоставлением разрешения исходных карт объектов. Кроме того, платформа VAR разрабатывает новый многомасштабный кодер квантования для кодирования изображения в многомасштабные дискретные карты токенов, необходимые для обучения VAR. Платформа VAR использует ту же архитектуру, что и VQGAN, но с модифицированным многомасштабным слоем квантования, а алгоритмы показаны на следующем изображении. 

Визуальная авторегрессия: результаты и эксперименты

Платформа VAR использует стандартную архитектуру VQVAE с многомасштабной схемой квантования с дополнительной сверткой K, а также использует общую кодовую книгу для всех масштабов и скрытую регулировку 32. Основное внимание уделяется алгоритму VAR, благодаря которому проектируется архитектура модели. остается простым, но эффективным. Платформа использует архитектуру стандартного преобразователя только для декодера, аналогичного тем, которые реализованы в моделях GPT-2, с единственной модификацией, заключающейся в замене традиционной нормализации уровня на адаптивную нормализацию или AdaLN. Для условного синтеза классов платформа VAR реализует встраивания классов в качестве стартового токена, а также условие уровня адаптивной нормализации. 

Современные результаты создания изображений

В сочетании с существующими генеративными платформами, включая GAN или генеративно-состязательные сети, модели маскированного прогнозирования в стиле BERT, модели диффузии и модели авторегрессии в стиле GPT, среда Visual AutoRegressive показывает многообещающие результаты, обобщенные в следующей таблице. 

Как можно заметить, среда Visual AutoRegressive не только способна превосходить показатели FID и IS, но также демонстрирует замечательную скорость генерации изображений, сравнимую с современными моделями. Кроме того, структура VAR также поддерживает удовлетворительные показатели точности и полноты, что подтверждает ее семантическую последовательность. Но настоящим сюрпризом является замечательная производительность, обеспечиваемая инфраструктурой VAR при решении традиционных задач AR, что делает ее первой авторегрессионной моделью, превзошедшей по производительности модель диффузионного трансформатора, как показано в следующей таблице. 

Результат обобщения задачи с нулевым выстрелом

Для задач ввода и вывода учитель инфраструктуры VAR принудительно выводит токены основной истины за пределы маски и позволяет модели генерировать только токены внутри маски, без введения в модель информации о метке класса. Результаты продемонстрированы на следующем изображении, и, как видно, модель VAR достигает приемлемых результатов для последующих задач без настройки параметров или изменения сетевой архитектуры, демонстрируя обобщаемость структуры VAR. 

Заключение

В этой статье мы говорили о новой визуальной генеративной структуре под названием Visual AutoRegressive Modeling (VAR), которая 1) теоретически решает некоторые проблемы, присущие стандартным моделям авторегрессии изображений (AR), и 2) делает модели AR на основе языковых моделей впервые превосходящими модели сильной диффузии с точки зрения качества изображения, разнообразия, эффективности данных и скорости вывода. С одной стороны, традиционные модели авторегрессии требуют определенного порядка данных, тогда как, с другой стороны, модель Visual AutoRegressive или VAR пересматривает порядок упорядочивания изображения, и это то, что отличает VAR от существующих методов AR. При масштабировании VAR до 2 миллиардов параметров разработчики системы VAR обнаружили четкую степенную зависимость между производительностью теста и параметрами модели или обучающими вычислениями, при этом коэффициенты Пирсона приближаются к -0.998, что указывает на надежную структуру для прогнозирования производительности. Эти законы масштабирования и возможность обобщения задач с нулевым выстрелом, являющиеся отличительными чертами LLM, теперь были первоначально проверены в наших моделях преобразователей VAR. 

«Инженер по профессии, писатель душой». Кунал — технический писатель с глубокой любовью и пониманием ИИ и машинного обучения, стремящийся упростить сложные концепции в этих областях с помощью своей увлекательной и информативной документации.