Искусственный интеллект
Визуальная Авторегрессивная Модель: Масштабируемая Генерация Изображений посредством Предсказания Следующего Масштаба
Появление моделей GPT, а также других авторегрессивных или AR крупномасштабных языковых моделей, открыло новую эпоху в области машинного обучения и искусственного интеллекта. GPT и авторегрессивные модели часто демонстрируют общую интеллект и универсальность, которые считаются значительным шагом к общему искусственному интеллекту или AGI, несмотря на наличие некоторых проблем, таких как галлюцинации. Однако, загадочная проблема с этими крупномасштабными моделями заключается в стратегии самообучения, которая позволяет модели предсказывать следующий токен в последовательности, простая, но эффективная стратегия. Недавние работы продемонстрировали успех этих крупномасштабных авторегрессивных моделей, подчеркивая их обобщаемость и масштабируемость. Масштабируемость является типичным примером существующих законов масштабирования, которые позволяют исследователям предсказывать производительность крупномасштабной модели на основе производительности меньших моделей, что приводит к более эффективному распределению ресурсов. С другой стороны, обобщаемость часто подтверждается стратегиями обучения, такими как нулевое, однообразное и малообразное обучение, подчеркивая способность не наблюдаемых, но обученных моделей адаптироваться к различным и незнакомым задачам. Вместе обобщаемость и масштабируемость раскрывают потенциал авторегрессивных моделей для обучения на огромном количестве не размеченных данных.
Развивая эту идею, в этой статье мы будем говорить о Визуальной Авторегрессивной или VAR-рамке, новом поколении шаблонов, которые переопределяют авторегрессивное обучение на изображениях как грубое к тонкому «предсказание следующего масштаба» или «предсказание следующего разрешения». Хотя простая, подход эффективен и позволяет авторегрессивным трансформерам лучше учиться визуальным распределениям, и улучшает обобщаемость. Кроме того, Визуальные Авторегрессивные модели позволяют GPT-стилю авторегрессивным моделям превзойти диффузионные трансферы в генерации изображений впервые. Эксперименты также указывают на то, что VAR-рамка значительно улучшает авторегрессивные базовые модели и превосходит рамку Диффузионного Трансформера или DiT в нескольких измерениях, включая эффективность данных, качество изображения, масштабируемость и скорость вывода. Кроме того, масштабирование Визуальных Авторегрессивных моделей демонстрирует законы масштабирования, подобные тем, которые наблюдаются у крупномасштабных языковых моделей, и также демонстрирует способность к нулевому шоту в задачах ниже, включая редактирование, заполнение и вырезание.
Эта статья направлена на то, чтобы покрыть VAR-рамку в глубину, и мы исследуем механизм, методологию, архитектуру рамки, а также ее сравнение с рамками, находящимися на уровне искусства. Мы также поговорим о том, как VAR-рамка демонстрирует два важных свойства LLM: Законы Масштабирования и нулевое обобщение. Итак, давайте начнем.
Визуальная Авторегрессивная Модель: Масштабируемая Генерация Изображений
Общий шаблон среди недавних крупномасштабных языковых моделей заключается в реализации стратегии самообучения, простой, но эффективной подход, который предсказывает следующий токен в последовательности. Благодаря этому подходу, авторегрессивные и крупномасштабные языковые модели сегодня продемонстрировали замечательную масштабируемость, а также обобщаемость, свойства, которые раскрывают потенциал авторегрессивных моделей для обучения на огромном количестве не размеченных данных, таким образом, суммируя суть Общего Искусственного Интеллекта. Кроме того, исследователи в области компьютерного зрения параллельно работают над разработкой крупномасштабных авторегрессивных или мировых моделей с целью соответствовать или превзойти их впечатляющую масштабируемость и обобщаемость, с моделями, такими как DALL-E и VQGAN, которые уже продемонстрировали потенциал авторегрессивных моделей в области генерации изображений. Эти модели часто реализуют визуальный токенизатор, который представляет или приближает непрерывные изображения к сетке 2D-токенов, которые затем уплощаются в 1D-последовательность для авторегрессивного обучения, таким образом, отражая последовательный процесс моделирования языка.

Однако исследователи еще не исследовали законы масштабирования этих моделей, и что еще более раздражает, так это то, что производительность этих моделей часто отстает от диффузионных моделей на значительный отрыв, как это продемонстрировано на следующем изображении. Разрыв в производительности указывает на то, что по сравнению с крупномасштабными языковыми моделями, возможности авторегрессивных моделей в компьютерном зрения недостаточно исследованы.

С одной стороны, традиционные авторегрессивные модели требуют определенного порядка данных, тогда как с другой стороны, Визуальная Авторегрессивная или VAR-модель пересматривает, как упорядочить изображение, и это то, что отличает VAR от существующих AR-методов. Обычно люди создают или воспринимают изображение иерархическим образом, захватывая глобальную структуру, за которой следуют локальные детали, многоуровневый, грубый к тонкому подход, который предполагает порядок для изображения естественным образом. Кроме того, черпая вдохновение из многоуровневых конструкций, VAR-рамка определяет авторегрессивное обучение для изображений как предсказание следующего масштаба, а не как традиционный подход, определяющий обучение как предсказание следующего токена. Подход, реализованный VAR-рамкой, начинается с кодирования изображения в многоуровневые токен-карты. Затем рамка начинает авторегрессивный процесс с 1×1 токен-карты и расширяется в разрешении прогрессивно. На каждом шаге трансформер предсказывает следующую токен-карту более высокого разрешения, условленную на всех предыдущих, методологию, которую VAR-рамка называет VAR-моделированием.
VAR-рамка пытается использовать архитектуру трансформера GPT-2 для визуального авторегрессивного обучения, и результаты очевидны на бенчмарке ImageNet, где VAR-модель значительно улучшает свою AR-основу, достигая FID 1,80 и балла начала 356, а также 20-кратного улучшения скорости вывода. Что еще более интересно, так это то, что VAR-рамка manages превзойти производительность рамки Диффузионного Трансформера или DiT в плане FID- и IS-оценок, масштабируемости, скорости вывода и эффективности данных. Кроме того, Визуальная Авторегрессивная модель демонстрирует сильные законы масштабирования, подобные тем, которые наблюдаются у крупномасштабных языковых моделей.
Вкратце, VAR-рамка пытается сделать следующие вклады.
- Она предлагает новый визуальный генеративный каркас, который использует многоуровневый авторегрессивный подход с предсказанием следующего масштаба, а не традиционное предсказание следующего токена, что приводит к проектированию авторегрессивного алгоритма для задач компьютерного зрения.
- Она пытается проверить законы масштабирования для авторегрессивных моделей, а также потенциал нулевого шота, который имитирует привлекательные свойства LLM.
- Она предлагает прорыв в производительности визуальных авторегрессивных моделей, позволяя GPT-стилю авторегрессивным каркасам превзойти существующие диффузионные модели в задачах синтеза изображений впервые.
Кроме того, также важно обсудить существующие законы масштабирования, которые математически описывают связь между размерами наборов данных, параметрами моделей, улучшениями производительности и вычислительными ресурсами моделей машинного обучения. Сначала эти законы масштабирования облегчают применение производительности более крупной модели путем масштабирования размера модели, вычислительной стоимости и размера данных, что экономит ненужные затраты и распределяет бюджет обучения, предоставляя принципы. Во-вторых, законы масштабирования продемонстрировали последовательное и не насыщающее увеличение производительности. Переходя вперед с принципами законов масштабирования в нейронных языковых моделях, несколько LLM реализуют принцип, что увеличение масштаба моделей приводит к улучшению результатов производительности. Нулевое обобщение, с другой стороны, относится к способности модели, в частности LLM, выполнять задачи, на которых она не была явно обучена. В области компьютерного зрения интерес к построению нулевого шота и возможностей обучения в контексте фундаментальных моделей.
Языковые модели полагаются на алгоритмы WordPiece или подход Byte Pair Encoding для токенизации текста. Визуальные генеративные модели, основанные на языковых моделях, также сильно полагаются на кодирование 2D-изображений в 1D-токен-последовательности. Ранние работы, такие как VQVAE, продемонстрировали способность представлять изображения в виде дискретных токенов с умеренным качеством реконструкции. Преемник VQVAE, каркас VQGAN, включил перцептивные и адверсивные потери, чтобы улучшить качество изображения, и также использовал декодер-только трансформер для генерации токенов изображений в стандартном растровом сканирующем авторегрессивном порядке. Диффузионные модели, с другой стороны, долгое время считались лидерами в визуальном синтезе, благодаря их разнообразию и превосходному качеству генерации. Улучшение диффузионных моделей было сосредоточено на улучшении методов выборки, архитектурных улучшениях и более быстрой выборке. Латентные диффузионные модели применяют диффузию в латентном пространстве, что улучшает эффективность обучения и вывода. Диффузионные Трансформер-модели заменяют традиционную архитектуру U-Net на трансформер-основанную архитектуру, и она была развернута в недавних моделях синтеза изображений или видео, таких как SORA и Stable Diffusion.
Визуальная Авторегрессивная Модель: Методология и Архитектура

В своей основе VAR-рамка имеет две отдельные стадии обучения. На первой стадии многоуровневый квантовый автоэнкодер или VQVAE кодирует изображение в токен-карты, и сложная реконструктивная потеря реализуется для обучения. В вышеуказанном изображении термин «встраивание» используется для определения преобразования дискретных токенов в непрерывные векторы встраивания. На второй стадии трансформер в VAR-модели обучается либо путем минимизации перекрестной энтропийной потери, либо путем максимизации вероятности с помощью подхода предсказания следующего масштаба. Обученный VQVAE затем производит токен-карту базовой правды для VAR-рамки.
Авторегрессивное Моделирование посредством Предсказания Следующего Токена
Для данной последовательности дискретных токенов, где каждый токен является целым числом из словаря размера V, авторегрессивная модель следующего токена предполагает, что вероятность наблюдения текущего токена зависит только от его префикса. Предполагая унидирекциональную зависимость токенов позволяет VAR-рамке разложить вероятность последовательности на произведение условных вероятностей. Обучение авторегрессивной модели включает оптимизацию модели на наборе данных, и этот процесс оптимизации известен как предсказание следующего токена, и позволяет обученной модели генерировать новые последовательности. Кроме того, изображения являются 2D-непрерывными сигналами по наследству, и применение авторегрессивного моделирования к изображениям посредством процесса предсказания следующего токена имеет несколько предпосылок. Во-первых, изображение должно быть токенизировано в несколько дискретных токенов. Обычно квантовый автоэнкодер реализуется для преобразования карты особенностей изображения в дискретные токены. Во-вторых, 1D-порядок токенов должен быть определен для унидирекционального моделирования.
Токены изображений в дискретных токенах расположены в 2D-сетке, и в отличие от естественных языковых предложений, которые несут в себе встроенный порядок слева направо, порядок токенов изображений должен быть явно определен для унидирекционального авторегрессивного обучения. Предыдущие авторегрессивные подходы уплощали 2D-сетку дискретных токенов в 1D-последовательность с помощью методов, таких как сканирование по рядам, z-курва или спиральный порядок. Как только дискретные токены были уплощены, AR-модели извлекали набор последовательностей из набора данных, а затем обучали авторегрессивную модель для максимизации вероятности в произведение T условных вероятностей с помощью предсказания следующего токена.
Визуальное Авторегрессивное Моделирование посредством Предсказания Следующего Масштаба
VAR-рамка переосмысливает авторегрессивное моделирование на изображениях, переходя от предсказания следующего токена к подходу предсказания следующего масштаба, при котором вместо одного токена авторегрессивная единица является всей токен-картой. Модель сначала квантует карту особенностей в многоуровневые токен-карты, каждая из которых имеет более высокое разрешение, чем предыдущая, и завершается совпадением с разрешением исходной карты особенностей. Кроме того, VAR-рамка разрабатывает новый многоуровневый квантовый кодировщик для кодирования изображения в многоуровневые дискретные токен-карты, необходимые для обучения VAR. VAR-рамка использует ту же архитектуру, что и VQGAN, но с модифицированным многоуровневым квантовым слоем, с алгоритмами, продемонстрированными на следующем изображении.

Визуальная Авторегрессивная Модель: Результаты и Эксперименты
VAR-рамка использует архитектуру VQVAE с многоуровневой квантовой схемой с K дополнительными свертками и использует общий кодовый книгу для всех масштабов и латентного размера 32. Основное внимание уделяется алгоритму VAR, благодаря которому проектирование модели архитектуры остается простым, но эффективным. Рамка принимает архитектуру стандартного декодер-только трансформера, подобного тем, которые реализованы в моделях GPT-2, с единственной модификацией, заключающейся в замене традиционной нормализации слоя на адаптивную нормализацию или AdaLN. Для условной синтеза VAR-рамка реализует классовые встраивания в качестве начального токена, а также условие адаптивной нормализации слоя.
Результаты Генерации Изображений на Уровне Искусства
Когда сравнивается с существующими генеративными рамками, включая GAN или Генеративные Сопернические Сети, модели предсказания маски BERT-стиля, диффузионные модели и GPT-стиль авторегрессивные модели, Визуальная Авторегрессивная рамка показывает перспективные результаты, суммированные в следующей таблице.

Как можно наблюдать, Визуальная Авторегрессивная рамка не только способна превзойти FID- и IS-оценки, но также демонстрирует замечательную скорость генерации изображений, сопоставимую с моделями на уровне искусства. Кроме того, VAR-рамка также поддерживает удовлетворительную точность и полноту, что подтверждает ее семантическую последовательность. Но настоящий сюрприз заключается в замечательной производительности, продемонстрированной VAR-рамкой на традиционных AR-возможностях, что делает ее первой авторегрессивной моделью, превзошедшей модель Диффузионного Трансформера, как продемонстрировано в следующей таблице.

Результаты Обобщения Задач Нулевого Шота
Для задач в- и вне-пainting VAR-рамка принудительно заставляет токены базовой правды вне маски, и позволяет модели генерировать только токены внутри маски, без внедрения информации классового ярлыка в модель. Результаты продемонстрированы на следующем изображении, и как можно видеть, VAR-модель достигает приемлемых результатов на задачах ниже без настройки параметров или изменения архитектуры сети, демонстрируя обобщаемость VAR-рамки.

Окончательные Мысли
В этой статье мы говорили о новом визуальном генеративном каркасе, названном Визуальной Авторегрессивной моделью (VAR), который 1) теоретически решает некоторые проблемы, присущие стандартным изображениям AR-моделей, и 2) делает языково-основанные AR-модели первыми, превзошедшими сильные диффузионные модели в плане качества изображения, разнообразия, эффективности данных и скорости вывода. С одной стороны, традиционные авторегрессивные модели требуют определенного порядка данных, тогда как с другой стороны, Визуальная Авторегрессивная или VAR-модель пересматривает, как упорядочить изображение, и это то, что отличает VAR от существующих AR-методов. При масштабировании VAR до 2 миллиардов параметров разработчики VAR-рамки наблюдали четкую силу-масштабную связь между тестовой производительностью и параметрами модели или вычислительными затратами, с коэффициентами Пирсона, приближающимися к −0,998, что указывает на прочную основу для прогнозирования производительности. Эти законы масштабирования и возможность нулевого шота, как знаки LLM, теперь были первоначально проверены в наших VAR-трансформер-моделях.












