Искусственный интеллект
SHOW-O: Единый Трансформатор, объединяющий мультимодальное понимание и генерацию

Значительные достижения в больших языковых моделях (LLM) вдохновили на разработку больших многоканальных языковых моделей (MLLM). Ранние попытки MLLM, такие как LLaVA, MiniGPT-4 и InstructBLIP, демонстрируют заметные возможности многоканального понимания. Чтобы интегрировать LLM в многоканальные домены, эти исследования изучали проецирование признаков из предварительно обученного модально-специфического кодировщика, такого как CLIP, во входное пространство LLM, что обеспечивает многоканальное понимание и рассуждения в рамках трансформаторной магистрали. Хотя существуют различные варианты дизайна для MLLM, такие как видеокодеры, адаптеры выравнивания признаков и наборы данных, обучение большинства этих моделей придерживается парадигмы авторегрессионной генерации, которая доказала свою эффективность для генерации текста в LLM. Несмотря на их сильные возможности многоканального понимания, эти модели в первую очередь сосредоточены на визуальном восприятии и не способны генерировать многоканальные выходные данные за пределами текста.
Модели Transformer продемонстрировали большой успех в авторегрессионном моделировании в обработке естественного языка. Вдохновленные таким прогрессом, предыдущие исследования напрямую применяли то же самое авторегрессионное моделирование для изучения зависимости пикселей изображения для генерации изображений и видео. Например, VideoPoet использует архитектуру Transformer только с декодером для синтеза высококачественных видео из многомодальных входов. Совсем недавно LlamaGen показал, что большая архитектура языковой модели, такая как Llama, может авторегрессионно моделировать токены изображений, достигая достойной производительности в генерации изображений с условием класса.
В этой статье мы обсудим Show-O, унифицированный трансформатор, который интегрирует мультимодальное понимание и генерацию. В отличие от полностью авторегрессивных моделей, Show-O объединяет авторегрессивное и дискретное диффузионное моделирование для адаптивной обработки входов и выходов различных и смешанных модальностей. Унифицированная модель гибко поддерживает широкий спектр задач на языке зрения, включая визуальные ответы на вопросы, генерацию текста в изображение, текстовую зарисовку/экстраполяцию и генерацию смешанной модальности. В различных тестах Show-O демонстрирует сопоставимую или превосходящую производительность по сравнению с существующими отдельными моделями с эквивалентным или большим количеством параметров, подчеркивая ее потенциал как базовой модели следующего поколения.
В этой структуре модель призвана предсказывать гауссовский шум, добавленный к непрерывным скрытым представлениям. Напротив, другие модели, такие как D3PM, Mask-predict, ARDM и MaskGIT, используют дискретный процесс повреждения в качестве альтернативы гауссовой диффузии. В частности, изображение представляется как последовательность дискретных токенов с использованием токенизаторов изображений, причем каждый токен связан с категориальной меткой. Распределение по токенам преобразуется в равномерное распределение с помощью стохастического процесса выборки. Во время обучения часть этих токенов случайным образом маскируется, и модель обучается предсказывать исходные значения замаскированных токенов. В этой работе Show-O применяет дискретное диффузионное моделирование для визуальной генерации.
SHOW-O: Объединение мультимодального понимания и генерации
За последние несколько лет произошли значительные успехи в двух основных столпах мультимодального интеллекта: понимании и генерации. Для мультимодального понимания, Мультимодальные большие языковые модели (MLLM)) как LLaVA продемонстрировали исключительные возможности в задачах на языке зрения, таких как визуальный вопрос-ответ (VQA). Для визуальной генерации шумоподавляющие диффузионные вероятностные модели (DDPM) произвели революцию в традиционных генеративных парадигмах, достигнув беспрецедентной производительности в генерации текста в изображение/видео.
Учитывая эти достижения в отдельных областях, естественно исследовать потенциал их соединения. Недавние работы пытались собрать экспертные модели из этих двух различных областей, чтобы сформировать единую систему, которая может обрабатывать как мультимодальное понимание, так и генерацию. Однако существующие попытки часто включают отдельные модели для понимания и генерации. Например, NExT-GPT использует базовую языковую модель для мультимодального понимания, но требует дополнительной предварительно обученной модели диффузии для генерации изображений. Это поднимает вопрос: может ли один трансформатор обрабатывать как мультимодальное понимание, так и генерацию?
Недавно Chameleon продемонстрировал, что это возможно. В частности, Chameleon позволяет объединять различные модальности для генерации как текстовых, так и графических токенов посредством авторегрессионного моделирования. Хотя имеет смысл моделировать текстовые токены авторегрессионно, не совсем ясно, является ли моделирование фрагментов изображения или пикселей таким же образом оптимальным. Ключевым узким местом авторегрессионного прогнозирования изображения является большое количество требуемых шагов выборки, особенно при работе с изображениями с более высоким разрешением. Модели непрерывной диффузии показали превосходную производительность в визуальной генерации по сравнению с авторегрессионными.
Это подводит нас к исследованию того, может ли один трансформатор интегрировать как авторегрессионное, так и диффузионное моделирование. Show-O представляет новую парадигму, в которой текст представлен в виде дискретных токенов и моделируется авторегрессионно, в то время как непрерывные пиксели изображения моделируются с использованием шумоподавляющей диффузии. Однако интеграция этих двух различных методов в одну сеть нетривиальна из-за различий между дискретными текстовыми токенами и непрерывными представлениями изображений. Кроме того, диффузионные модели обычно опираются на две различные модели: текстовый кодер и шумоподавляющую сеть.
Чтобы решить эту проблему, Show-O представляет новую унифицированную модель, способную обрабатывать как мультимодальные задачи понимания, так и задачи генерации с использованием смешанного авторегрессионного и диффузионного моделирования. Show-O построен на предварительно обученном LLM и использует его возможности авторегрессионного моделирования для текстовых рассуждений. Вдохновленный другими работами, Show-O использует дискретную шумоподавляющую диффузию для моделирования токенов изображений вместо непрерывных представлений. Более того, Show-O по своей сути кодирует текстовую условную информацию, устраняя необходимость в дополнительных текстовых кодировщиках. Используя текстовые и графические токенизаторы, Show-O может обрабатывать разнообразные входные данные и задачи, предоставляя ответы авторегрессионно для задач на языке зрения и генерируя изображения с помощью дискретной шумоподавляющей диффузии.
Show-O демонстрирует сопоставимую, а в некоторых случаях и лучшую производительность, чем отдельные модели с эквивалентным или большим количеством параметров в различных бенчмарках. В отличие от авторегрессионной генерации изображений, фреймворк Show-O требует примерно в 20 раз меньше шагов выборки, что делает его по сути более быстрым. Кроме того, фреймворк Show-O поддерживает нисходящие приложения, такие как текстовое руководство по рисованию и экстраполяции, не требуя тонкой настройки, как показано на следующем изображении.
Show-O также имеет потенциал для генерации смешанной модальности, такой как чередующаяся генерация ключевых кадров видео с текстовыми описаниями, что является перспективным для генерации длинных видео. Кроме того, фреймворк Show-O исследует влияние дискретных и непрерывных представлений изображений на мультимодальное понимание, предлагая идеи для будущих унифицированных моделей.
На следующем рисунке представлено сравнение характеристик модели между фреймворком Show-O и существующими методами в различных областях. Show-O выделяется как унифицированная модель, которая объединяет передовые методы как для мультимодального понимания, так и для генерации.
Подводя итог, можно отметить следующие основные положения данной статьи:
- Show-O — унифицированная модель который объединяет мультимодальное понимание и генерацию с использованием одного трансформатора.
- Show-O объединяет авторегрессионное и дискретно-диффузионное моделирование в одном трансформаторе, эффективно обрабатывающем как текст, так и изображения.
- Фреймворк Show-O превосходит или соответствует отдельным базовым моделям с эквивалентными или большими параметрами в мультимодальных эталонных показателях понимания и генерации.
- Show-O поддерживает нисходящие приложения как основанная на тексте инрисовка и экстраполяция без тонкой настройки и демонстрирует потенциал для генерации смешанной модальности.
- Show-O исследует влияние различных типов представлений, предоставляя ценную информацию для улучшения мультимодального понимания в унифицированных моделях.
В последние годы все больше исследований были сосредоточены на унифицированных мультимодальных языковых моделях, способных как понимать, так и генерировать. Некоторые усилия используют непрерывные представления, перемежаемые текстовыми токенами для авторегрессионного моделирования для генерации изображений. SEED-X предлагает унифицированную и универсальную базовую систему, способную обрабатывать как мультимодальные задачи понимания, так и генерации. В этом подходе непрерывные представления изображений из кодировщика CLIP ViT объединяются с текстовыми токенами и подаются в большую языковую модель (LLM) для выполнения прогнозирования следующего слова и регрессии представления изображения. Chameleon представляет семейство смешанно-модальных моделей на основе токенов, способных как понимать, так и генерировать изображения. Этот подход представляет все модальности как дискретные токены, используя унифицированную архитектуру на основе трансформатора и обучая модель с нуля сквозным образом. Для сравнения, Show-O также принимает дискретные токены для представления всех модальностей, но использует дискретный процесс диффузии вместо авторегрессионного моделирования для визуальной генерации.
SHOW-O: Методология и архитектура
Основная цель фреймворка Show-O — разработать унифицированную модель, которая интегрирует авторегрессионное и диффузионное моделирование для совместного мультимодального понимания и генерации. Разработка такой унифицированной модели ставит серьезные задачи, основные проблемы которых вращаются вокруг: i) определения пространства ввода/вывода модели; ii) объединения различных типов входных данных из разных модальностей; iii) интеграции как авторегрессионного, так и диффузионного моделирования в единый преобразователь; и iv) эффективного обучения такой унифицированной модели.
Show-O решает эти проблемы с помощью следующих решений:
- Show-O конструирует пространство ввода/вывода путем токенизации текстовых и графических данных в дискретные токены.
- Show-O представляет свою архитектуру по умолчанию и унифицированную стратегию подсказок для структурирования входных данных и модальностей.
- Show-O демонстрирует, как объединить авторегрессионное и диффузионное моделирование в одном трансформаторе.
- Show-O представляет трехэтапный процесс обучения для эффективного обучения унифицированной модели.
лексемизацию
Учитывая, что предлагаемое Шоу-О построено на предварительно обученные LLM, естественно выполнять унифицированное обучение в дискретном пространстве. Поддерживая унифицированный словарь, включающий дискретные текстовые и графические токены, Show-O ставит перед собой ту же задачу обучения: предсказывать дискретные токены.
Токенизация текста
Show-O основан на предварительно обученном LLM, и тот же токенизатор используется для токенизации текстовых данных без каких-либо модификаций.
Токенизация изображения
После MAGVIT-v2 Show-O обучает квантизатор без поиска, используя около 35M данных изображений. Квантизатор поддерживает кодовую книгу размером 8,192 и кодирует изображения с разрешением 256×256 в 16×16 дискретных токенов. MAGVIT-v2 выбран из-за его простоты тонкой настройки, что делает его подходящим в качестве видеотокенизатора с возможностью временного сжатия, аспект, который Show-O планирует исследовать в будущем. Альтернативный подход заключается в использовании разных токенизаторов для понимания и генерации соответственно. Вдохновленный существующими исследованиями, Show-O также извлекает непрерывные представления изображений из предварительно обученных кодировщиков MAGVIT-v2 и CLIP-ViT для изучения улучшений в возможностях мультимодального понимания. В следующих разделах Show-O по умолчанию использует дискретные токены изображений в качестве входных данных как для мультимодального понимания, так и для генерации. Для простоты разделы методологии будут подробно описаны только для Show-O по умолчанию.
Архитектура
Show-O наследует архитектуру существующие LLM без каких-либо архитектурных изменений, за исключением добавления операции QK-Norm к каждому слою внимания. Show-O инициализируется с весами предварительно обученного LLM и расширяет размер слоя встраивания, включая 8,192 новых обучаемых встраивания для дискретных токенов изображения. В отличие от современных моделей диффузии, которым требуется дополнительный текстовый кодер, Show-O по сути кодирует текстовую условную информацию для генерации текста в изображение.
Унифицированное подсказывание
Для выполнения унифицированного обучения по мультимодальному пониманию и генерации Show-O использует унифицированную стратегию подсказок для форматирования различных типов входных данных. При наличии пары изображение-текст (x, y) она сначала токенизируется в M токенов изображения и N токенов текста токенизаторами изображения и текста соответственно. Затем токены формируются во входную последовательность в соответствии с типом задачи, как показано на следующем рисунке.
Используя эту конструкцию подсказок, Show-O может эффективно кодировать различные входные данные для мультимодального понимания, генерации текста в изображение и генерации смешанной модальности как последовательные данные. Такая настройка позволяет унифицированному обучению работать бесперебойно в последовательностях для этих различных задач. После обучения Show-O может быть подсказано выполнять широкий спектр задач на языке зрения, включая визуальные ответы на вопросы и генерацию текста в изображение.
Механизм всеобщего внимания
В отличие от существующих работ, которые моделируют последовательности только авторегрессивно, Show-O вводит механизм всеобщего внимания, позволяющий ему моделировать различные типы сигналов различными способами. Этот всеобъемлющий механизм внимания адаптивно переключается между каузальным и полным вниманием на основе формата входной последовательности. На следующем рисунке показаны примеры всеобщего внимания для различных входных последовательностей.
В частности, Show-O обрабатывает текстовые токены в последовательности с помощью каузального внимания, в то время как токены изображений обрабатываются с использованием полного внимания, что позволяет каждому токену всесторонне взаимодействовать со всеми остальными. В мультимодальном понимании текстовые токены могут обслуживать все предыдущие токены изображений, в то время как при генерации текста в изображение токены изображений могут взаимодействовать со всеми предыдущими текстовыми токенами. Omni-attention сохраняет знания о текстовом рассуждении из предварительно обученного LLM и повышает эффективность генерации изображений за счет сокращения шагов выборки. Кроме того, он поддерживает различные нисходящие приложения, такие как inpainting и экстраполяция, не требуя тонкой настройки. Когда заданы только текстовые токены, механизм по умолчанию переключается на каузальное внимание.
ШОУ-О: Эксперименты и результаты
В следующей таблице представлены возможности мультимодального понимания Show-O на основе общедоступных тестов, таких как задания по созданию субтитров к изображениям и визуальные задания с ответами на вопросы.
Текущая версия Show-O построена на Phi-1.5, поэтому аналог Show-O, предназначенный только для понимания, LLaVA-v1.5-Phi-1.5, служит в качестве прямой базовой версии. Show-O демонстрирует сопоставимую производительность по всем метрикам оценки с базовой версией LLaVA-v1.5-Phi-1.5, которая предназначена исключительно для мультимодального понимания. Это демонстрирует большой потенциал фреймворка Show-O для объединения мультимодального понимания и генерации в рамках одного преобразователя. По сравнению с моделями, предназначенными только для понимания, такими как InstructBLIP, Qwen-VL-Chat и mPLUG-Owl2, Show-O, несмотря на значительно меньший размер модели, демонстрирует конкурентоспособную производительность в тестах POPE, MME, Flickr30k и VQAv2 и более высокие результаты в тесте GQA. По сравнению с унифицированными моделями со значительно большим количеством параметров, такими как NExT-GPT-13B и Chameleon-34B, Show-O также демонстрирует высокие результаты в тесте Flickr30k и гораздо лучшие результаты в тесте VQAv2.
Учитывая эти многообещающие результаты, Show-O рассматривается как потенциальная модель фундамента следующего поколения для объединения понимания и генерации. Эти результаты также демонстрируют потенциал масштабирования Show-O для достижения самых современных показателей.
Качественные сравнения
Мы представляем качественные сравнения с моделями на основе диффузии, такими как SDv1.5, SDXL и моделью на основе авторегрессии LlamaGen, а также с унифицированными моделями, такими как LWM и SEED-X, как показано на следующем рисунке.
Show-O демонстрирует способность генерировать реалистичные изображения с согласованным содержанием, описанным как в коротких, так и в длинных текстовых подсказках. По сравнению с SDv1.5 и LlamaGen, Show-O демонстрирует лучшее визуальное качество и более прочное выравнивание изображения и текста. Например, во втором столбце и SDv1.5, и LlamaGen не в состоянии полностью понять текстовую подсказку и пропускают такие атрибуты, как «закат» и «голубые купола» в сгенерированных изображениях. По сравнению с SDXL, Show-O обеспечивает сопоставимое визуальное качество и выравнивание, как видно в таких примерах, как «гонка на ралли» и «потрясающий контраст на фоне яркого заката».
Текстовая инрисовка и экстраполяция
Show-O естественным образом поддерживает inpainting и extrapolation на основе текста, не требуя какой-либо тонкой настройки. На следующем рисунке показано несколько примеров.
В верхней части рисунка, учитывая входное изображение и маску закрашивания, Show-O может преобразовать красный трамвай в синий спортивный автомобиль с плавными изгибами и тонированными окнами на основе предоставленной пользователем текстовой подсказки. Show-O также может экстраполировать исходное изображение по горизонтали или вертикали на основе предоставленной текстовой подсказки. Например, во второй строке Show-O экстраполирует изображение, добавляя новые объекты, такие как «красные полевые цветы». Пиксели как в закрашенных, так и в экстраполированных областях остаются согласованными с исходным изображением. Эти примеры наглядно демонстрируют неотъемлемые преимущества Show-O перед авторегрессионными моделями для нисходящих приложений.
Заключение
В этой статье мы говорили о Show-O, унифицированном преобразователе, который интегрирует мультимодальное понимание и генерацию. В отличие от полностью авторегрессивных моделей, Show-O объединяет авторегрессионное и дискретное диффузионное моделирование для адаптивной обработки входов и выходов различных и смешанных модальностей. Унифицированная модель гибко поддерживает широкий спектр задач визуального языка, включая визуальные ответы на вопросы, генерацию текста в изображение, текстовую зарисовку/экстраполяцию и генерацию смешанной модальности. В различных тестах Show-O демонстрирует сопоставимую или превосходящую производительность по сравнению с существующими отдельными моделями с эквивалентным или большим количеством параметров, подчеркивая свой потенциал как базовой модели следующего поколения. В этой структуре модель призвана прогнозировать гауссовский шум, добавленный к непрерывным скрытым представлениям. Напротив, другие модели, такие как D3PM, Mask-predict, ARDM и MaskGIT, используют дискретный процесс повреждения в качестве альтернативы гауссовой диффузии. Show-O — первый, кто объединил авторегрессионное и дискретно-диффузионное моделирование, что позволяет ему обрабатывать различные модальности различными способами. Обширные экспериментальные результаты показывают, что Show-O сопоставим или даже превосходит отдельные экспертные модели в широком диапазоне задач на языке зрения. Это подчеркивает его потенциал как базовой модели следующего поколения.