Искусственный интеллект

LLaVA-UHD: модель LMM, воспринимающая изображения любого соотношения сторон и высокого разрешения

Published June 6, 2024

Updated April 27, 2026

Kunal Kejriwal

LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images

Последние достижения и прогресс в области больших языковых моделей привели к значительному увеличению возможностей по рассуждению, пониманию и взаимодействию с языком и зрением. Современные框架 достигают этого, проецируя визуальные сигналы в большие языковые модели, чтобы ermögнить их способность воспринимать мир визуально, в ряде сценариев, где стратегии визуального кодирования играют решающую роль. Однако реальные изображения не только содержат широкий спектр сценариев, но также существенно различаются по разрешению и соотношению сторон, что представляет значительные проблемы для больших языковых моделей в различных областях и задачах. Чтобы решить значительную вариативность, представленную реальными изображениями, современные большие языковые модели воспринимают изображения в низком разрешении, например 224×224, и фиксированном соотношении сторон, например 1:1. Хотя компромисс, связанный с низким разрешением и фиксированным соотношением сторон, увеличивает общую применимость модели в реальных приложениях, он часто приводит к сильному размытию содержимого изображения, а также к значительной деформации формы. Этот компромисс существенно влияет на способности больших многомодальных моделей, особенно тех, которые оптимизированы для тонких задач, включая оптическое распознавание символов и понимание небольших объектов. Кроме того, поскольку разрешение и соотношение сторон предопределены, модели могут только делать предположения о размытых изображениях, что приводит к “зрительным обманам” модели, когда модель производит текстовые ответы, не основанные на фактах, представленных в изображениях.

В этой статье мы будем говорить о LLaVA-UHD, новом подходе, который сначала рассматривает框架и LLaVA-1.5 и GPT-4V как представительные примеры и пытается раскрыть системные недостатки, лежащие в основе их стратегии визуального кодирования. LLaVA-UHD – это многомодальная модель, которая пытается решить эти проблемы. LLaVA-UHD может воспринимать изображения высокого разрешения, а также любого соотношения сторон. LLaVA-UHD построена вокруг трех ключевых компонентов. Первый – стратегия модуляризации изображений, которая делит изображения родного разрешения на более мелкие переменные срезы для повышения эффективности и расширения кодирования. Далее, модуль сжатия, который еще больше сжимает токены изображений, произведенные визуальными кодировщиками. Наконец, пространственная схема, которая организует токены срезов для больших языковых моделей. Комплексные эксперименты показывают, что LLaVA-UHD может превосходить современные большие языковые модели на 9 тестах. Кроме того, используя только 94% вычислительных ресурсов, LLaVA-UHD может поддерживать изображения с разрешением, в 6 раз превышающим разрешение 672×1088.

LLaVA-UHD: эффективное восприятие изображений любого соотношения сторон и высокого разрешения

Рассуждение, понимание и взаимодействие с языком и зрением сделали значительный прогресс в последнее время, в основном благодаря недавнему толчку в области больших языковых моделей. В современных框架ах это достигается путем подачи визуальных сигналов в большие языковые модели, чтобы сделать их способными интерпретировать реальный мир визуально, в ряде сценариев, которые полагаются на стратегии визуального кодирования. Разница в сценарии отражает узкое покрытие больших языковых моделей в различных областях и задачах, в то время как разница в разрешении и соотношении сторон раскрывает большие внутриклассовые вариации в реальных изображениях, которые трудно обработать. В отличие от малого масштаба, который снижает вариативность, модели после BERT решают эту проблему, обрабатывая изображения в низком разрешении (например, 224×224) и фиксированном соотношении сторон (1:1), чтобы дать реальные изображения. Хотя этот компромисс полезен для обеспечения общей применимости модели в реальных приложениях, он часто приводит к сильному размытию изображения, а также к значительной деформации формы. Это снижает способности больших многомодальных моделей, особенно тех, которые оптимизированы для тонких задач, таких как оптическое распознавание символов и понимание небольших объектов. Поскольку разрешение и соотношение сторон предопределены, модели могут только делать предположения о размытых изображениях, что приводит к “зрительным обманам” модели, когда модель производит текстовые ответы, не основанные на фактах, представленных в изображениях. Почему модели LMM не воспринимают изображения высокого разрешения и переменного соотношения сторон?

Существует две основные причины, почему модели LMM не могут воспринимать изображения высокого разрешения и переменного соотношения сторон. Первая заключается в том, что визуальные кодировщики предобучены в фиксированных разрешениях, что делает трудным для модели и кодировщика справиться с изображениями переменного разрешения и соотношения сторон, что существенно влияет на адаптивность модели. Вторая причина заключается в том, что кодирование высокоразрешенных изображений напрямую с помощью трансформеров зрения связано с значительными вычислительными затратами, связанными с размером изображения. Кроме того, вычислительные затраты могут быть значительно выше для большой языковой модели, чтобы обработать большое количество визуальных токенов для высокоразрешенных изображений, что существенно влияет на общую эффективность модели. Чтобы решить эти проблемы, LLaVA-UHD, большая многомодальная модель, которая воспринимает изображения высокого разрешения и любого соотношения сторон, рассматривает LLaVA-1.5 и GPT-4V как представительные примеры и пытается раскрыть системные недостатки, лежащие в основе их стратегии визуального кодирования.

Изображение выше отражает результаты экспериментов GPT-4V в определении количества объектов на изображении. В основе LLaVA-UHD лежат три компонента. Первый – стратегия модуляризации изображений, которая делит изображения родного разрешения на более мелкие переменные срезы для повышения эффективности и расширения кодирования. В отличие от недавних моделей LLM, которые подгоняют изображения под несколько фиксированных разрешений и соотношений сторон, переменные срезы, сгенерированные LLaVA-UHD, ermögняют полную адаптивность к изображениям родного разрешения без деформации форм, изменения размера или заполнения. Второй – модель сжимает визуальные токены с помощью слоя сжатия до скромной длины, что существенно снижает вычислительные затраты для LLM. Наконец, модель организует сжатые токены срезов в пространственной схеме, чтобы проинформировать модель о положении срезов на изображении.

LLaVA-UHD: методология и архитектура

На основе выводов из некоторых пилотных экспериментов по изучению существующих框架, включая GPT-4V и LLaVA-1.5, LLaVA-UHD реализует трехкомпонентную архитектуру, как показано на следующем изображении.

Первый – стратегия модуляризации изображений, которая делит изображения родного разрешения на более мелкие переменные срезы для повышения эффективности и расширения кодирования. Далее, модуль сжатия, который сжимает токены изображений, произведенные визуальными кодировщиками. Наконец, пространственная схема, которая организует токены срезов для больших языковых моделей. Давайте рассмотрим эти компоненты более подробно.

Модульное визуальное кодирование

Общий подход к решению проблемы высокоразрешенных изображений с разным соотношением сторон заключается в интерполяции позиционных вложений трансформера зрения или ViT до целевой формы для прямого кодирования в целом. Однако реализация этого подхода часто сопровождается высокими вычислительными затратами, и проблемы, возникающие вне области определения, приводят к дальнейшему снижению производительности. Чтобы решить эту проблему, LLaVA-UHD представляет модульную стратегию визуального кодирования, которая заключается в делении изображений родного разрешения на более мелкие переменные срезы, форма которых близка к стандартной предобученной настройке трансформера зрения. Благодаря использованию переменных срезов, LLaVA-UHD может достичь полной адаптивности к изображениям родного разрешения без деформации форм, изменения размера или заполнения.

Кроме того, большинство существующих моделей LLM реализуют статическое разрешение для кодирования срезов изображений, что препятствует полной адаптивности модели к изображениям родного разрешения, поскольку они имеют доступ только к нескольким предопределенным фиксированным формам срезов. Кроме того, статическое разрешение срезов снижает производительность, эффективность и правильность модели, поскольку оно неизбежно приводит к деформации форм, изменению размера или заполнению. Чтобы решить эту проблему, LLaVA-UHD предлагает кодировать срезы изображений в соотношении сторон, определённом стратегией разделения.

Слой сжатия

Общая проблема, с которой сталкиваются модели LLM при обработке высокоразрешенных изображений, заключается в том, что количество визуальных токенов, которые они должны обработать, существенно выше (например, LLaVA-1.5 производит около 3500 визуальных токенов при обработке одного изображения с разрешением 672×1008), что составляет значительную часть вычислительных ресурсов и затрат. Чтобы решить эту проблему, LLaVA-UHD реализует общий перцепторный слой сжатия, чтобы сжать визуальные токены каждого среза изображения.

Пространственная схема для срезов изображений

Необходимо проинформировать большую языковую модель о пространственной организации срезов изображений, поскольку разделение изображений динамично для разных изображений. LLaVA-UHD проектирует и реализует пространственную схему, которая использует два специальных токена, чтобы проинформировать LLM о относительном положении срезов изображений.

LLaVA-UHD: эксперименты и результаты

LLaVA-UHD оценивается на 9 популярных тестах, включая общие визуальные тесты ответов на вопросы, тесты ответов на вопросы на основе оптического распознавания символов, тесты на “зрительные обманы” и комплексные тесты. Кроме того, LLaVA-UHD сравнивается с сильными базовыми моделями, включая LLaVA-1.5, MiniGPT-v2, InstructBLIP, BLIP-2 и другие.

Производительность LLaVA-UHD на 9 популярных тестах суммируется и сравнивается с популярными базовыми моделями в таблице ниже.

На основе вышеуказанной производительности можно заключить, что LLaVA-UHD способна превосходить сильные базовые модели на популярных тестах, включая сильные общие базовые модели, обученные на значительно большем количестве данных, а также превосходить модели LLM, которые требуют значительно больше вычислений, такие как Fuyu-8B, Monkey и другие.

Заключительные мысли

В этой статье мы говорили о LLaVA-UHD, новом подходе, который сначала рассматривает LLaVA-1.5 и GPT-4V как представительные примеры и пытается раскрыть системные недостатки, лежащие в основе их стратегии визуального кодирования. LLaVA-UHD – это многомодальная модель, которая пытается решить эти проблемы. LLaVA-UHD может воспринимать изображения высокого разрешения, а также любого соотношения сторон. LLaVA-UHD построена вокруг трех ключевых компонентов. Первый – стратегия модуляризации изображений, которая делит изображения родного разрешения на более мелкие переменные срезы для повышения эффективности и расширения кодирования. Далее, модуль сжатия, который сжимает токены изображений, произведенные визуальными кодировщиками. Наконец, пространственная схема, которая организует токены срезов для больших языковых моделей. Комплексные эксперименты показывают, что LLaVA-UHD может превосходить современные большие языковые модели на 9 тестах. Кроме того, используя только 94% вычислительных ресурсов, LLaVA-UHD может поддерживать изображения с разрешением, в 6 раз превышающим разрешение 672×1088.

Kunal Kejriwal

"Инженер по профессии, писатель по сердцу". Кунал - технический писатель с глубокой любовью и пониманием ИИ и МО, посвященный упрощению сложных концепций в этих областях посредством своей увлекательной и информативной документации.