Штучний інтелект

LLaVA-UHD: великомасштабна мова, що сприймає будь-який аспектний співвідношення та високороздільні зображення

Published June 6, 2024

Updated April 27, 2026

Kunal Kejriwal

LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images

Нещодавній прогрес та розвиток великих мовних моделей пережили значне збільшення можливостей розуміння, сприйняття та взаємодії мови та зору. Сучасні рамки досягають цього, проєкціюючи візуальні сигнали у великі мовні моделі, щоб дозволити їм сприймати світ візуально, різноманітний ряд сценаріїв, де візуальні стратегії кодування відіграють важливу роль. Однак реальні зображення не тільки містять широкий спектр сценаріїв, але також значно відрізняються за роздільністю та аспектним співвідношенням, що становить значні виклики для великих мовних моделей у різних областях та завданнях. Щоб подолати значну відмінність, яку становлять реальні зображення, сучасні великі мовні моделі сприймають зображення у низькій роздільності, тобто 224×224, та фіксованому аспектному співвідношенні, тобто 1:1. Хоча компроміс, який полягає у використанні низької роздільності та фіксованого аспектного співвідношення, збільшує загальну придатність великої мовної моделі у реальних додатках, він часто робить зміст зображення досить розмитим, а також призводить до серйозної спотворення форми. Компроміс суттєво впливає на можливості великих мультимодальних моделей або LMM, особливо тих, які оптимізовані для тонких завдань, включаючи розпізнавання оптичних символів та розуміння малих об’єктів. Крім того, оскільки роздільність та аспектне співвідношення зазначені заздалегідь, моделі можуть тільки робити найкращі припущення щодо розмитих зображень, що призводить до галюцинацій моделі, ситуації, у якій модель генерує текстові відповіді, які не мають фактичної основи у зображенні.

У цій статті ми будемо говорити про LLaVA-UHD, новий підхід, який спочатку бере LLaVA-1.5 та GPT-4V як представницькі приклади, і намагається викрити системні недоліки, закладені у їхній візуальній стратегії кодування. Рамка LLaVA-UHD, мультимодальна модель, є спробою подолати ці виклики. Рамка LLaVA-UHD може сприймати зображення у високій роздільності, а також у будь-якому аспектному співвідношенні. Рамка LLaVA-UHD складається з трьох ключових компонентів. По-перше, стратегія модуляризації зображення, яка розділяє зображення рідної роздільності на менші змінні сегменти у спробі підвищити ефективність та розширити кодування. По-друге, модуль стиснення, який стискає токени зображення, згенеровані візуальними кодувальниками. По-третє, просторова схема, яка організовує токени сегментів для великих мовних моделей. Комплексні експерименти вказують на те, що рамка LLaVA-UHD здатна перевершити сучасні великі мовні моделі у 9 бенчмарках. Крім того, використовуючи лише 94% обчислювальних ресурсів, рамка LLaVA-UHD здатна підтримувати зображення з роздільністю у 6 разів більшу, тобто 672×1088.

LLaVA-UHD : Ефективне сприйняття зображень у будь-якому аспектному співвідношенні та високій роздільності

Розуміння мови та зору зробило значний прогрес останнім часом, переважно завдяки недавньому поштовху великих мовних моделей. У сучасних рамках це досягається шляхом введення візуальних сигналів у великі мовні моделі, щоб зробити їх здатними інтерпретувати реальний світ візуально, різноманітний ряд сценаріїв, які залежать від візуальних стратегій кодування. Відмінність у сценарії відображає вузьке покриття великих мовних моделей у різних областях та завданнях, тоді як відмінність у роздільності та аспектному співвідношенні розкриває велику внутрішню варіацію реальних зображень, яку важко обробляти. На відміну від малих масштабів, які знижують варіацію, моделі після BERT подолávají значущість низької роздільності (наприклад, для LLaVA-UHD це 224×224) зображень з фіксованим аспектним співвідношенням, 1:1, щоб надати реальним зображенням. Хоча цей компроміс корисний для забезпечення загальної придатності великої мовної моделі у реальних додатках, він часто призводить до дуже розмитих зображень, а також сприяє серйозному спотворенню форми. Це суттєво впливає на можливості великих мультимодальних моделей або LMM, особливо тих, які оптимізовані для тонких завдань, включаючи розпізнавання оптичних символів та розуміння малих об’єктів. Крім того, оскільки роздільність та аспектне співвідношення зазначені заздалегідь, моделі можуть тільки робити найкращі припущення щодо розмитих зображень, що призводить до галюцинацій моделі, ситуації, у якій модель генерує текстові відповіді, які не мають фактичної основи у зображенні.

Чому бенчмаркові моделі LMM не сприймають зображення у високій роздільності та різному аспектному співвідношенні? Є дві основні причини, чому бенчмаркові моделі LMM не здатні сприймати зображення у високій роздільності та різному аспектному співвідношенні. По-перше, оскільки візуальні кодувальники попередньо навчаються у фіксованих роздільностях, це робить важким для моделі та кодувальника справитися із зображеннями з різними аспектними співвідношеннями та роздільностями, що суттєво впливає на адаптивність моделі. По-друге, кодування високороздільних зображень безпосередньо за допомогою візуальних трансформерів пов’язане з значними обчислювальними витратами щодо розміру зображення. Крім того, обчислювальні витрати можуть бути суттєво вищими для великої мовної моделі, щоб обробити велику кількість візуальних токенів для високороздільних зображень, що суттєво впливає на загальну ефективність моделі. Щоб подолати ці виклики, LLaVA-UHD, великомасштабна мультимодальна модель, яка сприймає високороздільні зображення та будь-яке аспектне співвідношення, бере LLaVA-1.5 та GPT-4V як представницькі приклади, і намагається викрити системні недоліки, закладені у їхній візуальній стратегії кодування.

Зображення вище відображає результати експериментів GPT-4V щодо визначення кількості об’єктів у зображенні. У своєму ядрі рамка LLaVA-UHD складається з трьох компонентів. По-перше, стратегія модуляризації зображення, яка розділяє зображення рідної роздільності на менші змінні сегменти у спробі підвищити ефективність та розширити кодування. На відміну від недавніх великих мовних моделей, які підгоняють зображення під кілька фіксованих роздільностей та аспектних співвідношень, змінні сегменти, згенеровані рамкою LLaVA-UHD, дозволяють повну адаптивність до зображень рідної роздільності без спотворення форм, зміни розміру або доповнення. По-друге, модель стискає візуальні токени за допомогою компресійного шару до скромної довжини, що суттєво знижує обчислювальні витрати для великих мовних моделей. По-третє, модель організовує стиснені токени сегментів у просторовій схемі, щоб інформувати велику мовну модель про позиції сегментів у зображенні.

LLaVA-UHD : Методологія та архітектура

На основі висновків з пілотних експериментів щодо вивчення існуючих рамок, включаючи GPT-4V та LLaVA-1.5, рамка LLaVA-UHD реалізує трикомпонентну архітектуру, як показано на наступному зображенні.

По-перше, стратегія модуляризації зображення, яка розділяє зображення рідної роздільності на менші змінні сегменти у спробі підвищити ефективність та розширити кодування. По-друге, модуль стиснення, який стискає токени зображення, згенеровані візуальними кодувальниками. По-третє, просторова схема, яка організовує токени сегментів для великих мовних моделей. Давайте розглянемо ці компоненти детальніше.

Модульована візуальна кодування

Поширений підхід до роботи з високороздільними зображеннями з різними аспектними співвідношеннями полягає у інтерполяції позиційних вкладень Візуального Трансформера або ViT до цільової форми для прямого кодування у цілому. Однак реалізація цього підходу часто супроводжується високими обчислювальними витратами, а проблеми поза розподілом призводять до подальшого погіршення продуктивності. Щоб подолати цей виклик, рамка LLaVA-UHD пропонує модульовану візуальну стратегію кодування, яка складається у розділі зображень рідної роздільності на менші змінні сегменти, де форма кожного сегмента досить близька до стандартної попередньої настройки візуального трансформера. Завдяки використанню змінних сегментів рамка LLaVA-UHD здатна досягти повної адаптивності до зображень рідної роздільності без реалізації будь-якого спотворення форми чи зміни розміру. Крім того, основною метою стратегії модуляризації зображення є визначення розрізу високороздільних зображень з мінімальними змінами роздільності кожного сегмента. Для даного зображення з певною роздільністю (w, h) та візуальним трансформером, попередньо налаштованим на іншу роздільність, рамка LLaVA-UHD спочатку визначає ідеальну кількість сегментів, необхідну для обробки зображення. Рамка потім факторизує кількість сегментів на m колонок та n рядків. Рамка потім визначає функцію оцінки, щоб виміряти відхилення від стандартної попередньої настройки візуального трансформера. Теоретично рамка LLaVA-UHD здатна продемонструвати, що стратегія розрізу, реалізована у її архітектурі, гарантує мінімальні очікувані зміни та помірні гірші зміни щодо стандартної попередньої настройки роздільності для кожного сегмента.

Крім того, більшість існуючих великих мовних моделей реалізують статичну роздільність для кодування сегментів зображення, підхід, який запобігає повній адаптивності моделі до зображень рідної роздільності, оскільки вони мають доступ лише до декількох попередньо визначених фіксованих форм сегментів. Крім того, статична роздільність сегментів шкодить продуктивності, ефективності та правильності моделі, оскільки вона спричиняє спотворення форми чи зміну розміру. Щоб подолати цю проблему, рамка LLaVA-UHD пропонує кодувати сегменти зображення у аспектному співвідношенні, визначеному стратегією розрізу. Конкретно, рамка LLaVA-UHD спочатку змінює розмір оригінального зображення пропорційно згідно з аспектним співвідношенням, щоб кількість патчів потрапила у бюджет попередньої настройки, тобто кількість послідовності позиційних вкладень у візуальному трансформері, максимально. Рамка LLaVA-UHD потім змінює попередньо налаштовану 1D послідовність позиційних вкладень візуального трансформера у 2D формат згідно з його попередньою настройкою.

Шар стиснення

Поширена проблема, з якою стикаються великі мовні моделі при обробці високороздільних зображень, полягає у тому, що кількість візуальних токенів, які вони повинні обробити, суттєво вища (наприклад, рамка LLaVA-1.5 генерує близько 3500 візуальних токенів при обробці одного зображення з роздільністю 672×1008), що становить суттєву частину обчислювальних ресурсів та витрат. Щоб подолати цей виклик, модель LLaVA-UHD реалізує спільний шар перцептора-ресемплера, щоб стиснути візуальні токени кожного сегмента зображення. Модель потім реалізує набір запитових векторів за допомогою跨-уваги, щоб ресемплювати вихід токенів зображення, згенерованих візуальними кодувальниками, у меншу кількість. У порівнянні з поширеними стратегіями візуальної проєкції на основі багатошарового перцептрона, підхід перцептора-ресемплера, реалізований LLaVA-UHD, здатний підтримувати доступну, але фіксовану кількість візуальних токенів незалежно від роздільності зображення, що робить рамку LLaVA-UHD більш сумісною з завданнями обробки та розуміння високороздільних зображень. Щоб це проілюструвати, рамка LLaVA-UHD генерує ту саму кількість токенів при кодуванні зображення з роздільністю 672×1008, яку рамка LLaVA-1.5 генерує при кодуванні зображення з роздільністю 336×336, що майже у 6 разів ефективніше, ніж у її конкурента.

Просторова схема для сегментів зображення

Це необхідна практика інформувати велику мовну модель про просторову організацію сегментів зображення, оскільки розріз зображень є динамічним у різних зображеннях. Рамка LLaVA-UHD пропонує просторову схему, яка використовує два спеціальні токени, щоб інформувати велику мовну модель про відносну позицію сегментів зображення. У цій просторовій схемі рамка LLaVA-UHD використовує “,” для розділення представлень сегментів у рядку, а різні рядки розділяються за допомогою “n”.

LLaVA-UHD : Експерименти та результати

Рамка LLaVA-UHD оцінюється проти 9 популярних бенчмарків, включаючи загальні візуальні бенчмарки питання-відповідь, оптичні символи візуальних питань-відповідь, бенчмарки галюцинацій та комплексні бенчмарки. Крім того, рамка LLaVA-UHD порівнюється з потужними бенчмарками, включаючи LLaVA-1.5, MiniGPT-v2, InstructBLIP, BLIP-2 та інші.

Продуктивність рамки LLaVA-UHD у 9 популярних бенчмарках підсумовується та порівнюється з популярними бенчмарками у таблиці нижче.

На основі вищезазначеної продуктивності можна зробити висновок, що рамка LLaVA-UHD здатна перевершити потужні моделі-бенчмарки у популярних бенчмарках, включаючи сильні загальні бенчмарки, навчені на суттєво більшій кількості даних, а також перевершує великі мовні моделі, які потребують суттєво більше обчислень, наприклад Fuyu-8B, Monkey та інші. По-друге, результати також вказують на те, що рамка LLaVA-UHD досягає суттєво кращих результатів над архітектурою LLaVA-1.5, а з одного боку, де LLaVA-1.5 підтримує фіксовану роздільність 336×336, рамка LLaVA-UHD підтримує зображення з роздільністю 672×1088 та будь-яким аспектним співвідношенням, а також ту саму кількість візуальних токенів.

Заключні думки

У цій статті ми говорили про LLaVA-UHD, новий підхід, який спочатку бере LLaVA-1.5 та GPT-4V як представницькі приклади, і намагається викрити системні недоліки, закладені у їхній візуальній стратегії кодування. Рамка LLaVA-UHD, мультимодальна модель, є спробою подолати ці виклики. Рамка LLaVA-UHD може сприймати зображення у високій роздільності, а також у будь-якому аспектному співвідношенні. Рамка LLaVA-UHD складається з трьох ключових компонентів. По-перше, стратегія модуляризації зображення, яка розділяє зображення рідної роздільності на менші змінні сегменти у спробі підвищити ефективність та розширити кодування. По-друге, модуль стиснення, який стискає токени зображення, згенеровані візуальними кодувальниками. По-третє, просторова схема, яка організовує токени сегментів для великих мовних моделей. Комплексні експерименти вказують на те, що рамка LLaVA-UHD здатна перевершити сучасні великі мовні моделі у 9 бенчмарках. Крім того, використовуючи лише 94% обчислювальних ресурсів, рамка LLaVA-UHD здатна підтримувати зображення з роздільністю у 6 разів більшу, тобто 672×1088.

Kunal Kejriwal

Інженер за професією, письменник серцем. Kunal є технічним письменником з глибокою любов'ю та розумінням AI і ML, присвяченим спрощенню складних концепцій у цих галузях завдяки його цікавим та інформативним документам.