Штучний Інтелект
LLaVA-UHD: LMM, що сприймає будь-яке співвідношення сторін і зображення високої роздільної здатності

Нещодавній прогрес і прогрес великих мовних моделей відчули значне збільшення можливостей мовного мислення, розуміння та взаємодії. Сучасні фреймворки досягають цього шляхом проектування візуальних сигналів у LLM або великі мовні моделі, щоб забезпечити їхню здатність сприймати світ візуально, набір сценаріїв, де стратегії візуального кодування відіграють вирішальну роль. Однак реальні зображення не тільки містять широкий спектр сценаріїв, вони також суттєво відрізняються за роздільною здатністю та пропорціями, створюючи значні проблеми для LLM у різних сферах і завданнях. Щоб усунути значну дисперсію, спричинену зображеннями реального світу, сучасні великі мовні моделі сприймають зображення з низькою роздільною здатністю, тобто 224×224, і фіксованим співвідношенням сторін, тобто 1:1. Хоча компроміс із низькою роздільною здатністю та фіксованим співвідношенням сторін збільшує можливість узагальнення LLM у реальних програмах, він часто значно розмиває вміст зображення, а також призводить до серйозних спотворень форми. Компроміс суттєво впливає на можливості великих мультимодальних моделей або LMM, особливо оптимізованих для тонких завдань, включаючи оптичне розпізнавання символів і розуміння малих об’єктів. Крім того, оскільки роздільна здатність і співвідношення сторін визначені заздалегідь, моделі можуть робити лише найкращі припущення щодо розмитих зображень, що призводить до галюцинацій моделі, ситуації, за якої модель створює текстові відповіді, які фактично не ґрунтуються на зображеннях.
У цій статті ми будемо говорити про LLaVA-UHD, новий підхід, який вперше бере фреймворки LLaVA-1.5 і GPT-4V як репрезентативні приклади, і намагається викрити систематичні недоліки, що кореняться в їхній стратегії візуального кодування. Структура LLaVA-UHD, мультимодальний режим, є спробою вирішити ці проблеми. Фреймворк LLaVA-UHD може сприймати зображення у високій роздільній здатності, а також у будь-якому співвідношенні сторін. Структура LLaVA-UHD побудована навколо трьох ключових компонентів. По-перше, стратегія модулярізації зображення, яка ділить зображення з рідною роздільною здатністю на менші фрагменти змінного розміру, намагаючись підвищити ефективність і розширити кодування. Далі, модуль стиснення, який додатково конденсує маркери зображень, створені візуальними кодерами. Нарешті, просторова схема, яка організовує токени фрагментів для великих мовних моделей. Всебічні експерименти показують, що фреймворк LLaVA-UHD здатний перевершити сучасні великі мовні моделі за 9 тестами. Більше того, використовуючи лише 94% обчислень логічного висновку, структура LLaVA-UHD здатна підтримувати зображення з роздільною здатністю в 6 разів більшою, тобто 672×1088.
LLaVA-UHD : Ефективне сприйняття зображень у будь-якому форматі та висока роздільна здатність
Міркування, розуміння та взаємодія на основі бачення-мови останнім часом досягли значного прогресу, головним чином завдяки недавньому поштовху до моделей великих мов. У сучасних фреймворках те ж саме досягається шляхом подачі візуальних сигналів у LLM (великі мовні моделі), щоб зробити їх здатними візуально інтерпретувати реальний світ, різноманітні сценарії, які покладаються на стратегії візуального кодування. Різниця в сценарії відображає вузьке охоплення LLM в різних областях і завданнях, тоді як різниця в роздільній здатності та пропорціях виявляє великі внутрішньокласові варіації в реальних зображеннях, з якими важко впоратися. На відміну від малого масштабу, який зменшує дисперсію, моделі після BERT вирішують значення низької роздільної здатності (наприклад, для LLaVA-UHD це 224 × 224) зображень із фіксованим співвідношенням сторін 1:1 для отримання реальних зображень. Хоча цей компроміс корисний для забезпечення узагальненості LLM для реальних програм, він часто призводить до дуже розмитих зображень, сприяючи сильному спотворенню форми. Це зменшує можливості великого мультимодальні моделі або LMM (наприклад, детальні завдання), такі як оптичне розпізнавання символів і розуміння малих об'єктів. Оскільки роздільна здатність і співвідношення сторін визначені заздалегідь, моделі можуть лише вгадувати розмиті зображення, що призводить до галюцинації моделі, через що кінцеві згенеровані текстові відповіді не ґрунтуються на зображеннях. То чому моделі LMM для тестування не сприймають зображення з високою роздільною здатністю та різними співвідношеннями сторін?
Є дві основні причини, чому тестові LMM не можуть сприймати зображення з високою та різною роздільною здатністю. По-перше, оскільки візуальні кодери попередньо навчені на фіксовану роздільну здатність, це ускладнює роботу моделі та кодера із зображеннями з різними співвідношеннями сторін і роздільною здатністю, таким чином істотно впливаючи на адаптивність моделі. По-друге, кодування зображень високої роздільної здатності безпосередньо за допомогою перетворювачів зору пов’язане зі значними обчислювальними витратами щодо розміру зображень. Крім того, витрати на обчислення можуть бути значно вищими для великої мовної моделі для обробки великої кількості візуальних токенів для зображень із високою роздільною здатністю, що значно впливає на загальну ефективність моделі. Щоб протистояти цим викликам, LLaVA-UHD, велика мультимодальна модель, яка сприймає зображення високої роздільної здатності та будь-яких пропорцій, бере LLaVA-1.5 і GPT-4V в якості репрезентативних прикладів і намагається викрити систематичні недоліки, що кореняться в їхньому візуальному вигляді. стратегія кодування.
Наведене вище зображення відображає експериментальні результати GPT-4V щодо визначення кількості об’єктів на зображенні. У своїй основі структура LLaVA-UHD складається з трьох компонентів. По-перше, стратегія модулярізації зображень, яка розділяє зображення з рідною роздільною здатністю на менші фрагменти змінного розміру для розширюваного та ефективного кодування. На відміну від нещодавніх LLM, які адаптують зображення до кількох фіксованих роздільних здатностей і пропорцій, фрагменти змінного розміру, згенеровані фреймворком LLaVA-UHD, забезпечують повну адаптацію до зображень із рідною роздільною здатністю без спотворення форми, зміни розміру чи заповнення. По-друге, модель згущує візуальні маркери за допомогою рівня стиснення до помірної довжини, що призводить до значного скорочення обчислень для LLM. Нарешті, модель організовує стислі токени фрагментів у просторовій схемі, щоб повідомити позиції фрагментів у зображеннях для великої мовної моделі.
LLaVA-UHD : Методологія та архітектура
На основі досвіду деяких пілотних експериментів для вивчення існуючих фреймворків, включаючи GPT-4V і LLaVA-1.5, фреймворк LLaVA-UHD реалізує трикомпонентну архітектуру, як показано на наступному зображенні.
По-перше, стратегія модулярізації зображення, яка ділить зображення з рідною роздільною здатністю на менші фрагменти змінного розміру, намагаючись підвищити ефективність і розширити кодування. Далі, модуль стиснення, який додатково конденсує маркери зображень, створені візуальними кодерами. Нарешті, просторова схема, яка організовує токени фрагментів для великих мовних моделей. Давайте детально розглянемо ці компоненти.
Модульне візуальне кодування
Загальний підхід до роботи із зображеннями високої роздільної здатності з різним співвідношенням сторін полягає в інтерполяції вбудованих позицій Vision Transformer або ViT до цільової форми для прямого кодування в цілому. Однак реалізація цього підходу часто супроводжується високими витратами на обчислення, а проблеми з розповсюдженням призводять до подальшого погіршення продуктивності. Щоб вирішити цю проблему, структура LLaVA-UHD представляє модульну стратегію візуального кодування, яка в основному спрямована на поділ зображень із рідною роздільною здатністю на менші фрагменти змінного розміру, де форма кожного фрагмента є досить близькою до стандартних налаштувань попереднього навчання трансформатора зору. . Завдяки використанню фрагментів із змінним розміром фреймворк LLaVA-UHD здатний досягти повної адаптованості до зображень із рідною роздільною здатністю без впровадження будь-яких змін форми чи доповнення, що спотворюють форму. Крім того, основною метою стратегії нарізки зображень є визначення розділення зображень високої роздільної здатності з мінімальними змінами роздільної здатності кожного зрізу. Для заданого зображення з певною роздільною здатністю (w,h) і трансформатора зору, попередньо навченого на іншу роздільну здатність, структура LLaVA-UHD спочатку визначає ідеальне обчислення, тобто кількість фрагментів, необхідних для обробки зображення. Потім структура розбиває кількість фрагментів на m стовпців і n рядків. Потім структура визначає функцію балів для вимірювання відхилення від стандартних налаштувань перед навчанням трансформатора зору. Теоретично структура LLaVA-UHD може продемонструвати, що стратегія розділення, реалізована в її архітектурі, гарантує незначні очікувані зміни та помірні зміни в найгіршому випадку щодо стандартної роздільної здатності перед навчанням для кожного фрагмента.
Крім того, більшість існуючих LLM реалізують статичну роздільну здатність для кодування фрагментів зображення, підхід, який перешкоджає повній адаптації моделі до рідних роздільних здатностей, оскільки вони мають доступ лише до кількох попередньо визначених фрагментів фіксованої форми. Крім того, статична роздільна здатність зрізу негативно впливає на продуктивність, ефективність і правильність моделі, оскільки вона неминуче призводить до зміни розміру або заповнення, що спотворює форму. Щоб вирішити цю проблему, фреймворк LLaVA-UHD пропонує кодувати фрагменти зображення у співвідношенні сторін, визначеному стратегією розділення. Точніше кажучи, фреймворк LLaVA-UHD спочатку змінює розмір оригінального зображення пропорційно відповідно до співвідношення сторін таким чином, щоб кількість патчів відповідала бюджету перед навчанням, тобто кількість послідовностей вбудовування позицій у трансформаторі зору, максимально . Потім модель LLaVA-UHD змінює попередньо підготовлену послідовність вбудовування 1D-положення трансформатора зору у 2D-формат відповідно до своїх налаштувань попереднього навчання.
Компресійний шар
Поширена проблема, з якою стикаються LLM під час обробки зображень із високою роздільною здатністю, полягає в тому, що кількість візуальних токенів, які вони повинні обробити, значно більша (для довідки, фреймворк LLaVA-1.5 створює близько 3500 візуальних токенів під час обробки одного зображення з роздільною здатністю: 672 × 1008 ), що становить основну частину обчислювальних ресурсів і вартості. Щоб врахувати цю проблему, модель LLaVA-UHD реалізує спільний рівень повторної дискретизації сприймача для стиснення візуальних маркерів кожного фрагмента зображення. Потім модель реалізує набір векторів запиту за допомогою перехресного звернення уваги, щоб передискретизувати вихід маркерів зображення візуальними кодерами до меншого числа. У порівнянні з поширеними стратегіями візуальної проекції на основі багатошарового персептрона, підхід вибірки перцепера, реалізований LLaVA-UHD, здатний підтримувати доступну, але фіксовану кількість візуальних токенів незалежно від роздільної здатності зображення, що робить фреймворк LLaVA-UHD більш сумісним із високотехнологічними. завдання обробки та розуміння роздільної здатності зображення. Щоб уявити це, фреймворк LLaVA-UDH генерує таку саму кількість токенів під час кодування зображення з роздільною здатністю 672 × 1008, що й LLaVAФреймворк -1.5 генерує під час кодування зображення з роздільною здатністю 336 × 336, що майже в 6 разів ефективніше, ніж його конкурент.
Просторова схема для фрагментів зображення
Це необхідна практика, щоб інформувати велику мовну модель про просторову організацію фрагментів зображення, оскільки розділення зображень є динамічним між різними зображеннями. Фреймворк LLaVA-UHD розробляє та реалізує просторову схему, яка використовує два спеціальні маркери для інформування LLM про відносне положення фрагментів зображення. За цією просторовою схемою структура LLaVA-UHD використовує «,» для розділення представлень фрагментів у рядку, а різні рядки розділяються за допомогою «\n».
LLaVA-UDH: експерименти та результати
Структура LLaVA-UHD оцінюється за 9 популярними тестами, включаючи загальні тести візуальних відповідей на запитання, тести візуальних відповідей на запитання на основі оптичних символів, тести галюцинацій і комплексні тести. Крім того, фреймворк LLaVA-UHD порівнюється з надійними базовими лініями, включаючи LLaVA-1.5, MiniGPT-v2, InstructBLIP, BLIP-2 тощо.
Продуктивність фреймворку LLaVA-UHD на 9 популярних тестах узагальнено та порівняно з популярними тестами в таблиці нижче.
На основі наведеної вище продуктивності можна зробити висновок, що фреймворк LLaVA-UHD здатний перевершити сильні базові моделі на популярних тестах, включаючи сильні загальні базові лінії, навчені на значно більшій кількості даних, а також перевершити LLM, які потребують значно більше обчислень. наприклад Fuyu-8B, Monkey тощо. По-друге, результати також показують, що фреймворк LLaVA-UHD досягає значно кращих результатів порівняно з архітектурою LLaVA-1.5, і, з одного боку, де LLaVA-1.5 підтримує фіксовану роздільну здатність 336 × 336, фреймворк LLaVA-UHD підтримує зображення з роздільністю 672 × 1088. з будь-яким співвідношенням сторін і однаковою кількістю візуальних токенів.
Заключні думки
У цій статті ми говорили про LLaVA-UHD, новий підхід, який спочатку бере фреймворки LLaVA-1.5 і GPT-4V як репрезентативні приклади, і намагається викрити систематичні недоліки, що кореняться в їхній стратегії візуального кодування. Структура LLaVA-UHD, мультимодальний режим, є спробою вирішити ці проблеми. Фреймворк LLaVA-UHD може сприймати зображення у високій роздільній здатності, а також у будь-якому співвідношенні сторін. Структура LLaVA-UHD побудована навколо трьох ключових компонентів. По-перше, стратегія модулярізації зображення, яка ділить зображення з рідною роздільною здатністю на менші фрагменти змінного розміру, щоб підвищити ефективність і розширити кодування. Далі, модуль стиснення, який додатково конденсує маркери зображень, створені візуальними кодерами. Нарешті, просторова схема, яка організовує токени фрагментів для великих мовних моделей. Всебічні експерименти показують, що фреймворк LLaVA-UHD здатний перевершити сучасні великі мовні моделі за 9 тестами. Більше того, використовуючи лише 94% обчислень логічного висновку, структура LLaVA-UHD здатна підтримувати зображення з роздільною здатністю в 6 разів більшою, тобто 672×1088.