Моделі та платформи ШІ
EAGLE: Дослідження дизайн-простору для багатомодальних великих мовних моделей з використанням суміші кодувальників
Спроможність точно інтерпретувати складну візуальну інформацію є важливим напрямком багатомодальних великих мовних моделей (MLLMs). Останні дослідження показують, що покращена візуальна сприйняття значно знижує галюцинації та покращує результати на завданнях, чутливих до роздільної здатності, таких як оптичне розпізнавання символів і аналіз документів. Деякі останні MLLM досягають цього шляхом використання суміші кодувальників зору. Незважаючи на їхній успіх, існує нестача систематичних порівнянь та детальних абляційних досліджень, що адресують критичні аспекти, такі як вибір експертів та інтеграція декількох експертів зору. Ця стаття надає широке дослідження дизайн-простору для MLLM з використанням суміші кодувальників зору та роздільної здатності, а також.framework Eagle, який намагається дослідити дизайн-простір для багатомодальних великих мовних моделей з використанням суміші кодувальників. Результати показують кілька підкладних принципів, спільних для різних існуючих стратегій, що призводить до потокового, але ефективного підходу до дизайну. Eagle виявляє, що просте конкатенування візуальних токенів з набору додаткових кодувальників зору є так само ефективним, як і більш складні архітектури суміші чи стратегії. Крім того, Eagle вводить попередню ув’язнення, щоб звузити розрив між кодувальниками зору та мовними токенами, підвищуючи узгодженість моделі. Результатом є сім’я MLLM, Eagle, яка перевершує інші провідні відкриті моделі на основних бенчмарках MLLM.
Робота Eagle пов’язана з загальною архітектурою дизайну багатомодальних великих мовних моделей (MLLMs). Окрім лінії представницьких відкритих досліджень, згаданих раніше, інші відомі сім’ї MLLM включають, але не обмежуються, MiniGPT-4, Lynx, Otter, QwenVL, CogVLM, VILA, GPT-4V, Gemini та Llama 3.1. В залежності від того, як сигнали зору інтегруються у мовну модель, MLLM можна широко категоризувати на “перехресну увагу” моделі та “prefix-тюнінг” моделі. Перші ін’єкують візуальну інформацію у різні шари LLM за допомогою перехресної уваги, тоді як другі розглядають візуальні токени як частину послідовності мовних токенів та безпосередньо додають їх до текстових вкладень. Модель Eagle належить до сім’ї prefix-тюнінгу, слідуючи архітектурі LLaVA.
Робота Eagle тісно пов’язана з дослідженнями, спрямованими на покращення дизайну кодувальників зору для MLLM. Ранні роботи зазвичай приймали кодувальники зору, попередньо навчені на завданнях зорово-мовної ув’язнення, таких як CLIP та EVA-CLIP. Більш сильні кодувальники зору, такі як SigLIP та InternVL, були запропоновані для покращення завдань зору-мови з кращими дизайнами, більшим розміром моделі та більш ефективними рецептами навчання. Оскільки моделі часто попередньо навчаються на низьких роздільних здатностях зображень і можуть не мати можливості кодувати тонкі деталі, адаптація вищої роздільної здатності часто проводиться для збільшення входної роздільної здатності MLLM. Крім адаптації вищої роздільної здатності, моделі, такі як LLaVA-NeXT, LLaVA-UHD, Monkey, InternLM-XComposer та InternVL, використовують плиткування або адаптивне плиткування для обробки високої роздільної здатності входу, де зображення діляться на нижчі роздільні здатності та обробляються окремо. Хоча можливість обробки вищої роздільної здатності здійснюється шляхом введення додаткових експертів зору, цей підхід дещо відрізняється від технік плиткування, хоча обидва вони сумісні та можуть бути поєднані.
EAGLE: Використання суміші кодувальників для дослідження дизайн-простору для багатомодальних великих мовних моделей
Успіх великих мовних моделей (LLM) спровокував значний інтерес до надання їм візуальної сприйняття, що дозволяє їм бачити, розуміти та мислити у реальному світі. У центрі цих багатомодальних великих мовних моделей (MLLM) лежить типовий дизайн, у якому зображення перетворюються у серію візуальних токенів кодувальниками зору та додаються до текстових вкладень. CLIP часто обирається як кодувальник зору, оскільки його візуальне представлення узгоджується з текстовим простором завдяки попередньому навчанню на зображення-текстових парах. В залежності від архітектур, рецептів навчання та способу введення візуальних токенів у мовну модель, відомі сім’ї MLLM включають Flamingo, BLIP, PaLI, PaLM-E та LLaVA. Більшість цих моделей підтримують відносно низькі входні роздільні здатності через обмеження попередньо навчених кодувальників зору та довжини послідовності LLM. Робота Eagle тісно пов’язана з моделями, які використовують декілька кодувальників зору для покращення сприйняття.
Наприклад, моделі, такі як Mousi та Brave, об’єднують візуальні токени з різних кодувальників зору шляхом конкатенації за каналом або напрямком токену. RADIO вводить метод багатомодального дистиляції для уніфікації можливостей різних кодувальників зору у одну модель. MoAI, IVE та Prismer далі використовують вихід кодувальників зору, таких як OCR, виявлення або оцінка глибини, для доповнення додаткової інформації для генерації відповідей MLLM. MoVA розробляє мережу маршрутизації для призначення оптимальної моделі зору на основі заданого зображення та інструкцій.
Останні дослідження показують, що більш сильні дизайни кодувальників зору важливі для зниження галюцинацій MLLM та покращення результатів на завданнях, чутливих до роздільної здатності, таких як оптичне розпізнавання символів. Деякі роботи фокусуються на покращенні можливостей кодувальника зору, або шляхом масштабування даних попереднього навчання та параметрів, або шляхом ділення зображень на низькороздільні плитки. Однак ці підходи часто вводять великі вимоги до ресурсів навчання. Ефективна, але потужна стратегія полягає у змішуванні візуальних кодувальників, попередньо навчених з різними завданнями та входними роздільними здатностями, або шляхом об’єднання вищої роздільної здатності кодувальників з кодувальником CLIP, послідовного додавання функцій з різних кодувальників, або прийняття більш складних стратегій суміші та маршрутизації для максимізації вигод різних кодувальників. Цей підхід “суміші візуальних експертів” виявився ефективним, хоча детальне дослідження його дизайн-простору з ретельними абляціями все ще відсутнє, що мотивує Eagle до повторного розгляду цієї області. Ключові питання залишаються: які комбінації кодувальників зору вибрати, як об’єднати різні експерти, та як调整 стратегії навчання з більшою кількістю кодувальників зору.
Для вирішення цих питань Eagle систематично досліджує дизайн-простір суміші кодувальників зору для покращення сприйняття MLLM. Дослідження цього дизайн-простору включає наступні кроки: 1) бенчмаркінг різних кодувальників зору та пошук вищої роздільної здатності; 2) проведення порівняння між стратегіями об’єднання кодувальників зору; 3) прогресивне визначення оптимальної комбінації декількох кодувальників зору; 4) покращення попередньої ув’язнення експертів зору та змішування даних. Кроки дослідження показані на наступному зображенні.

Робота Eagle не є першою, яка використовує декілька кодувальників зору у MLLM, проте систематичне дослідження веде до декількох ключових висновків під цією умовою:
- Розблокування кодувальників зору під час навчання MLLM має значення. Це протилежно моделям, таким як LLaVA та іншим, які розглядають декілька кодувальників зору або викладачів, де заморожування кодувальників зору було звичайною практикою.
- Деякі недавно запропоновані стратегії суміші не показують значних переваг. Натомість проста конкатенація каналів виникає як проста, але конкурентна стратегія суміші, що пропонує найкращу ефективність та результати.
- Включення додаткових експертів зору приводить до послідовних вигод. Це робить його перспективним шляхом для систематичного покращення сприйняття MLLM, окрім масштабування окремих кодувальників. Покращення особливо виражене, коли кодувальники зору розблоковані.
- Стадія попередньої ув’язнення є ключовою. Eagle вводить стадію попередньої ув’язнення, на якій не-текстово-ув’язнені експерти зору індивідуально дофільтровуються з замороженою LLM до спільного навчання. Ця стадія суттєво підвищує результати MLLM під дизайном суміші кодувальників зору.
Eagle: Методологія та архітектура
На відміну від попередніх методів, які фокусуються на нових парадигмах суміші чи архітектурах серед кодувальників зору, мета Eagle полягає у визначенні мінімалістичного дизайну для об’єднання різних кодувальників зору, підтриманого детальними абляціями та видаленням будь-яких непотрібних компонентів. Як показано на наступному зображенні, Eagle починає з розширення базового кодувальника CLIP до набору експертів зору з різними архітектурами, завданнями попереднього навчання та роздільними здатностями. З цими експертами Eagle потім порівнює різні архітектури суміші та методи та досліджує, як оптимізувати стратегії попереднього навчання з декількома кодувальниками.

Нарешті, Eagle поєднує всі висновки та розширює підхід до декількох експертів зору з різними роздільними здатностями та галузевими знаннями. Використовуючи ті ж дані попереднього навчання, що й LLaVA-1.5, які складаються з 595 тисяч пар зображення-текст, Eagle переходить до стадії супервізійного дофільтровування, збираючи дані з серії завдань та перетворюючи їх на багатомодальні розмови, включаючи LLaVA-1.5, Laion-GPT4V, ShareGPT-4V, DocVQA, synDog-EN, ChartQA, DVQA та AI2D, що результатує у 934 тисячах зразках.
Модель спочатку попередньо навчається з пар зображення-текст на один епоху з розміром батчу 256, де вся модель заморожена, а оновлюється лише проєкторний шар. На другому етапі модель дофільтровується на даних супервізійного дофільтровування на один епоху з розміром батчу 128. Для цього дослідження Eagle використовує Vicuna-7B як базову мовну модель. Темпи навчання встановлені на 1e-3 для першої стадії та 2e-5 для другої стадії.
Більш сильний кодувальник CLIP
Eagle починає дослідження з моделі CLIP, оскільки вона стала основним вибором для багатьох MLLM. Хоча моделі CLIP відомі своєю здатністю покращувати багатомодальні завдання, їхні обмеження також були добре задокументовані. Наприклад, багато існуючих MLLM використовують попередньо навчені роздільні здатності CLIP (такі як 224 × 224 або 336 × 336) як свої входні роздільні здатності. У цих випадках кодувальники часто борються з захопленням тонких деталей, важливих для завдань, чутливих до роздільної здатності, таких як OCR та аналіз документів.

Для обробки збільшеної входної роздільної здатності поширений підхід полягає у плиткуванні, де входові зображення діляться на плитки та кодуються окремо. Інший простіший метод полягає у прямому масштабуванні входної роздільної здатності та інтерполяції позиційних вкладень моделі трансформера зору, якщо це необхідно. Eagle порівнює ці два підходи з замороженими та розблокованими кодувальниками зору через різні роздільні здатності, з результатами, що містяться у верхній таблиці. Висновки можна підсумувати наступним чином:
- Розблокування кодувальника CLIP призводить до суттєвого покращення при інтерполяції до вищої входної роздільної здатності MLLM, що відрізняється від роздільної здатності попереднього навчання CLIP, без погіршення результатів, коли роздільні здатності залишаються однаковими.
- Заморожування кодувальника CLIP та прямої адаптації до вищої входної роздільної здатності MLLM суттєво погіршує результати.
- Серед порівнюваних стратегій, прямої інтерполяції до 448 × 448 з розблокованим кодувальником CLIP виявляється як ефективна та ефективна за результатами та витратами.
- Найкращий кодувальник CLIP досягає результатів, близьких до InternVL, незважаючи на те, що це значно менша модель (300M проти 6B) з меншими даними попереднього навчання.
Eagle: Експерименти та результати
Після ретельного розвитку своїх стратегій Eagle встановлює наступні принципи для моделі: (1) інтеграція更多 експертів зору з оптимізованим рецептом навчання; (2) об’єднання декількох експертів зору шляхом прямої конкатенації каналів; (3) попереднє навчання експертів зору окремо через попереднє ув’язнення. У цьому розділі, для подальшого демонстрування переваг моделей Eagle, додаткові дані навчання включаються, та Eagle порівнюється з поточними моделями MLLM на різних завданнях. Eagle використовує Vicuna-v1.5-7B, Llama3-8B та Vicuna-v1.5-13B як мовні моделі. Для кодувальників зору моделі Eagle позначаються як Eagle-X4, які включають чотири кодувальники зору: CLIP, ConvNeXt, Pix2Struct та EVA-02, та Eagle-X5, які включають додатковий кодувальник зору SAM.
Завдання візуального питання-відповіді
Eagle порівнює серію моделей на трьох завданнях візуального питання-відповіді (VQA), включаючи GQA, VQAv2 та VizWiz. Як показано на наступному зображенні, Eagle-X5 досягає найкращих результатів на GQA та VQAv2, підкреслюючи переваги включення додаткових експертів зору.

Завдання OCR та розуміння діаграм
Для оцінки можливостей OCR, документів та розуміння діаграм моделі Eagle, модель бенчмаркується на OCRBench, TextVQA та ChartQA. Як показано на верхній таблиці, Eagle суттєво перевершує конкурентів на TextVQA, виграючи від своєї архітектури високої роздільної здатності та інтеграції різних кодувальників зору. Значно, Eagle підтримує простий дизайн, підтримуючи до 1024 токенів без потреби у складному розкладанні зображень на плитки.

Багатомодальна оцінка бенчмарків
Eagle оцінюється на семи бенчмарках для MLLM, щоб продемонструвати свої можливості з різних точок зору, включаючи MME, MMBench, SEED, MathVista, MMMU, ScienceQA та POPE. Спеціально, MME, MMBench та SEED оцінюють загальну продуктивність на різних реальних завданнях, що включають розуміння, розпізнавання, знання та OCR. MMMU фокусується на складних завданнях з різних областей, що вимагають знань коледжного рівня. POPE оцінює візуальні галюцинації MLLM. Метрики, використані у цій оцінці, відповідають стандартним налаштуванням цих бенчмарків. Eagle повідомляє про рахунок сприйняття для MME, розріз en_dev для MMBench, розріз зображення для SEED, розріз тест-mini для MathVista, розріз val для MMMU, рахунок F1 для POPE та рахунок зображення для ScienceQA, забезпечуючи узгодженість з заявленими результатами від інших моделей.

Фінальні думки
У цій статті ми говорили про Eagle, глибокий аналіз дизайн-простору для інтеграції кодувальників зору у багатомодальні великі мовні моделі. На відміну від попередніх робіт, які фокусуються на розробці нових парадигм суміші, Eagle виявляє, що систематичні дизайн-варианти мають значення, та відкриває серію корисних технік. Шаг за кроком, Eagle оптимізує рецепт навчання окремих кодувальників зору, визначає розширений та ефективний метод суміші, та поступово об’єднує кодувальники зору з різними галузевими знаннями. Результати підкреслюють критичну важливість базових дизайн-просторових міркувань.












