Штучний інтелект

Візуальна інструкційна настройка для розуміння на рівні пікселів з Osprey

Published January 25, 2024

Updated April 4, 2026

Kunal Kejriwal

З недавнім поліпшенням методів візуальної інструкційної настройки, багатомодальні великі мовні моделі (MLLMs) продемонстрували видатні загальновживані візуально-мовні можливості. Ці можливості роблять їх ключовими будівельними блоками для сучасних загальновживаних візуальних асистентів. Недавні моделі, включаючи MiniGPT-4, LLaVA, InstructBLIP та інші, демонструють вражаючі візуальні міркування та інструкції, що слідують можливостям. Хоча більшість з них покладаються на пари зображення-текст для видання мови-відео на рівні зображення, вони добре виконують свою роботу в цій галузі. Однак їхня залежність від рівня коробки та рівня зображення є основною причиною, через яку MLLM не можуть повторити свою продуктивність на завдань тонкої візуально-мовної уваги на рівні пікселів. Крім того, обмежена доступність даних інструкцій на основі масок для навчання становить виклик у подальшому вдосконаленні MLLM.

Osprey – це метод навчання інструкцій на основі масок-тексту з основною метою розширення можливостей MLLM. Він включає тонкі маскові регіони в мовну інструкцію для досягнення розуміння мови-відео на рівні пікселів. Для цього рамка Osprey курирує набір даних регіону-тексту на основі масок з більш ніж 700 тисяч зразків. Він вводить представлення рівня пікселів у великі мовні моделі (LLM), щоб розробити модель мови-відео. Відзначимо, що рамка Osprey采用є конволюційну модель CLIP як свій візуальний кодувальник і інтегрує масково-обізнаний візуальний екстрактор у свою архітектуру. Це дозволяє точно витягувати візуальні маскові ознаки з високорозрібних входів.

У цій статті ми обговоримо рамку Osprey та глибше зануримося у її архітектуру. Ми також дослідимо курирований набір даних регіону-тексту з більш ніж 700 тисяч зразків та порівняємо її продуктивність у різних завданнях розуміння регіону. Тому почнімо.

Osprey: Розуміння пікселів з візуальною інструкційною настройкою

Багатомодальні великі мовні моделі, такі як MiniGPT-4, Otter, Qwen-LV, InstructBLIP та інші, є лідерами у розробці загальновживаних візуальних асистентів і відомі своїми винятковими багатомодальними та візуальними генеративними можливостями. Однак багатомодальні великі мовні моделі стикаються з серйозним викликом, оскільки вони демонструють незадовільні результати на завданнях тонкого розуміння зображень, таких як підписи, класифікація регіону та міркування. Основною причиною недостатньої продуктивності на завданнях тонкого розуміння зображень є відсутність вирівнювання на рівні регіону. Недавні MLLMs, такі як GPT4RoI, Shikra та інші, спрямовані на забезпечення розуміння регіону у моделях мови-відео шляхом обробки регіону, визначеного коробкою, та використання візуальної інструкційної настройки з просторовими ознаками на рівні об’єкта.

Хоча підхід до забезпечення розуміння регіону може покращити продуктивність, використання рідких коробок, що вказують на регіони, безпосередньо може вводити непотрібні фонові ознаки, що призводить до неточної вирівнювання регіону-тексту для візуальної інструкційної настройки на великих мовних моделях. Під час процесу висновку входження регіону на рівні коробки може не бути здатним виявити та представити об’єкт точно; це може призвести до семантичного відхилення, як це показано на наступному зображенні.

Натомість використання тонких масок замість грубих коробок, що вказують на регіони, може представляти об’єкти з більшою точністю. Недавно розроблена модель SAM або Segment Anything Model, яка тренується на мільярдах високоякісних масок, демонструє видатну якість сегментації на нульових об’єктах і підтримує використання точок або простих коробок, що вказують на регіони, як промпти. Однак рамка SAM не може генерувати первинні семантичні мітки, а також не може надавати детальні семантичні підписи та атрибути. Як результат, існуючі моделі не мають вбудованої багатомодальної тонкої інформації та мають обмежене розуміння сцен у реальному світі.

Для подолання викликів, з якими стикаються існуючі MLLM, Osprey, новий метод навчання інструкцій на основі масок-тексту, спрямований на розширення можливостей багатомодальних великих мовних моделей для тонкого розуміння на рівні пікселів. Рамка Osprey вводить масково-обізнаний візуальний екстрактор, який захоплює візуальні маскові ознаки з різною гранулярністю точно. Рамка потім чередує візуальні ознаки з мовними інструкціями для генерації входної послідовності для великої мовної моделі та використовує конволюційну модель CLIP для забезпечення використання високорозрібного входу.

Оwing до свого дизайну та архітектури, рамка Osprey здатна досягти тонкого семантичного розуміння для регіону об’єкта та частини об’єкта, а також надає детальні атрибути об’єкта разом з основною категорією об’єкта та покращеними описами складних сцен.

Відповідно до можливостей візуальної інструкційної настройки, рамка Osprey дозволяє нові можливості за межами розуміння зображення на рівні та рівня коробки сцен, оскільки рамка Osprey може генерувати тонкі семантики, використовуючи клас-агностичні маски з готових SAM. Крім того, Osprey демонструє видатні можливості у різних завданнях, таких як класифікація об’єкта, що вказується, визнання відкритої лексики, регіональне підписування та детальне описання регіону.

Osprey: Методологія та архітектура

Наступне зображення демонструє архітектурний огляд рамки Osprey, що складається з великої мовної моделі, візуального екстрактора на рівні пікселів та візуального кодувальника на рівні зображення.

Для заданого зображення, входної мови та регіону масок, рамка здійснює конверсію та токенізацію для генерації вкладень перед відправкою мовної вкладення послідовності та чередованих маскових ознак до великої мовної моделі для отримання тонкого семантичного розуміння.

Конволюційний CLIP Візуальний Кодувальник

Візуальний кодувальник, розгорнутий у більшості багатомодальних великих мовних моделей, демонструється за допомогою моделі CLIP на основі ViT. Як результат, рамка采用є роздільну здатність зображення 224×224 пікселів або 336 x 336 пікселів. Однак використання моделі CLIP на основі ViT робить його складним для досягнення тонкого розуміння зображення на рівні пікселів, проблема, яку посилює ще більше у малих регіонах. Крім того, обчислювальне навантаження, пов’язане з архітектурою ViT, перешкоджає можливості збільшення роздільної здатності входного зображення.

Для подолання цього виклику, рамка Osprey реалізує конволюційну модель CLIP як візуальний кодувальник у своїй архітектурі. Традиційно, моделі CLIP на основі конволюційних нейронних мереж демонстрували видатні можливості узагальнення на різних входах роздільної здатності проти моделей CLIP на основі візуального трансформера. Реалізація моделі CLIP на основі конволюційної нейронної мережі створює місце для швидкого висновку та ефективної підготовки без компромісу щодо продуктивності моделі. Крім того, модель CLIP на основі конволюційної нейронної мережі здатна генерувати багатошарові ознаки, які рамка потім безпосередньо використовує для витягування ознак у кожному наступному регіоні об’єкта.

Масково-Обізнаний Візуальний Екстрактор

На відміну від існуючих регіональних моделей, які використовують рідкі коробки, що вказують на регіони, рамка Osprey використовує детальні маскові регіони для реалізації об’єктних представлень. Модель Osprey використовує масково-обізнаний візуальний екстрактор для захоплення візуальних ознак на рівні пікселів у кожному регіоні об’єкта.

Для реалізації цього, Osprey спочатку використовує багатошарові ознаки зображення, згенеровані візуальним кодувальником, для прийняття операції пулізації масок, а для кожного рівня ознак пулізує всі ознаки, що лежать у регіоні маски. Модель потім кодує ознаки через різні шари, передаючи кожну ознаку через лінійний проєкційний шар, який генерує регіональні вкладення, та з’єднує багатошарові ознаки шляхом сумування. Модель потім використовує шар MLP для генерації візуального маскового токену. Крім того, Osprey зберігає просторову геометрію об’єкта, кодуючи відношення позиції пікселів на рівні об’єкта шляхом реалізації бінарної маски для кожного регіону об’єкта. На завершення, Osprey включає візуальний масковий токен та його відповідні просторові токени для кожного маскового регіону вкладення.

Токенізація LLM

Як згадувалося раніше, модель витягує вкладення зображення на рівні зображення, вводячи його у попередньо підготовлений конволюційний візуальний кодувальник. Для текстової інформації, модель спочатку використовує попередньо підготовлені токенізаційні інструменти LLM для токенізації текстових послідовностей, а потім проєктує ці токенізаційні текстові послідовності у текстові вкладення.

Osprey: Трьохетапний Процес Навчання

Рамка Osprey розгортає триетапний процес навчання, у якому кожна фаза навчання супроводжується мінімалізацією втрат next-token.

Етап 1: Навчання Вирівнювання Зображення-Текст

На першому етапі, рамка Osprey розгортає конволюційний візуальний кодувальник на основі CLIP для навчання ознак зображення на рівні зображення та мовного конектору для навчання моделі для вирівнювання ознак зображення-текст.

Етап 2: Переднавчання Вирівнювання Масок-Текст

На другому етапі, Osprey завантажує ваги, треновані на першому етапі, та використовує свій масково-обізнаний візуальний екстрактор для захоплення регіональних ознак на рівні пікселів.

Етап 3: Кінцеве Настройування

На третьому та останньому етапі, модель фіксує ваги візуального кодувальника та налаштовує велику мовну модель, масково-обізнаний візуальний екстрактор та компонент проєктора на рівні зображення у своїй архітектурі.

Після реалізації трьох етапів навчання, рамка Osprey здатна розуміти складні сценарії, визначені інструкціями користувача, та засновані на регіонах масок на рівні пікселів.

Osprey: Експериментальні Результати

Для оцінки своєї продуктивності, розробники Osprey проводять широкий спектр експериментів для демонстрації можливостей моделі у класифікації, розпізнаванні регіону на рівні пікселів та складних описах.

Відкрита Лексика Сегментації

Основною метою відкритої лексики сегментації є генерація регіону масок на основі розпізнавання та його категорії явно.

Як можна побачити, рамка Osprey перевершує існуючі методи на значній відстані на наборах даних Cityscapes та ADE20K-150.

Класифікація Об’єкта, що Вказується

У завданнях класифікації об’єкта, що вказується, модель повинна класифікувати об’єкт у конкретному регіоні зображення.

Детальне Описання Регіону

У завданнях детального описання регіону, модель оцінює свою продуктивність на інструкціях, що слідують, та описах регіону.

Підписування Регіону

Рамка Osprey також перевершує поточні підходи у завданнях підписування регіону.

Заключні Думки

У цій статті, ми говорили про Osprey, метод навчання інструкцій на основі масок-тексту з основною метою розширення можливостей багатомодальних великих мовних моделей шляхом включення тонких маскових регіону у мовну інструкцію для досягнення розуміння мови-відео на рівні пікселів.