Штучний Інтелект

Налаштування візуальних інструкцій для розуміння на рівні пікселів за допомогою Osprey

оновлений on Січень 25, 2024

З нещодавнім удосконаленням методів налаштування візуальних інструкцій Мультимодальні великі мовні моделі (MLLM) продемонстрували надзвичайні можливості загального використання зорової мови. Ці можливості роблять їх ключовими будівельними блоками для сучасних візуальних помічників загального призначення. Останні моделі, включаючи MiniGPT-4, LLaVA, InstructBLIP та інші, демонструють вражаючі можливості візуального мислення та виконання інструкцій. Хоча більшість із них покладаються на пари зображення-текст для вирівнювання зображення-мови на рівні зображення, вони добре працюють у цій області. Однак їх залежність від розуміння на рівні коробки та зображення є основною причиною того, що MLLM не вдається відтворити свою продуктивність у тонких завданнях вирівнювання мови і зору на рівні пікселів. Крім того, обмежена доступність даних інструкцій на основі масок для навчання створює проблеми для подальшого вдосконалення MLLM.

Osprey — це навчальний метод інструкцій із масковим текстом, головною метою якого є розширення MLLM. Він включає в себе дрібнозернисті замасковані області в мовних інструкціях для досягнення візуального розуміння мови на рівні пікселів. Щоб досягти цього, фреймворк Osprey курує набір даних області-тексту на основі маски з понад 700 тисячами зразків. Він додає представлення на рівні пікселів у великі мовні моделі (LLM) для розробки мовної моделі бачення. Примітно, що фреймворк Osprey використовує модель згортки CLIP як кодер бачення та інтегрує візуальний екстрактор з урахуванням масок у свою архітектуру. Це дозволяє точно виділяти функції візуальної маски з вхідних даних високої роздільної здатності.

У цій статті ми обговоримо фреймворк Osprey і заглибимося в його архітектуру. Ми також вивчимо підібраний набір даних регіону з понад 700 тисячами зразків і порівняємо його ефективність у різних завданнях розуміння регіону. Отже, почнемо.

Osprey: розуміння пікселів із налаштуванням візуальних інструкцій

Мультимодальні великі мовні моделі, такі як MiniGPT-4, Otter, Qwen-LV, InstructBLIP та інші, є лідерами в розробці візуальних помічників загального призначення, і вони відомі своїми винятковими мультимодальними можливостями та можливостями створення зору. Однак мультимодальні моделі великої мови страждають від великої проблеми, оскільки вони дають незадовільні результати в задачах дрібного розуміння зображень, таких як субтитри, класифікація регіонів і міркування. Основною причиною низької продуктивності в задачах розуміння детального зображення є відсутність узгодженості на рівні регіону. Останні MLLM як і GPT4RoI, Shikra та інші прагнуть уможливити розуміння на рівні регіону в моделях візуальної мови шляхом обробки визначених областей обмежувальної рамки та використання налаштування візуальних інструкцій з просторовими характеристиками на рівні об’єктів.

Хоча підхід до забезпечення розуміння на рівні регіону може підвищити продуктивність, використання розріджених обмежувальних прямокутників як безпосередньо посилаючої області введення може ввести нерелевантні фонові функції, що призведе до неточного вирівнювання пари регіон-текст для налаштування візуальних інструкцій на великих мовних моделях. Під час процесу висновку посилальний вхід на рівні поля може бути не в змозі виявити та точно представити об’єкт; це може призвести до семантичного відхилення, як показано на наступному зображенні.

Для порівняння, використання дрібнозернистих масок замість грубих обмежувальних рамок як вихідних даних, що посилаються, може представити об’єкти з більшою точністю. Нещодавно розроблена модель SAM або Segment Anything Model тренується на мільярдах високоякісних масок, демонструє чудову якість сегментації на об’єктах з нульовим знімком і підтримує використання точок або простих обмежувальних рамок як підказок. Однак структура SAM не може генерувати первинні семантичні мітки, а також не може надавати детальні семантичні підписи та атрибути. Як наслідок, існуючим моделям не вистачає внутрішньої мультимодальної детальної інформації та обмежене розуміння сцен у реальному світі.

Щоб вирішити проблеми, з якими стикаються існуючі MLLM, Osprey, новий метод навчання інструкцій з масковим текстом, спрямований на розширення можливостей мультимодальних великих мовних моделей для детального розуміння на рівні пікселів. Фреймворк Osprey представляє візуальний екстрактор з урахуванням масок, який точно фіксує функції візуальної маски з різною ступенем деталізації. Потім структура поєднує візуальні функції з мовними інструкціями для створення послідовності введення для великої мовної моделі та використовує згортову архітектуру CLIP для полегшення використання вхідних даних високої роздільної здатності. Завдяки своєму дизайну та архітектурі фреймворк Osprey здатний досягти детального семантичного розуміння для областей рівня об’єкта та часткового рівня, а також надає детальні атрибути об’єкта разом із основною категорією об’єкта та покращеними описами складних сцен.

Використовуючи можливості налаштування візуальних інструкцій, фреймворк Osprey надає нові можливості, окрім розуміння сцен на рівні зображення та коробки, оскільки фреймворк Osprey може генерувати детальну семантику за допомогою агностичних масок класів із готових SAM. Крім того, Osprey також демонструє надзвичайні можливості щодо класифікації об’єктів посилання, розпізнавання відкритого словника, субтитрів на регіональному рівні та завдань детального опису регіону.

Osprey: методологія та архітектура

На наступному малюнку наведено огляд архітектури фреймворку Osprey, що складається з великої мовної моделі, візуального екстрактора з урахуванням маски на рівні пікселя та кодера візуалізації на рівні зображення.

Для заданого зображення, мови введення та областей посилальної маски структура виконує перетворення та токенізацію для генерації вбудовувань перед тим, як надсилати послідовності вбудовування мови та особливості маски з чергуванням у велику мовну модель для отримання детального семантичного розуміння.

Convolutional CLIP Vision Encoder

Кодер бачення розгорнутий у більшості мультимодальних великі мовні моделі ілюструється за допомогою моделі CLIP на основі ViT. У результаті фреймворк приймає роздільну здатність зображення 224×224 пікселів або 336 x 336 пікселів. Однак використання моделі CLIP на основі ViT ускладнює для моделі досягнення дрібного розуміння зображень на рівні пікселів, проблема ще більше посилюється в невеликих регіонах. Крім того, обчислювальне перевантаження, пов’язане з архітектурою ViT, перешкоджає можливості збільшення роздільної здатності вхідного зображення.

Щоб впоратися з проблемою, фреймворк Osprey реалізує в своїй архітектурі згортову модель CLIP як кодувальник бачення. Традиційно моделі CLIP на основі згорткових нейронних мереж продемонстрували надзвичайні можливості узагальнення в різних роздільних здатностях вхідних даних у порівнянні з моделями CLIP на основі трансформатора зору. Впровадження моделі CLIP на основі CNN створює простір для швидкого висновку та ефективного навчання без шкоди для продуктивності моделі. Крім того, модель CLIP на основі CNN здатна генерувати багатомасштабні карти функцій, які потім безпосередньо використовує структура для виділення ознак у кожній наступній області об’єкта.

Візуальний екстрактор з урахуванням маски

На відміну від існуючих моделей на основі регіонів, які використовують розріджені обмежувальні прямокутники як вхідні дані для посилання, фреймворк Osprey використовує детальні регіони масок для реалізації представлень на основі об’єктів. У моделі Osprey використовується компонент візуального екстрактора з урахуванням маски для захоплення особливостей на рівні пікселів у кожній області об’єкта. Компонент візуального екстрактора маски кодує візуальні характеристики на рівні маски та, крім того, збирає інформацію про просторове положення кожного регіону.

Щоб реалізувати це, Osprey спочатку використовує багаторівневі функції зображення, створені кодувальником візуалізації, щоб застосувати операцію об’єднання масок, а для кожної однорівневої функції фреймворк об’єднує всі функції, які знаходяться в області маски. Потім модель кодує об’єкти на різних рівнях, пропускаючи кожну об’єкту через лінійний проекційний рівень, який генерує вбудовування на рівні регіону, і об’єднує багаторівневі об’єкти, виконуючи сумування. Потім модель використовує рівень MLP для створення маркера візуальної маски. Крім того, Osprey зберігає просторову геометрію області об’єкта, кодуючи взаємозв’язок позиції на рівні пікселя шляхом реалізації двійкової маски для кожної області об’єкта. Зрештою, Osprey включає маркер візуальної маски та його відповідні просторові маркери для вбудовування кожної області маски.

Токенізація LLM

Як згадувалося раніше, модель витягує вбудовування зображення на рівні зображення, надаючи його в попередньо навчений візуальний кодер на основі CNN. Для текстової інформації модель спочатку використовує попередньо навчені токенізери LLM для токенізації текстових послідовностей, а потім проектує ці токенізовані текстові послідовності в текстові вставки. Для регіонів на основі маски модель визначає спеціальний маркер як заповнювач, а потім замінює його просторовим маркером разом із маркером маски. Коли модель посилається на область об’єкта у введеному тексті, вона додає покажчик місця заповнення після назви її області, що дозволяє областям маски добре поєднуватися з текстами, що призводить до повних речень без пробілу токенізації. Крім того, окрім інструкцій для користувача, модель також містить префіксну підказку, спеціальний маркер, який служить заповнювачем, який потім замінюється вбудованими зображеннями на рівні зображення кодера. Нарешті, структура поєднує візуальні токени на рівні області та зображення разом із текстовими токенами та передає їх у велику мовну модель для розуміння інструкцій користувача та зображення з різними регіонами в об’єкті.

Osprey: Триетапний процес навчання

Платформа Osprey розгортає триетапний процес навчання, у якому кожна з фаз навчання контролюється шляхом мінімізації втрати передбачення наступного токена.

Етап 1: Навчання вирівнюванню зображення та тексту

На першому етапі фреймворк Osprey розгортає кодер CLIP vision на основі CNN для навчання функцій рівня зображення та мовного з’єднувача для навчання моделі для вирівнювання функцій зображення та тексту. На першому етапі структура використовує три компоненти: попередньо навчену велику мовну модель, попередньо навчений візуальний кодер і проектор рівня зображення. Фреймворк також приймає рівень MLP, щоб служити конектором мови бачення, який допомагає покращити мультимодальні генеруючі можливості Osprey.

Етап 2: Попереднє навчання вирівнювання маски та тексту

На другому етапі Osprey завантажує вагу, натреновану на першому етапі, і використовує свій компонент Visual Extractor з урахуванням масок для захоплення особливостей області на рівні пікселів. На другому етапі фреймворк лише навчає візуальний екстрактор з урахуванням масок, щоб узгодити мовні вбудовування з функціями області на основі маски. Крім того, модель збирає пари масок на рівні пікселів і короткі тексти з часткового рівня та загальнодоступних наборів даних на рівні об’єктів і перетворює їх у дані, що відповідають інструкціям, для подальшого навчання моделі.

Етап 3: наскрізне тонке налаштування

На третьому й останньому етапі модель фіксує ваги кодувальника візуалізації та точно налаштовує модель великої мови, засіб виділення ознак області на основі маски та компоненти проектора рівня зображення в його архітектурі. Основна мета навчання на третьому етапі полягає в тому, щоб розширити здатність моделі точно слідувати інструкціям користувача та ефективно виконувати завдання розуміння області на рівні пікселів.

Після реалізації трьох етапів навчання платформа Osprey здатна розуміти складні сценарії, визначені інструкціями користувача та засновані на регіонах маски піксельного рівня.

Osprey: Експериментальні результати

Щоб оцінити її продуктивність, розробники Osprey проводять широкий спектр експериментів, щоб продемонструвати можливості моделі в класифікації, розпізнаванні регіонів на рівні пікселів і складних описах.

Сегментація відкритого словника

Основною метою сегментації відкритого словника є явне створення розпізнавання регіону на основі маски та його відповідної категорії. Щоб досягти сегментації відкритого словника, Osprey спочатку використовує текстову підказку введення, після чого модель приймає області маски основної істинності для інтерференції моделі для оцінки ефективності моделі в задачах розпізнавання відкритого словника. На основі відповіді речення, створеної мультимодальною великою мовною моделлю, Osprey обчислює семантичну подібність між списком словників і результатом кожного набору даних. На наступному малюнку Osprey порівнюється з сучасними мультимодальними моделями великої мови.

Як можна помітити, фреймворк Osprey перевершує існуючі методи зі значним відривом як у Cityscapes, так і в наборі даних ADE20K-150. Результати вказують на здатність Osprey перевершувати існуючі підходи та досягати надійного розуміння та розпізнавання дрібнозернистих областей об’єктів.

Класифікація референтного об’єкта

У завданні Referring Object Classification модель потрібна для класифікації об’єкта в певній області зображення. Щоб оцінити свої можливості класифікації, фреймворк Osprey використовує два показники семантичної релевантності, включаючи Semantic IoU або S-IoU та Semantic Similarity або SS. Семантичний IoU представляє накладення слів між мітками основної істинності та передбачення, тоді як семантична подібність вимірює схожість передбачених та/або міток базової істинності в семантичному просторі. Наступне зображення демонструє продуктивність Osprey у завданні Referring Object Classification у порівнянні з моделями, що використовують підходи на рівні коробки та на рівні зображення.

Детальний опис регіону

У завданні «Детальний опис регіону» модель оцінює свою продуктивність щодо можливостей детального опису за інструкціями разом з іншими підходами на рівні регіону. Модель випадковим чином вибирає підказку вхідного висновку зі списку попередньо визначених підказок і використовує структуру GPT-4 LLM для всебічного вимірювання якості відповіді, створеної моделлю, у порівнянні з областями посилання на вхідні дані. Використовуючи конвеєр генерації інструкцій, модель генерує запитання та шукає відповіді GPT-4, після чого LLM оцінює правильність семантики та точність розуміння посилання. У наведеній нижче таблиці показано продуктивність Osprey порівняно з сучасними моделями в завданнях детального опису області.

Субтитри на рівні регіону

Фреймворк Osprey також перевершує поточні підходи до завдань субтитрів на регіональному рівні з результатами, які містяться на наступному зображенні.

Заключні думки

У цій статті ми говорили про Osprey, навчальний метод інструкції з масковим текстом, основною метою якого є розширення MLLM шляхом включення дрібнозернистих замаскованих областей у мовні інструкції для досягнення розуміння візуальної мови на рівні пікселів. Щоб досягти своєї мети, фреймворк Osprey курує набір даних регіону-тексту на основі маски з понад 700 тисячами зразків і вводить представлення на рівні пікселів у LLM для розробки моделі мови бачення. Фреймворк Osprey спрямований на суттєве вдосконалення MLLM для детального візуального розуміння, а завдяки реалізації моделі CLIP на основі CNN і візуального екстрактора з урахуванням масок Osprey досягає можливості розуміти зображення як на рівні частини, так і на рівні об’єкта.

Схожі теми:CLIP vision MLLM Osprey

Вгору Далі

Звіт O'Reilly про технічні тенденції за 2024 рік

Не пропустіть

AlphaGeometry: DeepMind's AI Masters Геометричні задачі на олімпіадних рівнях

Кунал Кейрівал

«За фахом інженер, душею — письменник». Кунал є технічним письменником, який глибоко любить і розуміє штучний інтелект і машинне навчання, відданий справі спрощення складних концепцій у цих сферах за допомогою своєї цікавої та інформативної документації.