Зв'язатися з нами

Mini-Gemini: Вивчення потенціалу мультимодальних мовних моделей бачення

Штучний Інтелект

Mini-Gemini: Вивчення потенціалу мультимодальних мовних моделей бачення

mm

опублікований

 on

Mini-Gemini: Вивчення потенціалу мультимодальних мовних моделей бачення

Прогрес в великі мовні моделі значно прискорили розвиток с обробка природного мови, або НЛП. Впровадження структури трансформатора виявилося віхою, сприяючи розробці нової хвилі мовних моделей, включаючи OPT і BERT, які демонструють глибоке лінгвістичне розуміння. Крім того, поява GPT, або моделей Generative Pre-trained Transformer, запровадила нову парадигму з авторегресійним моделюванням і створила надійний метод прогнозування та генерації мови. Поява таких мовних моделей, як GPT-4, ChatGPT, Mixtral, LLaMA та інших, ще більше сприяла швидкому розвитку, причому кожна модель демонструвала підвищену продуктивність у завданнях, пов’язаних зі складною мовною обробкою. Серед існуючих методів налаштування інструкцій стало ключовим прийомом для уточнення результатів попередньо навчених великих мовних моделей, а інтеграція цих моделей зі спеціальними інструментами для візуальних завдань підкреслила їх адаптивність і відкрила двері для майбутніх застосувань. Вони виходять далеко за рамки традиційної текстової обробки LLMs і включають багатомодальні взаємодії.

Крім того, конвергенція обробки природної мови та моделей комп’ютерного бачення призвела до появи VLM, або моделей мови бачення, які поєднують лінгвістичні моделі та моделі бачення для досягнення крос-модального розуміння та можливостей міркування. Інтеграція та поява візуальних і лінгвістичних моделей зіграли вирішальну роль у просуванні завдань, які вимагають як обробки мови, так і візуального розуміння. Поява таких революційних моделей, як CLIP, ще більше подолала розрив між задачами зору та мовними моделями, продемонструвавши здійсненність і практичність крос-модальних додатків. Новіші фреймворки, такі як LLaMA та BLIP, використовують спеціалізовані дані інструкцій для розробки ефективних стратегій, які демонструють потужні можливості моделі. Крім того, об’єднання великих мовних моделей із вихідними зображеннями є центром останніх мультимодальних досліджень, причому новітні методи можуть обійти пряму генерацію, використовуючи підхід пошуку зображень для створення вихідних зображень і текстів із перемежуванням.

Зважаючи на це, і незважаючи на швидкий прогрес у моделях мови візуалізації, які сприяють базовому міркуванню та візуальному діалогу, все ще існує значний розрив у продуктивності між вдосконаленими моделями, такими як GPT-4, і моделями мови бачення. Mini-Gemini — це спроба скоротити розрив, який існує між моделями мови візуалізації та більш просунутими моделями, виявляючи потенціал VLM для кращої продуктивності з трьох аспектів: генерація під керуванням VLM, високоякісні дані та візуальні маркери високої роздільної здатності. Щоб покращити візуальні маркери, фреймворк Mini-Gemini пропонує використовувати додатковий візуальний кодер для вдосконалення високої роздільної здатності без збільшення кількості візуальних маркерів. Фреймворк Mini-Gemini додатково створює високоякісний набір даних, намагаючись сприяти точному розумінню зображень і створенню на основі міркувань. Загалом, фреймворк Mini-Gemini намагається використати потенціал мовних моделей бачення та має на меті надати існуючим фреймворкам можливості аргументації, розуміння та генерації одночасно. Ця стаття має на меті детально висвітлити фреймворк Mini-Gemini, і ми досліджуємо механізм, методологію, архітектуру фреймворку разом із його порівнянням із сучасними фреймворками. Тож почнемо. 

Mini-Gemini: прискорення мультимодальності VLM

З роками великі мовні моделі розвивалися, і тепер вони можуть похвалитися надзвичайними мультимодальними можливостями та стають невід’ємною частиною сучасних мовних моделей бачення. Однак існує розрив між багатомодальністю великих мовних моделей і моделями мови бачення, оскільки останні дослідження шукають шляхи поєднання бачення з моделями великої мови за допомогою зображень і відео. Для самих завдань зору роздільна здатність зображення є вирішальним елементом для явного незважання на навколишнє середовище з мінімальними зоровими галюцинаціями. Щоб подолати розрив, дослідники розробляють моделі для покращення візуального розуміння в сучасності мовні моделі бачення, а два найпоширеніші підходи: збільшення роздільної здатності та збільшення кількості візуальних маркерів. Хоча збільшення кількості візуальних токенів із зображеннями з вищою роздільною здатністю дійсно покращує візуальне розуміння, підвищення часто супроводжується збільшенням обчислювальних вимог і пов’язаних з цим витрат, особливо під час обробки кількох зображень. Крім того, можливості існуючих моделей, якість наявних даних і застосовність залишаються недостатніми для прискореного процесу розробки, залишаючи дослідників перед питанням: «як прискорити розробку мовних моделей бачення з прийнятними витратами"?

Фреймворк Mini-Gemini є спробою відповісти на це питання, оскільки він намагається дослідити потенціал моделей мови бачення з трьох аспектів: генерація або розширені програми під керуванням VLM, високоякісні дані та візуальні маркери високої роздільної здатності. По-перше, фреймворк Mini-Gemini реалізує архітектуру ConvNet для ефективного створення кандидатів з вищою роздільною здатністю, покращуючи візуальні деталі, зберігаючи кількість візуальних токенів для великої мовної моделі. Фреймворк Mini-Gemini об’єднує загальнодоступні високоякісні набори даних, намагаючись підвищити якість даних, і інтегрує ці вдосконалення з сучасними генеративними та великими мовними моделями, намагаючись підвищити продуктивність VLM та покращити досвід користувача. Багатогранна стратегія, реалізована фреймворком Mini-Gemini, дозволяє досліджувати приховані можливості мовних моделей бачення та досягати значних успіхів за очевидних обмежень ресурсів. 

Загалом, фреймворк Mini-Gemini використовує парадигму будь-якого, оскільки він здатний обробляти як текст, так і зображення як вхідні та вихідні дані. Зокрема, структура Mini-Gemini представляє ефективний конвеєр для вдосконалення візуальних маркерів для вхідних зображень і має систему подвійного кодування, що складається з подвійних кодерів: перший кодер призначений для зображень із високою роздільною здатністю, тоді як другий кодер для зображень із низькою роздільною здатністю. якісне візуальне вбудовування. Під час висновку кодери працюють у механізмі уваги, де кодер із низькою роздільною здатністю генерує візуальні запити, а кодер із високою роздільною здатністю надає ключ і значення для довідки. Щоб підвищити якість даних, структура Mini-Gemini збирає та створює більше даних на основі загальнодоступних ресурсів, включаючи орієнтовані на завдання інструкції, дані, пов’язані з генерацією, і відповіді з високою роздільною здатністю, причому збільшений обсяг і покращена якість покращують загальну продуктивність і можливості моделі. Крім того, фреймворк Mini-Gemini підтримує одночасну генерацію тексту та зображень в результаті інтеграції моделі мови бачення з розширеними генеративними моделями. 

Міні-Близнюки: методологія та архітектура

За своєю суттю структура Mini-Gemini концептуально проста і складається з трьох компонентів. 

  1. Фреймворк використовує кодери подвійного бачення, щоб забезпечити візуальні вбудовування з низькою роздільною здатністю та кандидати з високою роздільною здатністю. 
  2. Фреймворк пропонує реалізувати інтелектуальний аналіз інформації про виправлення для проведення видобутку на рівні виправлень між візуальними запитами з низькою роздільною здатністю та регіонами з високою роздільною здатністю. 
  3. Фреймворк Mini-Gemini використовує велику мовну модель для поєднання тексту з зображеннями для створення та розуміння одночасно. 

Кодери Dual-Vision

Фреймворк Mini-Gemini може обробляти як текстові, так і графічні дані, маючи можливість обробляти їх окремо або в комбінації. Як показано на наступному зображенні, фреймворк Mini-Gemini починає процес, використовуючи білінійну інтерполяцію для створення зображення низької роздільної здатності з відповідного зображення високої роздільної здатності. 

Потім фреймворк обробляє ці зображення та кодує їх у багатосіткове візуальне вбудовування у два паралельні потоки зображень. Точніше, фреймворк Mini-Gemini підтримує традиційний конвеєр для потоків із низькою роздільною здатністю та використовує попередньо навчений CLIP Visual Transformer для кодування візуальних вбудовувань, полегшуючи модель для збереження довгострокового зв’язку між візуальними патчами для наступних взаємодій великою мовою. моделі. Для потоків з високою роздільною здатністю структура Mini-Gemini використовує кодер на основі CNN або Convolution Neural Networks для адаптивної та ефективної обробки зображень високої роздільної здатності. 

Видобуток інформації про виправлення

За допомогою кодерів подвійного бачення, які генерують вбудовування LR і функції HR, фреймворк Mini-Gemini пропонує реалізувати видобуток інформації про латки з метою розширення потенціалу моделей мови бачення за допомогою вдосконалених візуальних токенів. Щоб підтримувати кількість візуальних токенів для ефективності у великих мовних моделях, фреймворк Mini-Gemini використовує візуальні вбудовування з низькою роздільною здатністю як запит і прагне отримати відповідні візуальні підказки від кандидатів у функції HR, а фреймворк приймає Карта функцій HR як ключ і значення.

Як показано на зображенні вище, формула інкапсулює процес уточнення та синтезу візуальних підказок, що призводить до генерації розширених візуальних токенів для подальшої обробки великої мовної моделі. Процес гарантує, що структура здатна обмежити видобуток для кожного запиту його відповідною підобластю на карті функцій HR з попіксельною кількістю функцій, що призводить до підвищення ефективності. Завдяки такому дизайну фреймворк Mini-Gemini здатний отримувати деталі функції HR без збільшення кількості візуальних токенів і підтримує баланс між обчислювальною здійсненністю та багатством деталей. 

Генерація тексту та зображень

Фреймворк Mini-Gemini об’єднує візуальні токени та вхідні текстові токени як вхідні дані для великих мовних моделей для авторегресивної генерації. На відміну від традиційних мовних моделей бачення, фреймворк Mini-Gemini підтримує генерацію лише тексту та текстових зображень як вхідні та вихідні дані, тобто від будь-якого до будь-якого висновку, і це є результатом цієї видатної здатності розуміння тексту зображення та аргументації, Mini-Gemini здатний створювати високоякісні зображення. На відміну від нещодавніх робіт, які зосереджені на розриві домену між текстовими вбудованими моделями генерації та великими мовними моделями, фреймворк Mini-Gemini намагається оптимізувати розрив у домені мовних підказок шляхом перекладу інструкцій користувача у підказки високої якості, які створюють контекстно релевантні зображення в моделях прихованої дифузії. Крім того, для кращого розуміння тонкої настройки інструкцій і крос-модальності вирівнювання структура Mini-Gemini збирає зразки із загальнодоступних високоякісних наборів даних і використовує GPT-4 Turbo Framework для подальшої побудови 13K-набору даних інструкцій для підтримки генерації зображень. 

Міні-Близнюки: експерименти та результати

Щоб оцінити його продуктивність, фреймворк Mini-Gemini створюється за допомогою попередньо навченого фреймворку ConvNext-L для кодувальника кадрового бачення та попередньо навченого CLIP. Трансформатор бачення для кодера LR vision. Щоб забезпечити ефективність навчання, фреймворк Mini-Gemini зберігає два кодери бачення фіксованими та оптимізує проектори інформаційного видобутку на всіх етапах, а також оптимізує велику мовну модель під час самого етапу налаштування інструкцій. 

У наведеній нижче таблиці порівнюється продуктивність фреймворка Mini-Gemini з сучасними моделями в різних налаштуваннях, а також враховуються приватні моделі. Як можна помітити, Mini-Gemini перевершує існуючі фреймворки в широкому діапазоні LLM стабільно при нормальній роздільній здатності та демонструє чудову продуктивність у конфігурації з Gemma-2B у категорії ефективних моделей. Крім того, коли використовуються більші великі мовні моделі, масштабованість фреймворку Mini-Gemini очевидна. 

Щоб оцінити його продуктивність із високою роздільною здатністю та розширеними візуальними токенами, експерименти проводяться з розміром вхідного сигналу 672 для кодера LR vision та 1536 для візуального кодера. Як згадувалося раніше, головна мета візуального кодера HR – надавати інформацію про кандидата з високою роздільною здатністю. Як можна помітити, фреймворк Mini-Gemini забезпечує чудову продуктивність у порівнянні з сучасними фреймворками. 

Крім того, щоб оцінити майстерність візуального розуміння фреймворку Mini-Gemini в умовах реального світу, розробники застосовують модель до різноманітних завдань на міркування та розуміння, як показано на наступному зображенні. Як можна помітити, фреймворк Mini-Gemini здатний вирішувати широкий спектр складних завдань завдяки реалізації патч-інфо-майнінгу та високоякісним даним. Але більш вражаючим є той факт, що фреймворк Mini-Gemini демонструє різке доповнення до деталей, яке виходить за рамки простого розпізнавання та складно описує складні елементи. 

На наступному малюнку представлено комплексну оцінку генеративних здібностей каркаса Mini-Gemini. 

У порівнянні з останніми моделями, такими як ChatIllusion і AnyGPT, фреймворк Mini-Gemini демонструє сильніші мультимодальні можливості розуміння, дозволяючи генерувати текст в зображення підписи, які краще узгоджуються з інструкціями введення, і призводять до зображення та тексту відповідей із більшою концептуальною подібністю. Ще більш вражаючим є той факт, що структура Mini-Gemini демонструє надзвичайну майстерність у створенні високоякісного вмісту за допомогою багатомодельних інструкцій людини лише з текстовими навчальними даними, можливість, яка ілюструє надійну семантичну інтерпретацію Mini-Gemini та навички вирівнювання зображення та тексту. 

Заключні думки

У цій статті ми говорили про Mini-Gemini, потужну та оптимізовану структуру для мультимодальних мовних моделей бачення. Основна мета фреймворку Mini-Gemini полягає в тому, щоб використовувати приховані можливості моделей мови бачення за допомогою високоякісних даних, стратегічного дизайну фреймворку та розширених функціональних можливостей. Mini-Gemini — це спроба скоротити розрив, який існує між моделями мови візуалізації та більш просунутими моделями, виявляючи потенціал VLM для кращої продуктивності з трьох аспектів: генерація під керуванням VLM, високоякісні дані та візуальні маркери високої роздільної здатності. Щоб покращити візуальні маркери, фреймворк Mini-Gemini пропонує використовувати додатковий візуальний кодер для вдосконалення високої роздільної здатності без збільшення кількості візуальних маркерів. Фреймворк Mini-Gemini додатково створює високоякісний набір даних, намагаючись сприяти точному розумінню зображень і створенню на основі міркувань. Загалом, фреймворк Mini-Gemini намагається використати потенціал мовних моделей бачення та має на меті надати існуючим фреймворкам можливості аргументації, розуміння та генерації одночасно.

«За фахом інженер, душею — письменник». Кунал є технічним письменником, який глибоко любить і розуміє штучний інтелект і машинне навчання, відданий справі спрощення складних концепцій у цих сферах за допомогою своєї цікавої та інформативної документації.