Штучний інтелект

Mini-Gemini: Розкриття Потенціалу Мультимодальних Моделей Мови та Зору

Published April 26, 2024

Updated April 4, 2026

Kunal Kejriwal

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

Розкриття потенціалу великих мовних моделей суттєво прискорило розвиток обробки природної мови, або NLP. Введення рамки трансформера стало визначальним моментом, що сприяло створенню нової хвилі мовних моделей, включно з OPT і BERT, які демонструють глибоке лінгвістичне розуміння. Крім того, виникнення моделей GPT, або генераційних передтренованих трансформерів, ввело нову парадигму з автoregresивним моделюванням і встановило міцний метод для мовного прогнозування та генерації. Поява мовних моделей, таких як GPT-4, ChatGPT, Mixtral, LLaMA та інших, ще більше прискорило еволюцію, причому кожна модель демонструє покращену продуктивність у завданнях, пов’язаних із складною мовною обробкою. Серед існуючих методів настройка інструкцій виділилася як ключовий прийом для уточнення виводу великих мовних моделей, а інтеграція цих моделей з конкретними інструментами для візуальних завдань підкреслила їх адаптивність і відкрила двері для майбутніх застосунків. Ці застосунки виходять далеко за рамки традиційної текстової обробки великих мовних моделей і включають мультимодальні взаємодії.

Крім того, злиття моделей обробки природної мови та моделей комп’ютерного зору дало початок VLM, або моделям мови та зору, які поєднують лінгвістичні та візуальні моделі для досягнення міжмодальної компренсії та розуміння. Інтеграція та виникнення візуальних і лінгвістичних моделей відіграли вирішальну роль у просуненні завдань, які вимагають як мовної обробки, так і візуального розуміння. Поява революційних моделей, таких як CLIP, ще більше звузила розрив між візуальними завданнями та мовними моделями, демонструючи здійсненність і практичність міжмодальних застосунків. Більш недавні рамки, такі як LLaMA і BLIP, використовують спеціально підібрані інструкційні дані для розробки ефективних стратегій, які демонструють потужні можливості моделі. Крім того, поєднання великих мовних моделей з візуальними виводами є фокусом недавніх мультимодальних досліджень, причому недавні методи можуть обходити пряму генерацію шляхом використання підходу пошуку зображень для генерації візуальних виводів та інтерлейованих текстів.

Відповідно, і попри швидкий розвиток моделей мови та зору, які забезпечують базове розуміння та візуальний діалог, все ще існує суттєва продуктивна розрив між просунутими моделями, такими як GPT-4, і моделями мови та зору. Mini-Gemini є спробою звузити розрив, який існує між моделями мови та зору та більш просунутими моделями шляхом розкриття потенціалу VLM для кращої продуктивності з трьох аспектів: VLM-керованої генерації, високоякісних даних та високорозірених візуальних токенів. Для покращення візуальних токенів рамка Mini-Gemini пропонує використовувати додатковий візуальний кодувальник для високорозіреної обробки без збільшення кількості візуальних токенів. Рамка Mini-Gemini далі будує високоякісний набір даних у спробі просунути точне розуміння зображень та генерацію на основі розуміння. Загалом, рамка Mini-Gemini намагається розкрити потенціал моделей мови та зору та має на меті наділити існуючі рамки можливостями розуміння, генерації та розуміння зображень одночасно. Ця стаття має на меті охопити рамку Mini-Gemini докладно, і ми досліджуємо механізм, методологію, архітектуру рамки разом з її порівнянням з рамками стану мистецтва. Тому давайте почнемо.

Mini-Gemini: Прискорення Мультимодальних VLM

За роки великі мовні моделі еволюціонували, і тепер вони володіють вражаючими мультимодальними можливостями, і стають невід’ємною частиною поточних моделей мови та зору. Однак існує розрив між мультимодальною продуктивністю великих мовних моделей і моделями мови та зору з недавніми дослідженнями, які шукають способи поєднати зір з великими мовними моделями за допомогою зображень і відео. Для візуальних завдань самої по собі роздільна здатність зображення є важливим елементом, щоб явно окреслити навколишнє середовище з мінімальними візуальними галюцинаціями. Для звуження розриву дослідники розробляють моделі для покращення візуального розуміння в поточних моделях мови та зору, і два з найпоширеніших підходів – це збільшення роздільної здатності та збільшення кількості візуальних токенів. Хоча збільшення кількості візуальних токенів з високорозіреними зображеннями дійсно покращує візуальне розуміння, цей приріст часто супроводжується збільшенням обчислювальних вимог і пов’язаних з ними витрат, особливо при обробці кількох зображень. Крім того, можливості існуючих моделей, якість існуючих даних та застосовність залишаються недостатніми для прискореного процесу розробки, залишаючи дослідників з питанням, як прискорити розвиток моделей мови та зору з прийнятними витратами?

Рамка Mini-Gemini є спробою відповісти на це питання, оскільки вона намагається дослідити потенціал моделей мови та зору з трьох аспектів: VLM-керованої генерації або розширених застосунків, високоякісних даних та високорозірених візуальних токенів. Спочатку рамка Mini-Gemini реалізує архітектуру ConvNet для генерації високорозірених кандидатів ефективно, покращуючи візуальні деталі при збереженні кількості візуальних токенів для великої мовної моделі. Рамка Mini-Gemini поєднує публічно доступні високоякісні набори даних у спробі покращити якість даних та інтегрує ці вдосконалення з рамками стану мистецтва генерації та великих мовних моделей у спробі покращити продуктивність VLM та поліпшити досвід користувача. Багатогранна стратегія, реалізована рамкою Mini-Gemini, дозволяє їй дослідити приховані можливості моделей мови та зору та досягти суттєвих просунуттів з очевидними обмеженнями ресурсів.

Загалом, рамка Mini-Gemini використовує парадигму “будь-що в будь-що”, оскільки вона здатна обробляти як текст, так і зображення як вхідні та вихідні дані. Зокрема, рамка Mini-Gemini вводить ефективний трубопровід для покращення візуальних токенів для вхідних зображень та має подвійну систему кодувальників, що складається з двох кодувальників: перший кодувальник для високорозірених зображень, а другий кодувальник для низькоякісної візуальної вкладки. Під час висновку кодувальники працюють у механізмі уваги, де низькоякісний кодувальник генерує візуальні запити, а високорозірений кодувальник надає ключі та значення для посилання. Для покращення якості даних рамка Mini-Gemini збирає та генерує більше даних на основі публічних ресурсів, включаючи інструкції, орієнтовані на завдання, дані, пов’язані з генерацією, та високорозірені відповіді, причому збільшена кількість та покращена якість покращують загальну продуктивність та можливості моделі. Крім того, рамка Mini-Gemini підтримує одночасну генерацію тексту та зображення в результаті інтеграції моделі мови та зору з просунутими генераційними моделями.

Mini-Gemini: Методологія та Архітектура

У своєму ядрі рамка Mini-Gemini концептуально проста та складається з трьох компонентів.

Рамка використовує подвійні візуальні кодувальники для надання низькоякісних візуальних вкладок та високорозірених кандидатів.
Рамка пропонує реалізувати видобуток інформації на рівні патчів для проведення видобутку на рівні патчів між низькоякісними візуальними запитами та високорозіреними регіонами.
Рамка Mini-Gemini використовує велику мовну модель для поєднання тексту з зображеннями для генерації та розуміння одночасно.

Повійні Візуальні Кодувальники

Рамка Mini-Gemini може обробляти як текстові, так і зображенні вхідні дані, з можливістю обробляти їх окремо або в поєднанні. Як демонструється на наступному зображенні, рамка Mini-Gemini починає процес застосування білінійної інтерполяції для генерації низькоякісного зображення з відповідного високорозіреного зображення.

Потім рамка обробляє ці зображення та кодує їх у багаторозмірну візуальну вкладку у двох паралельних потоках зображень. Більше конкретно, рамка Mini-Gemini зберігає традиційний трубопровід для низькоякісних потоків та використовує попередньо натренований візуальний трансформер для кодування візуальної вкладки, що дозволяє моделі зберегти довгострокові відносини між візуальними патчами для подальших взаємодій у великих мовних моделях. Для високорозірених потоків рамка Mini-Gemini приймає кодувальник на основі CNN або Конвольної Нейронної Мережі для адаптивної та ефективної обробки високорозірених зображень.

Видобуток Інформації на Рівні Патчів

З подвійними візуальними кодувальниками, що генерують низькоякісні вкладки та високорозірені функції, рамка Mini-Gemini пропонує реалізувати видобуток інформації на рівні патчів з метою розширення потенціалу моделей мови та зору з покращеними візуальними токенами. Для збереження кількості візуальних токенів для ефективності у великих мовних моделях рамка Mini-Gemini приймає низькоякісні візуальні вкладки як запит, та намагається витягнути відповідні візуальні підказки з високорозірених функційних кандидатів, причому рамка приймає високорозірену функційну карту як ключ та значення.

Як демонструється на вищезазначеному зображенні, формула охоплює процес уточнення та синтезу візуальних підказок, що призводить до генерації просунутих візуальних токенів для подальшої обробки великої мовної моделі. Процес забезпечує можливість рамці обмежити видобуток для кожного запиту до відповідної підобласті у високорозіреній функційній карті з піксельним підрахунком функцій, що призводить до покращеної ефективності. Оwing до цього дизайну рамка Mini-Gemini здатна витягнути високорозірені функційні деталі без збільшення кількості візуальних токенів та зберігає баланс між обчислювальною здійсненністю та багатством деталей.

Генерація Тексту та Зображення

Рамка Mini-Gemini конкатенує візуальні токени та вхідні текстові токени як вхідні дані для великої мовної моделі для автoregresивної генерації. На відміну від традиційних моделей мови та зору, рамка Mini-Gemini підтримує генерацію лише тексту, а також генерацію тексту та зображення як вхідних та вихідних даних, тобто висновок “будь-що в будь-що”, і це є результатом вражаючого розуміння зображень та тексту та можливостей розуміння, і рамка Mini-Gemini здатна генерувати високоякісні зображення. На відміну від недавніх робіт, які зосереджені на розриві між текстовими вкладками генераційних моделей та великими мовними моделями, рамка Mini-Gemini намагається оптимізувати розрив у домені мовних підказок шляхом перекладу інструкцій користувача у високоякісні підказки, які генерують контекстно-відповідні зображення у моделях латентного розсіювання. Крім того, для кращого розуміння настройки інструкцій та міжмодальної уваги рамка Mini-Gemini збирає зразки з публічно доступних високоякісних наборів даних та використовує рамку GPT-4 Turbo для подальшого створення набору даних з 13 тисяч інструкцій для підтримки генерації зображень.

Mini-Gemini: Експерименти та Результати

Для оцінки своєї продуктивності рамка Mini-Gemini реалізована з попередньо натренованою рамкою ConvNext-L для високорозіреного візуального кодувальника та з попередньо натренованим візуальним трансформером для низькоякісного візуального кодувальника. Для забезпечення ефективності тренування рамка Mini-Gemini зберігає два візуальні кодувальники фіксованими та оптимізує проєктори видобутку інформації на рівні патчів на всіх етапах та оптимізує велику мовну модель під час етапу настройки інструкцій.

Наступна таблиця порівнює продуктивність рамки Mini-Gemini проти моделей стану мистецтва у різних умовах та також враховує приватні моделі. Як можна спостерігати, рамка Mini-Gemini перевершує існуючі рамки у широкому діапазоні великих мовних моделей послідовно при нормальній роздільній здатності та демонструє вищу продуктивність, коли конфігурована з Gemma-2B у категорії ефективних моделей. Крім того, коли використовуються більші великі мовні моделі, масштабованість рамки Mini-Gemini є очевидною.

Для оцінки своєї продуктивності на високій роздільній здатності та розширених візуальних токенах експерименти проводяться з розміром вхідних даних 672 для низькоякісного візуального кодувальника та 1536 для візуального кодувальника. Як згадувалося раніше, основною метою високорозіреного візуального кодувальника є надання високорозіреної кандидатної інформації. Як можна спостерігати, рамка Mini-Gemini демонструє вищу продуктивність порівняно з рамками стану мистецтва.

Крім того, для оцінки візуальної компренсії рамки Mini-Gemini у реальних умовах розробники застосовують модель до різноманітних завдань розуміння та розуміння, як демонструється на наступному зображенні. Як можна спостерігати, рамка Mini-Gemini здатна розв’язувати широкий діапазон складних завдань завдяки реалізації видобутку інформації на рівні патчів та високоякісних даних. Але що ще вражає, так це те, що рамка Mini-Gemini демонструє розвинену увагу до деталей, яка виходить за рамки простої розпізнавальної здатності, та описує складові елементи докладно.

Наступна фігура надає всебічну оцінку генераційних можливостей рамки Mini-Gemini.

Порівняно з недавніми моделями, такими як ChatIllusion та AnyGPT, рамка Mini-Gemini демонструє сильніше мультимодальне розуміння, що дозволяє їй генерувати текст-у-зображення-підписи, які краще відповідають вхідним інструкціям, та результати генерації зображення-у-текст з більш сильною концептуальною подібністю. Що ще вражає, так це те, що рамка Mini-Gemini демонструє вражаючу майстерність у генерації високоякісного контенту за допомогою мультимодальних інструкцій людини лише з текстовими тренувальними даними, можливість, яка демонструє міцне семантичне розуміння та зображення-текстову увагу.

Заключні Думки

У цій статті ми говорили про Mini-Gemini, потужну та оптимізовану рамку для мультимодальних моделей мови та зору. Основною метою рамки Mini-Gemini є розкриття прихованих можливостей моделей мови та зору за допомогою високоякісних даних, стратегічного дизайну рамки та розширеної функціональної сфери. Mini-Gemini є спробою звузити розрив, який існує між моделями мови та зору та більш просунутими моделями шляхом розкриття потенціалу VLM для кращої продуктивності з трьох аспектів: VLM-керованої генерації, високоякісних даних та високорозірених візуальних токенів. Для покращення візуальних токенів рамка Mini-Gemini пропонує використовувати додатковий візуальний кодувальник для високорозіреної обробки без збільшення кількості візуальних токенів. Рамка Mini-Gemini далі будує високоякісний набір даних у спробі просунути точне розуміння зображень та генерацію на основі розуміння. Загалом, рамка Mini-Gemini намагається розкрити потенціал моделей мови та зору та має на меті наділити існуючі рамки можливостями розуміння, генерації та розуміння зображень одночасно.

Kunal Kejriwal

Інженер за професією, письменник серцем. Kunal є технічним письменником з глибокою любов'ю та розумінням AI і ML, присвяченим спрощенню складних концепцій у цих галузях завдяки його цікавим та інформативним документам.