Umělá inteligence

Mini-Gemini: Těžba potenciálu multi-modálních modelů jazyka a vize

Published April 26, 2024

Updated April 4, 2026

Kunal Kejriwal

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

Pokroky v velkých jazycových modelech významně urychlily vývoj zpracování přirozeného jazyka, nebo NLP. Zavedení rámce transformátoru se ukázalo jako milník, usnadňující vývoj nové vlny jazykových modelů, včetně OPT a BERT, které vykazují hluboké lingvistické porozumění. Kromě toho zavedení GPT, nebo Generativních předtrénovaných transformátorových modelů, představilo nový paradigm s autoregresivním modelováním a stanovilo robustní metodu pro jazykovou predikci a generaci. Příchod jazykových modelů, jako je GPT-4, ChatGPT, Mixtral, LLaMA a dalších, dále pohání rychlou evoluci, přičemž každý model vykazuje vylepšené výkony v úkolech, které zahrnují komplexní zpracování jazyka. Mezi stávajícími metodami se instruction tuning stal klíčovou technikou pro rafinování výstupu předtrénovaných velkých jazykových modelů, a integrace těchto modelů se specifickými nástroji pro vizuální úkoly zdůraznila jejich adaptabilitu a otevřela dveře pro budoucí aplikace. Tyto aplikace sahají daleko za rámec tradičního textového zpracování LLM do multimodálních interakcí.

Další rozvoj přirozeného zpracování jazyka a modelů počítačového vidění vedl ke vzniku VLM, nebo Modelů jazyka a vize, které kombinují lingvistické a vizuální modely pro dosažení mezi-modálních porozumění a schopností rozumu. Integrace a vznik vizuálních a lingvistických modelů sehrály zásadní roli v pokroku úkolů, které vyžadují jak jazykové zpracování, tak vizuální porozumění. Vznik revolučních modelů, jako je CLIP, dále most mezi vizuálními úkoly a jazykovými modely, prokázal proveditelnost a praktičnost mezi-modálních aplikací. Novější rámce, jako LLaMA a BLIP, využívají přizpůsobená instrukční data k vytvoření efektivních strategií, které prokazují silné schopnosti modelu. Kromě toho kombinace velkých jazykových modelů s obrazovými výstupy je zaměřena na recentní multimodální výzkum, přičemž recentní metody jsou schopny bypassovat přímou generaci pomocí přístupu k obrazovému vyhledávání pro produkci obrazových výstupů a proložených textů.

S tím vším řečeným a navzdory rychlému pokroku ve vision jazykových modelech usnadňujících základní rozumnění a vizuální dialog, stále existuje významný výkonový rozdíl mezi pokročilými modely, jako je GPT-4, a vision jazykovými modely. Mini-Gemini je pokus o zužšení mezery, která existuje mezi vision jazykovými modely a pokročilejšími modely tím, že využije potenciál VLM pro lepší výkon ze tří aspektů: VLM-řízená generace, vysokokvalitní data a vysokorozlišitelné vizuální tokeny. Pro vylepšení vizuálních tokenů navrhuje rámec Mini-Gemini využít další vizuální encoder pro vysokorozlišitelnou rafinaci bez zvýšení počtu vizuálních tokenů. Rámec Mini-Gemini dále konstruuje vysokokvalitní datovou sadu v pokusu o podporu přesného porozumění obrazům a generaci založené na rozumu. Celkově se rámec Mini-Gemini snaží využít potenciál modelů jazyka a vize a cílem je vybavit stávající rámce s obrazovým rozumním, porozuměním a generativními schopnostmi současně. Tento článek si klade za cíl pokrýt rámec Mini-Gemini do hloubky a prozkoumáme mechanismus, metodologii, architekturu rámce spolu s jeho srovnáním se stávajícími rámci. Takže pojďme začít.

Mini-Gemini: urychlení multi-modálních VLM

V průběhu let se velké jazykové modely vyvinuly a nyní se chlubí pozoruhodnými multi-modálními schopnostmi a stávají se nepostradatelnou součástí stávajících modelů jazyka a vize. Existuje však mezera mezi multi-modálními výkony velkých jazykových modelů a modelů jazyka a vize, přičemž recentní výzkum hledá způsoby, jak kombinovat vizi s velkými jazykovými modely pomocí obrazů a videí. Pro vizuální úkoly samotné je rozlišení obrazu zásadním prvkem, který explicitně obklopuje okolní prostředí s minimálními vizuálními halucinacemi. Aby se tato mezera zmenšila, výzkumníci vyvíjejí modely pro zlepšení vizuálního porozumění ve stávajících modelech jazyka a vize, a dvě z nejčastějších přístupů jsou: zvýšení rozlišení a zvýšení počtu vizuálních tokenů. Ačkoli zvýšení počtu vizuálních tokenů s vyšším rozlišením obrazů skutečně zlepšuje vizuální porozumění, toto zlepšení je často doprovázeno zvýšenými výpočetními požadavky a souvisejícími náklady, zejména při zpracování více obrazů. Kromě toho schopnosti stávajících modelů, kvalita stávajících dat a použitelnost zůstávají nedostačující pro urychlený vývojový proces, což zanechává výzkumníky s otázkou, „jak urychlit vývoj modelů jazyka a vize s přijatelnými náklady”?

Rámec Mini-Gemini je pokus o odpověď na tuto otázku, neboť se snaží prozkoumat potenciál modelů jazyka a vize ze tří aspektů: VLM-řízená generace nebo rozšířené aplikace, vysokokvalitní data a vysokorozlišitelné vizuální tokeny. Nejprve rámec Mini-Gemini implementuje architekturu ConvNet pro generování vyšších rozlišení kandidátů efektivně, zlepšující vizuální detaily, zatímco udržuje počet vizuálních tokenů pro velký jazykový model. Rámec Mini-Gemini kombinuje veřejně dostupné vysokokvalitní datové sady v pokusu o vylepšení kvality dat a integruje tyto vylepšení se stávajícími generativními a velkými jazykovými modely v pokusu o vylepšení výkonu VLM a zlepšení uživatelské zkušenosti. Vícečetná strategie implementovaná rámcem Mini-Gemini umožňuje mu prozkoumat skryté schopnosti modelů jazyka a vize a dosáhnout významných pokroků s evidentními omezeními zdrojů.

Obecně rámec Mini-Gemini využívá paradigmatu „cokoli na cokoli“, neboť je schopen zpracovat jak text, tak obraz jako vstup a výstup. Konkrétně rámec Mini-Gemini představuje efektivní pipeline pro vylepšení vizuálních tokenů pro vstupní obrazy a obsahuje duální systém encoderů, skládající se ze dvou encoderů: první encoder je pro vysoké rozlišení obrazů, zatímco druhý encoder je pro nízkorozlišitelné vizuální vložky. Během inferencingu pracují encodery v pozornostním mechanismu, kde nízkorozlišitelný encoder generuje vizuální dotazy, zatímco vysokorozlišitelný encoder poskytuje klíče a hodnoty pro referenci. Aby se vylepšila kvalita dat, rámec Mini-Gemini shromažďuje a produkuje více dat na základě veřejných zdrojů, včetně úkolově orientovaných instrukcí, generativních dat a vysokorozlišitelných odpovědí, přičemž zvýšené množství a vylepšená kvalita zlepšují celkový výkon a schopnosti modelu. Kromě toho rámec Mini-Gemini podporuje současnou textovou a obrazovou generaci v důsledku integrace modelu jazyka a vize s pokročilými generativními modely.

Mini-Gemini: Metodologie a architektura

V jádru je rámec Mini-Gemini konceptuálně jednoduchý a skládá se ze tří komponent.

Rámec využívá duální vizuální encodery pro poskytnutí nízkorozlišitelných vizuálních vložek a vysokorozlišitelných kandidátů.
Rámec navrhuje implementovat těžbu informací na úrovni patche pro těžbu mezi nízkorozlišitelnými vizuálními dotazy a vysokorozlišitelnými oblastmi.
Rámec Mini-Gemini využívá velký jazykový model pro spojení textu s obrazy pro generaci a porozumění současně.

Duálně-vizuální encodery

Rámec Mini-Gemini může zpracovat jak textový, tak obrazový vstup, s možností zpracovat je buď jednotlivě, nebo v kombinaci. Jak je demonstrováno na následující obraz, rámec Mini-Gemini začíná proces použitím bilineární interpolace pro generování nízkorozlišitelného obrazu z odpovídajícího vysokorozlišitelného obrazu.

Rámec poté zpracuje tyto obrazy a zakóduje je do multi-grid vizuálních vložek ve dvou paralelních obrazových tocích. Konkrétněji rámec Mini-Gemini udržuje tradiční pipeline pro nízkorozlišitelné toky a využívá CLIP-předtrénovaný vizuální transformátor pro kódování vizuálních vložek, což umožňuje modelu zachovat dlouhodobé vztahy mezi vizuálními patchi pro následné interakce ve velkých jazykových modelech. Pro vysoké rozlišení toků rámec Mini-Gemini采用uje encoder založený na CNN nebo Konvolučních neuronových sítích pro adaptivní a efektivní zpracování obrazů s vysokým rozlišením.

Těžba informací na úrovni patche

S duálními vizuálními encodery, které generují LR vložky a HR funkce, rámec Mini-Gemini navrhuje implementovat těžbu informací na úrovni patche s cílem rozšířit potenciál modelů jazyka a vize s vylepšenými vizuálními tokeny. Aby se udržela efektivita, rámec Mini-Gemini bere nízkorozlišitelné vizuální vložky jako dotaz a snaží se získat relevantní vizuální signály z HR funkcí kandidátů, přičemž rámec bere HR funkci mapy jako klíč a hodnoty.

Jak je demonstrováno na výše uvedeném obrazu, vzorec zachycuje proces rafinace a syntézy vizuálních signálů, což vede k generaci pokročilých vizuálních tokenů pro následné zpracování velkých jazykových modelů. Proces zajišťuje, že rámec je schopen omezit těžbu pro každý dotaz na odpovídající sub-oblast v HR funkci mapy s pixel-wise funkcí, což vede k vylepšené efektivitě. Díky tomuto designu je rámec Mini-Gemini schopen extrahovat HR funkci detailů bez zvýšení počtu vizuálních tokenů a udržuje rovnováhu mezi výpočetní proveditelností a bohatstvím detailů.

Textová a obrazová generace

Rámec Mini-Gemini spojuje vizuální tokeny a vstupní textové tokeny jako vstup pro velké jazykové modely pro autoregresivní generaci. Na rozdíl od tradičních modelů jazyka a vize rámec Mini-Gemini podporuje text-only i text-obraz generaci jako vstup a výstup, tj. „cokoli na cokoli“ inferencing, a je výsledkem tohoto vynikajícího obrazového a textového porozumění a rozumních schopností, rámec Mini-Gemini je schopen generovat vysoké kvalitní obrazy. Na rozdíl od recentních prací, které se zaměřují na doménový rozdíl mezi textovými vložkami generativních modelů a velkých jazykových modelů, rámec Mini-Gemini se snaží optimalizovat rozdíl v doméně jazykových promptů překladem uživatelských instrukcí na vysoké kvalitní prompty, které produkují kontextově relevantní obrazy v latentních difúzních modelech. Kromě toho pro lepší porozumění instrukčnímu fine-tuning a mezi-modálnímu zarovnání rámec Mini-Gemini shromažďuje vzorky z veřejně dostupných vysokokvalitních datových sad a využívá rámec GPT-4 turbo pro konstrukci 13K instrukční datové sady pro podporu obrazové generace.

Mini-Gemini: Experimenty a výsledky

Aby se vyhodnotila jeho výkonnost, rámec Mini-Gemini je instance s předtrénovaným rámcem ConvNext-L pro HR vizuální encoder a s CLIP-předtrénovaným Vizuálním transformátorem pro LR vizuální encoder. Aby se zajistila tréninková efektivita, rámec Mini-Gemini udržuje dva vizuální encodery pevné a optimalizuje projektory těžby informací na úrovni patche ve všech fázích a optimalizuje velký jazykový model během fáze instrukčního fine-tuning.

Následující tabulka srovnává výkon rámcu Mini-Gemini proti stávajícím modelům napříč různými nastaveními a také zohledňuje soukromé modely. Jak je vidět, rámec Mini-Gemini překonává stávající rámce napříč širokým spektrem LLM konzistentně na normálním rozlišení a prokazuje lepší výkon, když je nakonfigurován s Gemma-2B v kategorii efektivních modelů. Kromě toho, když se používají větší velké jazykové modely, je zřejmý škálovatelnost rámcu Mini-Gemini.

Aby se vyhodnotila jeho výkonnost na vysokém rozlišení a prodloužených vizuálních tokenů, experimenty se provádějí se vstupní velikostí 672 pro LR vizuální encoder a 1536 pro vizuální encoder. Jak je zmíněno dříve, hlavním účelem HR vizuálního encodera je poskytnout vysokorozlišitelné kandidátní informace. Jak je vidět, rámec Mini-Gemini dodává lepší výkon ve srovnání se stávajícími rámci.

Kromě toho, aby se vyhodnotila vizuální porozumění rámcu Mini-Gemini v reálných nastaveních, vývojáři aplikují model na řadu úkolů rozumnění a porozumění, jak je demonstrováno na následující obraz. Jak je vidět, rámec Mini-Gemini je schopen řešit širokou škálu komplexních úkolů díky implementaci těžby informací na úrovni patche a vysokokvalitních dat. Co je však ještě působivější, je fakt, že rámec Mini-Gemini prokazuje jemné přidání detailů, které sahají za rámec pouhého rozpoznávacího výkonu a popisují složité prvky podrobně.

Následující obraz poskytuje komplexní vyhodnocení generativních schopností rámcu Mini-Gemini.

Ve srovnání s recentními modely, jako je ChatIllusion a AnyGPT, rámec Mini-Gemini prokazuje silnější multi-modální porozumění schopnosti, což mu umožňuje generovat text-obraz popisky, které se shodují s vstupními instrukcemi lépe, a vede k obraz-text odpovědí se silnější konceptuální podobností. Co je však ještě působivější, je fakt, že rámec Mini-Gemini prokazuje pozoruhodnou proficienci v generování vysokokvalitního obsahu pomocí multi-modelových lidských instrukcí pouze s textovým tréninkovým datem, což ilustruje robustní sémantické porozumění a obraz-text zarovnání schopnosti rámcu Mini-Gemini.

Závěrečné myšlenky

V tomto článku jsme mluvili o Mini-Gemini, silném a streamlinovaném rámcu pro multi-modální modely jazyka a vize. Hlavním cílem rámcu Mini-Gemini je využít latentní schopnosti modelů jazyka a vize pomocí vysokokvalitních dat, strategického designu rámcu a rozšířeného funkčního rozsahu. Mini-Gemini je pokus o zužšení mezery, která existuje mezi modely jazyka a vize a pokročilejšími modely tím, že využije potenciál VLM pro lepší výkon ze tří aspektů: VLM-řízená generace, vysokokvalitní data a vysokorozlišitelné vizuální tokeny. Pro vylepšení vizuálních tokenů navrhuje rámec Mini-Gemini využít další vizuální encoder pro vysokorozlišitelnou rafinaci bez zvýšení počtu vizuálních tokenů. Rámec Mini-Gemini dále konstruuje vysokokvalitní datovou sadu v pokusu o podporu přesného porozumění obrazům a generaci založené na rozumu. Celkově se rámec Mini-Gemini snaží využít potenciál modelů jazyka a vize a cílem je vybavit stávající rámce s obrazovým rozumním, porozuměním a generativními schopnostmi současně.

Kunal Kejriwal

Inženýr z povolání, spisovatel ze srdce. Kunal je technický spisovatel s hlubokou láskou a porozuměním pro AI a ML, který se věnuje zjednodušování složitých konceptů v těchto oblastech prostřednictvím svých přitažlivých a informačních dokumentací.