výhonek Mini-Gemini: Těžba potenciálu multimodálních jazykových modelů vidění - Unite.AI
Spojte se s námi

Umělá inteligence

Mini-Gemini: Těžba potenciálu multimodálních jazykových modelů vidění

mm

Zveřejněno

 on

Mini-Gemini: Těžba potenciálu multimodálních jazykových modelů vidění

Pokroky v velké jazykové modely výrazně urychlily vývoj zpracování přirozeného jazykanebo NLP. Zavedení rámce transformátoru se ukázalo jako milník, který usnadnil vývoj nové vlny jazykových modelů, včetně OPT a BERT, které vykazují hluboké lingvistické porozumění. Kromě toho počátek GPT, neboli generativních předtrénovaných transformačních modelů, zavedl nové paradigma s autoregresivním modelováním a vytvořil robustní metodu pro predikci a generování jazyka. Příchod jazykových modelů jako GPT-4, ChatGPT, Mixtral, LLaMA a další dále podpořil rychlý vývoj, přičemž každý model prokázal lepší výkon v úkolech zahrnujících komplexní zpracování jazyka. Mezi existujícími metodami se ladění instrukcí ukázalo jako klíčová technika pro zpřesnění výstupu předem trénovaných velkých jazykových modelů a integrace těchto modelů se specifickými nástroji pro vizuální úlohy zvýraznila jejich přizpůsobivost a otevřela dveře pro budoucí aplikace. Ty sahají daleko za tradiční textové zpracování LLM a zahrnují multimodální interakce.

Kromě toho konvergence zpracování přirozeného jazyka a modelů počítačového vidění dala vzniknout VLM neboli Vision Language Models, které kombinují lingvistické a vizuální modely, aby dosáhly mezimodálního porozumění a schopností uvažování. Integrace a nástup vizuálních a lingvistických modelů sehrály klíčovou roli v postupujících úkolech, které vyžadují jak zpracování jazyka, tak vizuální porozumění. Vznik revolučních modelů, jako je CLIP, dále překlenul propast mezi zrakovými úkoly a jazykovými modely a ukázal proveditelnost a praktičnost crossmodálních aplikací. Novější rámce jako LLaMA a BLIP využívají data instrukcí na míru k navržení účinných strategií, které demonstrují silné schopnosti modelu. Kromě toho je kombinování velkých jazykových modelů s obrazovými výstupy středem zájmu nedávného multimodálního výzkumu, přičemž současné metody jsou schopny obejít přímé generování využitím přístupu načítání obrazu k vytváření obrazových výstupů a prokládaných textů.

Jak bylo řečeno, a navzdory rychlému pokroku v modelech jazyka vidění, které usnadňují základní uvažování a vizuální dialog, stále existuje značná výkonnostní mezera mezi pokročilými modely, jako je GPT-4, a modely jazyka vidění. Mini-Gemini je pokus zúžit propast, která existuje mezi modely jazyka vidění a pokročilejšími modely, těžením potenciálu VLM pro lepší výkon ze tří aspektů: generování řízené VLM, vysoce kvalitní data a vizuální tokeny s vysokým rozlišením. Pro vylepšení vizuálních tokenů navrhuje rámec Mini-Gemini použít další vizuální kodér pro vylepšení ve vysokém rozlišení bez zvýšení počtu vizuálních tokenů. Rámec Mini-Gemini dále vytváří vysoce kvalitní datovou sadu ve snaze podporovat přesné porozumění obrázkům a generování založené na uvažování. Celkově se rámec Mini-Gemini pokouší těžit z potenciálu modelů vize jazyka a jeho cílem je zmocnit stávající rámce pomocí obrazového uvažování, porozumění a generativních schopností současně. Tento článek si klade za cíl pokrýt do hloubky rámec Mini-Gemini a prozkoumáme mechanismus, metodologii, architekturu rámce spolu s jeho srovnáním s nejmodernějšími rámci. Pojďme tedy začít. 

Mini-Gemini: Zrychlení multimodálních VLM

V průběhu let se vyvinuly velké jazykové modely, které se nyní mohou pochlubit pozoruhodnými multimodálními schopnostmi a stávají se nezbytnou součástí současných modelů jazyka vidění. Existuje však propast mezi multimodálním výkonem velkých jazykových modelů a modelů jazyka vidění, přičemž nedávný výzkum hledá způsoby, jak kombinovat vidění s velkými jazykovými modely pomocí obrázků a videí. Pro samotné zrakové úkoly je rozlišení obrazu zásadním prvkem explicitně navzdory okolnímu prostředí s minimálními vizuálními halucinacemi. Aby vědci překlenuli mezeru, vyvíjejí modely pro zlepšení vizuálního porozumění v proudu modely jazyka viděnía dva z nejběžnějších přístupů jsou: zvýšení rozlišení a zvýšení počtu vizuálních tokenů. Ačkoli zvýšení počtu vizuálních tokenů s obrázky s vyšším rozlišením zlepšuje vizuální porozumění, je toto zvýšení často doprovázeno zvýšenými výpočetními požadavky a souvisejícími náklady, zejména při zpracování více obrázků. Kromě toho schopnosti stávajících modelů, kvalita stávajících dat a použitelnost zůstávají nedostatečné pro zrychlený vývojový proces, což nechává výzkumníky s otázkou: „jak urychlit vývoj modelů jazyka vidění s přijatelnými náklady"?

Rámec Mini-Gemini je pokusem odpovědět na otázku, když se pokouší prozkoumat potenciál modelů jazyka vidění ze tří aspektů: generování nebo rozšířené aplikace řízené VLM, vysoce kvalitní data a vizuální tokeny s vysokým rozlišením. Za prvé, rámec Mini-Gemini implementuje architekturu ConvNet, která efektivně generuje kandidáty s vyšším rozlišením, vylepšuje vizuální detaily při zachování počtu vizuálních tokenů pro velký jazykový model. Rámec Mini-Gemini spojuje veřejně dostupné vysoce kvalitní datové sady ve snaze zlepšit kvalitu dat a integruje tato vylepšení s nejmodernějšími generativními a velkými jazykovými modely s pokusem zvýšit výkon VLM a zlepšit uživatelskou zkušenost. Mnohostranná strategie implementovaná rámcem Mini-Gemini mu umožňuje prozkoumat skryté schopnosti modelů jazyka vidění a dosahuje významného pokroku se zjevnými omezeními zdrojů. 

Obecně platí, že rámec Mini-Gemini využívá jakékoli k jakémukoli paradigmatu, protože je schopen zpracovávat text i obrázky jako vstup a výstup. Konkrétně framework Mini-Gemini zavádí efektivní kanál pro vylepšení vizuálních tokenů pro vstupní obrázky a obsahuje systém duálního kodéru sestávající ze dvou kodérů: první kodér je pro obrázky s vysokým rozlišením, zatímco druhý kodér je pro obrázky s nízkým rozlišením. kvalitní vizuální vložení. Během vyvozování pracují kodéry v mechanismu pozornosti, kde kodér s nízkým rozlišením generuje vizuální dotazy, zatímco kodér s vysokým rozlišením poskytuje klíč a hodnoty pro referenci. Aby se zvýšila kvalita dat, shromažďuje a vytváří rámec Mini-Gemini více dat na základě veřejných zdrojů, včetně instrukcí orientovaných na úkoly, dat souvisejících s generováním a odpovědí s vysokým rozlišením, přičemž zvýšené množství a zvýšená kvalita zlepšuje celkový výkon a schopnosti modelu. Kromě toho rámec Mini-Gemini podporuje souběžné generování textu a obrázků jako výsledek integrace modelu jazyka vidění s pokročilými generativními modely. 

Mini-Gemini: Metodologie a architektura

Rámec Mini-Gemini je ve svém jádru koncepčně jednoduchý a skládá se ze tří komponent. 

  1. Rámec využívá kodéry s duálním viděním, které poskytují vizuální vložení s nízkým rozlišením a kandidáty s vysokým rozlišením. 
  2. Rámec navrhuje implementovat dolování informací o záplatách pro provádění těžby na úrovni záplat mezi vizuálními dotazy s nízkým rozlišením a oblastmi s vysokým rozlišením. 
  3. Rámec Mini-Gemini využívá velký jazykový model ke spojení textu s obrázky pro generování i porozumění současně. 

Kodéry s duálním viděním

Framework Mini-Gemini dokáže zpracovat textové i obrazové vstupy s možností zpracovat je buď jednotlivě, nebo v kombinaci. Jak je ukázáno na následujícím obrázku, framework Mini-Gemini zahajuje proces využitím bilineární interpolace pro generování obrázku s nízkým rozlišením z jeho odpovídajícího obrázku s vysokým rozlišením. 

Rámec pak tyto obrázky zpracuje a zakóduje do vícesíťového vizuálního vložení do dvou paralelních obrazových toků. Přesněji řečeno, rámec Mini-Gemini udržuje tradiční kanál pro toky s nízkým rozlišením a ke kódování vizuálních vložek používá Visual Transformer předem připravený pomocí CLIP, což usnadňuje model, aby zachoval vztah mezi vizuálními záplatami na dlouhé vzdálenosti pro následné interakce ve velkém jazyce. modely. Pro toky s vysokým rozlišením využívá rámec Mini-Gemini kodér založený na CNN nebo Convolution Neural Networks pro adaptivní a efektivní zpracování obrazu s vysokým rozlišením. 

Těžba informací o opravách

S kodéry s duálním viděním, které generují vložení LR a funkce HR, navrhuje rámec Mini-Gemini implementovat dolování informací o záplatách s cílem rozšířit potenciál modelů jazyka vidění pomocí vylepšených vizuálních tokenů. Aby byl zachován počet vizuálních tokenů pro efektivitu ve velkých jazykových modelech, používá rámec Mini-Gemini jako dotaz vizuální vložení s nízkým rozlišením a jeho cílem je získat relevantní vizuální podněty od kandidátů na funkce HR, přičemž rámec přebírá Mapa funkcí HR jako klíč a hodnota.

Jak je ukázáno na obrázku výše, vzorec zapouzdřuje proces zdokonalování a syntézy vizuálních podnětů, což vede ke generování pokročilých vizuálních tokenů pro následné zpracování velkého jazykového modelu. Tento proces zajišťuje, že rámec je schopen omezit dolování pro každý dotaz na odpovídající podoblast v mapě funkcí HR s počtem funkcí po pixelech, což vede ke zvýšené efektivitě. Díky tomuto designu je rámec Mini-Gemini schopen extrahovat detaily HR funkcí bez zvýšení počtu vizuálních tokenů a udržuje rovnováhu mezi výpočetní proveditelností a bohatostí detailů. 

Generování textu a obrázků

Rámec Mini-Gemini spojuje vizuální tokeny a vstupní textové tokeny jako vstup do velkých jazykových modelů pro auto-regresivní generování. Na rozdíl od tradičních modelů vizuálního jazyka podporuje rámec Mini-Gemini pouze text a také generování textových obrázků jako vstup a výstup, tj. jakýkoli k jakémukoli závěru, a je výsledkem této vynikající schopnosti porozumění textu a uvažování. Mini-Gemini je schopen generovat vysoce kvalitní obrázky. Na rozdíl od nedávných prací, které se zaměřují na doménovou mezeru mezi vkládáním textu generačních modelů a velkých jazykových modelů, se rámec Mini-Gemini pokouší optimalizovat mezeru v doméně jazykových výzev tím, že převádí uživatelské instrukce do vysoce kvalitních výzev, které vytvářejí kontextově relevantní obrázky. v modelech latentní difúze. Kromě toho, pro lepší pochopení jemného ladění instrukcí a zarovnání mezi modalitami, rámec Mini-Gemini shromažďuje vzorky z veřejně dostupných vysoce kvalitních datových sad a používá turbo framework GPT-4 k další konstrukci datové sady 13K podle instrukcí pro podporu generování obrázků. 

Mini-Gemini: Experimenty a výsledky

Aby bylo možné vyhodnotit jeho výkon, je rámec Mini-Gemini vytvořen s předtrénovaným rámcem ConvNext-L pro kodér vidění HR a předtrénovaným systémem CLIP. Vision Transformer pro kodér vidění LR. Aby byla zajištěna efektivita školení, udržuje rámec Mini-Gemini dva kodéry zraku pevné a optimalizuje projektory dolování informací o záplatách ve všech fázích a optimalizuje velký jazykový model během samotné fáze ladění instrukcí. 

Následující tabulka porovnává výkon rámce Mini-Gemini s nejmodernějšími modely v různých prostředích a také bere v úvahu soukromé modely. Jak lze pozorovat, Mini-Gemini překonává stávající rámce napříč širokou škálou LLM konzistentně při normálním rozlišení a vykazuje vynikající výkon při konfiguraci s Gemma-2B v kategorii efektivních modelů. Navíc, když jsou použity větší velké jazykové modely, je škálovatelnost rámce Mini-Gemini zřejmá. 

Aby bylo možné vyhodnotit jeho výkon s vysokým rozlišením a rozšířenými vizuálními tokeny, jsou experimenty prováděny se vstupní velikostí 672 pro kodér vidění LR a 1536 pro vizuální kodér. Jak již bylo zmíněno dříve, hlavním účelem vizuálního kodéru HR je nabízet informace o kandidátech ve vysokém rozlišení. Jak lze pozorovat, rámec Mini-Gemini poskytuje vynikající výkon ve srovnání s nejmodernějšími frameworky. 

Kromě toho, aby vývojáři mohli posoudit schopnost vizuálního porozumění rámce Mini-Gemini v prostředí reálného světa, aplikují model na různé úlohy uvažování a porozumění, jak ukazuje následující obrázek. Jak je vidět, framework Mini-Gemini je schopen řešit širokou škálu komplexních úloh díky implementaci patch info miningu a vysoce kvalitním datům. Co je však působivější, je skutečnost, že rámec Mini-Gemini demonstruje pronikavý doplněk k detailům, který přesahuje pouhé rozpoznávací schopnosti, a složitě popisuje složité prvky. 

Následující obrázek poskytuje komplexní hodnocení generativních schopností rámce Mini-Gemini. 

Ve srovnání s nedávnými modely, jako je ChatIllusion a AnyGPT, rámec Mini-Gemini demonstruje silnější schopnosti multimodálního porozumění, což mu umožňuje vytvářet text na obrázek titulky, které lépe odpovídají vstupním pokynům, a výsledkem jsou odpovědi mezi obrázky a texty se silnější koncepční podobností. Co je působivější, je skutečnost, že rámec Mini-Gemini demonstruje pozoruhodnou odbornost při generování vysoce kvalitního obsahu pomocí vícemodelových lidských instrukcí pouze s daty pro trénování textu, což je schopnost, která ilustruje robustní sémantickou interpretaci Mini-Gemini a schopnosti zarovnání obrázků a textu. 

Závěrečné myšlenky

V tomto článku jsme hovořili o Mini-Gemini, účinném a efektivním rámci pro multimodální jazykové modely vidění. Primárním cílem rámce Mini-Gemini je využít latentní schopnosti modelů jazyka vidění pomocí vysoce kvalitních dat, strategického návrhu rámce a rozšířeného funkčního rozsahu. Mini-Gemini je pokus zúžit propast, která existuje mezi modely jazyka vidění a pokročilejšími modely, těžením potenciálu VLM pro lepší výkon ze tří aspektů: generování řízené VLM, vysoce kvalitní data a vizuální tokeny s vysokým rozlišením. Pro vylepšení vizuálních tokenů navrhuje rámec Mini-Gemini použít další vizuální kodér pro vylepšení ve vysokém rozlišení bez zvýšení počtu vizuálních tokenů. Rámec Mini-Gemini dále vytváří vysoce kvalitní datovou sadu ve snaze podporovat přesné porozumění obrázkům a generování založené na uvažování. Celkově se rámec Mini-Gemini pokouší těžit z potenciálu modelů vize jazyka a jeho cílem je zmocnit stávající rámce pomocí obrazového uvažování, porozumění a generativních schopností současně.

„Povoláním inženýr, srdcem spisovatel“. Kunal je technický spisovatel s hlubokou láskou a porozuměním AI a ML, který se věnuje zjednodušování složitých konceptů v těchto oblastech prostřednictvím své poutavé a informativní dokumentace.