Dirbtinis intelektas

Mini-Gemini: Multimodalumo vizijos kalbos modelių potencialo išnaudojimas

paskelbta

prieš 1 savaitę

Balandis 26, 2024

Mini-Gemini: Multimodalumo vizijos kalbos modelių potencialo išnaudojimas

Pažanga į didelių kalbų modeliai žymiai paspartino plėtrą natūralus kalbos apdorojimasarba NLP. Transformatoriaus sistemos įvedimas pasirodė esąs svarbus žingsnis, palengvinantis naujos kalbos modelių bangos, įskaitant OPT ir BERT, kūrimą, kurie pasižymi giliu kalbiniu supratimu. Be to, pradėjus kurti GPT arba generuojamųjų iš anksto apmokytų transformatorių modelius, buvo įdiegta nauja paradigma su autoregresyviu modeliavimu ir sukurtas patikimas kalbos numatymo ir generavimo metodas. Kalbos modelių, tokių kaip GPT-4, ChatGPT, Mixtral, LLaMA ir kitų, atsiradimas dar labiau paskatino sparčią evoliuciją, o kiekvienas modelis demonstruoja geresnį našumą atliekant užduotis, susijusias su sudėtingu kalbos apdorojimu. Tarp esamų metodų instrukcijų derinimas tapo pagrindine iš anksto parengtų didelių kalbų modelių išvesties tobulinimo technika, o šių modelių integravimas su specialiais įrankiais vizualinėms užduotims atlikti išryškino jų pritaikomumą ir atvėrė duris būsimoms programoms. Jie apima daug daugiau nei tradicinis tekstu pagrįstas LLM apdorojimas ir apima daugiarūšes sąveikas.

Be to, dėl natūralios kalbos apdorojimo ir kompiuterinio matymo modelių konvergencijos atsirado VLM arba vizijos kalbos modeliai, kurie sujungia kalbinius ir vizijos modelius, kad būtų galima suprasti įvairias rūšis ir mąstyti. Vaizdinių ir kalbinių modelių integracija ir atsiradimas suvaidino lemiamą vaidmenį vykdant užduotis, kurioms reikia ir kalbos apdorojimo, ir vizualinio supratimo. Revoliucinių modelių, tokių kaip CLIP, atsiradimas dar labiau sumažino atotrūkį tarp vizijos užduočių ir kalbos modelių, parodydamas įvairių transporto rūšių pritaikymo galimybes ir praktiškumą. Naujausios sistemos, tokios kaip LLaMA ir BLIP, naudoja pritaikytus instrukcijų duomenis, kad sukurtų veiksmingas strategijas, parodančias galingas modelio galimybes. Be to, didelių kalbų modelių derinimas su vaizdo išvestimis yra naujausių multimodalinių tyrimų dėmesio centre, o naujausi metodai gali apeiti tiesioginį generavimą, naudojant vaizdų gavimo metodą, kad būtų galima sukurti vaizdo išvestį ir interleaved tekstus.

Atsižvelgiant į tai, ir nepaisant sparčios regėjimo kalbos modelių pažangos, palengvinančios pagrindinius samprotavimus ir vizualinį dialogą, vis dar yra didelis našumo atotrūkis tarp pažangių modelių, tokių kaip GPT-4, ir regėjimo kalbos modelių. „Mini-Gemini“ yra bandymas susiaurinti atotrūkį tarp vizijos kalbos modelių ir pažangesnių modelių, išnaudojant VLM potencialą geresniam našumui trimis aspektais: VLM valdoma generacija, aukštos kokybės duomenys ir didelės skiriamosios gebos vaizdo prieigos raktai. Siekiant pagerinti vaizdinius žetonus, „Mini-Gemini“ sistemoje siūloma naudoti papildomą vaizdo kodavimo įrenginį, skirtą didelės raiškos patobulinimui, nedidinant vaizdinių žetonų skaičiaus. „Mini-Gemini“ sistema toliau sukuria aukštos kokybės duomenų rinkinį, siekdama skatinti tikslų vaizdų supratimą ir samprotavimu pagrįstą generavimą. Apskritai, „Mini-Gemini“ sistema bando išnaudoti vizijos kalbos modelių potencialą ir siekia suteikti esamoms sistemoms vaizdinio samprotavimo, supratimo ir generavimo galimybes vienu metu. Šio straipsnio tikslas yra išsamiai apžvelgti „Mini-Gemini“ sistemą, o mes tyrinėjame mechanizmą, metodiką, sistemos architektūrą ir palyginimą su naujausiomis sistemomis. Taigi pradėkime.

„Mini-Gemini“: daugiarūšio VLM spartinimas

Bėgant metams išsivystė dideli kalbų modeliai, kurie dabar gali pasigirti nepaprastomis daugiarūšio transporto galimybėmis ir tampa esmine dabartinių vizijos kalbų modelių dalimi. Tačiau yra atotrūkis tarp daugiarūšio didelių kalbos modelių ir vizijos kalbos modelių veikimo, nes naujausi tyrimai ieško būdų, kaip sujungti regėjimą su dideliais kalbos modeliais naudojant vaizdus ir vaizdo įrašus. Atliekant pačias regėjimo užduotis, vaizdo skiriamoji geba yra labai svarbus elementas, aiškiai nepaisant supančios aplinkos su minimaliomis regos haliucinacijomis. Siekdami užpildyti atotrūkį, mokslininkai kuria modelius, kad pagerintų vizualinį supratimą dabartyje regėjimo kalbos modeliai, o du dažniausiai naudojami būdai: didinti skiriamąją gebą ir padidinti vaizdinių žetonų skaičių. Nors vizualinių žetonų su didesnės raiškos vaizdais skaičiaus padidinimas pagerina vizualinį supratimą, tačiau dažnai didėja skaičiavimo reikalavimai ir susijusios išlaidos, ypač apdorojant kelis vaizdus. Be to, esamų modelių galimybės, esamų duomenų kokybė ir pritaikomumas vis dar yra nepakankami pagreitintam kūrimo procesui, todėl tyrėjams kyla klausimas:kaip paspartinti vizijos kalbos modelių kūrimą su priimtinomis sąnaudomis"?

„Mini-Gemini“ sistema yra bandymas atsakyti į šį klausimą, nes joje bandoma ištirti vizijos kalbos modelių potencialą trimis aspektais: VLM valdoma generacija arba išplėstos programos, aukštos kokybės duomenys ir didelės raiškos vaizdiniai žetonai. Pirma, „Mini-Gemini“ sistema įgyvendina „ConvNet“ architektūrą, kad būtų efektyviai generuojami didesnės raiškos kandidatai, patobulinamos vaizdinės detalės ir išlaikomas didelės kalbos modelio vizualinis prieigos raktų skaičius. „Mini-Gemini“ sistema sujungia viešai prieinamus aukštos kokybės duomenų rinkinius, siekdama pagerinti duomenų kokybę, ir integruoja šiuos patobulinimus su naujausiais generuojamųjų ir didelių kalbų modeliais, siekdama pagerinti VLM našumą ir pagerinti. vartotojo patirtį. „Mini-Gemini“ sistemos įgyvendinama daugialypė strategija leidžia jai ištirti paslėptas vizijos kalbos modelių galimybes ir pasiekti reikšmingų pažangų su akivaizdžiais išteklių apribojimais.

Apskritai, „Mini-Gemini“ sistemoje naudojama bet kokia paradigma, nes ji gali apdoroti tekstą ir vaizdus kaip įvestį ir išvestį. Visų pirma, „Mini-Gemini“ sistema pristato veiksmingą vamzdyną, skirtą įvesties vaizdų vaizdiniams žetonams tobulinti, ir turi dvigubą kodavimo sistemą, kurią sudaro du koduotuvai: pirmasis koduotuvas skirtas didelės raiškos vaizdams, o antrasis – žemos raiškos vaizdams. kokybiškas vizualinis įterpimas. Atliekant išvadas, kodavimo įrenginiai veikia dėmesio mechanizme, kai mažos raiškos koduotuvas generuoja vaizdines užklausas, o didelės raiškos koduotuvas pateikia raktą ir nuorodas. Siekdama pagerinti duomenų kokybę, „Mini-Gemini“ sistema renka ir sukuria daugiau duomenų, pagrįstų viešaisiais ištekliais, įskaitant į užduotis orientuotas instrukcijas, su generavimu susijusius duomenis ir didelės raiškos atsakymus, o didesnis kiekis ir geresnė kokybė pagerina bendrą našumą ir modelio galimybes. Be to, „Mini-Gemini“ sistema palaiko teksto ir vaizdo generavimą vienu metu, nes vizijos kalbos modelis yra integruotas su pažangiais generavimo modeliais.

Mini-Dvyniai: metodika ir architektūra

Iš esmės „Mini-Gemini“ sistema yra konceptualiai paprasta ir susideda iš trijų komponentų.

Sistemoje naudojami dvigubo matymo kodavimo įrenginiai, kad būtų galima pateikti mažos skyros vaizdinius įterpimus ir didelės skyros kandidatus.
Sistemoje siūloma įdiegti pataisų informacijos gavybą, kad pataisų lygiu būtų galima ieškoti tarp mažos skyros vaizdinių užklausų ir didelės skyros regionų.
„Mini-Gemini“ sistemoje naudojamas didelis kalbos modelis, kad tekstas būtų sujungtas su vaizdais, kad būtų galima vienu metu sukurti ir suprasti.

Dviejų matmenų kodavimo įrenginiai

„Mini-Gemini“ sistema gali apdoroti tiek teksto, tiek vaizdo įvestis, su galimybe juos tvarkyti atskirai arba kartu. Kaip parodyta toliau pateiktame paveikslėlyje, „Mini-Gemini“ sistema pradeda procesą naudodama bilinijinę interpoliaciją, kad iš atitinkamo didelės raiškos vaizdo būtų generuojamas žemos raiškos vaizdas.

Tada sistema apdoroja šiuos vaizdus ir užkoduoja juos į kelių tinklelių vizualinį įterpimą į du lygiagrečius vaizdo srautus. Tiksliau tariant, „Mini-Gemini“ sistema palaiko tradicinį mažos skiriamosios gebos srautų konvejerį ir naudoja CLIP paruoštą vaizdo transformatorių, kad užkoduotų vaizdinius įterpimus, palengvinančius modelį, kad būtų išsaugotas ilgalaikis ryšys tarp vaizdinių pleistrų, kad vėliau būtų galima sąveikauti didele kalba. modeliai. Didelės skiriamosios gebos srautams „Mini-Gemini“ sistema naudoja CNN arba „Convolution Neural Networks“ pagrįstą kodavimo įrenginį, kad būtų galima prisitaikyti ir efektyviai apdoroti didelės raiškos vaizdus.

Patch Info Mining

Naudojant dvigubo matymo kodavimo įrenginius, generuojančius LR įterpimus ir HR funkcijas, „Mini-Gemini“ sistema siūlo įdiegti pataisų informacijos gavybą, siekiant išplėsti regėjimo kalbos modelių potencialą naudojant patobulintus vaizdinius prieigos raktus. Siekiant išlaikyti vaizdinių žetonų skaičių, kad būtų galima efektyviai naudoti didelius kalbų modelius, „Mini-Gemini“ sistema kaip užklausą naudoja mažos skyros vaizdinius įterpimus ir siekia gauti atitinkamų vaizdinių užuominų iš kandidatų į HR funkciją, o sistema naudoja HR funkcijų žemėlapis kaip raktas ir vertė.

Kaip parodyta aukščiau esančiame paveikslėlyje, formulė apima vaizdinių ženklų tobulinimo ir sintezės procesą, dėl kurio generuojami pažangūs vaizdiniai žetonai, skirti tolesniam didelio kalbos modelio apdorojimui. Procesas užtikrina, kad sistema gali apriboti kiekvienos užklausos gavybą su atitinkamu subregionu HR funkcijų žemėlapyje su taškų skaičiumi, todėl padidėja efektyvumas. Dėl šio dizaino „Mini-Gemini“ sistema gali išgauti HR funkcijų detales nepadidindama vizualinių žetonų skaičiaus ir išlaiko pusiausvyrą tarp skaičiavimo galimybių ir detalių turtingumo.

Teksto ir vaizdo generavimas

„Mini-Gemini“ sistema sujungia vaizdinius ir įvesties teksto prieigos raktus kaip įvestį į didelius kalbos modelius, kad būtų galima generuoti automatiškai. Skirtingai nuo tradicinių regėjimo kalbos modelių, Mini-Gemini sistema palaiko tik teksto ir teksto vaizdo generavimą kaip įvestį ir išvestį, ty bet kokią išvadą, ir tai yra šių išskirtinių vaizdo ir teksto supratimo ir samprotavimo galimybių rezultatas. Mini-Gemini gali generuoti aukštos kokybės vaizdus. Skirtingai nuo naujausių darbų, kuriuose pagrindinis dėmesys skiriamas srities atotrūkiui tarp kartos modelių teksto įterpimų ir didelių kalbos modelių, „Mini-Gemini“ sistema bando optimizuoti kalbos raginimų srities spragą, paverčiant vartotojo instrukcijas aukštos kokybės raginimais, kurie sukuria kontekstą atitinkančius vaizdus. latentinės difuzijos modeliuose. Be to, siekiant geriau suprasti instrukcijų koregavimą ir kryžminio modalumo derinimą, „Mini-Gemini“ sistema renka pavyzdžius iš viešai prieinamų aukštos kokybės duomenų rinkinių ir naudoja GPT-4 turbo sistemą, kad toliau sudarytų 13K instrukcijas po duomenų rinkinio, kad palaikytų vaizdų generavimą.

Mini-Dvyniai: eksperimentai ir rezultatai

Norint įvertinti jos našumą, „Mini-Gemini“ sistema yra sukurta naudojant iš anksto paruoštą „ConvNext-L“ sistemą, skirtą HR regėjimo koduotuvui, ir su CLIP iš anksto apmokyta sistema. Regėjimo transformatorius LR regos kodavimo įrenginiui. Siekiant užtikrinti mokymo efektyvumą, „Mini-Gemini“ sistema palaiko du regėjimo kodavimo įrenginius, optimizuoja informacijos pataisų gavybos projektorius visuose etapuose ir optimizuoja didžiosios kalbos modelį pačioje instrukcijų derinimo stadijoje.

Toliau pateiktoje lentelėje palyginamas „Mini-Gemini“ sistemos veikimas su naujausiais modeliais įvairiuose nustatymuose, taip pat atsižvelgiama į privačius modelius. Kaip galima pastebėti, „Mini-Gemini“ nuosekliai lenkia esamas sistemas įvairiuose LLM, esant normaliai skyrai, ir demonstruoja puikų našumą, kai sukonfigūruotas su „Gemma-2B“ efektyvių modelių kategorijoje. Be to, kai naudojami didesni didelių kalbų modeliai, Mini-Gemini sistemos mastelio keitimas yra akivaizdus.

Norint įvertinti jo našumą naudojant didelės skiriamosios gebos ir išplėstinius vaizdinius žetonus, eksperimentai atliekami naudojant 672 įvesties dydį LR regos koduotojui ir 1536 vaizdo kodavimo įvesties dydį. Kaip minėta anksčiau, pagrindinis HR vizualinio kodavimo įrenginio tikslas yra pasiūlyti didelės raiškos kandidato informaciją. Kaip galima pastebėti, „Mini-Gemini“ sistema užtikrina puikų našumą, palyginti su naujausiomis sistemomis.

Be to, norėdami įvertinti „Mini-Gemini“ sistemos vizualinį supratimą realiame pasaulyje, kūrėjai taiko modelį įvairioms samprotavimo ir supratimo užduotims, kaip parodyta toliau pateiktame paveikslėlyje. Kaip galima pastebėti, „Mini-Gemini“ sistema gali išspręsti daugybę sudėtingų užduočių, nes įdiegta pataisų informacijos gavyba ir aukštos kokybės duomenys. Tačiau dar įspūdingiau yra tai, kad „Mini-Gemini“ sistema puikiai papildo detales, kurios neapsiriboja vien tik atpažinimo meistriškumu, o sudėtingus elementus apibūdina sudėtingai.

Toliau pateiktame paveikslėlyje pateikiamas išsamus Mini-Gemini sistemos generatyvinių gebėjimų įvertinimas.

Lyginant su naujausiais modeliais, tokiais kaip „ChatIllusion“ ir „AnyGPT“, „Mini-Gemini“ sistema demonstruoja stipresnius daugiarūšio supratimo gebėjimus, leidžiančius generuoti. teksto į vaizdą antraštės, kurios geriau suderinamos su įvesties instrukcijomis, todėl atsakymų vaizdas į tekstą yra stipresnis konceptualiai panašus. Dar įspūdingiau yra tai, kad „Mini-Gemini“ sistema demonstruoja puikius įgūdžius kuriant aukštos kokybės turinį naudojant kelių modelių žmonių instrukcijas, tik naudojant teksto mokymo duomenis, o tai yra galimybė, iliustruojanti „Mini-Gemini“ tvirtą semantinę interpretaciją ir vaizdo ir teksto derinimo įgūdžius.

Baigiamosios mintys

Šiame straipsnyje kalbėjome apie „Mini-Gemini“ – galingą ir supaprastintą daugiarūšio matymo kalbos modelių sistemą. Pagrindinis „Mini-Gemini“ sistemos tikslas yra panaudoti latentines vizijos kalbos modelių galimybes naudojant aukštos kokybės duomenis, strateginį sistemos dizainą ir išplėstą funkcinę sritį. „Mini-Gemini“ yra bandymas susiaurinti atotrūkį tarp vizijos kalbos modelių ir pažangesnių modelių, išnaudojant VLM potencialą geresniam našumui trimis aspektais: VLM valdoma generacija, aukštos kokybės duomenys ir didelės skiriamosios gebos vaizdo prieigos raktai. Siekiant pagerinti vaizdinius žetonus, „Mini-Gemini“ sistemoje siūloma naudoti papildomą vaizdo kodavimo įrenginį, skirtą didelės raiškos patobulinimui, nedidinant vaizdinių žetonų skaičiaus. „Mini-Gemini“ sistema toliau sukuria aukštos kokybės duomenų rinkinį, siekdama skatinti tikslų vaizdų supratimą ir samprotavimu pagrįstą generavimą. Apskritai, „Mini-Gemini“ sistema bando išnaudoti vizijos kalbos modelių potencialą ir siekia suteikti esamoms sistemoms vaizdinio samprotavimo, supratimo ir generavimo galimybes vienu metu.

Susijusios temos:generatyvinis ai didelis kalbos modelis Didelio matymo modeliai LVLM Mini-Dvyniai Multimodalinis didžiosios kalbos modelis natūralus kalbos apdorojimas regėjimo kalbos modelis

Kitas

Dekoderiu pagrįsti didelių kalbų modeliai: visas vadovas

Nepraleiskite

Snaigė Arctic: pažangiausias verslo intelekto verslui skirtas LLM

Kunal Kejriwal

„Iš profesijos inžinierius, iš širdies – rašytojas“. Kunal yra techninis rašytojas, giliai mylintis ir suprantantis dirbtinį intelektą ir ML, siekiantis supaprastinti sudėtingas sąvokas šiose srityse, pasitelkdamas patrauklią ir informatyvią dokumentaciją.