Umetna inteligenca

Mini-Gemini: izkoriščanje potenciala večmodalnosti jezikovnih modelov vizije

objavljeno

1 tednom

April 26, 2024

Mini-Gemini: izkoriščanje potenciala večmodalnosti jezikovnih modelov vizije

Napredek v veliki jezikovni modeli bistveno pospešili razvoj obdelava naravnega jezika, ali NLP. Uvedba ogrodja transformator se je izkazala za mejnik, saj je olajšala razvoj novega vala jezikovnih modelov, vključno z OPT in BERT, ki izkazujeta globoko jezikovno razumevanje. Poleg tega je začetek GPT ali Generative Pre-trained Transformer modelov uvedel novo paradigmo z avtoregresijskim modeliranjem in vzpostavil robustno metodo za napovedovanje in generiranje jezika. Pojav jezikovnih modelov, kot so GPT-4, ChatGPT, Mixtral, LLaMA in drugi, je dodatno spodbudil hiter razvoj, pri čemer je vsak model pokazal izboljšano zmogljivost pri nalogah, ki vključujejo kompleksno jezikovno obdelavo. Med obstoječimi metodami se je prilagajanje navodil izkazalo kot ključna tehnika za izboljšanje rezultatov vnaprej usposobljenih velikih jezikovnih modelov, integracija teh modelov s posebnimi orodji za vizualne naloge pa je poudarila njihovo prilagodljivost in odprla vrata za prihodnje aplikacije. Ti daleč presegajo tradicionalno obdelavo LLM, ki temelji na besedilu, in vključujejo multimodalne interakcije.

Poleg tega je konvergenca obdelave naravnega jezika in modelov računalniškega vida povzročila VLM ali jezikovne modele vida, ki združujejo jezikovne modele in modele vida, da dosežejo navzkrižno modalno razumevanje in zmožnost sklepanja. Integracija in pojav vizualnih in jezikovnih modelov sta odigrala ključno vlogo pri napredovanju nalog, ki zahtevajo jezikovno obdelavo in vizualno razumevanje. Pojav revolucionarnih modelov, kot je CLIP, je dodatno premostil vrzel med vizualnimi nalogami in jezikovnimi modeli ter pokazal izvedljivost in praktičnost večmodalnih aplikacij. Novejša ogrodja, kot sta LLaMA in BLIP, izkoriščajo prilagojene podatke o navodilih za oblikovanje učinkovitih strategij, ki prikazujejo močne zmogljivosti modela. Poleg tega je združevanje velikih jezikovnih modelov s slikovnimi izhodi v središču nedavnih multimodalnih raziskav, pri čemer so novejše metode sposobne zaobiti neposredno generiranje z uporabo pristopa iskanja slik za ustvarjanje slikovnih izhodov in prepletenih besedil.

Glede na to in kljub hitremu napredku v jezikovnih modelih vida, ki omogoča osnovno sklepanje in vizualni dialog, še vedno obstaja precejšnja vrzel v zmogljivosti med naprednimi modeli, kot je GPT-4, in modeli jezikov vida. Mini-Gemini je poskus zmanjšanja vrzeli, ki obstaja med modeli jezikov vizije in naprednejšimi modeli z izkoriščanjem potenciala VLM za boljšo zmogljivost s treh vidikov: generiranje, ki ga vodi VLM, visokokakovostni podatki in vizualni žetoni visoke ločljivosti. Za izboljšanje vizualnih žetonov okvir Mini-Gemini predlaga uporabo dodatnega vizualnega kodirnika za izboljšanje visoke ločljivosti brez povečanja števila vizualnih žetonov. Ogrodje Mini-Gemini nadalje gradi visokokakovosten nabor podatkov v poskusu spodbujanja natančnega razumevanja slik in generiranja na podlagi sklepanja. Na splošno poskuša ogrodje Mini-Gemini izkoristiti potencial jezikovnih modelov vizije in želi opolnomočiti obstoječe okvire z hkratnim razmišljanjem, razumevanjem in generativnimi zmožnostmi. Namen tega članka je poglobljeno obravnavati ogrodje Mini-Gemini in raziskati mehanizem, metodologijo, arhitekturo ogrodja skupaj z njegovo primerjavo z najsodobnejšimi ogrodji. Pa začnimo.

Mini-Gemini: Pospeševanje večmodalnosti VLM

Z leti so se razvili veliki jezikovni modeli, ki se zdaj ponašajo z izjemnimi večmodalnimi zmogljivostmi in postajajo bistveni del trenutnih modelov jezikov vizije. Vendar pa obstaja vrzel med večmodalnim delovanjem velikih jezikovnih modelov in modelov jezika vida z nedavnimi raziskavami, ki iščejo načine za kombiniranje vida z modeli velikih jezikov z uporabo slik in videoposnetkov. Za same naloge vida je ločljivost slike ključni element za eksplicitno kljubovanje okoliškemu okolju z minimalnimi vidnimi halucinacijami. Da bi premostili vrzel, raziskovalci razvijajo modele za izboljšanje vizualnega razumevanja v sedanjem času vizijski jezikovni modeli, dva najpogostejša pristopa pa sta: povečanje ločljivosti in povečanje števila vizualnih žetonov. Čeprav povečanje števila vizualnih žetonov s slikami višje ločljivosti izboljša vizualno razumevanje, povečanje pogosto spremljajo povečane računalniške zahteve in s tem povezani stroški, zlasti pri obdelavi več slik. Poleg tega so zmogljivosti obstoječih modelov, kakovost obstoječih podatkov in uporabnost še vedno neustrezni za pospešen razvojni proces, zato se raziskovalci sprašujejo, "kako s sprejemljivimi stroški pospešiti razvoj jezikovnih modelov vizije"?

Ogrodje Mini-Gemini je poskus odgovora na vprašanje, saj poskuša raziskati potencial jezikovnih modelov vizije s treh vidikov: VLM-vodeno ustvarjanje ali razširjene aplikacije, visokokakovostni podatki in vizualni žetoni visoke ločljivosti. Prvič, ogrodje Mini-Gemini izvaja arhitekturo ConvNet za učinkovito ustvarjanje kandidatov z višjo ločljivostjo, izboljšanje vizualnih podrobnosti, hkrati pa ohranja število vizualnih žetonov za velik jezikovni model. Ogrodje Mini-Gemini združuje javno dostopne nabore visokokakovostnih podatkov v poskusu izboljšanja kakovosti podatkov in integrira te izboljšave z najsodobnejšimi generativnimi in velikimi jezikovnimi modeli s poskusom izboljšanja učinkovitosti VLM-jev in izboljšave. uporabniško izkušnjo. Večplastna strategija, ki jo izvaja okvir Mini-Gemini, mu omogoča raziskovanje skritih zmožnosti jezikovnih modelov vizije in dosega pomemben napredek z očitnimi omejitvami virov.

Na splošno ogrodje Mini-Gemini uporablja paradigmo od katerega koli do katerega koli, saj lahko kot vhod in izhod obravnava besedilo in slike. Zlasti ogrodje Mini-Gemini uvaja učinkovit cevovod za izboljšanje vizualnih žetonov za vhodne slike in ima sistem dvojnega kodirnika, ki ga sestavljata dvojna kodirnika: prvi kodirnik je za slike visoke ločljivosti, medtem ko je drugi kodirnik za slike nizke ločljivosti. kakovostna vizualna vdelava. Med sklepanjem kodirniki delujejo v mehanizmu pozornosti, kjer kodirnik nizke ločljivosti ustvarja vizualne poizvedbe, medtem ko kodirnik visoke ločljivosti zagotavlja ključ in vrednosti za referenco. Za povečanje kakovosti podatkov ogrodje Mini-Gemini zbira in proizvaja več podatkov na podlagi javnih virov, vključno z navodili, usmerjenimi v naloge, podatki, povezanimi z generacijo, in odzivi z visoko ločljivostjo, pri čemer povečana količina in izboljšana kakovost izboljšata splošno zmogljivost in zmogljivosti modela. Poleg tega ogrodje Mini-Gemini podpira sočasno ustvarjanje besedila in slik kot rezultat integracije modela jezika vida z naprednimi generativnimi modeli.

Mini-Gemini : Metodologija in arhitektura

V svojem bistvu je ogrodje Mini-Gemini konceptualno preprosto in je sestavljeno iz treh komponent.

Ogrodje uporablja kodirnike dvojnega vida za zagotavljanje vizualnih vdelav z nizko ločljivostjo in kandidatov za visoko ločljivost.
Ogrodje predlaga implementacijo rudarjenja informacij o popravkih za izvajanje rudarjenja na ravni popravkov med vizualnimi poizvedbami z nizko ločljivostjo in regijami z visoko ločljivostjo.
Ogrodje Mini-Gemini uporablja velik jezikovni model za združitev besedila s slikami za istočasno ustvarjanje in razumevanje.

Kodirniki dvojnega vida

Ogrodje Mini-Gemini lahko obdeluje besedilne in slikovne vnose z možnostjo, da jih obravnava posamično ali v kombinaciji. Kot je prikazano na naslednji sliki, ogrodje Mini-Gemini začne postopek z uporabo bilinearne interpolacije za ustvarjanje slike nizke ločljivosti iz ustrezne slike visoke ločljivosti.

Ogrodje nato obdela te slike in jih kodira v večmrežno vizualno vdelavo v dveh vzporednih tokovih slik. Natančneje, ogrodje Mini-Gemini ohranja tradicionalni cevovod za tokove z nizko ločljivostjo in uporablja vizualni transformator, ki je vnaprej pripravljen na CLIP, za kodiranje vizualnih vdelav, kar modelu olajša ohranjanje dolgoročnega razmerja med vizualnimi zaplatami za poznejše interakcije v velikem jeziku modeli. Za tokove z visoko ločljivostjo ogrodje Mini-Gemini uporablja kodirnik na osnovi CNN ali Convolution Neural Networks za prilagodljivo in učinkovito obdelavo slik visoke ločljivosti.

Rudarjenje informacij o popravkih

S kodirniki dvojnega vida, ki ustvarjajo vdelave LR in funkcije HR, ogrodje Mini-Gemini predlaga implementacijo rudarjenja informacij o popravkih s ciljem razširitve potenciala jezikovnih modelov vida z izboljšanimi vizualnimi žetoni. Da bi ohranili število vizualnih žetonov za učinkovitost v velikih jezikovnih modelih, ogrodje Mini-Gemini vzame vizualne vdelave z nizko ločljivostjo kot poizvedbo in si prizadeva pridobiti ustrezne vizualne namige iz kandidatov za funkcije HR, pri čemer ogrodje vzame Zemljevid funkcij HR kot ključ in vrednost.

Kot je prikazano na zgornji sliki, formula zajema proces izpopolnjevanja in sintetiziranja vizualnih znakov, kar vodi do generiranja naprednih vizualnih žetonov za poznejšo obdelavo velikega jezikovnega modela. Postopek zagotavlja, da je ogrodje sposobno omejiti rudarjenje za vsako poizvedbo na njeno ustrezno podregijo na zemljevidu funkcij HR s številom funkcij po pikslovih, kar ima za posledico večjo učinkovitost. Zaradi te zasnove je ogrodje Mini-Gemini sposobno izluščiti podrobnosti o funkcijah HR, ne da bi povečalo število vizualnih žetonov, in ohranja ravnovesje med računalniško izvedljivostjo in bogastvom podrobnosti.

Ustvarjanje besedila in slik

Ogrodje Mini-Gemini združuje vizualne žetone in žetone vhodnega besedila kot vhod v velike jezikovne modele za samodejno regresivno generiranje. Za razliko od tradicionalnih jezikovnih modelov vida, ogrodje Mini-Gemini podpira generiranje samo besedila in besedila-slike kot vhod in izhod, tj. poljubno sklepanje, in je rezultat te izjemne zmožnosti razumevanja slike in besedila ter sklepanja, Mini-Gemini lahko ustvari visoko kakovostne slike. Za razliko od nedavnih del, ki se osredotočajo na domensko vrzel med besedilnimi vdelavami generacijskih modelov in velikimi jezikovnimi modeli, poskuša okvir Mini-Gemini optimizirati vrzel v domeni jezikovnih pozivov s prevajanjem uporabniških navodil v visokokakovostne pozive, ki proizvajajo kontekstno ustrezne slike v modelih latentne difuzije. Poleg tega za boljše razumevanje natančnega prilagajanja navodil in medmodalne poravnave ogrodje Mini-Gemini zbira vzorce iz javno dostopnih naborov visokokakovostnih podatkov in uporablja turbo ogrodje GPT-4 za nadaljnjo izgradnjo nabora podatkov po navodilih 13K za podporo generiranju slik.

Mini-Gemini : poskusi in rezultati

Za ovrednotenje njegove učinkovitosti je ogrodje Mini-Gemini instanciirano z vnaprej naučenim ogrodjem ConvNext-L za kodirnik HR vision in z vnaprej naučenim CLIP Transformator vida za kodirnik LR vision. Za zagotovitev učinkovitosti usposabljanja ogrodje Mini-Gemini ohranja oba vidna kodirnika fiksna in optimizira projektorje rudarjenja informacij o popravkih v vseh fazah ter optimizira velik jezikovni model med samo fazo prilagajanja navodil.

Naslednja tabela primerja zmogljivost ogrodja Mini-Gemini z najsodobnejšimi modeli v različnih nastavitvah in upošteva tudi zasebne modele. Kot je mogoče opaziti, Mini-Gemini prekaša obstoječa ogrodja v širokem naboru LLM-jev dosledno pri normalni ločljivosti in izkazuje vrhunsko zmogljivost, ko je konfiguriran z Gemma-2B v kategoriji učinkovitih modelov. Poleg tega je pri uporabi večjih velikih jezikovnih modelov razširljivost ogrodja Mini-Gemini očitna.

Da bi ovrednotili njegovo delovanje pri visoki ločljivosti in razširjenih vizualnih žetonih, se poskusi izvajajo z vhodno velikostjo 672 za kodirnik vida LR in 1536 za kodirnik vida. Kot smo že omenili, je glavni namen vizualnega kodirnika HR ponuditi informacije o kandidatih visoke ločljivosti. Kot lahko opazimo, ogrodje Mini-Gemini zagotavlja vrhunsko zmogljivost v primerjavi z najsodobnejšimi ogrodji.

Poleg tega razvijalci za oceno sposobnosti vizualnega razumevanja ogrodja Mini-Gemini v okoljih resničnega sveta uporabijo model za različne naloge sklepanja in razumevanja, kot je prikazano na naslednji sliki. Kot lahko opazimo, lahko ogrodje Mini-Gemini reši široko paleto kompleksnih nalog zahvaljujoč izvajanju rudarjenja informacij o popravkih in visokokakovostnih podatkov. Toda bolj impresivno je dejstvo, da ogrodje Mini-Gemini izkazuje bistro dodajanje podrobnosti, ki presega zgolj sposobnost prepoznavanja, in na zapleten način opisuje zapletene elemente.

Naslednja slika prikazuje celovito oceno generativnih sposobnosti ogrodja Mini-Gemini.

V primerjavi z najnovejšimi modeli, kot sta ChatIllusion in AnyGPT, okvir Mini-Gemini izkazuje močnejše multimodalne sposobnosti razumevanja, kar mu omogoča ustvarjanje besedilo v sliko napisi, ki se bolje ujemajo z navodili za vnos, rezultat pa so odgovori s sliko in besedilom z večjo konceptualno podobnostjo. Kar je bolj impresivno, je dejstvo, da ogrodje Mini-Gemini dokazuje izjemno strokovnost pri ustvarjanju visokokakovostne vsebine z uporabo večmodelnih človeških navodil samo s podatki za usposabljanje besedila, zmožnost, ki ponazarja robustno semantično razlago Mini-Gemini in veščine poravnave slike in besedila.

Končna thoughts

V tem članku smo govorili o Mini-Gemini, močnem in poenostavljenem okviru za jezikovne modele večmodalnosti vizije. Primarni cilj ogrodja Mini-Gemini je izkoristiti latentne zmožnosti modelov jezika vizije z uporabo visokokakovostnih podatkov, strateške zasnove ogrodja in razširjenega funkcionalnega obsega. Mini-Gemini je poskus zmanjšanja vrzeli, ki obstaja med modeli jezikov vizije in naprednejšimi modeli z izkoriščanjem potenciala VLM za boljšo zmogljivost s treh vidikov: generiranje, ki ga vodi VLM, visokokakovostni podatki in vizualni žetoni visoke ločljivosti. Za izboljšanje vizualnih žetonov okvir Mini-Gemini predlaga uporabo dodatnega vizualnega kodirnika za izboljšanje visoke ločljivosti brez povečanja števila vizualnih žetonov. Ogrodje Mini-Gemini nadalje gradi visokokakovosten nabor podatkov v poskusu spodbujanja natančnega razumevanja slik in generiranja na podlagi sklepanja. Na splošno poskuša ogrodje Mini-Gemini izkoristiti potencial jezikovnih modelov vizije in želi opolnomočiti obstoječe okvire z hkratnim razmišljanjem, razumevanjem in generativnimi zmožnostmi.

Sorodne teme:generativni ai velik jezikovni model Modeli velikega vida LVLM Mini-Dvojčka Multimodalni model velikega jezika obdelava naravnega jezika vizijski jezikovni model

Up Next

Modeli velikih jezikov na osnovi dekoderja: popoln vodnik

Ne zamudite

Snowflake Arctic: Vrhunski LLM za umetno inteligenco podjetij

Kunal Kejriwal

"Po poklicu inženir, po srcu pisatelj". Kunal je tehnični pisec z globoko ljubeznijo in razumevanjem umetne inteligence in strojnega upravljanja, ki je predan poenostavljanju zapletenih konceptov na teh področjih s svojo privlačno in informativno dokumentacijo.