stubbur Mini-Gemini: Nám í möguleikum fjölþættra sjónmálslíkana - Unite.AI
Tengja við okkur

Artificial Intelligence

Mini-Gemini: Nám í möguleikum Multi-modality Vision Language Models

mm

Útgefið

 on

Mini-Gemini: Nám í möguleikum Multi-modality Vision Language Models

Framfarirnar í stór mállíkön hafa hraðað verulega þróun á náttúrulega málvinnslu, eða NLP. Innleiðing spennirammans reyndist vera áfangi, sem auðveldaði þróun nýrrar bylgju tungumálalíkana, þar á meðal OPT og BERT, sem sýna djúpstæðan tungumálaskilning. Ennfremur, upphaf GPT, eða Generative Pre-trained Transformer módel, kynnti nýja hugmyndafræði með sjálfvirkri líkanagerð og kom á fót öflugri aðferð til að spá fyrir um tungumál og kynslóð. Tilkoma tungumálalíkana eins og GPT-4, ChatGPT, Mixtral, LLaMA og annarra hefur ýtt enn frekar undir hraða þróun, þar sem hvert líkan sýnir aukinn árangur í verkefnum sem fela í sér flókna málvinnslu. Meðal núverandi aðferða hefur leiðbeiningastilling komið fram sem lykiltækni til að betrumbæta úttak af fyrirfram þjálfuðum stórum tungumálalíkönum og samþætting þessara líkana með sérstökum verkfærum fyrir sjónræn verkefni hefur undirstrikað aðlögunarhæfni þeirra og opnað dyr fyrir framtíðarforrit. Þetta nær langt út fyrir hefðbundna textatengda vinnslu LLMs til að fela í sér fjölþætt samskipti.

Ennfremur hefur samruni náttúrulegrar málvinnslu og tölvusjónlíkana gefið tilefni til VLMs, eða Vision Language Models, sem sameina tungumála- og sjónlíkön til að ná þverformlegum skilningi og rökhugsunargetu. Samþætting og tilkoma sjón- og mállíkana hefur gegnt mikilvægu hlutverki við að efla verkefni sem krefjast bæði málvinnslu og sjónræns skilnings. Tilkoma byltingarkenndra líkana eins og CLIP hefur enn frekar brúað bilið á milli sjónverkefna og tungumálalíkana, sem sýnir fram á hagkvæmni og hagkvæmni þverformlegra nota. Nýrri rammar eins og LLaMA og BLIP nýta sér sérsniðin kennslugögn til að móta skilvirkar aðferðir sem sýna fram á öfluga getu líkansins. Að auki er sameining stórra tungumálalíkana við myndúttak í brennidepli í nýlegum fjölþættum rannsóknum, þar sem nýlegar aðferðir geta farið framhjá beinni myndun með því að nota myndheimtuaðferðina til að framleiða myndúttak og fléttaðan texta.

Með því að segja, og þrátt fyrir örar framfarir í sjónmálslíkönum sem auðvelda grunnrökhugsun og sjónræna samræðu, er enn umtalsvert frammistöðubil á milli háþróaðra líkana eins og GPT-4 og sjónmálslíkana. Mini-Gemini er tilraun til að minnka bilið sem er á milli sjónmálslíkana og fullkomnari líkana með því að vinna úr möguleikum VLM fyrir betri frammistöðu frá þremur hliðum: VLM-leiðsögn kynslóð, hágæða gögn og sjónræn tákn í mikilli upplausn. Til að auka sjónræn tákn, leggur Mini-Gemini ramma til að nota viðbótar sjónkóðara fyrir fíngerða háupplausn án þess að auka fjölda sjónrænna tákna. Mini-Gemini ramminn smíðar enn frekar hágæða gagnapakka til að reyna að stuðla að nákvæmum skilningi á myndum og rökhugsun byggða. Á heildina litið reynir Mini-Gemini ramminn að grafa fyrir möguleikum sjónmálslíkana og miðar að því að styrkja núverandi ramma með ímyndarhugsun, skilningi og skapandi getu samtímis. Þessi grein miðar að því að fjalla ítarlega um Mini-Gemini rammann og við könnum gangverkið, aðferðafræðina, arkitektúr rammans ásamt samanburði við nýjustu ramma. Svo skulum við byrja. 

Mini-Gemini: Hröðun Multi-Modality VLMs

Í gegnum árin hafa stór tungumálalíkön þróast og þau státa nú af ótrúlegum fjölþættum getu og eru að verða ómissandi hluti af núverandi sjónmálslíkönum. Hins vegar er bil á milli fjölþættrar frammistöðu stórra mállíkana og sjónmálslíkana þar sem nýlegar rannsóknir leita leiða til að sameina sjón og stór mállíkön með myndum og myndböndum. Fyrir sjón verkefni sjálft, myndupplausn er afgerandi þáttur til að skýrt þrátt fyrir aðliggjandi umhverfi með lágmarks sjón ofskynjanir. Til að brúa bilið eru vísindamenn að þróa líkön til að bæta sjónrænan skilning í núverandi sýn tungumálalíkön, og tvær af algengustu aðferðunum eru: að auka upplausnina og fjölga sjónrænum táknum. Þó að fjölgun sjónrænna tákna með myndum í hærri upplausn eykur sjónrænan skilning, þá fylgir aukningunni oft auknum reiknikröfum og tilheyrandi kostnaði, sérstaklega þegar unnið er með margar myndir. Ennfremur er möguleiki núverandi líkana, gæði núverandi gagna og notagildi ófullnægjandi fyrir hraðað þróunarferli, sem skilur rannsakendur eftir með spurninguna, "hvernig megi flýta fyrir þróun sjónmálslíkana með ásættanlegum kostnaði"?

Mini-Gemini ramminn er tilraun til að svara spurningunni þar sem hann reynir að kanna möguleika sjónmálslíkana frá þremur hliðum: VLM-stýrð kynslóð eða stækkuð forrit, hágæða gögn og sjónræn tákn í mikilli upplausn. Í fyrsta lagi innleiðir Mini-Gemini rammann ConvNet arkitektúr til að búa til umsækjendur í hærri upplausn á skilvirkan hátt, auka sjónræn smáatriði en viðhalda sjónrænum táknum fyrir stóra tungumálalíkanið. Mini-Gemini ramminn sameinar hágæða gagnasöfn sem eru aðgengileg almenningi til að reyna að auka gæði gagnanna og samþættir þessar endurbætur við nýjustu kynslóðar og stór tungumálalíkön með tilraun til að auka frammistöðu VLMs og bæta upplifun notenda. Hin margþætta stefna sem innleidd er af Mini-Gemini rammanum gerir henni kleift að kanna falda getu sjónmálslíkana og nær verulegum framförum með augljósum auðlindaþvingunum. 

Almennt séð notar Mini-Gemini ramma hvers kyns hugmyndafræði þar sem hann er fær um að meðhöndla bæði texta og myndir sem inntak og úttak. Sérstaklega kynnir Mini-Gemini ramma skilvirka leiðslu til að auka sjónræn tákn fyrir inntaksmyndir, og er með tvöfalt kóðakerfi sem samanstendur af tvöföldum kóðara: fyrsti kóðarinn er fyrir myndir í hárri upplausn, en seinni kóðarinn er fyrir lág-kóðara. vönduð sjónræn innfelling. Meðan á ályktun stendur vinna kóðararnir í athygliskerfi, þar sem lágupplausnarkóðarinn býr til sjónrænar fyrirspurnir, en háupplausnarkóðarinn gefur upp lykil og gildi til viðmiðunar. Til að auka gagnagæði safnar og framleiðir Mini-Gemini ramminn fleiri gögn sem byggjast á opinberum auðlindum, þar á meðal verkefnamiðuðum leiðbeiningum, kynslóðatengdum gögnum og svörum í hárri upplausn, með auknu magni og auknum gæðum sem bæta heildarframmistöðu og getu líkansins. Ennfremur styður Mini-Gemini ramminn samhliða texta- og myndagerð sem afleiðing af samþættingu sjónmálslíkans við háþróuð kynslóðarlíkön. 

Mini-Gemini: Aðferðafræði og arkitektúr

Í kjarna sínum er Mini-Gemini ramminn hugmyndalega einfaldur og samanstendur af þremur hlutum. 

  1. Umgjörðin notar tvöfalda sjónkóðara til að veita sjónrænum innfellingum í lítilli upplausn og umsækjendum í hárri upplausn. 
  2. Ramminn leggur til að innleiða námuvinnslu plástursupplýsinga til að stunda námuvinnslu á plástrastigi á milli sjónrænna fyrirspurna í lítilli upplausn og svæða með háupplausn. 
  3. Mini-Gemini ramminn notar stórt mállíkan til að sameina texta við myndir fyrir bæði kynslóð og skilning samtímis. 

Dual-Vision kóðarar

Mini-Gemini ramminn getur unnið úr bæði texta og myndinnslátt, með möguleika á að meðhöndla þau annað hvort fyrir sig eða í samsetningu. Eins og sýnt er á eftirfarandi mynd byrjar Mini-Gemini ramminn ferlið með því að nota tvílínuleg innskot til að búa til lágupplausnarmynd úr samsvarandi hárupplausnarmynd. 

Umgjörðin vinnur síðan úr þessum myndum og umritar þær í fjölgrind sjónræn innfellingu í tveimur samhliða myndflæði. Nánar tiltekið heldur Mini-Gemini rammanum hefðbundinni leiðslu fyrir lágupplausnarflæði og notar CLIP-forþjálfaðan Visual Transformer til að umrita sjónræna innfellinguna, sem auðveldar líkaninu að varðveita langdrægt samband milli sjónrænna bletta fyrir síðari samskipti á stóru máli. módel. Fyrir háupplausnarflæði, notar Mini-Gemini ramma CNN eða Convolution Neural Networks byggða kóðara fyrir aðlögunarhæfa og skilvirka myndvinnslu í hárri upplausn. 

Patch Info Mining

Með tvöföldum sjónkóðarum sem búa til LR innfellingar og HR eiginleika, leggur Mini-Gemini ramma til að innleiða plásturupplýsinganámu með það að markmiði að auka möguleika sjónmálslíkana með auknum sjónrænum táknum. Til þess að viðhalda fjölda sjónrænna tákna fyrir skilvirkni í stórum tungumálalíkönum, tekur Mini-Gemini ramminn sjónræna innfellinguna í lítilli upplausn sem fyrirspurn og miðar að því að sækja viðeigandi sjónrænar vísbendingar frá umsækjendum um HR eiginleika, þar sem ramminn tekur HR eiginleikakort sem lykill og gildi.

Eins og sýnt er á myndinni hér að ofan, umlykur formúlan ferlið við að betrumbæta og mynda sjónrænar vísbendingar, sem leiðir til myndunar háþróaðra sjónrænna tákna fyrir síðari stóra mállíkanvinnslu. Ferlið tryggir að umgjörðin geti takmarkað námuvinnsluna fyrir hverja fyrirspurn við samsvarandi undirsvæði þess í HR eiginleikakortinu með pixlafjölda eiginleika, sem leiðir til aukinnar skilvirkni. Vegna þessarar hönnunar er Mini-Gemini ramminn fær um að draga út upplýsingar um HR eiginleika án þess að auka fjölda sjónrænna tákna, og viðheldur jafnvægi á milli reiknihæfni og auðlegðar smáatriða. 

Texta- og myndagerð

Mini-Gemini ramminn sameinar sjónrænu táknin og innsláttartextamerkin sem inntak í stóru tungumálalíkönin fyrir sjálfvirka afturför myndunar. Ólíkt hefðbundnum sjónmálslíkönum styður Mini-Gemini ramminn texta eingöngu sem og textamyndagerð sem inntak og úttak, þ.e. hvaða ályktun sem er, og það er afleiðing af þessum framúrskarandi mynd-textaskilningi og rökhugsunargetu, Mini-Gemini er fær um að búa til hágæða myndir. Ólíkt nýlegum verkum sem einbeita sér að lénsbilinu á milli textainnfellinga kynslóðalíkana og stórra tungumálalíkana, reynir Mini-Gemini ramminn að hámarka bilið á sviði tungumálaboða með því að þýða notendaleiðbeiningar yfir í hágæða leiðbeiningar sem framleiða samhengis viðeigandi myndir í duldum dreifingarlíkönum. Ennfremur, til að fá betri skilning á fínstillingu leiðbeininga og jöfnun milli aðferða, safnar Mini-Gemini rammanum sýnum úr almennum hágæða gagnasöfnum og notar GPT-4 turbo ramma til að smíða frekar 13K leiðbeiningar eftir gagnasafn til að styðja við myndagerð. 

Mini-Gemini: Tilraunir og niðurstöður

Til að meta frammistöðu þess, er Mini-Gemini ramma sýndur með fyrirfram þjálfuðum ConvNext-L ramma fyrir HR sjónkóðarann ​​og með CLIP-forþjálfaðan Vision Transformer fyrir LR vision kóðara. Til að tryggja skilvirkni þjálfunar heldur Mini-Gemini rammanum sjónkóðarunum tveimur föstum og fínstillir skjávarpa fyrir plásturupplýsinganám á öllum stigum og fínstillir stóra tungumálamódelið á sjálfu kennslustillingarstigi. 

Eftirfarandi tafla ber saman frammistöðu Mini-Gemini ramma við nýjustu gerðir í mismunandi stillingum og tekur einnig tillit til einkamódela. Eins og hægt er að fylgjast með, stendur Mini-Gemini stöðugt fram úr núverandi ramma á fjölmörgum LLMs við venjulega upplausn og sýnir yfirburða frammistöðu þegar hann er stilltur með Gemma-2B í flokki skilvirkra gerða. Ennfremur, þegar stærri stór tungumálalíkön eru notuð, er sveigjanleiki Mini-Gemini ramma augljós. 

Til að meta frammistöðu þess á hárri upplausn og útbreiddum sjónrænum táknum eru tilraunirnar gerðar með inntaksstærð 672 fyrir LR sjónkóðarann ​​og 1536 fyrir sjónkóðarann. Eins og fyrr segir er megintilgangur HR sjónkóðarans að bjóða upp á umsækjendaupplýsingar í mikilli upplausn. Eins og sjá má skilar Mini-Gemini ramma yfirburða frammistöðu í samanburði við nýjustu ramma. 

Ennfremur, til að meta sjónrænan skilningshæfileika Mini-Gemini ramma í raunheimum, nota verktaki líkanið til margvíslegra rökhugsunar- og skilningsverkefna eins og sýnt er á eftirfarandi mynd. Eins og sjá má, er Mini-Gemini ramminn fær um að leysa margs konar flókin verkefni þökk sé innleiðingu plásturupplýsinganámu og hágæða gagna. En það sem er meira áhrifamikið er sú staðreynd að Mini-Gemini ramminn sýnir ákafa viðbót við smáatriði sem nær út fyrir aðeins viðurkenningarhæfileika og lýsir flóknum þáttum á flókinn hátt. 

Eftirfarandi mynd gefur yfirgripsmikið mat á skapandi hæfileikum Mini-Gemini ramma. 

Þegar borið er saman við nýlegar gerðir eins og ChatIllusion og AnyGPT, sýnir Mini-Gemini ramminn sterkari fjölþætta skilningshæfileika, sem gerir honum kleift að búa til texti í mynd myndatextar sem samræmast betur innsláttarleiðbeiningunum og skila sér í mynd til texta svörum með sterkari huglægri líkingu. Það sem er meira áhrifamikið er sú staðreynd að Mini-Gemini ramminn sýnir ótrúlega kunnáttu í að búa til hágæða efni með því að nota marglíka mannleg leiðbeiningar eingöngu með textaþjálfunargögnum, hæfileiki sem sýnir öfluga merkingartúlkun Mini-Gemini og hæfileika til að stilla mynd-texta. 

Final Thoughts

Í þessari grein höfum við talað um Mini-Gemini, öflugan og straumlínulagaðan ramma fyrir margbreytileg sjónmálslíkön. Meginmarkmið Mini-Gemini ramma er að virkja dulda getu sjónmálslíkana með því að nota hágæða gögn, stefnumótandi hönnun rammans og aukið virknisvið. Mini-Gemini er tilraun til að minnka bilið sem er á milli sjónmálslíkana og fullkomnari líkana með því að vinna úr möguleikum VLM fyrir betri frammistöðu frá þremur hliðum: VLM-leiðsögn kynslóð, hágæða gögn og sjónræn tákn í mikilli upplausn. Til að auka sjónræn tákn, leggur Mini-Gemini ramma til að nota viðbótar sjónkóðara fyrir fíngerða háupplausn án þess að auka fjölda sjónrænna tákna. Mini-Gemini ramminn smíðar enn frekar hágæða gagnapakka til að reyna að stuðla að nákvæmum skilningi á myndum og rökhugsun byggða. Á heildina litið reynir Mini-Gemini ramminn að grafa fyrir möguleikum sjónmálslíkana og miðar að því að styrkja núverandi ramma með ímyndarhugsun, skilningi og skapandi getu samtímis.

"Verkfræðingur að atvinnu, rithöfundur utanbókar". Kunal er tæknilegur rithöfundur með djúpa ást og skilning á gervigreind og ML, tileinkað því að einfalda flókin hugtök á þessum sviðum með grípandi og upplýsandi skjölum.