stuacach MoE-LLaVA: Meascán Saineolaithe le haghaidh Múnlaí Mórfhíse-Teanga - Unite.AI
Ceangail le linn

Faisnéise Saorga

MoE-LLaVA: Meascán Saineolaithe le haghaidh Múnlaí Mórfhíse-Teanga

mm
Nuashonraithe on
MoE-LLaVA: Meascán Saineolaithe le haghaidh Múnlaí Mórfhíse-Teanga

Tá sé léirithe ag dul chun cinn le déanaí i Múnlaí Teanga Mórfhís (LVLManna) go gcuireann scálaiú na gcreatlach seo go mór le feidhmíocht thar raon de thascanna iartheachtacha. Tá cumais shuntasacha bainte amach ag LVLManna, lena n-áirítear MiniGPT, LLaMA, agus eile, trí shraitheanna teilgean amhairc agus ionchódóir íomhá a ionchorprú ina n-ailtireacht. Trí na comhpháirteanna seo a chur i bhfeidhm, cuireann LVLManna le cumas amhairc na Múnlaí Móra Teanga (LLManna). Is féidir feidhmíocht a fheabhsú tuilleadh trí mhéid an mhúnla agus líon na bparaiméadar a mhéadú, chomh maith leis an scála tacar sonraí a leathnú.

Tá samhlacha cosúil le InternVL tar éis a n-ionchódóir íomhá a leathnú go dtí níos mó ná 6 billiún paraiméadair, agus leathnaigh cinn eile inneall LVLManna go 13 billiún paraiméadair, ag baint amach feidhmíocht níos fearr ar raon leathan tascanna. Tá oiliúint déanta ag IDEFICS ar LVLM le breis agus 80 billiún paraiméadair. Tá na modhanna scálaithe seo tar éis feidhmíocht LLManna a réamhoiliúint ar bhreis is 34, 70, nó fiú 100 billiún paraiméadair a mheaitseáil nó a shárú. Mar sin féin, tá míbhuntáiste ag baint le scálú: méadaíonn sé go suntasach costais oiliúna agus tátail. Tá sé seo amhlaidh toisc go n-éilíonn sé go mbeidh na paraiméadair go léir gníomhach le haghaidh gach chomhartha sa ríomh, rud a fhágann go bhfuil riachtanais arda ríomhaireachta ann agus, dá réir sin, costais níos airde.

Pléann an t-alt seo MoE-LLaVA, ailtireacht LVLM tanaí bunaithe ar Mheascán Saineolaithe (MoE) a úsáideann straitéis oiliúna éifeachtach, MoE-Tining, do LVLManna. Tugann MoE-Tining aghaidh go nuálaíoch ar dhíghrádú feidhmíochta i bhfoghlaim theannachta ilmhódaigh, agus mar thoradh air sin tá samhail le líon mór paraiméadair ach costais chomhsheasmhacha oiliúna agus tátail. Tá an ailtireacht MoE-LLaVA deartha chun na saineolaithe barr-k amháin a ghníomhachtú le linn imscaradh, ag coinneáil an chuid eile neamhghníomhach.

Déanfaimid iniúchadh ar an gcreat MoE-LLaVA, ag scrúdú a mheicníocht, a mhodheolaíocht, a ailtireacht, agus conas a chuirtear i gcomparáid é le creataí giniúna íomhá agus físe ceannródaíocha.

MoE-LLaVA: Múnlaí Teanga Fhís Móra a Scálú ar Shábháilteacht

Chomh maith le sraitheanna teilgean amhairc agus ionchódóirí íomhá a ghiaráil, déanann Múnlaí Teanga Fís Móra méid an mhúnla a mhéadú trí líon na bparaiméadar a mhéadú chun feidhmíocht an mhúnla a fheabhsú. Is iad na samplaí suntasacha de Mhúnlaí Teanga Mórfhís a lean an cur chuige seo chun a bhfeidhmíocht a fheabhsú ná MiniGPT-4, InternGPT, InternVL, agus eile. I bhfeidhmchláir fhíorshaolacha, is minic a bhíonn sé riachtanach Samhail Mhór Teanga nó Múnla Teanga Fhís Mhóir a scálú le sonraí oiliúna ar ardchaighdeán chun feidhmíocht na samhla a fheabhsú. Cé go bhfeabhsaítear an fheidhmíocht trí mhéid múnla a scálú, méadaíonn sé na costais ríomhaireachtúla a bhaineann le hoiliúint agus le himscaradh an mhúnla, agus méadaíonn sé na deacrachtaí agus an éifeachtúlacht a bhaineann le himscaradh an mhúnla ar fheistí comhthreomhara ag an am céanna. Cúis mhór atá taobh thiar de na costais mhéadaithe oiliúna agus tátail chomh maith le riachtanais ríomhaireachtúla ná go n-éilíonn gach comhartha sa chreat ríomh gach paraiméadair laistigh den tsamhail ar a dtugtar an tsamhail dlúth. 

Ar an taobh eile de, tá scálaithe éifeachtach creataí léirithe ag MoE nó Meascán de Shamhaltáin Shaineolaithe trí shonraí a phróiseáil le cabhair ó pharaiméadair ghníomhachtaithe sheasta, cur chuige atá glactha go forleathan sa réimse Próiseála Teanga Nádúrtha. Mar sin féin, tá sé dúshlánach úsáid a bhaint as Meascán Saineolaithe chun Múnlaí Teangacha Físe Móra gann a thraenáil go díreach ós rud é go n-iompaítear LLManna go LVLManna agus má theipeann ar an tsamhail ag an am céanna beidh díghrádú suntasach ar fheidhmíocht. Chun Meascán Múnlaí a chur i bhfeidhm chun LLManna agus LVLManna a scála, tá sé riachtanach an LVLM a thúsú ar dtús le haghaidh tearcúcháin. Chun é seo a bhaint amach, tugann an creat MoE-LLaVA isteach MoE-Tining, straitéis oiliúna trí chéim atá simplí ach éifeachtach. 

Mar a léirítear san fhigiúr thuas, cuireann an próiseas MoE-Tiúnta oiliúint ar MLP nó Perceptron Ilchiseal a chuireann na comharthaí amhairc in oiriúint do Mhúnla Mórtheanga sa chéad chéim. Traenálann an creat paraiméadair iomlána an LLM chun an tSamhail Teanga Fhís Mhóir a réamhchumhachtú le cumais tuisceana ilmhódaigh ghinearálta. Ar deireadh, sa tríú céim, déantar an FFN nó an Líonra Feed Forward a mhacasamhlú leis an gcreat mar na meáchain tosaigh do na saineolaithe, agus ní dhéantar ach na sraitheanna Meascán de Shaineolaithe a oiliúint. Tríd is tríd, cuidíonn an próiseas oiliúna le haistriú céimseach na samhla gann ó thúsú LVLM go meascán gann de shainmhúnlaí. 

Agus an próiseas oiliúna á chlúdach, lig dúinn solas a chur ar MoE-LLaVA, bunlíne do Mhúnlaí Teanga Fhís Móra le Meascán de shamhlacha Saineolaithe a chuimsíonn ródairí infhoghlama agus samhlacha MoE. Ag a chroílár, is éard atá sa tsamhail MoE-LLaVA ná cosáin iolracha tanaí, agus úsáideann an creat na cosáin seo chun gach comhartha a sheoladh chuig saineolaithe éagsúla tríd an ródaire infhoghlama. Ansin déanann na saineolaithe gníomhachtaithe na comharthaí a phróiseáil le chéile agus na cosáin neamhghníomhacha a choinneáil ina dtost. Ansin cruachann an creat na sraitheanna ionchódóra Meascán de Shaineolaithe go atriallach chun cosán gann a sholáthar i dtreo LVLM níos mó agus níos cumhachtaí. 

A bhuí leis an gcur chuige atá curtha i bhfeidhm ag an gcreat MoE-LLaVA, tá sé in ann samhlacha a bhfuil an líon céanna paraiméadair gníomhachtaithe acu a shárú, agus iad a shárú le difríocht mhór ar thagarmharc hallucination réad POPE, in ainneoin nach bhfuil ach 2.2 billiún paraiméadair aige. Ina theannta sin, tá an creat MoE-LLaVA le 2.2 billiún paraiméadair, in ann feidhmíocht a bhaint amach atá inchomparáide leis an gcreat InternVL-Chat-19B le beagnach 8 oiread an líon paraiméadair gníomhachtaithe. 

Tá Samhlacha Cumhachta Móra Teangacha a bhfuil ginearálú agus teagasc láidir iontu curtha i bhfeidhm chun Múnlaí Teanga Fís Móra. Déanann LLManna luatha cosúil le BLIP comharthaí amhairc a ionchódú i seicheamh comharthaí amhairc a ligeann dóibh fís a oiriúnú do LLManna go rathúil ag baint úsáide as sraitheanna iolracha teilgin. Ag an am céanna, díríonn oibreacha le déanaí ar fheidhmíocht an mhúnla a fheabhsú trí mhodhanna a chur i bhfeidhm mar an tacar sonraí maidir le tiúnadh treoracha a leathnú, réiteach na híomhá a mhéadú, straitéisí oiliúna a bharrfheabhsú, an t-ionchur a ailíniú, na hionchódóirí íomhá a fheabhsú, agus i bhfad níos mó. Chabhraigh na cineálacha cur chuige seo le cumas a thabhairt do LVLManna le cumas tuisceana amhairc cumhachtacha trí thacar sonraí mionchoigeartaithe an teagaisc amhairc agus scálaí samhlacha a leathnú. Ina theannta sin, tá cumas tuisceana íomhánna mionghrámhara ag roinnt LVLManna ar nós tuiscint réigiún agus il-réigiún chomh maith le cumais talamh ciallmhar picteilín. Mar sin féin, is minic a bhíonn an costas ríomhaireachta in éineacht le sonraí agus samhlacha dlútha amhairc ard go leor, rud a fhágann go bhfuil sé dúshlánach é a chaitheamh. Ar an láimh eile, tá sé mar aidhm ag creat MoE-LLaVA taighde LVLM a dhéanamh níos inacmhainne trí chumais mhúnlaí MoE a ghiaráil. 

MoE-LLaVA : Modh agus Ailtireacht

Ag a chroílár, tá creat MoE-LLaVA comhdhéanta de chiseal réamh-mheastacháin amhairc (Perceptron Ilshraith), ionchódóir fís, bloic MoE, bloic LLM iolracha cruachta, agus ciseal leabaithe focal. 

ailtireacht

Déanann an tábla seo a leanas achoimre ar chumraíochtaí mionsonraithe an chreata MoE-LLaVA. 

Maidir le híomhá RGB ar leith, déanann an t-ionchódóir fís na híomhánna a phróiseáil chun seicheamh comharthaí amhairc a fháil le ciseal teilgean amhairc a mhapálann an t-ord comharthaí amhairc chun íomhánna a ionchur. Próiseáiltear na hionchuir téacs leis an gciseal leabú focal a theilgeann ansin é chun na comharthaí seichimh a fháil. Ag an am céanna, nascann an creat MoE-LLaVA an téacs agus na comharthaí amhairc le chéile, agus cothaíonn sé iad chuig an LLM. Mar sin féin, ní dhéanann an creat ach an ciseal amharc-theilgean a oiliúint leis an múnla mór teanga a chuimsíonn FFN nó Líonraí Néaracha Feedforward, agus Sraitheanna Féinaird Il-Cheann. Ar deireadh, cuireann an creat naisc iarmharacha agus normalú ciseal i bhfeidhm ar gach bloc. 

Ag bogadh ar aghaidh, déanann an creat MoE-LLaVA an FFN nó Feedforward Neural Networks a mhacasamhlú ón dara céim chun ensemble saineolaithe a chruthú mar chéim tosaigh. Toisc gur ciseal líneach é an ródaire, tuartar an dóchúlacht go sannfar gach sainchomhartha do gach saineolaí. Déanann na saineolaithe barr-k gach comhartha a phróiseáil leis an dóchúlacht uasta, agus ríomhann siad an tsuim ualaithe bunaithe ar thoradh softmax na dóchúlachta. 

MoE-Tiúnadh

Is straitéis oiliúna trí chéim simplí ach éifeachtach é MoE-Tiúnadh a chuireann oiliúint ar MLP nó Perceptron Ilchiseal a chuireann na comharthaí amhairc in oiriúint do Mhúnla Mórtheanga sa chéad chéim. Traenálann an creat paraiméadair iomlána an LLM chun an tSamhail Teanga Fhís Mhóir a réamhchumhachtú le cumais tuisceana ilmhódaigh ghinearálta. Ar deireadh, sa tríú céim, déantar an FFN nó an Líonra Feed Forward a mhacasamhlú leis an gcreat mar na meáchain tosaigh do na saineolaithe, agus ní dhéantar ach na sraitheanna Meascán de Shaineolaithe a oiliúint. 

Céim 1

Sa chéad chéim, is é an príomhchuspóir ná na comharthaí íomhá a oiriúnú don mhúnla mór teanga a ligeann don LLM na cásanna san íomhá a thuiscint. Úsáideann an creat MoE-LLaVA peirceptron ilchiseal chun na comharthaí íomhá a theilgean isteach i bhfearann ​​ionchuir na samhla móra teanga, agus déileálann sé le paistí íomhá mar chomharthaí bréag-théacs. Sa chéim seo, cuireann an creat MoE-LLaVA oiliúint ar an LLM chun cur síos a dhéanamh ar na híomhánna, agus ní chuireann sé na sraitheanna MoE i bhfeidhm ar an LLM le linn na céime seo.

Céim 2

Sa dara céim, déanann an MoE-LLaVA iarracht cumais agus inrialaitheacht an chreata a fheabhsú tríd an tsamhail a thiúnadh le sonraí teagaisc ilmhódacha. Baintear é seo amach le creat MoE-LLaVA tríd an LLM a choigeartú le bheith ina LVLM le cumais tuisceana ilmhódaigh. Úsáideann an creat treoracha níos casta lena n-áirítear aithint téacs agus tascanna réasúnaíochta íomhá loighciúil a éilíonn go mbeadh cumais ilmhódacha níos láidre ag an tsamhail. Go traidisiúnta, meastar go bhfuil an próiseas oiliúna do mhúnlaí dlúth críochnaithe faoin gcéim seo. Mar sin féin, tháinig dúshláin roimh chreat MoE-LLaVA maidir leis an LLM a athrú ina a LVLM ag an am céanna leis an LVLM a laghdú. Chun dul i ngleic leis an dúshlán seo, úsáideann an creat na meáchain ón gcéim mar thúsú don chéad chéim eile chun iarracht a dhéanamh deacracht foghlama na samhla gann a mhaolú. 

Céim 3

Sa tríú céim, déantar macasamhlú sa tsamhail ar an líonra néaraíoch réamhbhabhta arís agus arís eile chun na saineolaithe a thionscnamh mar nós imeachta tosaigh. Ansin cuireann an creat na comharthaí téacs agus íomhá isteach sa mheascán de shraitheanna saineolaithe agus ina dhiaidh sin ríomhann an ródaire na meáchain mheaitseála idir saineolaithe agus gach comhartha. Ansin déanann na saineolaithe barr-k gach comhartha a phróiseáil agus an t-aschur comhiomlán á ríomh de réir suime ualaithe bunaithe ar mheáchan an ródaire. Nuair a chuirtear na saineolaithe barr-k i ngníomh, stopann an tsamhail na saineolaithe atá fágtha, cur chuige a threalmhú an creat MoE-LLaVA le cosáin gan teorainn gan teorainn, rud a threalmhú an tsamhail le raon leathan cumais. 

MoE-LLaVA : Torthaí agus Turgnaimh

Glacann creat MoE-LLaVA CLIP-Large mar an ionchódóir fís leis an Multilayer Perceptron comhdhéanta de dhá shraith le ciseal gníomhachtaithe GELU ag scaradh an dá cheann. De réir réamhshocraithe, baintear úsáid as an gcreat le meascán de shraitheanna saineolacha a chur in ionad na líonraí néaracha réamhbhabhta de réir a chéile, rud a chiallaíonn gurb ionann an meascán de shraitheanna saineolaithe agus 50 % de líon iomlán na sraitheanna. Sa tábla seo a leanas tá na tacair shonraí éagsúla mar aon lena méid samplach a úsáideadh chun an creat MoE-LLaVA a oiliúint agus a mheas. 

Freagra ar Cheist Íomhá Zero-Shot

Léiríonn an figiúr seo a leanas gur samhail gann é MoE-LLaVA le ródaire bog bunaithe ar LVLM. Déantar an creat a mheas ar 5 thagarmharcanna freagra ceisteanna íomhá, agus mar is féidir a thabhairt faoi deara, léiríonn creat MoE-LLaVA cumais iontacha tuisceana íomhá, agus seachadann sé feidhmíocht inchomparáide leis an gcreat LLaVA 1.5 den scoth ar chúig thagarmharc éagsúil. 

Meastóireacht ar Shíothchaint Object

Chun hallucination réad a mheas, glacann creat MoE-LLaVA píblíne meastóireachta POPE, modh fiosrúcháin bunaithe ar vótaíocht, agus léirítear na torthaí sa tábla seo a leanas. Mar is féidir a thabhairt faoi deara, as na creataí go léir, seachadann an MoE-LLaVA na torthaí is láidre, rud a léiríonn cumas an chreata chun rudaí a ghiniúint atá comhsheasmhach leis an íomhá ionchuir. Ina theannta sin, is fiú a thabhairt faoi deara go bhfuil cothromaíocht mhaith idir an creat MoE-LLaVA agus an cóimheas tá, rud a léiríonn cumas na samhla gann aiseolas cruinn a sholáthar don cheist a tugadh. 

Tá dáileadh na lódálacha saineolaithe san íomhá seo a leanas, áit a léiríonn na línte neamhleanúnacha dáileadh cothrom cothrom comharthaí i measc na rialacha mionsonraithe nó na saineolaithe. Léiríonn an chéad fhigiúr an t-ualach oibre laistigh de na saineolaithe agus léiríonn na híomhánna atá fágtha feidhmíocht na saineolaithe i dtreo modhanna éagsúla. 

Ina theannta sin, léiríonn an figiúr seo a leanas dáileadh na rialacha mionsonraithe ar shaineolaithe éagsúla. 

Smaointe Deiridh

San Airteagal seo, labhair muid faoi MoE-LLaVA, bunlíne do Mhúnlaí Teanga Fhís Móra le Múnlaí Meascán de Shaineolaithe a chuimsíonn ródairí infhoghlama agus samhlacha MoE. Ag a chroílár, is éard atá sa tsamhail MoE-LLaVA ná cosáin iolracha tanaí, agus úsáideann an creat na cosáin seo chun gach comhartha a sheoladh chuig saineolaithe éagsúla tríd an ródaire infhoghlama. Ansin déanann na saineolaithe gníomhachtaithe na comharthaí a phróiseáil le chéile agus na cosáin neamhghníomhacha a choinneáil ina dtost. Ansin cruachann an creat na sraitheanna ionchódóra Meascán de Shaineolaithe go atriallach chun cosán gann a sholáthar i dtreo LVLM níos mó agus níos cumhachtaí. Tugann an straitéis MoE-Tining aghaidh ar an tsaincheist chomhchoiteann maidir le díghrádú feidhmíochta i bhfoghlaim theoranta ilmhódúil go nuálaíoch, agus dá bhrí sin tógtar samhail le líon suntasach mór paraiméadair ach costais chomhsheasmhacha oiliúna agus tátail. Dearadh ailtireacht chreat MoE-LLaVA ar bhealach nach ngníomhaíonn sé ach na saineolaithe barr-k le linn imscaradh agus na saineolaithe atá fágtha a choinneáil neamhghníomhach. 

"Innealtóir de réir gairme, scríbhneoir ó chroí". Is scríbhneoir teicniúil é Kunal a bhfuil grá agus tuiscint dhomhain aige ar AI agus ar ML, atá tiomanta do choincheapa casta sna réimsí seo a shimpliú trína dhoiciméadú mealltach agus faisnéiseach.