stuacach Ferret: Déan tagairt agus talamh ag Aon Ghrinniúlacht - Unite.AI
Ceangail le linn

Faisnéise Saorga

Feiréad: Déan tagairt agus talamh ag Aon Ghrinniúlacht

mm

foilsithe

 on

FERRET: TABHAIR FAOI DEARA AGUS AR THALAMH AR AON RIARACHÁN

Is príomhdhúshlán taighde é tuiscint spásúil a chumasú i múnlaí foghlama físteanga. Tacaíonn an tuiscint seo le dhá chumas ríthábhachtacha: bunús agus tagairt. Cuireann tagairt ar chumas na samhla léirmhíniú beacht a dhéanamh ar shéimeantaic réigiún ar leith, agus baineann bunús le húsáid tuairiscí shéimeantacha chun na réigiúin seo a logánú.

Tá Ferret tugtha isteach ag forbróirí, Múnla Mórtheanga Ilmhódúil (MLLM), atá in ann tagairt spásúlachta a thuiscint thar aon ghranúlacht nó cruth in íomhá agus atá bunaithe go cruinn ar chur síos ar fhoclóir oscailte. Úsáideann Ferret léiriú hibrideach nua a chomhcheanglaíonn gnéithe leanúnacha agus comhordanáidí scoite chun réigiúin íomhá a léiriú. Láimhseálann an samplóir amhairc atá ar an eolas faoi spásúlacht éagsúlachtaí de theannas i gcruth, rud a ligeann dó ionchuir réigiún éagsúil a phróiseáil amhail cruthanna saorfhoirme, boscaí teorann, agus pointí.

Cuireann cur chuige Ferret ar a chumas barr feabhais a bhaint amach sa bhunchloch chlasaiceach agus i dtascanna tagartha agus dul thar MLLManna eile i gcumarsáid ilmhódúil logánaithe-bhunaithe agus réigiún-bhunaithe. Scrúdaíonn an t-alt seo ailtireacht agus modheolaíocht Ferret, ag cur béime ar a fheidhmíocht shuntasach i dtascanna teanga ilmhódacha éagsúla. Déanaimis é seo a fhiosrú tuilleadh.

Ferret : Feidhmíocht Sármhaith i dTascanna Tagartha agus Bunús

Is cumas é tagairt a dhéanamh i múnla a ligeann don mhúnla séimeantaic réigiún ar leith a thuiscint go cruinn ach de bharr an fhorais tá sé riachtanach go n-úsáidfeadh an tsamhail na tuairiscí séimeantacha tugtha chun na réigiúin a logánú. Cé go bhféadfadh siad a bheith difriúil ina dtascanna faoi seach, tá an bunchoincheap céanna ag tagairt agus bunús araon: ailíniú spásúlachta agus faisnéise spásúlachta. In ainneoin an choincheapa chéanna a roinnt, áfach, foghlaimíonn samhlacha reatha bunús agus tagairt ina n-aonar. Cé go n-oibríonn an modh, cuireann sé bac le cumas daonna a bhaint amach toisc gur féidir le daoine foghlaim ó thasc amháin, agus an fhoghlaim a chur i bhfeidhm ar thascanna eile gan uaim, agus go bhfuil siad in ann cumais forais/atreoraithe a chomhtháthú gan stró le réasúnaíocht agus le hidirphlé laethúil. Faigheann creat Ferret inspioráid ón mbearna thuasluaite i gcreatanna MLLM atá ann cheana féin agus déantar staidéar ar thrí phríomhcheist:

  1. Conas cumais bhunaidh agus atreoraithe a aontú sa chreat, agus conas a rachaidh a n-aontas chun leasa a chéile?
  2. Úsáideann daoine cineálacha ilúsáideacha réigiún mar bhosca, pointe, scribble, cruthanna saorfhoirme chun tagairt a dhéanamh? Conas na réigiúin ildánacha seo a léiriú?
  3. Conas is féidir bunús agus tagairt a dhéanamh de réir treoracha, láidir agus oscailte-focal, atá ríthábhachtach dá bhfeidhmeanna praiticiúla agus fíor-ama?

Samhail Mhórtheanga Ilmhódach nua thagartha agus bunaithe is ea creat Ferret a dhéanann iarracht díriú ar na ceisteanna seo. Roghnaíonn creat Ferret a Múnla Mórtheanga Ilmhódúil mar bhunús leis mar gheall ar a bhfís dhomhanda iontach agus a gcumas tuisceana teanga. Ina theannta sin, chun na hacmhainní forais agus tagartha a aontú, is ionann creat Ferret agus comhordanáidí na réigiún i bhfoirm uimhriúil teanga nádúrtha. Mar sin féin, go praiticiúil, tá sé mí-éifeachtach comhordanáidí bosca nó fiú pointí aonair a úsáid chun cruthanna ilúsáide réigiúin a léiriú mar scribbles, strócanna, nó polagáin choimpléascacha mar go bhfuil na cruthanna seo ríthábhachtach le haghaidh cruinneas feabhsaithe agus idirghníomhaíocht samhail daonna níos uilíche. Chun dul i ngleic leis an tsaincheist seo, baintear úsáid as creat Ferret as samplálaí amhairc atá feasach ar spásúlacht a fhaigheann na réigiúin amhairc do réigiúin is cuma cén cruth atá orthu, agus mar sin déantar idirbheartaíocht le tearcúlacht éagsúil sna cruthanna seo. Comhcheanglaíonn an creat na gnéithe leanúnacha amhairc le comhordanáidí scoite chun na réigiúin amhairc san ionchur a léiriú, rud a chruthaíonn ionadaíocht réigiún hibrideach i Ferret. 

Baineann creat Ferret úsáid as na modhanna thuas chun ionchur a réiteach a mheascann téacs saorfhoirme le réigiúin dá dtagraítear, agus tá sé in ann comhordanáidí gach réad inchurtha a ghiniúint gan uaim le téacs a ghiniúint chun na cuspóirí luaite san aschur a thaisceadh. Tríd an méid sin a dhéanamh, is é Ferret an chéad chreat chun réigiúin saor-ionchuir a phróiseáil i Múnlaí Ilmhódacha Teangacha Móra. Ina theannta sin, ionsúnn creat Ferret cumais stór focal oscailte iontacha de logánú spásúlachta agus tuisceana, rud a ligeann don chreat feidhmíocht níos fearr a bhaint amach nuair a dhéantar measúnú air ar thascanna traidisiúnta agus tagartha. 

Ag bogadh ar aghaidh, lorgaíonn creat Ferret inspioráid ó thrí chreat AI atá ann cheana féin, lena n-áirítear Múnlaí Ilmhódacha Teangacha Móra, MLLManna le haghaidh Atreoraithe agus Bunús, agus Aontú ar an talamh agus Tuiscint VL. 

Mar gheall ar Mhúnlaí Móra Teanga a thabhairt isteach, lena n-áirítear GPT, DALL-E, PaLM, LLaMA, agus BLOOM, tá athrú tagtha ar an tírdhreach i dtaighde NLP, rud a d’eascair dul chun cinn suntasach ar shamhlacha teanga ilmhódacha. Dhírigh na múnlaí teanga ilmhódacha níos luaithe go príomha ar ghiniúint íomhá-téacs ar scála mór agus ba iad na samplaí suntasacha PaLI, SimVLM, GIT, BLIP-2, FLAMINGO, CM3, agus PaLI-X. Mar sin féin, ó baineadh amach comhtháthú éifeachtach LLManna le creat Flamingo le hionchódóir íomhá CLIP réamh-oilte trí bhloic aird tras-geata a bhfuil cumas foghlama ilmhódúil cúpla lámhaigh iontach mar thoradh air. Tá an taighde reatha ag lorg bealaí chun samhlacha móra teanga réamh-oilte a úsáid le haghaidh tiúnadh físthreorach agus samplaí suntasacha á dtabhairt mionGPT-4, Dobharchú, InstructBLIP agus níos mó. Ina theannta sin, tá rath iontach léirithe ag samhlacha le déanaí mar Emu agus GILL maidir le MLLManna a úsáid chun íomhá a ghiniúint agus a aisghabháil. Tagraíonn creat Ferret freisin do thaighde roimhe seo a dhíríonn ar aschur téacs agus bosca teorann a aontú le haghaidh samhlacha Físteanga. 

Ferret : Modheolaíocht agus Ailtireacht

Léiriúcháin Hibrid-Réigiún

Is iad cruthanna pointe, bosca, agus saorfhoirmeacha na trí fhormáid is mó a úsáideann samhail teanga agus é ag tagairt do réigiúin ar leith. Ar thaobh amháin, is féidir an pointe agus an fhormáid bhosca a léiriú go cruinn le comhordanáidí, tá sé beagán dúshlánach cruthanna saorfhoirmeacha a mhapáil ós rud é go bhfuil cruthanna saorfhoirmeacha ildánach. Toisc gur cruthanna saorfhoirmeacha iad, is féidir leo raon leathan réigiún a chuimsiú lena n-áirítear maisc, polagáin agus scrioblóga. Is tasc casta é comhordanáidí a úsáid chun cruthanna saorfhoirmeacha a léiriú a chuireann bac ar chumas na samhla foghlaim conas comhghaol a bhunú idir na réigiúin agus na comhordanáidí comhfhreagracha. Ina theannta sin, tá úsáid na gcomhordanáidí do chruthanna saorfhoirmeacha costasach agus doiléir ó thaobh ríomhaireacht de. 

Chun dul i ngleic leis an bhfadhb seo agus chun ginearálú a dhéanamh ar fud na dtrí fhormáid, molann creat Ferret ionadaíocht réigiún hibrideach a shineirgíonn gnéithe amhairc leanúnacha le comhordanáidí scoite chun tagairt a dhéanamh do réigiún ar leith. 

Maidir le gnéithe amhairc leanúnacha, do réigiún ar leith, tógann creat Ferret masc dénártha 2D den mhéid céanna leis an íomhá, agus marcálann sé luach 1 laistigh den réigiún spriocdhírithe agus luach 0 á shannadh aige lasmuigh den réigiún. Ansin baintear an masc dénártha amach mar aon leis an mapa gné íomhá a bhaintear as an tsamhail, agus ansin cuireann sé chuig an samplóir amhairc atá feasach ar spásúlacht. 

ailtireacht

Cuimsíonn ailtireacht mhúnla Ferret trí phríomhchuid

  1. Ionchódóir íomhá chun leabaithe íomhá a bhaint as. 
  2. A Amharc Samplaí Spáis chun gnéithe leanúnacha réigiúnacha a bhaint as. 
  3. Samhail Mhór Teanga chun gnéithe téacs, íomhá agus réigiúin a shamhaltú i gcomhpháirt. 

Cuirtear an íomhá isteach san ionchódóir amhairc réamhoilte ar dtús chun leabaithe na híomhá a bhaint as. Maidir le hionchuir téacs, úsáideann an creat ar dtús tokenizer LLM réamh-oilte chun seicheamh an téacs a mharcáil, agus ansin na comharthaí seo a theilgean ina leabaithe téacs. I gcás na réigiún dá dtagraítear, cuireann Ferret comhartha speisialta i gceangal leis agus na comhordanáidí mar áitshealbhóir do ghnéithe leanúnacha tar éis ainm an réigiúin. Mura bhfuil ainm an réigiúin anaithnid nó má tá sé casta cur síos a dhéanamh air mar thoradh ar chuimsiú roinnt réad, ní úsáideann an creat ach ainm ceantair nó réigiúin. 

Ceann de na mórdhúshláin a bhaineann le réigiúin atreoraithe ná gur féidir lena gcruth a bheith an-éagsúil, rud a chiallaíonn gur féidir cruthanna éagsúla a bheith acu, agus nach bhfuil siad teoranta do bhoscaí dronuilleogacha nó do phointí. Ní féidir réigiúin dá dtagraítear le cruthanna neamhrialta a phróiseáil le modhanna traidisiúnta cosúil le próiseáil greille-bhunaithe lena n-áirítear aird paiste nó teicnící convolution. Chun dul i ngleic leis an tsaincheist seo, molann creat Ferret Samplaí Amhairc Spásúlachta. Maidir le gné-léarscáil tugtha a bhfuil masc réigiúin dhénártha aige, déanann samhail Ferret sampla randamach ar dtús N líon pointí laistigh den masc réigiún dhénártha. 

I gcás gach pointe aonair, faigheann an tsamhail a gné trí idirshuíomh délíneach a dhéanamh. Cuirtear na N pointí le heas bloic ansin agus téann gach ceann acu trí chéimeanna éagsúla: sampláil, bailiú agus comhthiomsú. Sa chéim Samplála, déantar líon seasta pointí a shampláil ó N líon pointí atá ar fáil trí úsáid a bhaint as FPS nó algartam Samplála Pointe is Farraige a ráthaíonn clúdach imleor. Sa dara céim, do gach pointe samplach, déanann an creat cuardach dá chomharsana is gaire ón líon N pointí atá ar fáil. I gcás gach grúpa, comhcheanglaíonn an tsamhail gnéithe pointe samplach agus pointí na gcomharsan. Sa chéim dheiridh, déanann creat Ferret comhthiomsú uasta chun gnéithe comharsanachta a chomhleá in aon ghné amháin chun feidhmiú mar léiriú don phointe a sampláladh. Trí na trí chéim seo a chomhlíonadh, fágtar níos lú pointí i gcreat Ferret ach tá spás le dlús níos airde ann mar ní hamháin go n-ionchorpraíonn sé gnéithe na gcomharsana áitiúla ach freisin a suíomhanna coibhneasta. 

Giniúint Amharcsonraí le Cúnamh GPT

Treoir Agallaimh Tá sonraí a Thiúnadh ríthábhachtach d'Ilmhódúil Múnlaí Móra Teanga an gcabhraíonn siad ní amháin le tacair sonraí atá ann cheana a thiontú ina dteimpléid, ach cabhraíonn siad leis an tsamhail freisin rún an duine a thuiscint agus freagairt chuí a ghiniúint. Úsáideann tromlach na MLLManna modh leideanna cúpla seat chun sonraí tiúnadh treoir amhairc a fháil, áit a soláthraíonn an tsamhail cur síos téacsach ar radhairc san íomhá mar aon le comhráite daonna anótáilte mar thaispeántais cúpla seat. Mar sin féin, dírítear go príomha ar na modhanna tiúrtha treoracha atá ann cheana féin ar chur síos a dhéanamh ar an íomhá iomlán gan faisnéis a bhaineann le spásúlacht a shonrú go sainráite. Leagtar béim i gcreat Ferret ar eolas atá bunaithe ar an réigiún chun sonraí maidir le tiúnadh tagartha agus teagasc talún a bhailiú i dtrí chéim. 

  1. Chomh maith le fortheidil agus réada domhanda a úsáid, soláthraíonn an creat cur síos ar radharc siombalach a chuireann síos ar an ngaol fisiceach idir fotheidil agus réada an réigiúin agus a gcomhordanáidí á gcur ar fáil ag an am céanna. 
  2. Maidir le hidirphlé atá anótáilte ag an duine, cuireann an creat comhordanáidí tar éis réada inbhraite nó réigiúin in ionchur nó aschuir nó sa dá cheann agus dírítear go príomha ar na comhphlé ar réigiúin shonracha a chabhraíonn leis an tsamhail teanga a spreagadh go hintuigthe chun na patrúin comhchosúla a leanúint do ghlúin nua comhphlé. 
  3. D’fhéadfadh sé tarlú nach leanfadh an t-idirphlé a ghintear leis an gcreat na rialacha agus na patrúin mar a threoraíonn samplaí cúpla seat agus leideanna an chórais. Chun dul i ngleic leis an tsaincheist seo, úsáideann an creat samhail teanga arís chun na comhphlé a ghineann an tsamhail ar dtús a bheachtú. 

Mianadóireacht Diúltach Spásúil

Tá sé léirithe ag taighde a rinneadh roimhe seo go bhfuil an-dóchúlacht ag baint le samhlacha ilmhódacha teanga móra siabhránachtaí a dhéanamh agus iad ag freagairt ceisteanna Tá nó Níl. Chun a chinntiú nach ndéanann samhail Ferret bréagchóipeáil i gcoinníollacha comhchosúla, úsáideann an creat cur chuige Mianadóireachta Diúltach Spásúlachta le Logánú Catagóire Íomhá-Choinníollach agus Logánú Catagóire Séimeantach-choinníollach. Iarrann an dá mhodh seo ar an tsamhail catagóirí sainiúla oibiachtaí a logánú a chuireann ar chumas an mhúnla easpa rudaí áirithe san íomhá a aithint. 

Ferret : Torthaí agus Turgnamh

Chun anailís a dhéanamh ar a fheidhmíocht, déantar creat Ferret a mheas ar bhonn traidisiúnta agus ar thagarmharcanna tagartha agus ina dhiaidh sin déantar an creat a mheas i dtasc comhrá ilmhódach níos casta agus déantar tástáil ar a chumais tarchurtha agus talún. 

Déantar cumas na samhla chun tagairt a thuiscint a mheas trí cé chomh cruinn agus is féidir le samhail shéimeantacht an réigiúin dá dtagraítear a thuiscint nuair a thugtar réigiún dá dtagraítear san íomhá nó sa cheist. Chun cruinneas an mhúnla a thomhas, déantar réada, an tséimeantaic is bunúsaí a mheas ar dtús mar ní hamháin go bhfuil sé bunúsach ach freisin go bhfuil sé éasca a shainiú. Chun aithris a dhéanamh ar solúbthacht ar leibhéal an duine, cuirtear cruth saor in aisce, bosca agus pointe in ionad suíomh an ruda laistigh den íomhá. Le haghaidh cruth saor in aisce, gineann an tsamhail strócanna go randamach laistigh den réad Ground Truth le haghaidh insamhalta. Maidir le bosca, úsáideann creat Ferret an bosca teorannaithe fhírinne na talún a sholáthraíonn comhpháirt LVIS. Ar deireadh, le haghaidh pointe, déanann an tsamhail pointe randamach laistigh den réad fhírinne talún atá gar do theorainn an réad fhírinne talún freisin. Léirítear na torthaí ar na trí chineál tagartha san íomhá seo a leanas. 

Léiríonn creat Ferret feidhmíocht iontach i dtascanna comhphlé tagartha, rud a fhágann gur féidir comhtháthú a dhéanamh le tascanna foghlama amhairc éagsúla, go háirithe na cinn a bhfuil aschuir bhunúsacha acu. Chun measúnú a dhéanamh ar a chumas forais, cuireann creat Ferret faoi réir ag tagarmharcáil tascanna forais amhairc le paraidím giniúna. Déanann an creat meastóireacht ansin ar a chumas ar thascanna fotheidealaithe bunaithe chun an ailíniú idir na réigiúin agus na focail a thomhas. 

I dtascanna físbhunaithe, tá sé mar aidhm ag an gcreat fiosrúcháin teanga a chur i réigiúin ailínithe den íomhá, agus mar atá le feiceáil san íomhá seo a leanas, léiríonn creat Ferret feidhmíocht iontach thar na tagarmharcanna go léir, agus tá an fheidhmíocht inchomparáide leis an gceann a baineadh amach ag modhanna speisialaithe mionchoigeartaithe. 

Le haghaidh tascanna fotheidealaithe bunaithe, ní mór don mhúnla fotheideal a ghiniúint, agus ansin na frásaí ainmfhocail ginte a chur i réigiúin íomhá. Tá trí chomhpháirt sa réamh-mheastachán deiridh a rinne an tsamhail: réigiúin amhairc mar bhoscaí, fotheidil téacs, agus ailíniú talún idir boscaí agus focail. Léirítear na torthaí san íomhá seo a leanas, agus mar is féidir a thabhairt faoi deara, seachadann an creat feidhmíochta atá inchomparáide leis na modhanna nua-aimseartha. 

Ar deireadh, tá comhrá ilmhódach ar cheann de na cumais is inmhianaithe laistigh de MLLM, agus déanann MLLManna atá ann cheana measúnú go príomha ar chur síos mionsonraithe, comhrá, agus réasúnaíocht chasta leis an múnla teanga mar bhreitheamh. Mar sin féin, toisc nach ndéanann tacar sonraí ar bith comhrá ilmhódach a mheas le gníomhartha tagartha nó forais éigeantacha, fágann sé bearna. Chun an bhearna seo a líonadh, clúdaíonn creat Ferret trí cheist bunaithe ar an réigiún chun a chumais tagartha agus a bhunú i dtascanna comhrá ilmhódacha a mheas. Léirítear na torthaí san íomhá seo a leanas. 

Ar deireadh, déantar comparáid dhíreach idir creat Ferret agus creat GPT úrscothach, agus léirítear na torthaí thíos. 

Smaointe Deiridh

San Airteagal seo, labhair muid faoi Ferret, múnla mór ilmhódúil teanga a thaispeánann cumais shuntasacha bunúsaithe agus tagartha. Is féidir le creat Ferret tagairt a dhéanamh do réigiúin íomhá beag beann ar a gcruth, agus féadann sé bunús a bhunú le haghaidh téacs a thuar an tsamhail go huathoibríoch. Fostaíonn Ferret samplóir amhairc atá feasach ar spásúlacht atá in ann déileáil le teimhneacht éagsúla arna léiriú ag cruthanna éagsúla chun gnéithe leanúnacha na réigiún ilúsáideach a bhaint as. Mar thoradh air sin, is féidir le creat Ferret ionchuir réigiúin éagsúla a ionchur lena n-áirítear cruthóirí saorfhoirme, boscaí teorann, agus pointí. 

"Innealtóir de réir gairme, scríbhneoir ó chroí". Is scríbhneoir teicniúil é Kunal a bhfuil grá agus tuiscint dhomhain aige ar AI agus ar ML, atá tiomanta do choincheapa casta sna réimsí seo a shimpliú trína dhoiciméadú mealltach agus faisnéiseach.