Artificial Intelligence

Mini-Gemini: A’ Mèinneadh comas Modalan Cànain Lèirsinn Ioma-mhodh

Published

3 seachdainean bho chionn

Giblean 26, 2024

Mini-Gemini: A’ Mèinneadh comas Modalan Cànain Lèirsinn Ioma-mhodh

Na h-adhartasan ann an modalan cànain mòra air leasachadh mòr a luathachadh giollachd cànain nàdarra, no NLP. B’ e clach-mhìle a bh’ ann an toirt a-steach frèam an cruth-atharrachaidh, a’ comasachadh leasachadh air tonn ùr de mhodalan cànain, a’ gabhail a-steach OPT agus BERT, aig a bheil tuigse chànanach domhainn. A bharrachd air an sin, thug tòiseachadh GPT, no modalan Generative Pre-trained Transformer, a-steach paradigm ùr le modaladh fèin-ghluasadach agus stèidhich e dòigh làidir airson ro-innse agus ginealach cànain. Tha teachd a-steach mhodalan cànain leithid GPT-4, ChatGPT, Mixtral, LLaMA, agus feadhainn eile air spionnadh a thoirt do mean-fhàs luath, le gach modail a’ nochdadh coileanadh nas fheàrr ann an gnìomhan a’ toirt a-steach giullachd cànain iom-fhillte. Am measg dhòighean a th’ ann mar-thà, tha gleusadh stiùiridh air nochdadh mar phrìomh dhòigh airson a bhith ag ùrachadh toradh mhodalan cànain mòra ro-thrèanadh, agus tha amalachadh nam modalan sin le innealan sònraichte airson gnìomhan lèirsinneach air an sùbailteachd a nochdadh agus air dorsan fhosgladh airson tagraidhean san àm ri teachd. Tha iad sin a’ leudachadh fada seachad air a’ ghiollachd traidiseanta stèidhichte air teacsa de LLMn gus a bhith a’ toirt a-steach eadar-obrachaidhean ioma-mhodhail.

A bharrachd air an sin, tha co-aonadh mhodalan giollachd cànain nàdarra agus lèirsinn coimpiutair air VLMn, no Vision Language Models, a chruthachadh a bhios a’ cothlamadh mhodalan cànanach is lèirsinn gus comasan tuigse is reusanachaidh thar-mhodal a choileanadh. Tha pàirt deatamach air a bhith aig amalachadh agus tighinn a-steach mhodalan lèirsinneach is cànanach ann a bhith ag adhartachadh gnìomhan a dh’ fheumas an dà chuid giollachd cànain agus tuigse lèirsinneach. Tha nochdadh mhodalan rèabhlaideach leithid CLIP air a’ bheàrn eadar gnìomhan lèirsinn agus modalan cànain a dhùnadh tuilleadh, a’ nochdadh ion-dhèantachd agus practaigeach thagraidhean tar-mhodal. Bidh frèaman nas ùire mar LLaMA agus BLIP a’ luathachadh dàta stiùiridh sònraichte gus ro-innleachdan èifeachdach a dhealbhadh a sheallas comasan làidir a’ mhodail. A bharrachd air an sin, tha a bhith a’ cothlamadh mhodalan cànain mòra le toraidhean ìomhaighean mar fhòcas air rannsachadh ioma-mhodal o chionn ghoirid, le dòighean o chionn ghoirid comasach air gineadh dìreach a sheachnadh le bhith a’ cleachdadh an dòigh lorg ìomhaighean gus toraidhean ìomhaighean agus teacsaichean eadar-duilleach a thoirt gu buil.

Le sin air a ràdh, agus a dh’aindeoin adhartasan luath ann am modalan cànain lèirsinn a’ comasachadh reusanachadh bunaiteach agus conaltradh lèirsinneach, tha beàrn coileanaidh mòr ann fhathast eadar modalan adhartach leithid GPT-4, agus modalan cànain lèirsinn. Tha Mini-Gemini na oidhirp air a’ bheàrn a tha ann eadar modalan cànain lèirsinn agus modalan nas adhartaiche a lughdachadh le bhith a’ mèinneadh comas VLMn airson coileanadh nas fheàrr bho thrì taobhan: ginealach fo stiùir VLM, dàta àrd-inbhe, agus comharran lèirsinneach àrd-rèiteachaidh. Gus comharran lèirsinneach a leasachadh, tha am frèam Mini-Gemini a’ moladh inneal-còdaidh lèirsinneach a bharrachd a chleachdadh airson ùrachadh àrd-rèiteachaidh gun a bhith ag àrdachadh àireamh nan comharran lèirsinneach. Bidh am frèam Mini-Gemini a’ togail tuilleadh stòr-dàta de chàileachd àrd ann an oidhirp tuigse mhionaideach air ìomhaighean agus gineadh stèidhichte air reusanachadh adhartachadh. Gu h-iomlan, tha am frèam Mini-Gemini a’ feuchainn ri comas mhodalan cànain lèirsinn a mhèinneadh, agus ag amas air cumhachd a thoirt do na frèaman a th’ ann mar-thà le reusanachadh ìomhaigh, tuigse, agus comasan ginealach aig an aon àm. Tha an artaigil seo ag amas air frèam Mini-Gemini a chòmhdach gu domhainn, agus bidh sinn a’ sgrùdadh an uidheamachd, an dòigh-obrach, ailtireachd an fhrèam còmhla ri a choimeas ri frèaman ùr-nodha. Mar sin leig leinn tòiseachadh.

Mini-Gemini: A’ luathachadh VLMan ioma-mhodhail

Thar nam bliadhnaichean, tha modalan cànain mòra air a thighinn air adhart, agus tha iad a-nis a’ bòstadh comasan iongantach ioma-mhodhail, agus a’ fàs nam pàirt riatanach de mhodalan cànain lèirsinn gnàthach. Ach, tha beàrn ann eadar coileanadh ioma-mhodhail mhodalan cànain mòra agus modalan cànain lèirsinn le rannsachadh o chionn ghoirid a’ coimhead airson dòighean air lèirsinn a chur còmhla ri modalan cànain mòra a’ cleachdadh ìomhaighean agus bhideothan. Airson gnìomhan lèirsinn fhèin, tha fuasgladh ìomhaighean na eileamaid dheatamach gu soilleir a dh’ aindeoin na h-àrainneachd mun cuairt le glè bheag de mhìneachaidhean lèirsinneach. Gus am beàrn a dhùnadh, tha luchd-rannsachaidh a’ leasachadh mhodalan gus an tuigse lèirsinneach ann an sruth a leasachadh modailean cànain lèirsinn, agus is e dhà de na dòighean-obrach as cumanta: àrdachadh an rùn, agus àrdachadh air an àireamh de chomharran lèirsinneach. Ged a chuireas àrdachadh air an àireamh de chomharran lèirsinneach le ìomhaighean fuasglaidh nas àirde an tuigse lèirsinneach, gu tric bidh barrachd riatanasan coimpiutaireachd agus cosgaisean co-cheangailte ris an àrdachadh gu sònraichte nuair a bhios iad a’ giullachd ioma-ìomhaighean. A bharrachd air an sin, tha comasan nam modalan a th’ ann mar-thà, càileachd an dàta a th’ ann mar-thà, agus iomchaidheachd fhathast mì-fhreagarrach airson pròiseas leasachaidh luathaichte, a’ fàgail na ceiste aig luchd-rannsachaidh, “mar a luathaicheas tu leasachadh mhodalan cànain lèirsinn le cosgaisean iomchaidh"?

Tha am frèam Mini-Gemini na oidhirp air a’ cheist a fhreagairt fhad ‘s a tha e a’ feuchainn ri comas mhodalan cànain lèirsinn a sgrùdadh bho thrì taobhan: ginealach air a stiùireadh le VLM no tagraidhean leudaichte, dàta àrd-inbhe, agus comharran lèirsinneach àrd-rèiteachaidh. An toiseach, bidh am frèam Mini-Gemini a’ cur an gnìomh ailtireachd ConvNet gus tagraichean le rùn nas àirde a ghineadh gu h-èifeachdach, ag àrdachadh mion-fhiosrachadh lèirsinneach fhad ‘s a chumas iad na cunntasan comharran lèirsinneach airson a’ mhodail cànain mhòir. Bidh am frèam Mini-Gemini a’ toirt còmhla stòran-dàta àrd-inbhe a tha rim faighinn gu poblach ann an oidhirp càileachd an dàta àrdachadh, agus a’ fighe a-steach nan leasachaidhean sin le modalan cànain mòr agus ginealach ùr-nodha le oidhirp air coileanadh nan VLMn a leasachadh, agus leasachadh. eòlas an neach-cleachdaidh. Tha an ro-innleachd ioma-thaobhach air a chuir an gnìomh leis an fhrèam Mini-Gemini a’ toirt comas dha comasan falaichte mhodalan cànain lèirsinn a sgrùdadh, agus a’ coileanadh adhartasan cudromach le cuingealachaidhean stòrais follaiseach.

San fharsaingeachd, tha frèam Mini-Gemini a’ cleachdadh rud sam bith gu paradigm sam bith leis gu bheil e comasach air an dà chuid teacsa agus ìomhaighean a làimhseachadh mar chur-a-steach agus toradh. Gu sònraichte, tha am frèam Mini-Gemini a ’toirt a-steach loidhne-phìoban èifeachdach airson àrdachadh comharran lèirsinneach airson ìomhaighean cuir a-steach, agus a’ nochdadh siostam dà-chòd anns a bheil dà encoders: tha a ’chiad encoder airson ìomhaighean àrd-rèiteachaidh, agus tha an dàrna encoder airson ìomhaighean ìosal. stèidheachadh càileachd lèirsinneach. Rè co-dhùnadh, bidh na encoders ag obair ann an uidheamachd aire, far am bi an encoder le rùn ìosal a ’gineadh ceistean lèirsinneach, fhad‘ s a tha an encoder àrd-rèiteachaidh a ’toirt seachad prìomh agus luachan airson fiosrachadh. Gus càileachd an dàta àrdachadh, bidh am frèam Mini-Gemini a’ tional agus a’ toirt a-mach barrachd dàta stèidhichte air goireasan poblach, a’ toirt a-steach stiùireadh stèidhichte air gnìomhan, dàta co-cheangailte ri ginealach, agus freagairtean àrd-rèiteachaidh, leis an t-suim nas motha agus càileachd leasaichte a’ leasachadh coileanadh iomlan agus comasan a’ mhodail. A bharrachd air an sin, tha am frèam Mini-Gemini a’ toirt taic do ghineadh teacsa is ìomhaighean aig an aon àm mar thoradh air aonachadh a’ mhodail cànain lèirsinn le modalan ginealach adhartach.

Mini-Gemini: Dòigh-obrach agus Ailtireachd

Aig a chridhe, tha am frèam Mini-Gemini sìmplidh gu bun-bheachdail, agus tha trì pàirtean ann.

Bidh am frèam a’ cleachdadh encoders dà-lèirsinn gus greimeachadh lèirsinneach le rùn ìosal agus tagraichean àrd-rèiteachaidh a thoirt seachad.
Tha am frèam a’ moladh mèinnearachd fiosrachaidh paiste a chuir an gnìomh gus mèinnearachd a dhèanamh aig ìre paiste eadar ceistean lèirsinneach le rùn ìosal, agus roinnean àrd-rèiteachaidh.
Bidh am frèam Mini-Gemini a’ cleachdadh modal cànain mòr gus teacsa a phòsadh le ìomhaighean airson gach cuid ginealach agus tuigse aig an aon àm.

Encoders dà-shealladh

Faodaidh am frèam Mini-Gemini an dà chuid cuir a-steach teacsa agus ìomhaigh a phròiseasadh, leis an roghainn an làimhseachadh leotha fhèin no ann an cothlamadh. Mar a chithear san ìomhaigh a leanas, bidh am frèam Mini-Gemini a’ tòiseachadh a’ phròiseas le bhith a’ cleachdadh eadar-fhilleadh dà-chànanach gus ìomhaigh le rùn ìosal a ghineadh bhon ìomhaigh àrd-rèiteachaidh co-fhreagarrach aige.

Bidh am frèam an uairsin a’ giullachd nan ìomhaighean sin agus gan còdachadh ann an fhilleadh lèirsinneach ioma-ghriod ann an dà shruth ìomhaigh co-shìnte. Gu sònraichte, tha am frèam Mini-Gemini a’ cumail na loidhne-phìoban traidiseanta airson sruthan le rùn ìosal agus a’ cleachdadh Transformer Lèirsinneach ro-thrèanadh CLIP gus na h-ionadan lèirsinneach a chòdachadh, a’ comasachadh a’ mhodail gus an dàimh fhada eadar pìosan lèirsinneach a ghleidheadh airson eadar-obrachaidhean ann an cànan mòr às deidh sin. modailean. Airson na sruthan àrd-rèiteachaidh, bidh am frèam Mini-Gemini a’ gabhail ris an encoder stèidhichte air CNN no Convolution Neural Networks airson giullachd ìomhaighean àrd-rèiteachaidh atharrachail agus èifeachdach.

Mining Info Patch

Leis na encoders lèirsinn dùbailte a’ gineadh na h-ionadan LR agus feartan HR, tha am frèam Mini-Gemini a’ moladh mèinnearachd fiosrachaidh paiste a chuir an gnìomh leis an amas comas mhodalan cànain lèirsinn a leudachadh le comharran lèirsinneach leasaichte. Gus an àireamh de chomharran lèirsinneach airson èifeachdas ann am modalan cànain mòra a chumail suas, bidh am frèam Mini-Gemini a’ gabhail na freumhachadh lèirsinneach le rùn ìosal mar a’ cheist, agus tha e ag amas air sanasan lèirsinneach iomchaidh fhaighinn air ais bho na tagraichean feart HR, leis an fhrèam a’ gabhail an Mapa feart HR mar an iuchair agus an luach.

Mar a chithear san ìomhaigh gu h-àrd, tha am foirmle a’ toirt a-steach a’ phròiseas airson a bhith a’ gleusadh agus a’ co-chur cuisean lèirsinneach, a tha a’ leantainn gu gineadh comharran lèirsinneach adhartach airson a’ ghiullachd mhodail cànain mòr às deidh sin. Bidh am pròiseas a’ dèanamh cinnteach gu bheil am frèam comasach air a’ mhèinneadh airson gach ceist a chuingealachadh ris an fho-roinn fhreagarrach aige ann am mapa feart HR leis a’ chunntais feart glic piogsail, a’ leantainn gu èifeachdas nas fheàrr. Mar thoradh air an dealbhadh seo, tha am frèam Mini-Gemini comasach air mion-fhiosrachadh feart HR a thoirt a-mach gun a bhith ag àrdachadh an àireamh de chomharran lèirsinneach, agus a’ cumail suas cothromachadh eadar ion-dhèantachd coimpiutaireachd agus beairteas mion-fhiosrachaidh.

Gineadh Teacs is Ìomhaighean

Bidh am frèam Mini-Gemini a’ co-chruinneachadh nan comharran lèirsinneach agus comharran teacsa cuir a-steach mar chur-a-steach do na modalan cànain mòra airson ginealach fèin-ghluasadach. Eu-coltach ri modalan cànain lèirsinn traidiseanta, tha am frèam Mini-Gemini a’ toirt taic do theacsa a-mhàin a bharrachd air gineadh ìomhaigh teacsa mar chur-a-steach agus toradh, ie gin gu co-dhùnadh sam bith, agus tha e mar thoradh air an tuigse ìomhaigh-teacsa barraichte seo agus comasan reusanachaidh, an Tha Mini-Gemini comasach air ìomhaighean àrd-inbhe a ghineadh. Eu-coltach ri obraichean o chionn ghoirid a tha a’ cuimseachadh air a’ bheàrn fearainn eadar stèidheachadh teacsa de mhodalan ginealach is mhodalan cànain mòra, tha am frèam Mini-Gemini a’ feuchainn ris a’ bheàrn as fheàrr a dhèanamh ann an raon brosnachaidhean cànain le bhith ag eadar-theangachadh stiùireadh luchd-cleachdaidh gu molaidhean àrd-inbhe a bheir a-mach ìomhaighean buntainneach co-theacsa. ann am modalan sgaoilidh falaichte. A bharrachd air an sin, airson tuigse nas fheàrr fhaighinn air mion-sgrùdadh stiùiridh, agus co-thaobhadh tar-mhodhail, bidh am frèam Mini-Gemini a’ tional sampaill bho stòran-dàta àrd-inbhe a tha rim faighinn gu poblach, agus a’ cleachdadh frèam turbo GPT-4 gus tuilleadh stiùiridh 13K a thogail às deidh dàta gus taic a thoirt do ghineadh ìomhaighean.

Mini-Gemini: Deuchainnean agus Toraidhean

Gus a choileanadh a mheasadh, tha am frèam Mini-Gemini air a chuir an sàs sa bhad leis an fhrèam ConvNext-L ro-thrèanadh airson an còdaiche lèirsinn HR, agus le CLIP-ro-thrèanadh. Transformer lèirsinn airson an encoder lèirsinn LR. Gus dèanamh cinnteach à èifeachdas trèanaidh, bidh am frèam Mini-Gemini a’ cumail an dà chòdadair lèirsinn stèidhichte, agus a’ dèanamh an fheum as fheàrr de na proiseactan de mhèinneadh fiosrachaidh paiste aig a h-uile ìre, agus a’ dèanamh an fheum as fheàrr den mhodal cànain mòr aig ìre gleusadh an stiùiridh fhèin.

Tha an clàr a leanas a’ dèanamh coimeas eadar coileanadh frèam Mini-Gemini agus na modalan as ùire ann an diofar shuidheachaidhean, agus cuideachd a’ toirt aire do mhodalan prìobhaideach. Mar a chithear, tha na Mini-Gemini a’ coileanadh nas fheàrr na na frèaman a th’ ann mar-thà thar raon farsaing de LLMn gu cunbhalach aig rùn àbhaisteach, agus a’ nochdadh coileanadh nas fheàrr nuair a thèid a rèiteachadh leis an Gemma-2B anns an roinn de mhodalan èifeachdach. A bharrachd air an sin, nuair a thèid modalan cànain mòra nas motha a chleachdadh, tha scalability frèam Mini-Gemini ri fhaicinn.

Gus measadh a dhèanamh air a choileanadh air comharran lèirsinneach àrd-rèiteachaidh agus leudaichte, thèid na deuchainnean a dhèanamh le meud cuir a-steach de 672 airson an encoder lèirsinn LR, agus 1536 airson an encoder lèirsinneach. Mar a chaidh a ràdh na bu thràithe, is e prìomh adhbhar an encoder lèirsinneach HR fiosrachadh àrd-rèiteachaidh a thoirt do thagraichean. Mar a chithear, tha am frèam Mini-Gemini a’ lìbhrigeadh coileanadh nas fheàrr an taca ri frèaman ùr-nodha.

A bharrachd air an sin, gus measadh a dhèanamh air comas tuigse lèirsinneach frèam Mini-Gemini ann an suidheachaidhean fìor, bidh luchd-leasachaidh a’ cur a’ mhodail an sàs ann an grunn ghnìomhan reusanachaidh is tuigse mar a chithear san ìomhaigh a leanas. Mar a chithear, tha am frèam Mini-Gemini comasach air raon farsaing de ghnìomhan iom-fhillte fhuasgladh le taing do bhuileachadh mèinneadh fiosrachaidh paiste, agus dàta àrd-inbhe. Ach is e an rud a tha nas drùidhtiche gu bheil am frèam Mini-Gemini a’ nochdadh cuir gu mòr ri mion-fhiosrachadh a tha a’ leudachadh nas fhaide na comas aithneachaidh a-mhàin, agus a’ toirt cunntas mionaideach air eileamaidean toinnte.

Tha am figear a leanas a’ toirt seachad measadh farsaing air comasan ginealach frèam Mini-Gemini.

Nuair a thèid an coimeas ri modalan o chionn ghoirid leithid ChatIllusion agus AnyGPT, tha am frèam Mini-Gemini a’ nochdadh comasan tuigse ioma-mhodal nas làidire, a ’toirt cothrom dha gineadh. teacsa gu ìomhaigh fo-thiotalan a tha a’ co-thaobhadh ris an stiùireadh cuir a-steach nas fheàrr, agus a’ leantainn gu ìomhaighean gu freagairtean teacsa le coltas bun-bheachdail nas làidire. Is e an rud a tha nas drùidhtiche gu bheil am frèam Mini-Gemini a’ nochdadh comas iongantach ann a bhith a ’gineadh susbaint àrd-inbhe a’ cleachdadh stiùireadh daonna ioma-mhodail a-mhàin le dàta trèanaidh teacsa, comas a tha a ’nochdadh mìneachadh semantach làidir Mini-Gemini agus sgilean co-thaobhadh teacsa ìomhaigh.

Final Thoughts

San artaigil seo tha sinn air bruidhinn mu dheidhinn Mini-Gemini, frèam làidir is sgiobalta airson modalan cànain lèirsinn ioma-mhodhail. Is e prìomh amas an fhrèam Mini-Gemini a bhith a’ cleachdadh comasan falaichte mhodalan cànain lèirsinn a’ cleachdadh dàta àrd-inbhe, dealbhadh ro-innleachdail den fhrèam, agus raon gnìomh leudaichte. Tha Mini-Gemini na oidhirp air a’ bheàrn a tha ann eadar modalan cànain lèirsinn agus modalan nas adhartaiche a lughdachadh le bhith a’ mèinneadh comas VLMn airson coileanadh nas fheàrr bho thrì taobhan: ginealach fo stiùir VLM, dàta àrd-inbhe, agus comharran lèirsinneach àrd-rèiteachaidh. Gus comharran lèirsinneach a leasachadh, tha am frèam Mini-Gemini a’ moladh inneal-còdaidh lèirsinneach a bharrachd a chleachdadh airson ùrachadh àrd-rèiteachaidh gun a bhith ag àrdachadh àireamh nan comharran lèirsinneach. Bidh am frèam Mini-Gemini a’ togail tuilleadh stòr-dàta de chàileachd àrd ann an oidhirp tuigse mhionaideach air ìomhaighean agus gineadh stèidhichte air reusanachadh adhartachadh. Gu h-iomlan, tha am frèam Mini-Gemini a’ feuchainn ri comas mhodalan cànain lèirsinn a mhèinneadh, agus ag amas air cumhachd a thoirt do na frèaman a th’ ann mar-thà le reusanachadh ìomhaigh, tuigse, agus comasan ginealach aig an aon àm.

Cuspairean co-cheangailte:ginealach ai modail cànain mòr Modalan lèirsinn mòr LVLM Mini-Gemini Modail Cànain Mòr Ioma-mhodhail giollachd cànain nàdarra modal cànain lèirsinn

Sgaoileadh

Modalan Cànain Mòr stèidhichte air Decoder: Iùl coileanta

Na bi a 'Bh-Uas

Artaig maoim-sneachda: An LLM as ùire airson Iomairt AI

Kunal Kejriwal

“Einnseanair le dreuchd, sgrìobhadair le cridhe”. Tha Kunal na sgrìobhadair teignigeach le gaol agus tuigse dhomhainn air AI agus ML, a tha gu sònraichte airson bun-bheachdan iom-fhillte anns na raointean sin a dhèanamh nas sìmplidhe tro na sgrìobhainnean tarraingeach agus fiosrachail aige.

Aonaich.AI

Mini-Gemini: A’ Mèinneadh comas Modalan Cànain Lèirsinn Ioma-mhodh

Artificial Intelligence

Mini-Gemini: A’ Mèinneadh comas Modalan Cànain Lèirsinn Ioma-mhodh

Clàr-innse

Mini-Gemini: A’ luathachadh VLMan ioma-mhodhail