stub Ferret: Tixraaca iyo Dhulka Kasta oo Granularity - Unite.AI
Connect nala

Sirdoonka Artificial

Ferret: Tixraac iyo Ku-Xiriir kasta

mm

Published

 on

FERRET: TIXRAAC IYO DHUL GAROONKASTA

Awood u siinta fahamka meelaha ee moodooyinka barashada luqadda aragga ayaa weli ah caqabad cilmi baaris oo aasaasi ah. Fahamkani waxa uu saldhig u yahay laba awoodood oo muhiim ah: gundhig iyo tixraac. Tixraaciddu waxay awood u siinaysaa moodalku inuu si sax ah u fasiro semantiga gobollo gaar ah, halka sal-dhigiddu ay ku lug leedahay adeegsiga sharraxaadaha semantiga si loo meeleeyo gobolladan.

Horumariyayaashu waxay soo bandhigeen Ferret, Qaabka Luqadda Weyn ee Multimodal (MLLM), oo awood u leh inay fahmaan tixraaca baaxadda guud ama qaab kasta oo muuqaal ah oo si sax ah u dejinaya sharraxaadaha erayada furan. Ferret waxay isticmaashaa matalid isku-dhafan oo cusub oo isku daraya sifooyin joogto ah iyo iskuduwayaal kala duwan si ay u matalaan gobollada sawirka. Muunadle-yaqaankeeda muuqaalka ah wuxuu qabtaa kala duwanaansho kala duwanaansho oo qaabab ah, taasoo u oggolaanaysa inay ka shaqeyso wax-soo-saarka gobolka ee kala duwan sida qaababka qaabka xorta ah, sanduuqyada xaddidan, iyo dhibcaha.

Habka Ferret waxa uu awood u siinayaa in uu ku fiicnaado dejinta qadiimiga ah iyo tixraaca hawlaha oo uu dhaafo MLLM-yada kale ee meelaynta-dalbashada iyo xidhiidhka ku salaysan gobolka. Maqaalkani waxa uu si qoto dheer u eegayaa qaab-dhismeedka Ferret iyo habka, isaga oo muujinaya waxqabadkiisa cajiibka ah ee hawlo kala duwan oo luqado badan ah. Aan sii baadhno arrintan.

Ferret : Waxqabadka Sare ee Tixraaca iyo Dejinta Hawlaha

Tixraaca moodeelku waa awood u oggolaanaysa qaabku inuu si sax ah u fahmo semantiga gobollada la bixiyay halka salka ay ka dhigayso mid lama huraan u ah qaabka inuu isticmaalo sharraxaadaha semantiga la bixiyay si loo meeleeyo gobollada. In kasta oo ay ku kala duwanaan karaan hawlahooda kala duwan, tixraaca iyo sal-dhigguba waxay leeyihiin fikrad isku mid ah: toosinta semantics iyo macluumaadka. Si kastaba ha ahaatee, in kasta oo la wadaago fikrad isku mid ah, moodooyinka jira waxay bartaan aasaaska iyo tixraacida shakhsi ahaaneed. Inkasta oo habku shaqaynayo, haddana waxa uu caqabad ku yahay in la gaadho awoodaha aadanaha oo kale maadaama ay dadku wax ka baran karaan hal hawl, oo ay barashadooda ugu dabaqi karaan hawlo kale si aan kala go 'lahayn, oo ay awoodaan in ay si dhib la'aan ah ugu daraan awoodaha sal-dhigista/ tixraaca caqli-galnimada iyo wada-hadalka maalinlaha ah. Qaab dhismeedka Ferret wuxuu dhiirigelin ka qaadanayaa farqiga sare ee aan soo sheegnay ee qaab-dhismeedka MLLM ee jira wuxuuna daraaseeyaa saddex su'aalood oo waaweyn:

  1. Sida loo mideeyo awoodaha sal-dhigista iyo tixraaca qaab-dhismeedka, sideese midawgoodu midba midka kale uga faa'iidaysan karaa?
  2. Bini'aadanku waxay isticmaalaan noocyo kala duwan oo gobolo ah sida sanduuq, dhibic, qoraal, qaabab bilaash ah oo tixraac ah? Sidee loo matali karaa gobolladan kala duwan?
  3. Sidee looga dhigaa sal-dhigista iyo tixraaca tilmaamaha-raaca, adag, iyo erey-furan, kuwaas oo muhiim u ah codsiyadooda la taaban karo iyo kuwa-waqtiga-dhabta ah?

Qaabka Ferret waa tixraac sheeko cusub oo salka ku haysa Qaabka Luuqadda Weyn ee Multimodal kaas oo isku dayaya in la beegsado su'aalahan. Qaabka Ferret wuxuu doortaa a Qaabka Luuqadda Weyn ee Multimodal iyada oo aasaaskeeda ay ugu wacan tahay aragtidooda cajiibka ah ee caalamiga ah iyo awoodaha fahamka luqadda. Intaa waxaa dheer, si loo mideeyo saldhigyada iyo awoodaha tixraaca, qaabka Ferret wuxuu u taagan yahay isku-dubaridyada gobollada qaabka luqadda dabiiciga ah. Si kastaba ha ahaatee, ficil ahaan, waa wax-qabad la'aan in la isticmaalo isku-duwayaasha sanduuqyada ama xitaa hal dhibcood si ay u matalaan qaabab kala duwan oo gobol ah sida qoraallada, istaroogga, ama geesoolayaasha adag maadaama qaababkani ay muhiim u yihiin saxnaanta la xoojiyey iyo isdhexgalka qaabka bini'aadamka ee caalamiga ah. Si arrintan wax looga qabto, qaabka Ferret waxa uu shaqaaleeyaa muunad muuqaal ah oo xog-ogaal u ah kaas oo ka hela gobollada muuqaalka ee gobollada iyada oo aan loo eegin qaabka, sidaas darteed gorgortanka kala duwanaanshaha qaababkan. Qaab dhismeedka ayaa markaa isku daraa sifooyin muuqaal ah oo joogto ah oo leh iskudubaridyo kala duwan si ay u matalaan gobollada muuqaalka ah ee ku jira gelinta, taasoo keentay abuurista matalaad gobolka isku-dhafka ah ee Ferret. 

Qaab dhismeedka Ferret waxa uu daabulayaa hababka kor ku xusan si loo xalliyo talooyinka isku daraya qoraalka qaabka xorta ah iyo gobolada la tixraacayo, waxana uu awoodaa in uu si aan kala go 'lahayn u dhaliyo isku-duwayaasha shay kasta oo dhulka la dhigi karo isaga oo soo saaraya qoraal dhulka ku jira walxaha lagu sheegay soo-saarka. Marka sidaas la sameeyo, Ferret waa qaab-dhismeedka ugu horreeya ee lagu socodsiiyo gobollada wax gelinta ee bilaashka ah ee Hababka Luuqadaha Waaweyn ee Multimodal. Intaa waxaa dheer, qaabka Ferret wuxuu nuugaa awoodaha ereyada furan ee cajiibka ah ee meelaynta iyo fahamka goobta, taas oo u oggolaanaysa qaab-dhismeedka inuu gaaro waxqabad heer sare ah marka lagu qiimeeyo dejinta caadiga ah iyo hawlaha tixraaca. 

Dhaqdhaqaaqa, qaabka Ferret wuxuu raadiyaa dhiirigelin seddex qaab-dhismeedka AI ee jira oo ay ku jiraan Moodooyinka Luuqadaha Badan ee Multimodal, MLLMs ee Tixraaca iyo Grounding, iyo Midaynta Grounding iyo Fahamka VL. 

Soo bandhigida Moodooyinka Luuqadaha Waaweyn oo ay ku jiraan GPT, DALL-E, PaLM, LLAMA, iyo BLOOM, ayaa bedelay muuqaalka cilmi baarista NLP, taasoo keentay horumar la taaban karo ee moodooyinka luqadaha kala duwan. Noocyadii hore ee luqadaha kala duwani waxay diiradda saareen jiilka sawir-qoraalka ballaaran oo leh tusaalooyin xusid mudan oo ah PaLI, SimVLM, GIT, BLIP-2, FLAMINGO, CM3, iyo PaLI-X. Si kastaba ha ahaatee, maadaama qaabka Flamingo uu ku guuleystey is dhexgalka hufan ee LLM-yada oo leh horay loo tababbaray sawirka CLIP iyada oo loo marayo xannibaadyo fiiro gaar ah leh taas oo keentay awoodo waxbarasho oo dhowr xabbadood ah oo cajiib ah. Cilmi-baadhista hadda jirta waxa ay raadinaysaa habab lagu isticmaalo qaababka luuqadaha waaweyn ee horay loo tababbaray si loogu habeeyo waxbarid muuqaal ah oo ay wataan tusaalayaal caan ah miniGPT-4, Otter, InstructBLIP iyo in ka badan. Waxa intaa ka sii badan ayaa ah in moodooyinka dhawaa sida Emu iyo GILL ay muujiyeen guul la taaban karo oo ku saabsan adeegsiga MLLM-yada jiilka sawirka iyo soo celinta sawirka. Qaab dhismeedka Ferret wuxuu kaloo tixraacaa cilmi-baaris hore oo diiradda saareysa mideynta qoraalka iyo xiritaanka santuuqa ee moodooyinka Luqadda Aragga. 

Ferret: Habka iyo Dhismaha

Matalalada Isku-dhafka-Gobolka

Barta, sanduuqa, iyo qaababka bilaashka ah ayaa ah saddexda qaab ee ugu muhiimsan ee qaabka luqaddu isticmaalo marka la tixraacayo gobollo gaar ah. Dhinac, barta iyo qaabka sanduuqa waxaa si sax ah u matali kara iskudubarid, khariidaynta qaababka foomamka bilaashka ah waa xoogaa dhib badan tan iyo qaababka qaabka xorta ah waa kuwo isku dhafan. Ahaanshaha wax badan, qaababka bilaashka ah ayaa ka koobnaan kara gobollo kala duwan oo ay ku jiraan waji-xidho, geeso badan, iyo qoraallo. Isticmaalka isku-duwayaasha si loo sawiro qaababka bilaashka ah waa hawl adag oo caqabad ku ah awoodda moodeelka si uu u barto in la sameeyo xiriirinta gobollada iyo isku-duwayaasha u dhigma. Intaa waxaa dheer, isticmaalka isku-duwayaasha ee qaababka qaabka xorta ah waa xisaab ahaan qaali iyo qarsoodi. 

Si wax looga qabto dhibaatadan iyo in la isu geeyo dhammaan saddexda qaab, qaabka Ferret waxa uu soo jeedinayaa matalaad gobol oo isku-dhafan kaas oo ka dhigaya muuqaalo muuqaal ah oo joogto ah oo leh isku-duwayaal gaar ah si loo tixraaco gobol gaar ah. 

Sifooyin muuqaal ah oo joogto ah, gobol la bixiyay, qaabka Ferret wuxuu marka hore dhisayaa maaskaro laba-jibbaaran oo 2D ah oo la mid ah sawirka, wuxuuna calaamadeeyaa qiimaha 1 gudaha gobolka la beegsaday isagoo ku meeleynaya qiime 0 ka baxsan gobolka. Qaabku wuxuu markaa soo saarayaa maaskarada binary-ga oo uu weheliyo khariidad muuqaal muuqaal ah oo la soo saaray, ka dibna wuxuu u dirayaa muunad-sameeyaha-ka-war-qabta muuqaalka. 

naqshadaha

Qaab dhismeedka qaabka Ferret wuxuu ka kooban yahay saddex qaybood oo waaweyn

  1. Cod-bixiyaha sawirka si loo soo saaro sawir-gelinta. 
  2. A Spatial Aware Muuqaal Muunado si loo soo saaro sifooyinka joogtada ah ee gobolka. 
  3. Qaab Luuqad Weyn oo lagu qaabeeyo qoraalka, sawirka, iyo astaamaha gobolka si wadajir ah. 

Sawirka waxaa marka hore lagu quudin doonaa codeeyaha muuqaalka ee horay loo tababaray si loo soo saaro sawirka ku dhejisan. Gelitaanka qoraalka, qaabdhismeedku marka hore waxa uu isticmaalaa calaamadeeyaha LLM ee horay loo tababaray si uu u calaamadeeyo taxanaha qoraalka, ka dibna waxa uu calaamooyinkan u sameeyaa qoraallada qoraalka ah. Gobollada loo tixraaco, Ferret waxay ku lifaaqdaa calaamad gaar ah iyo isku-duwayaasha sidii meel-haye sifooyin joogto ah kadib magaca gobolka. Haddii magaca gobolka aan la garanayn ama uu adag yahay in lagu qeexo natiijada ka mid noqoshada dhowr shay, qaabdhismeedku wuxuu kaliya isticmaalaa aagga ama magaca gobolka. 

Mid ka mid ah caqabadaha ugu waaweyn ee la tacaalaya gobollada la tilmaamay waa in qaabkoodu uu noqon karo mid aad u kala duwan, taasoo la micno ah inay yeelan karaan qaabab kala duwan, oo aan ku koobnayn oo keliya sanduuqyada leydiga ah ama dhibcaha. Gobollada la tixraaco ee leh qaababka aan caadiga ahayn laguma farsamayn karo habab dhaqameed sida habayn ku salaysan Grid oo ay ku jiraan fiiro gaar ah ama farsamooyinka qallafsan. Si arrintan wax looga qabto, qaabka Ferret waxa uu soo jeedinayaa Sampler Muuqaal-Awareer ah. Khariidad muuqaal ah oo la soo saaray oo leh maaskaro gobolka binary, moodeelka Ferret ayaa marka hore si aan kala sooc lahayn u muunaday tirada dhibcaha N ee maaskarada gobolka binary. 

Dhibic kasta oo gaar ah, moodeelku wuxuu helayaa sifadiisa isagoo fulinaya isdhexgalka laba-geesoodka ah. Dhibcaha N ayaa dabadeed lagu quudiyaa biyo-dhacyo blocks ah iyadoo mid walba uu marayo saddex marxaladood oo kala duwan: muunad, ururin, iyo isku-dubarid. Marxaladda Saamaynta, tiro go'an oo dhibco ah ayaa laga soo qaatay tirada N ee dhibcaha la heli karo iyadoo la isticmaalayo FPS ama Farthest Point Sampling algorithm taasoo dammaanad qaadaysa caymis ku filan. Talaabada labaad, dhibic kasta oo muunad ah, qaabdhismeedku wuxuu ka raadiyaa k deriskiisa ugu dhow barkadda dhibcaha N ee la heli karo. Koox kasta, moodeelku wuxuu markaas isku daraa sifooyinka dhibic muunad oo leh dhibcooyinka deriska. Talaabada ugu danbeysa, qaabka Ferret waxa uu qabtaa isu geynta ugu badan si uu k astaamihiisa deriska u noqdo hal sifo si uu u matalo barta la muunadeeyay. Markaad sameyso saddexdan tillaabo, qaabka Ferret waxaa looga tagay dhibco yar laakiin wuxuu leeyahay meel bannaan oo cufnaan sare leh sababtoo ah kuma koobna oo kaliya sifooyinka deriska maxalliga ah laakiin sidoo kale boosaskooda qaraabo. 

Soo saarista Xogta Muuqaalka ee ay caawisay GPT

Tilmaamaha Wada-hadalka Xog-habaynta xogta ayaa muhiimad muhiim ah u leh Multimodal Qaababka Luuqadaha Waaweyn Miyayna kaliya ka caawinayn beddelka xogta jirta ee qaab-dhismeedka, laakiin waxay sidoo kale caawiyaan moodalku inuu fahmo ujeeddada aadanaha oo uu dhaliyo jawaab habboon. Badi MLLM-yadu waxay adeegsadaan habab dhawr-toos ah oo dhiirigelin ah si ay u helaan xogta habaynta tusmaynta muuqaalka, halkaas oo moodeelku uu bixiyo sharraxaad qoraal ah oo muuqaallada ku jira sawirka oo ay weheliso wada-hadallada la sharraxay ee bini'aadamka sida mudaaharaadyo xabbad yar ah. Si kastaba ha ahaatee, hababka habaynta waxbarid ee hadda jira ayaa diiradda saaraya ugu horrayn qeexida sawirka oo dhan iyada oo aan si cad loo sheegin macluumaadka la xidhiidha goobta. Qaabka Ferret wuxuu xooga saarayaa aqoonta gobolka ku salaysan si loo ururiyo xogta hagaajinta tixraaca iyo tilmaamaha dhulka saddex tillaabo. 

  1. Marka lagu daro isticmaalka qoraallada caalamiga ah iyo walxaha, qaab-dhismeedku wuxuu bixiyaa sharraxaad muuqaal ah oo qeexaya xiriirka jireed ee ka dhexeeya qoraallada gobolka iyo walxaha iyada oo sidoo kale la siinayo isku-duwayaashooda. 
  2. Wada-hadallada bini-aadmigu sharraxay, qaab-dhismeedku wuxuu ku darayaa isku-dubbarid ka dib walxaha ama gobollada ha ahaato wax-soo-saarka ama wax-soo-saarka ama labadaba wada-hadallada oo diiradda saaraya ugu horreyn gobollo gaar ah oo gacan ka geysanaya dhiirigelinta qaabka luqadda si toos ah inuu raaco qaababka la midka ah ee jiilka wadahadalka cusub. 
  3. Waxa laga yaabaa inay suurtogal tahay in wada-hadalka qaab-dhismeedku aanu raacin xeerarka iyo qaababka sida lagu farayo tusaalooyin yar-yar iyo nidaamkuba. Si arrintan wax looga qabto, qaabdhismeedku waxa uu mar kale adeegsadaa qaabka luqadda si uu u nadiifiyo wada-hadallada uu soo saaray tusaaluhu markii hore. 

Macdanta Negative Spatial

Cilmi-baaris hore ayaa muujisay in moodooyinka luqadaha badan ee multimodal ay leeyihiin ixtimaalka sare ee dhalanteed marka laga jawaabayo su'aalaha Haa ama Maya. Si loo hubiyo in moodelka Ferret aanu ku dhalanteedaynin xaalado la mid ah, qaabdhismeedku waxa uu shaqaalaysiiyaa habka Macdanta Xun ee Spatial Negative oo leh deegaan-Qayb-sharciyeedka Sawirka iyo Deegaanaynta Qaybta Sharuudaha Semantics. Labadan habba waxay waydiiyaan moodeelka inuu dejiyo qaybaha shay gaar ah oo awood u siinaya moodalku inuu aqoonsado maqnaanshaha walxaha qaarkood ee sawirka. 

Ferret: Natiijooyinka iyo Tijaabada

Si loo falanqeeyo waxqabadkeeda, qaabka Ferret waxaa lagu qiimeeyaa aasaaska caadiga ah iyo tixraaca bartilmaameedyada ka dib qaabka waxaa lagu qiimeeyaa hawlo badan oo wada sheekaysi ah oo kakan oo la tijaabiyo awoodiisa tixraac iyo dhul. 

Awoodda moodeelku u leeyahay in uu fahmo tixraaca waxa lagu qiimeeyaa sida saxda ah ee moodelku u fahmi karo micnaha gobolka la soo gudbiyay ee la siiyay gobol lagu sheegay sawirka ama su'aasha. Si loo cabbiro saxsanaanta moodeelka, walxaha, semantics-yada aasaasiga ah ayaa marka hore la tixgeliyaa maadaama aysan ahayn kaliya aasaaska laakiin sidoo kale si fudud loo qeexo. Si loo ekaysiiyo isku-bedelashada heerka bini-aadmiga, qaabdhismeedku wuxuu bedelayaa meesha shayga ku dhex jira sawirka oo leh qaab bilaash ah, sanduuq, iyo dhibic. Qaabka xorta ah, moodeelku wuxuu si aan kala sooc lahayn u abuuraa istaroog gudaha shayga Xaqiiqda Dhulka ee jilitaanka. Sanduuqa, qaabka Ferret wuxuu isticmaalaa santuuqa ku-xidhka runta dhulka ee ay bixiso qaybta LVIS. Ugu dambeyntii, marka la eego, tusaaluhu wuxuu si aan kala sooc lahayn u muunadeeyay hal dhibic gudaha shayga runta dhulka kaas oo sidoo kale u dhow soohdinta shayga runta dhulka. Natiijooyinka saddexda nooc ee tixraaca waxa lagu muujiyay sawirka soo socda. 

Qaabka Ferret wuxuu muujinayaa waxqabadka cajiibka ah ee hawlaha wada hadalka ee tixraaca, isaga oo ka dhigaya meel loogu talagalay la dhexgalka hawlo waxbarasho oo muuqaal ah oo kala duwan, gaar ahaan kuwa leh wax soo saar qoto dheer. Si loo qiimeeyo awoodeeda dhulka, qaabka Ferret wuxuu marka hore mawduucyada laftiisa mawduucyada ku salaynayaa hawlaha dhulka dhigista muuqaalka leh ee hannaan abuur leh. Qaab-dhismeedku waxa uu markaa ku qiimeeyaa awoodiisa hawlo qoraal ah oo salka ku haya si loo cabbiro isku toosinta gobollada iyo ereyada. 

Hawlaha dhul-dhisidda muuqaalka ah, qaab-dhismeedku wuxuu higsanayaa in la weydiiyo luqadda dhulka ee gobollada sawirka leh, iyo sida lagu arki karo sawirka soo socda, qaabka Ferret wuxuu muujinayaa waxqabadka cajiibka ah ee dhammaan bartilmaameedyada, iyo waxqabadku wuxuu la mid yahay midka la gaaray habab hagaajin gaar ah. 

Hawlaha qoraalka salka ku haya, qaabku waxa uu u baahan yahay in uu soo saaro qoraal, ka dibna dhulka weedho magaceed la sameeyay si loo sawiro gobollada. Saadaasha kama dambaysta ah ee uu sameeyay moodeelku waxa ay ka kooban tahay saddex qaybood: gobollo muuqaal ah sida sanduuqyo, qoraallo qoraal ah, iyo isku toosin salka u dhexeeya sanduuqyada iyo erayada. Natiijooyinka waxaa lagu muujiyay sawirka soo socda, iyo sida la arki karo, qaabdhismeedku wuxuu bixiyaa waxqabad la mid ah habka farshaxanka. 

Ugu dambayntii, wada-sheekeysiga hab-dhaqameedka badan waa mid ka mid ah awoodaha la doonayo gudaha MLLM, iyo MLLM-yada jira ayaa ugu horreyn qiimeeya sharraxaadda faahfaahsan, wada-sheekeysiga, iyo sababaynta adag ee qaabka luqadda garsoore ahaan. Si kastaba ha ahaatee, maadaama aanay jirin xog-ururin qiimeeya wada-sheekaynta hab-dhaqanka badan leh ee tilmaanta khasabka ah ama tallaabooyinka sal-dhigista, waxay ka tagtaa meel bannaan. Si loo soo afjaro farqigan, qaabka Ferret wuxuu daboolayaa seddex su'aalood oo ku saleysan gobolka si loo qiimeeyo tixraaca iyo sal u dhigida awoodaha ku saabsan hawlaha wada sheekaysiga qaababka badan. Natiijooyinka waxaa lagu muujiyey sawirka soo socda. 

Ugu dambeyntii, qaabka Ferret ayaa si toos ah loo barbar dhigay si ka soo horjeeda qaabka GPT ee farshaxanka, natiijooyinkana waxaa lagu muujiyay hoos. 

Afkaarta Final

Maqaalkan, waxaan kaga hadalnay Ferret, nooc luuqadeed oo kala duwan oo muujinaya awoodo la taaban karo oo salka ku haya. Habka Ferret wuxuu tixraaci karaa gobollada sawirka iyadoon loo eegin qaabkiisa, wuxuuna si toos ah u dejin karaa qoraalka uu saadaaliyay qaabka. Ferret waxa ay shaqaalaysiisay muunad-muuqaal-yaqaan meel-joog ah oo awood u leh in uu wax ka qabto tabar-darrada kala duwan ee ay soo bandhigaan qaabab kala duwan si loo soo saaro sifooyinka joogtada ah ee gobollada la isku beddeli karo. Natiijadu waxay tahay, qaabka Ferret wuxuu soo gelin karaa agabyo kala duwan oo gobolo ah oo ay ku jiraan qaabeeyayaasha qaabka xorta ah, sanduuqyada xaddidan, iyo dhibcaha. 

"Injineer xirfad ahaan, qoraa qalbigiisa". Kunal waa qoraa farsamo oo leh jacayl qoto dheer & faham AI iyo ML, oo ​​u heellan fududaynta fikradaha adag ee dhinacyadan iyada oo loo marayo dukumeenti hawleed iyo macluumaad leh.