Connect nala

Sirdoonka Artificial

LLaVA-UHD: LMM Aragtida Saami Kasta Dhinac kasta iyo Sawirada Xallin Sare

mm

Published

 on

LLaVA-UHD: LMM Aragtida Saami Kasta Dhinac kasta iyo Sawirada Xallin Sare

Horumarkii dhawaa iyo horu-marintii Moodooyinka Luuqadda Waaweyn waxay la kulmeen koror weyn oo ku saabsan sababaynta luqadda aragga, fahamka, iyo awoodaha isdhexgalka. Qaab dhismeedka casriga ahi waxa ay ku gaadhaan tan iyaga oo u soo bandhigaya calaamado muuqaal ah LLM-yada ama Qaababka Luuqadaha Waawayn si ay awood ugu yeeshaan in ay wax u arkaan aduunka muuqaal ahaan, muuqaalo kala duwan oo ay xeeladaha codaynta muuqaalku door muhiim ah ka ciyaaraan. Si kastaba ha ahaatee, sawirada dhabta ah kaliya kuma jiraan xaalado kala duwan oo kala duwan, waxay sidoo kale si weyn u kala duwan yihiin marka la eego xallinta iyo saamiga dhinacyada, iyaga oo u horseedaya caqabado la taaban karo LLM-yada qaybaha iyo hawlaha kala duwan. Si wax looga qabto kala duwanaanshiyaha muhiimka ah ee ka imanaya sawirada dhabta ah ee dunida, moodooyinka casriga ah ee luuqadaha waaweyn waxay ku gartaan sawirada xal hoose ie 224×224, iyo saami go'an ie 1:1. In kasta oo samaynta tanaasulka si ay ugu dhegto xallinta hoose iyo saamiga go'an waxay kordhisaa guud ahaan LLM ee codsiyada adduunka dhabta ah, waxay inta badan blush ka kooban tahay sawirka si weyn halka ay sidoo kale keento qalloocin qaabka daran. Isku-tanaasulku wuxuu si weyn u saameeyaa awoodaha qaababka waaweyn ee qaababka kala duwan ama LMM-yada gaar ahaan kuwa loo habeeyay hawlaha wanaagsan ee ay ku jiraan aqoonsiga dabeecadda indhaha, iyo fahamka shay yar. Intaa waxaa dheer, maadaama xallinta iyo saamiga dhinaca hore loo go'aamiyay, moodooyinka waxay samayn karaan oo kaliya qiyaasaha ugu fiican ee sawirada mugdiga ah, taas oo keentay naqshadaynta moodeelka, xaalad hoos timaada qaabka uu soo saaro jawaabo qoraal ah oo aan ku salaysnayn xaqiiqda dhabta ah ee sawirada. 

Maqaalkan, waxaan uga hadli doonaa LLaVA-UHD, hab cusub oo marka hore qaata LLaVA-1.5 iyo qaab dhismeedka GPT-4V tusaaleyaal matale ah, iyo isku dayo lagu soo bandhigo cilladaha habaysan ee xididka ku leh istiraatijiyadooda codaynta muuqaalka. Qaab dhismeedka LLaVA-UHD, hab-habboon, waa isku day lagu doonayo in wax looga qabto caqabadaha. Qaab dhismeedka LLaVA-UHD wuxuu ku dareemi karaa sawirada xalin sare iyo sidoo kale saami kasta. Qaab dhismeedka LLaVA-UHD waxa lagu dhisay ilaa saddex qaybood oo muhiim ah. Marka hore, istaraatijiyad qaabaynta sawirka oo u qaybisa sawirada xalinta dhaladka qaybo yar yar oo doorsoomayaal isku dayaysa in kor loogu qaado hufnaanta iyo fidinta codaynta. Marka xigta, moduleka isku-buufinta kaas oo soo koobaya calaamadaha sawirka oo ay soo saareen cod-bixiyeyaal muuqaal dheeraad ah. Ugu dambayntii, schema meel bannaan oo habaysa calaamado jeex ah oo loogu talagalay moodooyinka luqadda waaweyn. Tijaabooyin dhammaystiran waxay muujinayaan in qaabka LLaVA-UHD uu awoodo inuu ka sarreeyo heerka farshaxanka moodooyinka luqadaha waaweyn ee 9 bartilmaameed. Intaa waxaa dheer, adoo isticmaalaya kaliya 94% xisaabinta fikradda, qaabka LLaVA-UHD wuxuu awoodaa inuu ku taageero sawirada 6 jeer ka weyn ie 672×1088. 

LLaVA-UHD : Si Wanaagsan u Arag Sawirada Saami kasta iyo Xallinta Sare

Sababaynta aragtida-Luuqada, fahamka, iyo is dhexgalka ayaa sameeyay horumar la taaban karo goor danbe, taas oo ay ugu wacan tahay riixitaanka dhow ee Qaababka Luuqadaha Weyn. Qaab-dhismeedka casriga ah, isku mid ayaa lagu dhammeeyaa iyadoo la quudiyo calaamadaha muuqaalka LLMs (Models Languages ​​Large) si looga dhigo kuwo awood u leh inay u tarjumaan adduunka dhabta ah muuqaal ahaan, noocyo kala duwan oo xaalado ah kuwaas oo ku tiirsan xeeladaha codaynta muuqaalka. Farqiga u dhexeeya muuqaalku waxa uu ka tarjumayaa dabool cidhiidhi ah oo LLMs ah oo ku saabsan qaybaha kala duwan iyo hawlaha, halka kala duwanaanshaha xallinta iyo saamiyada dhinacyadu ay muujinayaan kala duwanaanshiyaha fasalka dhexdiisa ee sawirada dhabta ah ee ay adagtahay in la qabto. Si ka duwan miisaanka yar ee hoos u dhigaya kala duwanaanshiyaha, moodooyinka ka dib BERT waxay wax ka qabtaan muhiimadda xallinta hoose (tusaale, LLaVA-UHD waa 224×224) ee sawirada leh saami go'an, 1: 1 si loo bixiyo sawirada dhabta ah ee aduunka. In kasta oo tanaasulkani faa'iido u leeyahay hubinta guud ee LLM ee codsiyada adduunka dhabta ah, waxay inta badan keentaa sawirro aad u qallafsan iyada oo kor u qaadeysa qallooca qaabka daran. Tani waxay yaraynaysaa awoodaha kuwa waaweyn moodooyin badan oo habaysan ama LMM-yada (tusaale, hawlo miro-fiican), sida aqoonsiga jilaha indhaha iyo fahamka shay yar. Maaddaama xallinta iyo saamiga dhinaca ay yihiin kuwo horay loo sii qeexay, moodellada waxay qiyaasi karaan oo keliya sawirrada aan mugdi ku jirin, taasoo horseedaysa qaab-muuqaal, samaynta jawaabaha qoraalka ah ee ugu dambeeya ee aan si dhab ah u salaysnayn sawirrada. Haddaba waa maxay sababta ayna u cabbirin moodooyinka LMM-yadu u arki waayaan sawirrada xalal sare iyo saamiyo kala duwan? 

Waxaa jira laba sababood oo waaweyn oo ay LMM-yada bartilmaameedku u awoodi waayaan inay gartaan sawirro leh xallin sare iyo xallin kala duwan. Marka hore, maadaama cod-bixiyeyaashu hore loogu tababbaray xallinta go'an, waxay ku adkeynaysaa moodeelka iyo cod-bixiyaha inay wax ka qabtaan sawirrada leh cabbirro iyo xallinno kala duwan, sidaas darteed si weyn u saameeya la qabsiga moodeelka. Marka labaad, codaynta sawirada xallinta sare si toos ah iyada oo la adeegsanayo transformers-ka aragga waxay la xiriirtaa qiimaha xisaabinta ee muhiimka ah marka loo eego cabbirka sawirada. Intaa waxaa dheer, kharashyada xisaabinta ayaa laga yaabaa inay aad uga sarreeyaan qaabka luqadda weyn si loo farsameeyo tiro badan oo calaamado muuqaal ah oo loogu talagalay sawirro heer sare ah, sidaas darteed si weyn u saameeya waxtarka guud ee moodeelka. Si looga hortago caqabadahan, LLaVA-UHD, oo ah nooc mug weyn leh oo arka sawirada xalinta sare iyo saamiga dhinac kasta, wuxuu qaataa LLaVA-1.5 iyo GPT-4V qaab-dhismeedka tusaaleyaal wakiil ah, wuxuuna isku dayaa inuu soo bandhigo cilladaha habaysan ee ku qotoma muuqaalkooda istiraatijiyad codayn. 

Sawirka kore wuxuu ka tarjumayaa natiijooyinka tijaabada ah ee GPT-4V si loo aqoonsado tirada walxaha ku jira sawirka. Xuddunta, qaabka LLaVA-UHD wuxuu leeyahay saddex qaybood. Marka hore, istaraatijiyad qaabaynta sawirka oo u qaybisa sawirada xalinta dhaladka qaybo yar yar oo doorsoomayaal ah oo codayn hufan leh. Si ka soo horjeeda LLM-yadii dhawaa ee ku habboon sawirada dhowr xalal go'an iyo saamiyo dhinac ah, jeexyada cabbirka doorsooma ee ay soo saartay qaab dhismeedka LLaVA-UHD waxay awood u siinaysaa la qabsiga buuxa ee sawirada xallinta hooyo iyada oo aan la leexin qaababka, cabbirka, ama suufka. Midda labaad, qaabku wuxuu isku ururiyaa calaamadaha muuqaalka lakabka isku-buufinta ilaa dhererka dhexdhexaadka ah, taasoo keentay in si weyn loo yareeyo xisaabinta LLMs. Ugu dambayntii, moodeelku waxa uu habeeyaa calaamadaha jeexan ee la isku cadaadiyey ee schema si uu ugu wargaliyo boosaska jeexan ee sawirada qaabka luqadda weyn. 

LLaVA-UHD: Habka iyo Dhismaha

Iyada oo ku saleysan wax-barashada tijaabooyin tijaabo ah oo tijaabo ah oo lagu baranayo qaab-dhismeedka jira oo ay ku jiraan GPT-4V iyo LLaVA-1.5, qaab dhismeedka LLaVA-UHD wuxuu fuliyaa qaab dhismeed saddex qaybood ah sida lagu muujiyey sawirka soo socda. 

Marka hore, istaraatijiyad qaabaynta sawirka oo u qaybisa sawirada xalinta dhaladka qaybo yar yar oo doorsoomayaal isku dayaysa in kor loogu qaado hufnaanta iyo fidinta codaynta. Marka xigta, moduleka isku-buufinta kaas oo koobiya calaamadaha sawirka oo ay soo saareen cod-bixiyeyaal muuqaal dheeraad ah. Ugu dambayntii, schema meel bannaan oo habaysa calaamado jeex ah oo loogu talagalay moodooyinka luqadda waaweyn. Aynu si faahfaahsan u eegno qaybahan. 

Codaynta Muuqaalka La Habeeyay

Habka caadiga ah ee lagula tacaalayo sawirada qaraarka sare leh ee leh saamiyo kala duwan ayaa ah in la isku daro boosaska ku dhejinta Vision Transformer ama ViT qaabka la beegsanayo si toos ah codeynta guud ahaan. Si kastaba ha ahaatee, hirgelinta habkan waxaa badanaa la socda kharashaadka xisaabinta ee sarreeya, iyo arrimaha qaybinta ka baxsan waxay keenaan hoos u dhac dheeraad ah. Si loola tacaalo caqabadan, qaabka LLaVA-UHD wuxuu soo bandhigayaa istaraatiijiyad muuqaal ah oo qaabaysan oo asal ahaan ujeedadeedu tahay in lagu qaybiyo sawirada xallinta dhaladka qaybo yaryar oo doorsoomayaal ah halkaas oo qaabka jeex kastaa uu aad ugu dhow yahay goobta tababarka ka hor ee beddelka aragga. . Iyada oo ay ugu wacan tahay isticmaalka jeexjeexyada jeexan ee cabbirka doorsooma, qaabka LLaVA-UHD waxa uu awoodaa in uu gaaro la qabsi buuxa oo ku saabsan sawirada xallinta hooyo iyada oo aan la hirgelin wax qaabaynta qaabaynta ama suufka. Intaa waxa dheer, yoolka koowaad ee istaraatijiyad jeexista sawirka waa in la go'aamiyo kala qaybsanaanta sawirada xallinta sare leh oo isbeddello yar lagu sameeyo xallinta jeex kasta. Sawirka la bixiyay oo leh qaraar gaar ah (w,h), iyo beddelka aragga horay loogu tababaray xallin kale, qaabka LLaVA-UHD ayaa marka hore go'aaminaya xisaabinta ugu habboon tusaale tirada xaleefyada loo baahan yahay si loo farsameeyo sawirka. Qaab dhismeedka ayaa markaa ka dhigaya tirada jeexjeexyada m tiirarka iyo n saf. Qaab dhismeedka ayaa markaa qeexaya shaqada dhibcaha si loo cabbiro ka leexashada goobta tababarka hore ee caadiga ah ee beddelka aragga. Aragti ahaan, qaabka LLaVA-UHD wuxuu awoodaa inuu muujiyo istiraatijiyadda qaybinta ee lagu hirgaliyay qaabdhismeedkeeda waxay dammaanad qaadaysaa isbedelada yar yar ee la filayo iyo isbeddelada ugu liita ee kiis kasta marka loo eego xallinta tababbarka caadiga ah ee jeex kasta. 

Intaa waxaa dheer, badi LLM-yada jira waxay hirgeliyaan xallin mawqif ah oo loogu talagalay codaynta jeexjeexa sawirka, hab ka hortagaya la qabsiga buuxa ee moodeelka ee xallinta waddaniga ah maadaama ay marin u helayaan oo keliya dhowr xabbo oo qaab go'an oo hore loo sii cayimay. Intaa waxaa dheer, xallinta jeex-jeexan ee static waxay dhaawacaysaa waxqabadka, hufnaanta, iyo saxnaanta moodeelka maadaama ay soo jiidanayso qaab-qaloocinta cabbirka ama suufka si lama huraan ah. Si arrintan wax looga qabto, qaabka LLaVA-UHD waxa uu soo jeedinayaa in lagu codeeyo jeexjeexyada sawirka saamiga sida lagu qeexay istiraatijiyadda qaybinta. Si aad u gaar ah, qaabka LLaVA-UHD wuxuu marka hore u cabbiraa sawirka asalka ah si waafaqsan saamiga iyadoo la raacayo saamiga qaab tirada balastarku ay ku habboon tahay miisaaniyada tababbarka ka hor tusaale tirada boosaska isku xigxiga ee isbeddelka aragga, ugu badnaan . Qaabka LLaVA-UHD ayaa markaa dib u qaabaynaya booska 1D ee horay loo tababbaray isagoo ku dhejinaya isku xigxiga beddelka aragga oo noqda qaab 2D iyadoo la raacayo goobaha tababarka ka hor. 

Lakabka cadaadis

Arrin caadi ah oo LLM-yadu ay la kulmaan marka ay farsameynayaan sawirada qaraarka sare waa in cadadka calaamadaha muuqaalka ah ee ay tahay in ay farsameeyaan ay aad uga sarreeyaan (Tixraac ahaan, qaabka LLaVA-1.5 waxa uu soo saaraa ku dhawaad ​​​​3500 calaamado muuqaal ah marka la farsameynayo hal sawir oo leh xallin: 672 × 1008 ), xisaabinta qayb weyn oo ka mid ah ilaha xisaabinta iyo kharashka. Si loola xisaabtamo caqabadan, qaabka LLaVA-UHD waxa uu fuliyaa lakabka dib-u-samaynta wax-fahamka si loo cadaadiyo calaamadaha muuqaalka ee jeex kasta oo sawir ah. Qaabku wuxuu markaa hirgeliyaa qaybo su'aalo weydiin ah iyadoo loo marayo feejignaan isdhaafsi ah si uu dib ugu miisaamo soo-saarka calaamadaha sawirka ee cod-bixiyayaasha muqaalka ilaa tiro hoose. Marka la barbar dhigo xeeladaha saadaalinta muuqaalka ku salaysan ee Multilayer Perceptron ee baahsan, habka muunada garaadka ee ay fuliso LLaVA-UHD waxay awood u leedahay inay ilaaliso tiro la awoodi karo oo go'an oo calaamado muuqaal ah iyadoon loo eegin xallinta sawirka, taasoo ka dhigaysa qaabka LLaVA-UHD mid la jaan qaadaya sare- xallinta sawirka habaynta iyo fahamka hawlaha. Si taas loo sawiro, qaabka LLaVA-UDH wuxuu soo saaraa qadar isku mid ah calaamado marka lagu dhejinayo sawirka xallinta 672 × 1008 sida LLVA-1.5 qaab-dhismeedku waxa uu abuuraa marka codaynta sawirka xallinta ee 336×336, ku dhawaad ​​6 jeer ka waxtar badan kuwa la tartamaya. 

Qorshaha Baaxadda ee Qaybaha Sawirka

Waa dhaqan lagama maarmaan ah in lagu wargaliyo qaabka luqadda weyn ee ururrada saafiga ah ee jeexjeexyada sawirka maadaama qaybinta sawiradu ay tahay mid firfircoon oo ku dhex jirta sawirro kala duwan. Qaab dhismeedka LLaVA-UHD waxa uu nashqadeeyaa oo fuliyaa schema meel bannaan oo adeegsata laba calaamadood oo gaar ah si loo ogeysiiyo LLM booska qaraabada ee jeexjeexyada sawirka. Sida ku cad qorshahan meel bannaan, qaabka LLaVA-UHD wuxuu isticmaalaa "," si loo kala saaro matalayaasha jeexjeexyada ee isku xigta, iyo safafka kala duwan waxaa lagu kala saaraa iyadoo la isticmaalayo "\n". 

LLaVA-UDH: Tijaabooyinka iyo Natiijooyinka

Qaab dhismeedka LLaVA-UHD waxaa lagu qiimeeyaa 9 bartilmaameed oo caan ah oo ay ku jiraan su'aalaha muuqaalka guud ee ka jawaabaya bartilmaameedyada, dabeecad muuqaal ku salaysan oo ka jawaabaya bartilmaameedyada, bartilmaameedka dhalanteedka, iyo bartilmaameedyo dhammaystiran. Intaa waxaa dheer, qaabka LLaVA-UHD waxaa lagu barbardhigay saldhigyo xooggan oo ay ku jiraan LLaVA-1.5, MiniGPT-v2, InstructBLIP, BLIP-2, iyo in ka badan. 

Waxqabadka qaabka LLaVA-UHD ee 9 bartilmaameed oo caan ah waa la soo koobay, oo marka la barbar dhigo bartilmaameedyada caanka ah ee shaxda hoose. 

Iyada oo ku saleysan waxqabadka kor ku xusan, waxaa lagu soo gabagabeyn karaa in qaabka LLaVA-UHD uu awood u leeyahay inuu ka sarreeyo moodooyinka aasaasiga ah ee xooggan ee bartilmaameedyada caanka ah oo ay ku jiraan saldhigyo guud oo xooggan oo lagu tababaray qadar aad u weyn oo xog ah, oo ay weheliso ka sarreeya LLM-yada kuwaas oo u baahan xisaabin aad u badan. sida Fuyu-8B, Daanyeer, iyo kuwo kale. Marka labaad, natiijadu waxay sidoo kale tilmaamaysaa in qaabka LLaVA-UHD uu natiijooyin aad u wanaagsan ka gaaro qaab dhismeedka LLaVA-1.5, iyo hal dhinac oo LLaVA-1.5 ay taageerto xallinta 336 × 336 go'an, qaabka LLaVA-UHD wuxuu taageeraa 672 × 1088 sawirada xallinta oo leh saami kasta oo dhinac ah, iyo tiro isku mid ah oo calaamado muuqaal ah. 

Afkaarta Final

Maqaalkan waxaan kaga hadalnay LLaVA-UHD, hab cusub oo marka hore qaata LLaVA-1.5 iyo qaab-dhismeedka GPT-4V tusaaleyaal matale ah, iyo isku dayo lagu soo bandhigayo cilladaha habaysan ee xididka ku leh istiraatijiyadooda codaynta muuqaalka. Qaab dhismeedka LLaVA-UHD, hab-habboon, waa isku day lagu doonayo in wax looga qabto caqabadaha. Qaab dhismeedka LLaVA-UHD wuxuu ku dareemi karaa sawirada xalin sare iyo sidoo kale saami kasta. Qaab dhismeedka LLaVA-UHD waxa lagu dhisay ilaa saddex qaybood oo muhiim ah. Marka hore, istaraatijiyad qaabaynta sawirka oo u qaybisa sawirada xalinta dhaladka qaybo yar yar oo doorsoomayaal isku dayaysa in kor loogu qaado hufnaanta iyo fidinta codaynta. Marka xigta, moduleka isku-buufinta kaas oo soo koobaya calaamadaha sawirka oo ay soo saareen cod-bixiyeyaal muuqaal dheeraad ah. Ugu dambayntii, schema meel bannaan oo habaysa calaamado jeex ah oo loogu talagalay moodooyinka luqadda waaweyn. Tijaabooyin dhammaystiran waxay muujinayaan in qaabka LLaVA-UHD uu awoodo inuu ka sarreeyo heerka farshaxanka moodooyinka luqadaha waaweyn ee 9 bartilmaameed. Intaa waxaa dheer, adoo isticmaalaya kaliya 94% xisaabinta fikradda, qaabka LLaVA-UHD wuxuu awoodaa inuu ku taageero sawirada 6 jeer ka weyn ie 672×1088. 

 

"Injineer xirfad ahaan, qoraa qalbigiisa". Kunal waa qoraa farsamo oo leh jacayl qoto dheer & faham AI iyo ML, oo ​​u heellan fududaynta fikradaha adag ee dhinacyadan iyada oo loo marayo dukumeenti hawleed iyo macluumaad leh.