tunggul Mini-Gemini: Pertambangan Poténsi Modél Basa Visi Multimodalitas - Unite.AI
Connect with kami

Kacerdasan buatan

Mini-Gemini: Pertambangan Poténsi Modél Basa Visi Multimodalitas

mm

dimuat

 on

Mini-Gemini: Pertambangan Poténsi Modél Basa Visi Multimodalitas

Kamajuan di model basa badag geus nyata ngagancangkeun ngembangkeun ngolah basa alami, atanapi NLP. Bubuka kerangka trafo kabuktian jadi tonggak sejarah, facilitating ngembangkeun gelombang anyar model basa, kaasup OPT jeung BERT, nu némbongkeun pamahaman linguistik profound. Saterusna, lahirna model GPT, atawa Generative Pre-trained Transformer, ngenalkeun paradigma anyar kalawan modeling autoregressive sarta ngadegkeun hiji metodeu mantap pikeun prediksi basa jeung generasi. Munculna model basa kawas GPT-4, ChatGPT, Mixtral, LLaMA, jeung sajabana geus salajengna ngadorong évolusi gancang, kalawan unggal model nunjukkeun kinerja ditingkatkeun dina tugas ngalibetkeun prosés basa kompléks. Diantara metodeu anu aya, tuning instruksi parantos muncul salaku téknik konci pikeun ngamurnikeun kaluaran modél basa ageung anu tos dilatih, sareng integrasi modél ieu sareng alat khusus pikeun tugas visual parantos nyorot adaptasina sareng muka panto pikeun aplikasi anu bakal datang. Ieu ngalegaan tebih saluareun ngolah dumasar-téks tradisional LLMs ngawengku interaksi multimodal.

Saterusna, konvergénsi pamrosésan basa alam jeung modél visi komputer geus nimbulkeun VLMs, atawa Vision Language Modél, nu ngagabungkeun model linguistik jeung visi pikeun ngahontal pamahaman cross-modal jeung kamampuhan nalar. Integrasi jeung mecenghulna model visual jeung linguistik geus maénkeun peran krusial dina advance tugas nu merlukeun duanana ngolah basa jeung pamahaman visual. Mecenghulna model revolusioner kawas CLIP geus salajengna bridged gap antara tugas visi jeung model basa, demonstrating feasibility tur practicality tina aplikasi cross-modal. Kerangka anu langkung énggal sapertos LLaMA sareng BLIP ngungkit data instruksi anu cocog pikeun nyusun strategi éfisién anu nunjukkeun kamampuan modél anu kuat. Salaku tambahan, ngagabungkeun modél basa ageung sareng kaluaran gambar mangrupikeun fokus dina panalungtikan multimodal panganyarna, kalayan metode panganyarna tiasa ngaliwat generasi langsung ku cara ngagunakeun pendekatan panéangan gambar pikeun ngahasilkeun kaluaran gambar sareng téks interleaved.

Kalayan éta, sareng sanaos kamajuan gancang dina modél basa visi ngagampangkeun penalaran dasar sareng dialog visual, masih aya gap kinerja anu signifikan antara modél canggih sapertos GPT-4, sareng modél basa visi. Mini-Gemini mangrupikeun usaha pikeun ngahususkeun jurang anu aya antara modél basa visi sareng modél anu langkung maju ku ngagali poténsi VLM pikeun pagelaran anu langkung saé tina tilu aspék: generasi dipandu VLM, data kualitas luhur, sareng token visual resolusi luhur. Pikeun ningkatkeun token visual, kerangka Mini-Gemini ngusulkeun ngagunakeun encoder visual tambahan pikeun perbaikan resolusi luhur tanpa nambahan jumlah token visual. Kerangka Mini-Gemini salajengna ngawangun set data kualitas luhur dina usaha pikeun ngamajukeun pamahaman anu tepat ngeunaan gambar sareng generasi dumasar-nalar. Gemblengna, kerangka Mini-Gemini ngusahakeun tambang poténsi modél basa visi, sareng tujuanana pikeun nguatkeun kerangka anu aya ku penalaran gambar, pamahaman, sareng kamampuan generatif sakaligus. Tulisan ieu tujuanana pikeun nutupan kerangka Mini-Gemini sacara jero, sareng urang ngajalajah mékanisme, metodologi, arsitéktur kerangka sareng ngabandingkeunana sareng kaayaan kerangka seni. Ku kituna hayu urang ngamimitian. 

Mini-Gemini: Ngagancangkeun Multi-Modal VLMs

Sapanjang taun, modél basa ageung parantos mekar, sareng aranjeunna ayeuna gaduh kamampuan multi-modal anu luar biasa, sareng janten bagian penting tina modél basa visi ayeuna. Sanajan kitu, aya gap antara kinerja multi-modal model basa badag jeung model basa visi jeung panalungtikan panganyarna néangan cara pikeun ngagabungkeun visi jeung model basa badag ngagunakeun gambar jeung video. Pikeun tugas visi sorangan, resolusi gambar mangrupa unsur krusial pikeun eksplisit sanajan lingkungan sabudeureun kalawan halusinasi visual minimal. Pikeun sasak gap, peneliti ngembangkeun model pikeun ngaronjatkeun pamahaman visual dina ayeuna modél basa visi, sareng dua pendekatan anu paling umum nyaéta: ningkatkeun résolusi, sareng ningkatkeun jumlah token visual. Sanajan ngaronjatna jumlah token visual jeung gambar resolusi luhur teu ningkatkeun pamahaman visual, dorongan ieu mindeng dibarengan ku ngaronjat syarat komputasi jeung waragad pakait utamana lamun ngolah sababaraha gambar. Salajengna, kamampuan model anu tos aya, kualitas data anu tos aya, sareng aplikasina tetep teu cekap pikeun prosés pamekaran anu gancangan, nyésakeun panaliti, "kumaha carana ngagancangkeun ngembangkeun model basa visi kalawan waragad ditarima"

Kerangka Mini-Gemini mangrupikeun usaha pikeun ngajawab patarosan nalika nyobian ngajalajah poténsi modél basa visi tina tilu aspék: generasi dipandu VLM atanapi aplikasi anu dilegakeun, data kualitas luhur, sareng token visual resolusi luhur. Kahiji, kerangka Mini-Gemini nerapkeun arsitéktur ConvNet pikeun ngahasilkeun calon-resolusi luhur éfisién, ningkatkeun detil visual bari ngajaga jumlah token visual pikeun modél basa badag. Kerangka Mini-Gemini ngagabungkeun set data kualitas luhur anu sayogi pikeun umum dina usaha ningkatkeun kualitas data, sareng ngahijikeun paningkatan ieu sareng modél basa generatif sareng ageung canggih sareng usaha pikeun ningkatkeun kinerja VLM, sareng ningkatkeun. pangalaman pamaké. Strategi multifaceted anu dilaksanakeun ku kerangka Mini-Gemini ngamungkinkeun pikeun ngajalajah kamampuan disumputkeun tina modél basa visi, sareng ngahontal kamajuan anu signifikan kalayan keterbatasan sumber daya anu jelas. 

Sacara umum, kerangka Mini-Gemini nganggo paradigma naon waé sabab éta sanggup nanganan téks sareng gambar salaku input sareng kaluaran. Khususna, kerangka Mini-Gemini ngenalkeun jalur pipa anu épisién pikeun ningkatkeun token visual pikeun gambar input, sareng gaduh sistem dual-enkoder anu diwangun ku encoder kembar: encoder munggaran kanggo gambar résolusi luhur, sedengkeun encoder kadua pikeun low- kualitas embedding visual. Salila inferensi, encoders dianggo dina mékanisme perhatian, dimana encoder-resolusi handap ngahasilkeun queries visual, sedengkeun encoder resolusi luhur nyadiakeun konci na nilai keur rujukan. Pikeun ningkatkeun kualitas data, kerangka Mini-Gemini ngumpulkeun sareng ngahasilkeun langkung seueur data dumasar kana sumber daya umum, kalebet paréntah berorientasi tugas, data anu aya hubunganana sareng generasi, sareng réspon résolusi luhur, kalayan jumlah anu ningkat sareng kualitas anu ditingkatkeun ningkatkeun kinerja sakabéh. kamampuhan modél. Saterusna, kerangka Mini-Gemini ngadukung téks sareng gambar sakaligus salaku hasil tina integrasi modél basa visi sareng modél generatif canggih. 

Mini-Gemini: Métodologi sareng Arsitéktur

Dina inti na, kerangka Mini-Gemini sacara konseptual basajan, sareng ngandung tilu komponén. 

  1. Kerangka ieu nganggo encoder visi ganda pikeun nyayogikeun émbeddings visual résolusi rendah sareng calon résolusi luhur. 
  2. Kerangka ieu ngusulkeun pikeun ngalaksanakeun pertambangan info patch pikeun ngalaksanakeun pertambangan dina tingkat patch antara pamundut visual résolusi rendah, sareng daérah résolusi luhur. 
  3. Kerangka Mini-Gemini ngagunakeun modél basa anu ageung pikeun ngawinkeun téks sareng gambar pikeun generasi sareng pamahaman sakaligus. 

Encoders Dual Visi

Kerangka Mini-Gemini tiasa ngolah input téks sareng gambar, kalayan pilihan pikeun nanganan aranjeunna sacara individual atanapi dina kombinasi. Sakumaha anu dipidangkeun dina gambar di handap ieu, kerangka Mini-Gemini ngamimitian prosés ku ngagunakeun interpolasi bilinear pikeun ngahasilkeun gambar résolusi handap tina gambar résolusi luhur anu saluyu. 

Kerangka teras ngolah gambar-gambar ieu sareng dikodekeun kana embedding visual multi-grid dina dua aliran gambar paralel. Leuwih husus, kerangka Mini-Gemini mertahankeun pipa tradisional pikeun aliran-resolusi low sarta employs a CLIP-pretrained Visual Transformer pikeun encode nu embeddings visual, facilitating model pikeun ngawétkeun hubungan jarak jauh antara patch visual pikeun interaksi saterusna dina basa badag. modél. Pikeun aliran resolusi luhur, kerangka Mini-Gemini ngadopsi encoder dumasar CNN atanapi Convolution Neural Networks pikeun ngolah gambar resolusi luhur anu adaptif sareng efisien. 

Patch Info Pertambangan

Kalayan encoder visi ganda anu ngahasilkeun émbeddings LR sareng fitur HR, kerangka Mini-Gemini ngajukeun pikeun nerapkeun pertambangan info patch kalayan tujuan ngalegaan poténsi modél basa visi kalayan token visual anu ditingkatkeun. Dina raraga ngajaga jumlah token visual pikeun efisiensi dina model basa badag, kerangka Mini-Gemini nyokot embeddings visual resolusi low salaku pamundut, sarta boga tujuan pikeun meunangkeun cues visual relevan ti calon fitur HR, kalawan kerangka nyokot peta fitur HR salaku konci na nilai.

Salaku nunjukkeun dina gambar di luhur, rumus encapsulates prosés pemurnian sarta sintésis cues visual, nu ngabalukarkeun generasi tokens visual canggih pikeun processing model basa badag saterusna. Prosésna mastikeun yén kerangka éta tiasa ngurung pertambangan pikeun tiap pamundut ka sub-wilayah anu saluyu dina peta fitur HR kalayan jumlah fitur anu wijaksana piksel, hasilna efisiensi ditingkatkeun. Kusabab desain ieu, kerangka Mini-Gemini tiasa nimba rinci fitur HR tanpa ningkatkeun jumlah token visual, sareng ngajaga kasaimbangan antara kelayakan komputasi sareng kabeungharan detil. 

Téks sareng Gambar Generasi

Kerangka Mini-Gemini ngahijikeun token visual sareng token téks input salaku input kana modél basa ageung pikeun generasi régrésif otomatis. Beda sareng modél basa visi tradisional, kerangka Mini-Gemini ngadukung ngan ukur téks sareng generasi gambar téks salaku input sareng kaluaran, nyaéta naon waé pikeun inferensi naon waé, sareng éta mangrupikeun hasil tina pamahaman gambar-téks anu luar biasa sareng kamampuan nalar, Mini-Gemini téh bisa ngahasilkeun gambar kualitas luhur. Teu kawas karya panganyarna anu museurkeun kana celah domain antara embeddings téks model generasi jeung model basa badag, kerangka Mini-Gemini nyoba ngaoptimalkeun celah dina domain prompts basa ku narjamahkeun parentah pamaké kana prompts kualitas luhur nu ngahasilkeun gambar relevan konteks. dina model difusi laten. Saterusna, pikeun pamahaman hadé tina instruksi finetuning, sarta cross modality alignment, kerangka Mini-Gemini ngumpulkeun sampel tina datasets kualitas luhur sadia masarakat awam, sarta ngagunakeun GPT-4 kerangka turbo jang meberkeun ngawangun hiji instruksi 13K handap dataset pikeun ngarojong generasi gambar. 

Mini-Gemini: Percobaan sareng Hasil

Pikeun meunteun kinerjana, kerangka Mini-Gemini di-instantiated sareng kerangka ConvNext-L anu tos dilatih pikeun encoder visi HR, sareng nganggo CLIP-pre-trained. Transformer Visi pikeun LR visi encoder. Pikeun mastikeun efisiensi latihan, kerangka Mini-Gemini ngajaga dua encoders visi dibereskeun, sarta optimizes projectors of patch info pertambangan dina sakabéh tahapan, sarta optimizes model basa badag salila tahap instruksi tuning sorangan. 

Tabel di handap ieu ngabandingkeun kinerja kerangka Mini-Gemini ngalawan kaayaan modél seni dina setélan anu béda, sareng ogé mertimbangkeun modél swasta. Salaku bisa dititénan, nu Mini-Gemini outperforms frameworks aya sakuliah rupa-rupa LLMs konsistén dina resolusi normal, sarta mendemonstrasikan kinerja unggul lamun ngonpigurasi kalawan Gemma-2B dina kategori model efisien. Salaku tambahan, nalika modél basa ageung anu langkung ageung dianggo, skalabilitas kerangka Mini-Gemini dibuktikeun. 

Pikeun meunteun kinerjana dina resolusi luhur sareng token visual anu diperpanjang, percobaan dilaksanakeun kalayan ukuran input 672 pikeun encoder visi LR, sareng 1536 pikeun encoder visual. Sakumaha anu disebatkeun sateuacana, tujuan utama encoder visual HR nyaéta pikeun nawiskeun inpormasi calon résolusi luhur. Salaku bisa dititénan, kerangka Mini-Gemini delivers kinerja unggulan lamun dibandingkeun jeung kaayaan tina frameworks seni. 

Saterusna, pikeun assess prowess pamahaman visual tina kerangka Mini-Gemini dina setélan real-dunya, pamekar nerapkeun model kana rupa-rupa nalar jeung tugas pamahaman sakumaha ditémbongkeun dina gambar di handap ieu. Sakumaha anu tiasa dititénan, kerangka Mini-Gemini tiasa ngabéréskeun rupa-rupa pancén kompléks berkat palaksanaan pertambangan info patch, sareng data kualitas luhur. Tapi anu langkung narik nyaéta kanyataan yén kerangka Mini-Gemini nunjukkeun tambihan anu saé pikeun detil anu ngalegaan saluareun kamampuan pangakuan, sareng ngajelaskeun unsur-unsur rumit sacara rumit. 

Gambar di handap ieu nyayogikeun evaluasi komprehensif ngeunaan kamampuan generatif kerangka Mini-Gemini. 

Upami dibandingkeun sareng modél panganyarna sapertos ChatIllusion sareng AnyGPT, kerangka Mini-Gemini nunjukkeun kamampuan pamahaman multi-modal anu langkung kuat, ngamungkinkeun éta ngahasilkeun. téks kana gambar captions nu align jeung parentah input hadé, sarta hasilna gambar kana jawaban téks kalawan kasaruaan konseptual kuat. Anu langkung narik nyaéta kanyataan yén kerangka Mini-Gemini nunjukkeun kamahéran anu luar biasa dina ngahasilkeun kontén anu berkualitas tinggi nganggo paréntah manusa multi-modél wungkul sareng data latihan téks, kamampuan anu ngagambarkeun interpretasi semantik anu kuat sareng kaahlian alignment gambar-téks Mini-Gemini. 

Pikiran final

Dina artikel ieu kami geus ngobrol ngeunaan Mini-Gemini, kerangka potent tur streamlined pikeun modél basa visi multi-modalitas. Tujuan utama kerangka Mini-Gemini nyaéta pikeun ngamangpaatkeun kamampuan laten modél basa visi ngagunakeun data kualitas luhur, desain strategis kerangka, sareng wengkuan fungsional anu dilegaan. Mini-Gemini mangrupikeun usaha pikeun ngahususkeun jurang anu aya antara modél basa visi sareng modél anu langkung maju ku ngagali poténsi VLM pikeun pagelaran anu langkung saé tina tilu aspék: generasi dipandu VLM, data kualitas luhur, sareng token visual resolusi luhur. Pikeun ningkatkeun token visual, kerangka Mini-Gemini ngusulkeun ngagunakeun encoder visual tambahan pikeun perbaikan resolusi luhur tanpa nambahan jumlah token visual. Kerangka Mini-Gemini salajengna ngawangun set data kualitas luhur dina usaha pikeun ngamajukeun pamahaman anu tepat ngeunaan gambar sareng generasi dumasar-nalar. Gemblengna, kerangka Mini-Gemini ngusahakeun tambang poténsi modél basa visi, sareng tujuanana pikeun nguatkeun kerangka anu aya ku penalaran gambar, pamahaman, sareng kamampuan generatif sakaligus.

"Insinyur ku profési, panulis ku haté". Kunal mangrupikeun panulis téknis anu mikanyaah sareng pamahaman anu jero ngeunaan AI sareng ML, didédikasikeun pikeun nyederhanakeun konsép anu kompleks dina widang ieu ngaliwatan dokuméntasi anu pikaresepeun sareng informatif.