tunggul MiniGPT-5: Interleaved Visi-Sareng-Basa Generasi via Generatif Vokens - Unite.AI
Connect with kami

Kacerdasan buatan

MiniGPT-5: Interleaved Visi-Sareng-Basa Generasi via Generative Vokens

mm
diropéa on

Dina sababaraha taun katukang, Model Basa Besar (LLM) parantos nampi perhatian ti pamekar AI di sakuliah dunya kusabab terobosan dina Pangolahan Basa Alam (NLP). Modél ieu parantos nyetél tolok ukur anyar dina ngahasilkeun téks sareng pamahaman. Sanajan kitu, sanajan kamajuan dina generasi téks, ngahasilkeun gambar nu coherently cocog naratif tékstual masih nangtang. Pikeun alamat ieu, pamekar geus ngawanohkeun hiji visi inovatif sarta pendekatan generasi basa dumasar kana "vokens generative," bridging celah pikeun outputs téks-gambar harmonis.

Yayasan balik MiniGPT-5 nyaéta strategi latihan dua-staged anu museurkeun pisan kana generasi data multimodal bébas déskripsi dimana data latihan teu merlukeun sagala déskripsi gambar komprehensif. Saterusna, pikeun naekeun integritas model urang, model incorporates sistem pituduh classifier-gratis nu ngaronjatkeun efektivitas voken pikeun ngahasilkeun gambar. Dina fase awal, kerangka MiniGPT-5 parantos nunjukkeun kinerja anu kuat sareng perbaikan anu ageung dina modél Divter dasar anu dilatih dina set data MMDialog, sareng terus-terusan nunjukkeun kamampuanna pikeun nganteurkeun kaluaran multimodal anu sabanding sareng unggul dina evaluasi manusa anu dilakukeun. dina set data VIST anu langkung nyorot kinerja & efisiensi na dina sagala rupa tolok ukur. 

MiniGPT5 : Hiji Perkenalan

Jeung kamajuan panganyarna tina kerangka LLM, sareng aplikasi dumasar kana kerangka LLM ieu, integrasi fitur multimédia mangrupikeun widang anu parantos nyaksian naékna popularitasna sabab éta ogé kabuktian janten kamajuan anu penting anu nguatkeun rupa-rupa aplikasi tina alat-alat nyiptakeun kontén anu canggih. ka agén dialog multimodal mutakhir. Kalayan panilitian sareng pamekaran anu terus-terusan, modél basa sareng visi aya dina titik dimana padamelan badé ngagampangkeun aranjeunna ngahasilkeun téks sareng data visual sacara lancar. The kamampuan LLM pikeun ngahasilkeun data multimodal mulus bakal mantuan dina enhancing interaksi sakuliah domain béda kaasup e-commerce, média, jeung kanyataanana maya. 

Pamustunganana, tujuanana nyaéta ngamungkinkeun modél pikeun nyintésis, mikawanoh, sareng ngaréspon ku cara anu konsisten & logis ngagunakeun modalitas tékstual & visual, sahingga maénkeun peran anu penting dina harmonisasi aliran inpormasi, sareng nyiptakeun narasi logis & konsisten. Kabutuhan pikeun ngahontal campuran modalitas tékstual & visual didorong utamina ku kabutuhan interaksi multimodal anu langkung cair, terpadu & interaktif dina LLMs, sareng pamustunganana ngahontal basa sareng generasi visi anu silih ganti. Nanging, ngahontal interaksi multimodal terintegrasi & interaktif dina LLM mangrupikeun tugas anu rumit sareng seueur tantangan kalebet

  1. Sanajan LLM ayeuna pisan efisien & mampuh lamun datang ka generasi téks, sarta ngolah pasangan téks-gambar, aranjeunna teu nganteurkeun kinerja nyugemakeun lamun datang ka ngahasilkeun gambar. 
  2. Ngembangkeun modél visi sareng basa ieu ngandelkeun pisan kana data anu difokuskeun kana topik anu ngajantenkeun model nantang pikeun nyaluyukeun téks anu dihasilkeun sareng gambar anu saluyu. 
  3. Tungtungna, aya anu peryogi pikeun datang nepi ka strategi leuwih éféktif salaku kalawan kanaékan kamampuhan maranéhna, sarat memori LLMs ogé ngaronjatkeun utamana lamun ngalakukeun tugas hilir. 

Kerangka MiniGPT-5, basa interleaved & téknik algoritma ngahasilkeun visi anu ngenalkeun konsép "vokens generatif" dina usaha pikeun ngatasi tantangan anu disebatkeun di luhur. Kerangka MiniGPT-5 ngajukeun pendekatan anyar pikeun ngahasilkeun data multimodal ku ngahijikeun Modél Basa ageung sareng téknik Difusi Stabil ku ngagunakeun token visual khusus. Metodeu latihan dua tahap anu diusulkeun anu dianggo ku kerangka MiniGPT-5 nunjukkeun pentingna tahap dasar anu teu aya pedaran, sareng nyiapkeun modél pikeun nganteurkeun kinerja anu efisien sanajan dina skenario anu data terbatas. 

Tapi anu misahkeun modél MiniGPT-5 tina kerangka anu ayeuna aya nyaéta yén tahapan umum kerangka MiniGPT-5 henteu diwangun ku anotasi khusus domain. Saterusna, pikeun mastikeun yén téks dihasilkeun, sarta gambar saluyu maranéhanana anu harmonis jeung nu séjén, kerangka MiniGPT-5 deploys strategi dual-leungitna nu salajengna ningkatkeun pendekatan MiniGPT-5 urang ngagunakeun hidayah bébas classifier jeung vokens generative. Kerangka MiniGPT-5 ngaoptimalkeun efisiensi latihan, sareng ngarengsekeun kendala mémori berkat strategi éfisién-parameterna pikeun nyéépkeun modél. 

Pikeun masihan anjeun kasimpulan gancang, kerangka MiniGPT-5

  1. Ngajukeun metodeu anu ngagunakeun encoders multimodal anu ngagambarkeun metodeu novel & generik anu sajarahna kabuktian langkung efektif tibatan LLM tradisional, sareng nganggo token generatif digabungkeun sareng téknik Difusi Stabil pikeun ngahasilkeun basa interleaved & kaluaran visual. 
  2. Proposes strategi latihan dual-tahap pikeun generasi kaluaran multimodal bébas déskripsi, sarta kaasup hidayah-gratis classifier salila latihan jang meberkeun nyaring kualitas data dihasilkeun. 

Modél MiniGPT-5 diideuan pisan tina panilitian sareng padamelan anu dilakukeun dina widang 

  • Téks ka Gambar Generasi: Pikeun ngagampangkeun transformasi déskripsi tékstual kana répréséntasi visual masing-masing, sareng modél téks kana gambar. 
  • MLLMs atanapi Multimodal Model Basa ageung: Ngagunakeun modél LLM anu tos dilatih pikeun ngajalajah aplikasi & efektivitasna dina ngahasilkeun data multimodal
  • Generasi Multimodal sareng Modél Basa ageung: Pikeun ningkatkeun kamampuan LLM pikeun ngahijikeun basa sareng generasi data visual sacara mulus. 

MiniGPT-5 : Métode, Arsitéktur, jeung Kerangka

Pikeun ngagampangkeun modél basa ageung sareng kamampuan ngahasilkeun data multimodal, modél MiniGPT-5 ngenalkeun kerangka anu tujuanana pikeun ngahijikeun téks kana modél generasi gambar sareng modél basa ageung multimodal anu parantos dilatih. Kerangka MiniGPT-5 salajengna ngenalkeun "vokens generative", token visual khusus anu ngamungkinkeun para pamekar pikeun ngabéréskeun panyimpangan anu muncul dina domain anu béda ku tiasa ngalatih langsung dina gambar atah. Pikeun ningkatkeun deui kualitas data multimodal anu dihasilkeun ku LLMs, kerangka MiniGPT-5 ngenalkeun strategi bébas classifier gandeng ku métode latihan dua tahap canggih. Hayu urang tingali rinci ngeunaan kerangka MiniGPT-5. 

Tahap Input MultiModal

Kamekaran LLMs dina jaman baheula geus dibawa LLMs kamampuhan pamahaman multimodal caang, sangkan ngolah gambar salaku input sequential. MiniGPT-5 kerangka ngagunakeun vokens generative dirancang husus pikeun kaluaran fitur visual dina usaha rék dilegakeun LLMs kamampuhan pamahaman multimodal ka generasi data multimodal. Saterusna, kerangka MiniGPT-5 ngagunakeun parameter efisien sarta motong ujung téhnik fine tuning pikeun diajar kaluaran multimodal kalawan kerangka LLM. 

Encoding Multimodal

The encoder visual pretrained dina kerangka MiniGPT-5 transforms unggal gambar input kana fitur, sarta unggal token téks ieu study salaku vektor, sarta fitur ajakan input dihasilkeun nalika embeddings ieu concatenated kalawan karana. 

Nambahkeun Vokens dina Modél Basa Gedé

Sacara tradisional, kosakata Modél Basa Gedé ngan ukur diwangun ku token tékstual, ku sabab éta pamekar anu damel dina kerangka MiniGPT-5 kedah ngajambatan jurang antara LLM generatif sareng tradisional. Kerangka MiniGPT-5 ngenalkeun sakumpulan token khusus salaku token generatif kana kosakata LLM. kerangka lajeng harnesses kaayaan kaluaran disumputkeun tina LLM pikeun vokens husus ieu pikeun generasi gambar saterusna, sarta sisipan gambar interleaved digambarkeun ku posisi vokens. 

PEFT atanapi Parameter Éfisién Fine Tuning

PEFT atanapi Parameter Efficient Fine Tuning mangrupikeun konsép anu penting anu dianggo pikeun ngalatih LLM, tapi, aplikasi PEFT dina setélan multimodal masih teu acan dijelajah dugi ka cukup ageung. Kerangka MiniGPT-5 ngagunakeun Parameter Efficient Fine Tuning dina encoder kerangka MiniGPT-4 pikeun ngalatih modél pikeun ngartos pituduh atanapi petunjuk anu langkung saé, sareng bahkan ningkatkeun kinerja modél sadayana dina lingkungan nol-shot atanapi novel. . 

Generasi Kaluaran Multimodal

Pikeun nyaluyukeun modél generatif sareng token generatif sacara akurat, kerangka MiniGPT-5 ngarumuskeun modul pemetaan kompak pikeun nyocogkeun dimensi, sareng ngalebetkeun karugian pangawasan kalebet leungitna modél difusi laten, sareng leungitna rohangan téks. Leungitna pangawasan difusi laten aligns fitur visual luyu jeung tokens langsung sedengkeun leungitna spasi téks mantuan model diajar posisi bener tina tokens. Kusabab vokens generatif dina kerangka MiniGPT-5 dipandu langsung ku gambar, kerangka MiniGPT-5 henteu meryogikeun gambar pikeun gaduh déskripsi anu komprehensif, hasilna diajar tanpa déskripsi. 

 Generasi Spasi téks

Kerangka MiniGPT-5 nuturkeun metode modeling basa kasual pikeun ngahasilkeun boh vokens sareng téks dina rohangan téks babarengan, sareng salami fase latihan, pamekar nambihan vokens kana posisi gambar bebeneran taneuh, sareng ngalatih modél pikeun ngaduga vokens. dina generasi téks. 

Mapping Fitur Voken pikeun Gambar Generation

Saatos ngahasilkeun rohangan téks, kerangka ngajajarkeun kaayaan kaluaran anu disumputkeun sareng rohangan fitur kondisional téks téks kana modél generasi gambar. Kerangka ogé ngarojong modul mapper fitur nu ngawengku model MLP dual-lapisan, runtuyan fitur decoder diajar, sarta model trafo encoder-decoder opat-lapisan. 

Generasi Gambar sareng LDM atanapi Modél Difusi Latén

Pikeun ngahasilkeun gambar anu diperyogikeun dina prosés denoising, kerangka ngagunakeun fitur pemetaan salaku input kondisional. Kerangka ieu ogé nganggo LDM atanapi Modél Difusi Latén pikeun panduan, sapertos salami fase latihan, gambar bebeneran taneuh mimiti dirobih janten fitur laten nganggo VAE anu tos dilatih, anu di handap ieu, pamekar nampi fitur noise laten ku cara nambahkeun sababaraha noise. . 

Pendekatan komprehensif deployed ku kerangka MiniGPT-5 ngamungkinkeun pamekar boga pamahaman koheren, sarta generasi duanana elemen visual jeung tékstual, ngagunakeun tokens husus, leveraging kamampuhan model pretrained, sarta ngagunakeun téhnik latihan inovatif. 

MiniGPT-5 : Latihan jeung Hasil

Nalika damel dina kerangka MiniGPT-5, pamekar niténan yén latihan dina set data téks-sareng-gambar anu diwates sacara langsung tiasa nyababkeun gambar anu kualitasna ngirangan, sareng misalignment tinangtu pergeseran domain anu signifikan antara gambar sareng domain téks. Pikeun ngirangan masalah ieu, pamekar ngadopsi dua strategi pelatihan anu béda, 

  1. Ngawengku incorporation téknik bimbingan bébas classifier nu boosts efektivitas token generative salila prosés difusi. 
  2. Strategi kadua dibagi deui jadi dua tahap
    1. Tahap pra-latihan awal anu museurkeun utamina dina ngajajarkeun fitur kasar. 
    2. Tahap fine-tuning anu ngagampangkeun diajar fitur. 

CFG atanapi Classifier Free Bimbingan

Gagasan pikeun mimiti ngungkit CFG pikeun generasi multimodal sumping salaku hasil tina usaha pikeun ningkatkeun konsistensi & logika antara gambar & téks anu dihasilkeun, sareng CFG diwanohkeun nalika prosés difusi téks kana gambar. Metoda ieu niténan yén ku latihan dina duanana generasi sarat jeung kondisional kalawan dropout udar, model generative bisa ngahontal hasil kondisional ditingkatkeun.

Stratégi Pelatihan Dua Tahap

Dibikeun shift domain signifikan dititénan antara generasi téks-gambar, jeung generasi téks murni, kerangka MiniGPT-5 ngagunakeun strategi dua-tahap pikeun latihan.

  1. Tahap Alignment Unimodal atanapi UAS,
  2. Tahap Pembelajaran Multimodal atanapi MLS. 

Mimitina, kerangka aligns fitur generasi gambar jeung fitur voken dina susunan téks-gambar pasangan tunggal dimana unggal sampel data ngandung ngan hiji téks, sarta ngan hiji gambar, sarta téks biasana caption gambar. Dina tahap ieu, kerangka ngamungkinkeun LLM pikeun ngahasilkeun vokens ku ngamangpaatkeun captions salaku inputs LLM. 

Sakali UAS geus dieksekusi junun, modél bisa ngahasilkeun gambar pikeun déskripsi téks tunggal, tapi struggles kalawan basa interleaved sarta generasi visi kaasup pasangan téks-gambar, sarta penalaran pajeulit diperlukeun pikeun gambar na téks generasi. Pikeun ngatasi halangan ieu, pamekar parantos nyaluyukeun kerangka MiniGPT-5 nganggo parameter PEFT ku set data visi-na-basa interleaved sapertos VIST. Dina tahap ieu, kerangka ngawangun tilu pancén anu béda tina set data

  1. Téks Ngan Generasi: Ngahasilkeun téks anu aya hubunganana dipasihan gambar salajengna. 
  2. Generasi Ngan Gambar: Ngahasilkeun gambar anu aya hubunganana sareng téks salajengna. 
  3. Generasi Multimodal: Ngahasilkeun pasangan gambar téks nganggo kontéks anu dipasihkeun. 

MiniGPT-5 : Tolok ukur jeung Hasil

Pikeun meunteun kinerjana dina generasi multimodal sacara komprehensif, tim pangembang MiniGPT-5 ngabandingkeun kinerjana sareng model garis dasar anu sanés kalebet Divter, GILL, sareng Modél Generasi Unimodal Fine Tuned, sareng perbandinganna ditingalikeun dina tabel di handap ieu. 

Kerangka MiniGPT-5 ngartos yén kaluaran multimodal tiasa janten bermakna saluyu sareng kontéksna, tapi éta tiasa bénten tina realitas dasar anu mangrupikeun alesan utami naha kerangka MiniGPT-5 ogé ngalebetkeun input manusa pikeun meunteun & meunteun kinerja modél. . Gemblengna, efektivitas kerangka MiniGPT-5 pikeun tugas multimodal diukur nganggo tilu sudut pandang. 

  1. Kasaluyuan Basa: assessing naha eusi dihasilkeun aligns jeung konteks disadiakeun seamlessly. 
  2. Kualitas Gambar: assessing atanapi evaluating relevansi & kajelasan gambar dihasilkeun. 
  3. Kohérénsi Multimodal: pikeun nangtukeun naha kaluaran gambar téks gabungan sinkron jeung konteks awal. 

VIST Evaluasi Lengkah Final

Dina tahap mimiti percobaan, kerangka MiniGPT-5 tujuanana pikeun ngahasilkeun gambar anu saluyu, sareng tabel di handap nyimpulkeun hasil anu dicandak tina setting ieu. 

Salaku bisa ditempo, kerangka MiniGPT-5 dina sakabéh tilu setélan bisa outperform kerangka SD2 rupa-katala, sahingga panyorot efektivitas pipa MiniGPT-5. 

Angka di luhur ngabandingkeun kinerja kerangka MiniGPT-5 sareng anu disampurnakeun MiniGPT-4 kerangka dina métrik kinerja S-BERT, Rouge-L sareng Meteor. Hasilna nunjukkeun yén pamakéan vokens generative teu mangaruhan kinerja kerangka négatip nalika ngajalankeun tugas pamahaman multimodal. Hasilna ogé nunjukkeun yén kerangka MiniGPT-5 sanggup ngagunakeun input multimodal horisontal panjang-horizontal nyorong kana rupa-rupa data pikeun ngahasilkeun gambar anu kualitas luhur & koheren tanpa kompromi kamampuan modél aslina pikeun pamahaman multimodal. 

Tabél di luhur ngabandingkeun kinerja tilu kerangka dina 5,000 sampel pikeun generasi multimodal tina aspék Kohérénsi Multimodal, Kualitas Gambar, jeung Kesinambungan Basa. Salaku bisa dititénan, kerangka MiniGPT-5 outperforms dua model dasar lianna ku leuwih ti 70% kasus. Di sisi séjén, tabél di handap nunjukkeun kinerja kerangka MiniGPT-5 dina dataset validasi CC3M pikeun generasi gambar tunggal. Hatur nuhun kana watesan data, pamekar manggihan celah pikeun alignment voken lamun dipaké kalawan Stabil difusi. Sanajan watesan ieu, kerangka MiniGPT-5 outperforms kaayaan kiwari kerangka seni dasar GILL sakuliah sadaya metrics. 

kacindekan

Dina artikel ieu, urang geus ngobrol ngeunaan MiniGPT-5, hiji basa interleaved & vision generating téhnik algoritma nu ngenalkeun konsép "generative vokens" dina usaha pikeun ngamangpaatkeun kamampuhan LLMs pikeun ngahasilkeun data multimodal y aligning model basa badag kalayan a téks kana modél generasi gambar anu tos dilatih. Kami parantos nyarioskeun ngeunaan komponén penting & arsitéktur umum tina kerangka MiniGPT-5 sareng hasil anu nunjukkeun perbaikan anu signifikan dina pagelaran & efisiensi upami dibandingkeun sareng garis dasar & kaayaan modél seni ayeuna. MiniGPT-5 aspires pikeun nyetel patokan anyar dina multimodal eusi & domain generasi data, sarta boga tujuan pikeun ngabéréskeun tantangan Nyanghareupan model saméméhna nalika nyobian pikeun ngajawab masalah anu sarua.

"Insinyur ku profési, panulis ku haté". Kunal mangrupikeun panulis téknis anu mikanyaah sareng pamahaman anu jero ngeunaan AI sareng ML, didédikasikeun pikeun nyederhanakeun konsép anu kompleks dina widang ieu ngaliwatan dokuméntasi anu pikaresepeun sareng informatif.