Kecerdasan buatan

MiniGPT-5: Interleaved Vision-And-Language Generation via Generative Vokens

Published October 23, 2023

Updated April 4, 2026

Kunal Kejriwal

Selama beberapa tahun terakhir, Large Language Models (LLMs) telah menarik perhatian dari pengembang AI di seluruh dunia karena kemajuan dalam Natural Language Processing (NLP). Model-model ini telah menetapkan benchmark baru dalam generasi teks dan pemahaman. Namun, meskipun kemajuan dalam generasi teks, menghasilkan gambar yang sesuai dengan narasi teks masih merupakan tantangan. Untuk mengatasi hal ini, pengembang telah memperkenalkan pendekatan generasi visi dan bahasa yang inovatif berdasarkan “generative vokens”, yang menjembatani kesenjangan untuk output teks-gambar yang harmonis.

Dasar di balik MiniGPT-5 adalah strategi pelatihan dua tahap yang berfokus pada generasi data multimodal tanpa deskripsi, di mana data pelatihan tidak memerlukan deskripsi gambar yang komprehensif. Selain itu, untuk meningkatkan integritas model, model tersebut mengintegrasikan sistem panduan bebas klasifikasi yang meningkatkan efektivitas voken untuk generasi gambar. Pada tahap awal, kerangka kerja MiniGPT-5 telah menunjukkan kinerja yang kuat dan perbaikan yang signifikan dibandingkan dengan model baseline Divter yang dilatih pada dataset MMDialog, dan telah secara konsisten menunjukkan kemampuan untuk menghasilkan output multimodal yang setara dan bahkan unggul dalam evaluasi manusia yang dilakukan pada dataset VIST yang lebih menekankan kinerja dan efisiensi di berbagai benchmark.

MiniGPT5 : Pengenalan

Dengan pengembangan kerangka kerja LLM dan aplikasi yang berbasis pada kerangka kerja LLM ini, integrasi fitur multimedia adalah bidang yang telah menyaksikan peningkatan popularitas karena juga membuktikan diri sebagai kemajuan yang penting yang memungkinkan berbagai aplikasi dari alat pembuatan konten canggih hingga agen dialog multimodal terdepan. Dengan penelitian dan pengembangan yang terus-menerus, model bahasa dan visi telah mencapai titik di mana pekerjaan sedang dilakukan untuk memfasilitasi mereka menghasilkan baik teks dan data visual dengan mulus. Kemampuan LLM untuk menghasilkan data multimodal dengan mulus akan membantu meningkatkan interaksi di berbagai domain termasuk e-commerce, media, dan realitas virtual.

Pada akhirnya, tujuan adalah untuk memungkinkan model mensintesis, mengenali, dan merespons dengan cara yang konsisten dan logis menggunakan kedua modalitas teks dan visual, sehingga memainkan peran penting dalam harmonisasi aliran informasi dan menciptakan narasi yang logis dan konsisten. Kebutuhan untuk mencapai perpaduan antara modalitas teks dan visual didorong terutama oleh kebutuhan akan interaksi multimodal yang lebih fluid, terintegrasi, dan interaktif dalam LLM, dan akhirnya mencapai generasi bahasa dan visi yang bergantian. Namun, mencapai interaksi multimodal yang terintegrasi dan interaktif dalam LLM adalah tugas yang rumit yang dihadapi dengan berbagai tantangan, termasuk

Meskipun LLM saat ini sangat efisien dan mampu dalam hal generasi teks dan pengolahan pasangan teks-gambar, mereka tidak memberikan kinerja yang memuaskan ketika menghasilkan gambar.
Pengembangan model visi dan bahasa ini sangat bergantung pada data yang fokus pada topik yang membuatnya menantang bagi model untuk menyelaraskan teks yang dihasilkan dengan gambar yang sesuai.
Terakhir, ada kebutuhan untuk mengembangkan strategi yang lebih efektif karena dengan peningkatan kemampuan mereka, kebutuhan memori LLM juga meningkat terutama saat melakukan tugas downstream.

Kerangka kerja MiniGPT-5, sebuah teknik algoritma generasi bahasa dan visi yang bergantian yang memperkenalkan konsep “generative vokens” dalam upaya untuk mengatasi tantangan yang disebutkan di atas. Kerangka kerja MiniGPT-5 mengusulkan pendekatan baru untuk generasi data multimodal dengan menggabungkan Large Language Models dengan teknik Stable Diffusion menggunakan token visual khusus. Metode pelatihan dua tahap yang diusulkan oleh kerangka kerja MiniGPT-5 menekankan pentingnya tahap awal yang bebas dari deskripsi, dan mempersiapkan model untuk memberikan kinerja yang efisien bahkan dalam skenario dengan data yang terbatas.

Tapi apa yang membedakan model MiniGPT-5 dari kerangka kerja yang ada saat ini adalah bahwa tahap generik dari kerangka kerja MiniGPT-5 tidak terdiri dari anotasi spesifik domain. Selain itu, untuk memastikan bahwa teks yang dihasilkan dan gambar yang sesuai berada dalam harmoni satu sama lain, kerangka kerja MiniGPT-5 menerapkan strategi dual-loss yang lebih meningkatkan pendekatan MiniGPT-5 dalam menggunakan panduan bebas klasifikasi dan generative vokens. Kerangka kerja MiniGPT-5 mengoptimalkan efisiensi pelatihan dan mengatasi keterbatasan memori berkat strategi parameter-efisien untuk penyetelan model.

Untuk memberikan Anda ringkasan singkat, kerangka kerja MiniGPT-5

Mengusulkan metode yang menggunakan enkoder multimodal yang mewakili metode generik yang baru dan telah terbukti lebih efektif daripada LLM tradisional, dan menggunakan token generatif yang dikombinasikan dengan teknik Stable Diffusion untuk menghasilkan output bahasa dan visual yang bergantian.
Mengusulkan strategi pelatihan dua tahap untuk generasi output multimodal tanpa deskripsi, dan inklusi panduan bebas klasifikasi selama pelatihan untuk lebih memperbaiki kualitas data yang dihasilkan.

Kerangka kerja MiniGPT-5 terinspirasi dari penelitian sebelumnya dan pekerjaan yang dilakukan di bidang

Generasi Teks-ke-Gambar : Untuk memfasilitasi transformasi deskripsi teks menjadi representasi visual yang sesuai, dan model teks-ke-gambar.

MLLMs atau Multimodal Large Language Models : Menggunakan model LLM pra-dilatih untuk menjelajahi aplikasi dan efektivitasnya dalam menghasilkan data multimodal.
Generasi Multimodal dengan Large Language Models : Untuk meningkatkan kemampuan LLM untuk mengintegrasikan generasi bahasa dan data visual dengan mulus.

MiniGPT-5 : Metode, Arsitektur, dan Kerangka Kerja

Untuk memfasilitasi Large Language Models dengan kemampuan generasi data multimodal, model MiniGPT-5 memperkenalkan kerangka kerja yang bertujuan untuk mengintegrasikan model generasi teks-ke-gambar dan model bahasa besar multimodal pra-dilatih. Kerangka kerja MiniGPT-5 lebih lanjut memperkenalkan “generative vokens”, token visual khusus yang memungkinkan pengembang untuk mengatasi ketidaksesuaian yang muncul di berbagai domain dengan dapat dilatih langsung pada gambar mentah. Untuk lebih meningkatkan kualitas data multimodal yang dihasilkan oleh LLM, kerangka kerja MiniGPT-5 memperkenalkan strategi bebas klasifikasi yang dikombinasikan dengan metode pelatihan dua tahap yang canggih. Mari kita lihat lebih dekat kerangka kerja MiniGPT-5.

Tahap Input Multimodal

Pengembangan LLM dalam beberapa waktu terakhir telah membawa kemampuan pemahaman multimodal LLM ke cahaya, memungkinkan pengolahan gambar sebagai input berurutan. Kerangka kerja MiniGPT-5 menggunakan token generatif khusus untuk menghasilkan fitur visual dalam upaya untuk memperluas kemampuan pemahaman multimodal LLM ke generasi data multimodal. Selain itu, kerangka kerja MiniGPT-5 menggunakan teknik penyetelan parameter-efisien dan canggih untuk pembelajaran output multimodal dengan kerangka kerja LLM.

Pengkodean Multimodal

Enkoder visual pra-dilatih dalam kerangka kerja MiniGPT-5 mengubah setiap gambar input menjadi fitur, dan setiap token teks disematkan sebagai vektor, dan fitur prompt input dihasilkan ketika penyematan ini digabungkan satu sama lain.

Menambahkan Vokens dalam Large Language Models

Secara tradisional, kosakata Large Language Model hanya terdiri dari token teks yang membuat pengembang yang bekerja pada kerangka kerja MiniGPT-5 harus menjembatani kesenjangan antara generatif dan LLM tradisional. Kerangka kerja MiniGPT-5 memperkenalkan set token khusus sebagai token generatif ke dalam kosakata LLM. Kerangka kerja kemudian memanfaatkan keadaan output tersembunyi LLM untuk token khusus ini untuk generasi gambar berikutnya, dan penyisipan gambar yang bergantian diwakili oleh posisi vokens.

PEFT atau Penyetelan Parameter-Efisien

PEFT atau Penyetelan Parameter-Efisien adalah konsep penting yang digunakan untuk melatih LLM, dan namun, aplikasi PEFT dalam pengaturan multimodal masih belum banyak dijelajahi. Kerangka kerja MiniGPT-5 menggunakan Penyetelan Parameter-Efisien di atas enkoder kerangka kerja MiniGPT-4 untuk melatih model untuk memahami prompt atau instruksi dengan lebih baik, dan bahkan meningkatkan kinerja model secara keseluruhan dalam lingkungan zero-shot atau baru.

Generasi Output Multimodal

Untuk menyelaraskan model generatif dengan token generatif dengan akurat, kerangka kerja MiniGPT-5 merumuskan modul pemetaan kompak untuk mencocokkan dimensi, dan mengintegrasikan kerugian pengawasan termasuk kerugian model difusi laten, dan kerugian ruang teks. Kerugian pengawasan difusi laten menyelaraskan fitur visual yang sesuai dengan token secara langsung sedangkan kerugian ruang teks membantu model mempelajari posisi token yang benar. Karena token generatif dalam kerangka kerja MiniGPT-5 dipandu langsung oleh gambar, kerangka kerja MiniGPT-5 tidak memerlukan gambar untuk memiliki deskripsi yang komprehensif, menghasilkan pembelajaran bebas deskripsi.

Generasi Ruang Teks

Kerangka kerja MiniGPT-5 mengikuti metode pemodelan bahasa kasual untuk menghasilkan baik vokens dan teks dalam ruang teks secara bersamaan, dan selama fase pelatihan, pengembang melampirkan vokens ke posisi gambar kebenaran, dan melatih model untuk memprediksi vokens dalam generasi teks.

Pemetaan Fitur Voken untuk Generasi Gambar

Setelah menghasilkan ruang teks, kerangka kerja menyelaraskan keadaan output tersembunyi dengan ruang fitur kondisional teks-ke-gambar model. Kerangka kerja juga mendukung modul pemetaan fitur yang mencakup model MLP dua lapis, urutan fitur decoder yang dapat dipelajari, dan model transformer encoder-decoder empat lapis.

Generasi Gambar dengan LDM atau Model Difusi Laten

Untuk menghasilkan gambar yang diperlukan dalam proses denoising, kerangka kerja menggunakan fitur pemetaan sebagai input kondisional. Kerangka kerja juga menggunakan Model Difusi Laten untuk panduan, karena selama fase pelatihan, gambar kebenaran pertama kali diubah menjadi fitur laten menggunakan VAE pra-dilatih, setelah itu pengembang memperoleh fitur noise laten dengan menambahkan noise.

Kerangka kerja MiniGPT-5 memungkinkan pengembang untuk memiliki pemahaman yang koheren dan generasi baik elemen visual maupun teks, menggunakan token khusus, memanfaatkan kemampuan model pra-dilatih, dan menggunakan teknik pelatihan inovatif.

MiniGPT-5 : Pelatihan dan Hasil

Ketika bekerja pada kerangka kerja MiniGPT-5, pengembang mengamati bahwa pelatihan pada dataset teks-gambar yang bergantian terbatas secara langsung dapat menghasilkan gambar dengan kualitas yang berkurang, dan keselarasan yang diberikan pergeseran domain yang signifikan antara domain gambar dan teks. Untuk mengatasi masalah ini, pengembang mengadopsi dua strategi pelatihan yang berbeda,

Mengintegrasikan teknik panduan bebas klasifikasi yang meningkatkan efektivitas token generatif selama proses difusi.
Strategi kedua ini lebih lanjut dibagi menjadi dua tahap
1. Tahap pra-pelatihan awal yang berfokus pada penyelarasan fitur kasar.
2. Tahap penyetelan yang memfasilitasi pembelajaran fitur.

CFG atau Panduan Bebas Klasifikasi

Gagasan untuk memanfaatkan CFG untuk generasi multimodal pertama kali muncul sebagai hasil upaya untuk meningkatkan konsistensi dan logika antara gambar dan teks yang dihasilkan, dan CFG diperkenalkan selama proses difusi teks-ke-gambar. Metode ini mengamati bahwa dengan melatih pada generasi kondisional dan tidak kondisional dengan dropout kondisional, model generatif dapat mencapai hasil kondisional yang ditingkatkan.

Strategi Pelatihan Dua Tahap

Mengingat pergeseran domain yang signifikan yang diamati antara generasi teks-gambar dan generasi teks murni, kerangka kerja MiniGPT-5 menggunakan strategi dua tahap untuk pelatihan

Tahap Penyelarasan Unimodal atau UAS,
Tahap Pembelajaran Multimodal atau MLS.

Awalnya, kerangka kerja menyelaraskan fitur generasi gambar dengan fitur voken dalam dataset pasangan teks-gambar tunggal di mana setiap sampel data hanya berisi satu teks dan satu gambar, dan teks biasanya merupakan caption gambar. Pada tahap ini, kerangka kerja memungkinkan LLM untuk menghasilkan vokens dengan menggunakan caption sebagai input LLM.

Setelah UAS dieksekusi dengan sukses, model dapat menghasilkan gambar untuk deskripsi teks tunggal, tetapi mengalami kesulitan dengan generasi bahasa dan visi yang bergantian, termasuk pasangan teks-gambar, dan penalaran yang rumit diperlukan untuk generasi gambar dan teks. Untuk mengatasi hambatan ini, pengembang telah melakukan penyetelan lebih lanjut pada kerangka kerja MiniGPT-5 menggunakan parameter PEFT dengan dataset visi dan bahasa yang bergantian seperti VIST. Selama tahap ini, kerangka kerja mengonstruksi tiga tugas yang berbeda dari dataset

Generasi Teks Hanya : Menghasilkan teks yang terkait diberikan gambar berikutnya.
Generasi Gambar Hanya : Menghasilkan gambar yang terkait diberikan teks berikutnya.
Generasi Multimodal : Menghasilkan pasangan teks-gambar menggunakan konteks yang diberikan.

MiniGPT-5 : Benchmark dan Hasil

Untuk mengevaluasi kinerjanya dalam generasi multimodal secara komprehensif, tim pengembangan MiniGPT-5 membandingkan kinerjanya dengan model baseline lainnya, termasuk Divter, GILL, dan Model Generasi Unimodal yang Disetel, dan perbandingan ini ditunjukkan dalam tabel di bawah.

Kerangka kerja MiniGPT-5 memahami bahwa output multimodal mungkin bermakna sesuai dengan konteks, namun mungkin berbeda dari kenyataan sebenarnya, yang merupakan alasan utama mengapa kerangka kerja MiniGPT-5 juga mengintegrasikan input manusia untuk mengevaluasi dan menilai kinerja model. Secara keseluruhan, efektivitas kerangka kerja MiniGPT-5 untuk tugas multimodal diukur dari tiga perspektif.

Kontinuitas Bahasa : menilai apakah konten yang dihasilkan selaras dengan konteks yang diberikan secara mulus.
Kualitas Gambar : menilai atau mengevaluasi relevansi dan kejelasan gambar yang dihasilkan.
Kohesi Multimodal : untuk menentukan apakah output teks-gambar yang digabungkan sesuai dengan konteks awal.

Evaluasi Langkah Terakhir VIST

Dalam tahap eksperimen pertama, kerangka kerja MiniGPT-5 bertujuan untuk menghasilkan gambar yang sesuai, dan tabel di bawah merangkum hasil yang diperoleh dari pengaturan ini.

Seperti yang dapat dilihat, kerangka kerja MiniGPT-5 dalam ketiga pengaturan ini dapat mengungguli kerangka kerja SD2 yang disetel, sehingga menekankan efektivitas pipeline MiniGPT-5.

Gambar di atas membandingkan kinerja kerangka kerja MiniGPT-5 dengan kerangka kerja MiniGPT-4 yang disetel pada metrik kinerja S-BERT, Rouge-L, dan Meteor. Hasilnya menunjukkan bahwa penggunaan token generatif tidak mempengaruhi kinerja kerangka kerja secara negatif ketika melakukan tugas pemahaman multimodal. Hasilnya juga menunjukkan bahwa kerangka kerja MiniGPT-5 dapat memanfaatkan prompt input multimodal panjang-horizontal di berbagai dataset untuk menghasilkan gambar yang berkualitas tinggi dan kohesif tanpa mengorbankan kemampuan model asli untuk pemahaman multimodal.

Tabel di atas membandingkan kinerja tiga kerangka kerja pada 5.000 sampel untuk generasi multimodal dari aspek Kohesi Multimodal, Kualitas Gambar, dan Kontinuitas Bahasa. Seperti yang dapat dilihat, kerangka kerja MiniGPT-5 mengungguli dua model baseline lainnya dalam lebih dari 70% kasus. Di sisi lain, tabel di bawah menunjukkan kinerja kerangka kerja MiniGPT-5 pada dataset validasi CC3M untuk generasi gambar tunggal. Berkat keterbatasan data, pengembang menemukan kesenjangan untuk penyelarasan voken ketika digunakan dengan Stable Diffusion. Meskipun keterbatasan ini, kerangka kerja MiniGPT-5 mengungguli kerangka kerja baseline GILL saat ini di semua metrik.

Kesimpulan

Dalam artikel ini, kita telah membahas tentang MiniGPT-5, sebuah teknik algoritma generasi bahasa dan visi yang bergantian yang memperkenalkan konsep “generative vokens” dalam upaya untuk memanfaatkan kemampuan LLM untuk menghasilkan data multimodal dengan menyelaraskan model bahasa besar dengan model generasi teks-ke-gambar yang pra-dilatih. Kita telah membahas komponen-komponen penting dan arsitektur keseluruhan kerangka kerja MiniGPT-5, bersama dengan hasil yang menunjukkan perbaikan kinerja dan efisiensi yang signifikan dibandingkan dengan model baseline dan state-of-the-art saat ini. MiniGPT-5 berharap untuk menetapkan benchmark baru dalam domain generasi konten dan data multimodal, dan bertujuan untuk mengatasi tantangan yang dihadapi oleh model sebelumnya ketika mencoba memecahkan masalah yang sama.

Related Topics:GPT-5 GPT5 LLM LLMs mini-GPT5

Kunal Kejriwal

Seorang insinyur oleh profesi, seorang penulis oleh hati. Kunal adalah seorang penulis teknis dengan cinta yang mendalam & pemahaman tentang AI dan ML, yang didedikasikan untuk menyederhanakan konsep-konsep kompleks dalam bidang ini melalui dokumentasi yang menarik dan informatif.