Kecerdasan Buatan
MiniGPT-5: Generasi Visi-Dan-Bahasa yang Disisipkan melalui Voken Generatif

Selama beberapa tahun terakhir, Large Language Model (LLM) telah menarik perhatian pengembang AI di seluruh dunia karena terobosan dalam Natural Language Processing (NLP). Model-model ini telah menetapkan tolok ukur baru dalam pembuatan dan pemahaman teks. Namun, meskipun terdapat kemajuan dalam pembuatan teks, menghasilkan gambar yang sesuai dengan narasi tekstual masih merupakan sebuah tantangan. Untuk mengatasi hal ini, pengembang telah memperkenalkan visi inovatif dan pendekatan pembuatan bahasa berdasarkan “voken generatif”, yang menjembatani kesenjangan untuk keluaran teks-gambar yang harmonis.
Landasan di balik MiniGPT-5 adalah strategi pelatihan dua tahap yang sangat berfokus pada pembuatan data multimodal tanpa deskripsi, dimana data pelatihan tidak memerlukan deskripsi gambar yang komprehensif. Selain itu, untuk meningkatkan integritas model, model ini menggabungkan sistem panduan bebas pengklasifikasi yang meningkatkan efektivitas suara untuk menghasilkan gambar. Pada fase awal, kerangka kerja MiniGPT-5 telah menunjukkan kinerja yang kuat dan peningkatan substansial dibandingkan model Divter dasar yang dilatih pada kumpulan data MMDialog, dan terus-menerus menunjukkan kemampuannya untuk memberikan keluaran multimodal yang sebanding & bahkan lebih unggul dalam evaluasi manusia yang dilakukan. pada kumpulan data VIST yang lebih jauh menyoroti kinerja & efisiensinya di berbagai tolok ukur.
MiniGPT5: Sebuah Pengantar
Dengan perkembangan terkini kerangka LLM, dan aplikasi berdasarkan kerangka LLM ini, integrasi fitur multimedia adalah bidang yang popularitasnya meningkat karena juga terbukti menjadi kemajuan penting yang mendukung beragam aplikasi dari alat pembuatan konten canggih menjadi agen dialog multimoda mutakhir. Dengan penelitian dan pengembangan yang berkelanjutan, model bahasa dan visi berada pada titik di mana pekerjaan sedang dilakukan untuk memfasilitasi keduanya dalam menghasilkan data teks & visual dengan lancar. Itu kemampuan LLM untuk menghasilkan data multimodal secara mulus akan membantu meningkatkan interaksi di berbagai domain termasuk e-commerce, media, dan realitas virtual.
Pada akhirnya, tujuannya adalah untuk memungkinkan model mensintesis, mengenali, dan merespons dengan cara yang konsisten & logis menggunakan modalitas tekstual & visual, sehingga memainkan peran penting dalam menyelaraskan aliran informasi, dan menciptakan narasi yang logis & konsisten. Kebutuhan untuk mencapai perpaduan modalitas tekstual & visual terutama didorong oleh kebutuhan interaksi multimodal yang lebih lancar, terintegrasi & interaktif dalam LLM, dan pada akhirnya mencapai generasi bahasa dan visi yang bergantian. Namun, mencapai interaksi multimodal yang terintegrasi & interaktif di LLM adalah tugas rumit yang penuh dengan banyak tantangan termasuk
- Meskipun LLM saat ini sangat efisien dan mumpuni dalam menghasilkan teks dan memproses pasangan teks-gambar, LLM tidak memberikan kinerja yang memuaskan dalam menghasilkan gambar.
- Pengembangan model visi dan bahasa ini sangat bergantung pada data yang berfokus pada topik sehingga menyulitkan model untuk menyelaraskan teks yang dihasilkan dengan gambar yang sesuai.
- Terakhir, ada kebutuhan untuk menghasilkan strategi yang lebih efektif karena seiring dengan peningkatan kemampuannya, kebutuhan memori LLM juga meningkat terutama saat melakukan tugas-tugas hilir.
Kerangka kerja MiniGPT-5, teknik algoritma penghasil bahasa & visi yang disisipkan yang memperkenalkan konsep “voken generatif” dalam upaya untuk mengatasi tantangan yang disebutkan di atas. Kerangka kerja MiniGPT-5 mengusulkan pendekatan baru untuk pembuatan data multimodal dengan menggabungkan Model Bahasa Besar dengan teknik Difusi Stabil dengan menggunakan token visual khusus. Usulan metode pelatihan dua tahap yang digunakan oleh kerangka kerja MiniGPT-5 menyoroti pentingnya tahap dasar yang bebas dari deskripsi, dan mempersiapkan model untuk memberikan kinerja yang efisien bahkan dalam skenario dengan data terbatas.
Namun yang membedakan model MiniGPT-5 dari kerangka kerja yang ada saat ini adalah bahwa tahapan umum kerangka MiniGPT-5 tidak terdiri dari anotasi khusus domain. Selain itu, untuk memastikan bahwa teks yang dihasilkan, dan gambar terkait selaras satu sama lain, kerangka kerja MiniGPT-5 menerapkan strategi kehilangan ganda yang semakin menyempurnakan pendekatan MiniGPT-5 dalam menggunakan panduan bebas pengklasifikasi dan voken generatif. Kerangka kerja MiniGPT-5 mengoptimalkan efisiensi pelatihan, dan mengatasi kendala memori berkat strategi efisiensi parameternya untuk menyempurnakan model.
Untuk memberi Anda ringkasan singkat, kerangka kerja MiniGPT-5
- Mengusulkan metode yang menggunakan encoder multimodal yang mewakili metode baru & umum yang secara historis terbukti lebih efektif daripada LLM tradisional, dan menggunakan token generatif yang dikombinasikan dengan teknik Difusi Stabil untuk menghasilkan bahasa & keluaran visual yang disisipkan.
- Mengusulkan strategi pelatihan dua tahap untuk menghasilkan keluaran multimodal bebas deskripsi, dan penyertaan panduan bebas pengklasifikasi selama pelatihan untuk lebih menyempurnakan kualitas data yang dihasilkan.
Model MiniGPT-5 sangat terinspirasi dari penelitian & pekerjaan sebelumnya yang dilakukan di bidang
- Pembuatan Teks ke Gambar : Untuk memudahkan transformasi deskripsi tekstual menjadi representasi visualnya masing-masing, dan model teks menjadi gambar.
- MLLM atau Model Bahasa Besar Multimodal : Menggunakan model LLM terlatih untuk mengeksplorasi penerapan & efektivitasnya menghasilkan data multimodal.
- Generasi Multimodal dengan Model Bahasa Besar : Untuk meningkatkan kemampuan LLM untuk mengintegrasikan bahasa & pembuatan data visual dengan lancar.
MiniGPT-5: Metode, Arsitektur, dan Kerangka
Untuk memfasilitasi model bahasa besar dengan kemampuan pembuatan data multimodal, model MiniGPT-5 memperkenalkan kerangka kerja yang bertujuan untuk mengintegrasikan model pembuatan teks ke gambar dan model bahasa besar multimodal yang telah dilatih sebelumnya. Kerangka kerja MiniGPT-5 selanjutnya memperkenalkan “voken generatif”, token visual khusus yang memungkinkan pengembang mengatasi perbedaan yang muncul di berbagai domain dengan dapat melatih langsung pada gambar mentah. Untuk lebih meningkatkan kualitas data multimodal yang dihasilkan oleh LLM, kerangka kerja MiniGPT-5 memperkenalkan strategi bebas pengklasifikasi ditambah dengan metode pelatihan dua tahap tingkat lanjut. Mari kita lihat secara detail kerangka kerja MiniGPT-5.
Tahap Masukan MultiModal
Perkembangan LLM di masa lalu telah membawa kemampuan pemahaman multimodal LLM, memungkinkan pemrosesan gambar sebagai input berurutan. Kerangka kerja MiniGPT-5 memanfaatkan voken generatif yang dirancang khusus untuk menghasilkan fitur visual dalam upaya memperluas kemampuan pemahaman multimodal LLM ke pembuatan data multimodal. Selain itu, kerangka kerja MiniGPT-5 memanfaatkan teknik penyempurnaan yang efisien dan canggih untuk pembelajaran keluaran multimodal dengan kerangka LLM.
Pengkodean Multimodal
Encoder visual yang telah dilatih sebelumnya dalam kerangka kerja MiniGPT-5 mengubah setiap gambar masukan menjadi fitur, dan setiap token teks disematkan sebagai vektor, dan fitur perintah masukan dihasilkan saat penyematan ini digabungkan satu sama lain.
Menambahkan Voken dalam Model Bahasa Besar
Secara tradisional, kosakata Model Bahasa Besar hanya terdiri dari token tekstual, itulah sebabnya pengembang yang mengerjakan kerangka MiniGPT-5 harus menjembatani kesenjangan antara LLM generatif dan tradisional. Kerangka kerja MiniGPT-5 memperkenalkan serangkaian token khusus sebagai token generatif ke dalam kosakata LLM. Kerangka kerja tersebut kemudian memanfaatkan status keluaran tersembunyi dari LLM untuk voken khusus ini untuk pembuatan gambar berikutnya, dan penyisipan gambar yang disisipkan diwakili oleh posisi voken.
PEFT atau Penyempurnaan Efisien Parameter
PEFT atau Parameter Efficient Fine Tuning adalah konsep penting yang digunakan untuk melatih LLM, namun penerapan PEFT dalam pengaturan multimodal masih belum banyak dieksplorasi. Framework MiniGPT-5 menggunakan Parameter Efficient Fine Tuning pada encoder framework MiniGPT-4 untuk melatih model agar memahami perintah atau instruksi dengan lebih baik, dan bahkan meningkatkan performa model secara keseluruhan dalam lingkungan zero-shot atau baru .
Pembangkitan Keluaran Multimoda
Untuk menyelaraskan model generatif dengan token generatif secara akurat, kerangka kerja MiniGPT-5 merumuskan modul pemetaan ringkas untuk mencocokkan dimensi, dan menggabungkan kerugian pengawasan termasuk kerugian model difusi laten, dan hilangnya ruang teks. Hilangnya pengawasan difusi laten menyelaraskan fitur visual yang sesuai dengan token secara langsung sedangkan hilangnya ruang teks membantu model mempelajari posisi token yang benar. Karena voken generatif dalam kerangka MiniGPT-5 dipandu langsung oleh gambar, kerangka MiniGPT-5 tidak memerlukan gambar untuk memiliki deskripsi yang komprehensif, sehingga menghasilkan pembelajaran bebas deskripsi.
Pembuatan Ruang Teks
Kerangka kerja MiniGPT-5 mengikuti metode pemodelan bahasa kasual untuk menghasilkan voken dan teks dalam ruang teks secara bersamaan, dan selama fase pelatihan, pengembang menambahkan voken ke posisi gambar kebenaran dasar, dan melatih model untuk memprediksi voken dalam pembuatan teks.
Memetakan Fitur Voken untuk Pembuatan Gambar
Setelah menghasilkan ruang teks, kerangka kerja menyelaraskan status keluaran tersembunyi dengan ruang fitur bersyarat teks dari model pembuatan teks ke gambar. Kerangka kerja ini juga mendukung modul pemetaan fitur yang mencakup model MLP dua lapis, urutan fitur dekoder yang dapat dipelajari, dan model transformator encoder-decoder empat lapis.
Pembuatan Gambar dengan LDM atau Model Difusi Laten
Untuk menghasilkan gambar yang diperlukan dalam proses denoising, kerangka kerja menggunakan fitur pemetaan sebagai masukan bersyarat. Kerangka kerja ini juga menggunakan LDM atau Model Difusi Laten sebagai panduan, karena selama fase pelatihan, gambar kebenaran dasar pertama-tama diubah menjadi fitur laten menggunakan VAE yang telah dilatih sebelumnya, setelah itu, pengembang memperoleh fitur derau laten dengan menambahkan beberapa derau. .
Pendekatan komprehensif yang diterapkan oleh kerangka kerja MiniGPT-5 memungkinkan pengembang untuk memiliki pemahaman yang koheren, dan menghasilkan elemen visual dan tekstual, menggunakan token khusus, memanfaatkan kemampuan model yang telah dilatih sebelumnya, dan menggunakan teknik pelatihan inovatif.
MiniGPT-5: Pelatihan dan Hasil
Saat mengerjakan kerangka kerja MiniGPT-5, pengembang mengamati bahwa pelatihan pada kumpulan data teks dan gambar yang disisipkan secara langsung dapat menghasilkan gambar dengan kualitas yang berkurang, dan ketidakselarasan mengingat pergeseran domain yang signifikan antara domain gambar & teks. Untuk mengurangi masalah ini, pengembang mengadopsi dua strategi pelatihan yang berbeda,
- Mencakup penggabungan teknik panduan bebas pengklasifikasi yang meningkatkan efektivitas token generatif selama proses difusi.
- Strategi kedua dibagi lagi menjadi dua tahap
- Tahap pra-pelatihan awal yang berfokus terutama pada penyelarasan fitur-fitur kasar.
- Tahap penyesuaian yang memfasilitasi pembelajaran fitur.
Panduan Gratis CFG atau Pengklasifikasi
Ide untuk pertama kali memanfaatkan CFG untuk pembangkitan multimodal muncul sebagai hasil dari upaya untuk meningkatkan konsistensi & logika antara gambar & teks yang dihasilkan, dan CFG diperkenalkan selama proses difusi teks ke gambar. Metode ini mengamati bahwa dengan melatih generasi tanpa syarat dan bersyarat dengan dropout pengkondisian, model generatif dapat mencapai hasil bersyarat yang ditingkatkan.
Strategi Pelatihan Dua Tahap
Mengingat pergeseran domain signifikan yang diamati antara pembuatan teks-gambar dan pembuatan teks murni, kerangka kerja MiniGPT-5 menggunakan strategi dua tahap untuk pelatihan
- Tahap Penyelarasan Unimodal atau UAS,
- Tahap Pembelajaran Multimodal atau MLS.
Awalnya, kerangka kerja menyelaraskan fitur pembuatan gambar dengan fitur voken dalam kumpulan data pasangan teks-gambar tunggal di mana setiap sampel data hanya berisi satu teks, dan hanya satu gambar, dan teks tersebut biasanya berupa keterangan gambar. Pada tahap ini, kerangka kerja memungkinkan LLM menghasilkan voken dengan memanfaatkan keterangan sebagai masukan LLM.
Setelah UAS berhasil dieksekusi, model dapat menghasilkan gambar untuk deskripsi teks tunggal, namun kesulitan dengan bahasa yang disisipkan dan pembuatan visi termasuk pasangan teks-gambar, dan diperlukan penalaran yang rumit untuk menghasilkan gambar dan teks. Untuk mengatasi rintangan ini, para pengembang telah menyempurnakan lebih lanjut kerangka kerja MiniGPT-5 menggunakan parameter PEFT dengan menyisipkan kumpulan data visi dan bahasa seperti VIST. Selama tahap ini, kerangka kerja membangun tiga tugas berbeda dari kumpulan data
- Pembuatan Hanya Teks : Menghasilkan teks terkait dengan gambar berikutnya.
- Image Only Generation : Menghasilkan gambar terkait dengan teks berikutnya.
- Generasi Multimodal : Menghasilkan pasangan gambar teks menggunakan konteks yang diberikan.
MiniGPT-5: Tolok Ukur dan Hasil
Untuk mengevaluasi kinerjanya dalam generasi multimodal secara komprehensif, tim pengembangan MiniGPT-5 membandingkan kinerjanya dengan model dasar terkemuka lainnya termasuk Divter, GILL, dan Fine Tuned Unimodal Generation Model, dan perbandingannya ditunjukkan pada tabel di bawah.
Kerangka kerja MiniGPT-5 memahami bahwa keluaran multimoda mungkin bermakna sesuai dengan konteksnya, namun mungkin berbeda dari kenyataan di lapangan. Hal ini menjadi alasan utama mengapa kerangka kerja MiniGPT-5 juga menggabungkan masukan manusia untuk mengevaluasi & menilai kinerja model. . Secara keseluruhan, efektivitas kerangka MiniGPT-5 untuk tugas multimoda diukur menggunakan tiga perspektif.
- Kontinuitas Bahasa: menilai apakah konten yang dihasilkan selaras dengan konteks yang disediakan.
- Kualitas gambar : menilai atau mengevaluasi relevansi & kejelasan gambar yang dihasilkan.
- Koherensi Multimoda : untuk menentukan apakah keluaran gambar teks gabungan sinkron dengan konteks awal.
Evaluasi Langkah Akhir VIST
Pada percobaan tahap pertama, kerangka kerja MiniGPT-5 bertujuan untuk menghasilkan gambar yang sesuai, dan tabel di bawah merangkum hasil yang diperoleh dari pengaturan ini.
Seperti yang dapat dilihat, kerangka kerja MiniGPT-5 di ketiga pengaturan tersebut dapat mengungguli kerangka kerja SD2 yang telah disempurnakan, sehingga menyoroti efektivitas pipeline MiniGPT-5.
Gambar di atas membandingkan kinerja kerangka MiniGPT-5 dengan yang telah disempurnakan Kerangka kerja MiniGPT-4 pada metrik kinerja S-BERT, Rouge-L dan Meteor. Hasilnya menunjukkan bahwa penggunaan voken generatif tidak berdampak negatif terhadap kinerja kerangka saat melakukan tugas pemahaman multimodal. Hasilnya juga menunjukkan bahwa kerangka kerja MiniGPT-5 mampu memanfaatkan masukan multimodal horizontal panjang di beragam data untuk menghasilkan gambar berkualitas tinggi & koheren tanpa mengorbankan kemampuan model asli untuk pemahaman multimodal.
Tabel di atas membandingkan performa tiga framework pada 5,000 sampel untuk pembangkitan multimodal dari aspek Koherensi Multimodal, Kualitas Gambar, dan Kontinuitas Bahasa. Seperti yang dapat diamati, kerangka kerja MiniGPT-5 mengungguli dua model dasar lainnya sebanyak lebih dari 70% kasus. Di sisi lain, tabel di bawah ini menunjukkan performa framework MiniGPT-5 pada kumpulan data validasi CC3M untuk pembuatan gambar tunggal. Berkat keterbatasan data, pengembang menemukan celah untuk penyelarasan suara saat digunakan dengan Difusi Stabil. Terlepas dari keterbatasan ini, kerangka kerja MiniGPT-5 mengungguli kerangka kerja GILL dasar terkini di semua metrik.
Kesimpulan
Dalam artikel ini, kita telah membahas tentang MiniGPT-5, teknik algoritme penghasil bahasa & visi yang disisipkan yang memperkenalkan konsep "voken generatif" dalam upaya memanfaatkan kemampuan LLM untuk menghasilkan data multimodal dan menyelaraskan model bahasa besar dengan a model pembuatan teks ke gambar yang telah dilatih sebelumnya. Kami telah membicarakan tentang komponen penting & keseluruhan arsitektur kerangka kerja MiniGPT-5 beserta hasil yang menunjukkan peningkatan substansial dalam kinerja & efisiensi bila dibandingkan dengan model dasar & canggih saat ini. MiniGPT-5 bercita-cita untuk menetapkan tolok ukur baru dalam domain konten multimodal & pembuatan data, dan bertujuan untuk menyelesaikan tantangan yang dihadapi oleh model sebelumnya ketika mencoba memecahkan masalah yang sama.