potongan Mini-Gemini: Menambang Potensi Model Bahasa Visi Multi-modalitas - Unite.AI
Terhubung dengan kami

Kecerdasan Buatan

Mini-Gemini: Menambang Potensi Model Bahasa Visi Multi-modalitas

mm

Diterbitkan

 on

Mini-Gemini: Menambang Potensi Model Bahasa Visi Multi-modalitas

Kemajuan di model bahasa besar telah secara signifikan mempercepat pengembangan pemrosesan bahasa alami, atau NLP. Pengenalan kerangka transformator terbukti menjadi tonggak sejarah, memfasilitasi pengembangan model bahasa gelombang baru, termasuk OPT dan BERT, yang menunjukkan pemahaman linguistik yang mendalam. Selain itu, dimulainya GPT, atau model Transformator Terlatih Generatif, memperkenalkan paradigma baru dengan pemodelan autoregresif dan menetapkan metode yang kuat untuk prediksi dan pembangkitan bahasa. Munculnya model bahasa seperti GPT-4, ChatGPT, Mixtral, LLaMA, dan lainnya semakin mendorong evolusi yang cepat, dengan masing-masing model menunjukkan peningkatan kinerja dalam tugas-tugas yang melibatkan pemrosesan bahasa yang kompleks. Di antara metode yang ada, penyetelan instruksi telah muncul sebagai teknik utama untuk menyempurnakan keluaran model bahasa besar yang telah dilatih sebelumnya, dan integrasi model ini dengan alat khusus untuk tugas visual telah menyoroti kemampuan adaptasinya dan membuka pintu untuk penerapan di masa depan. Ini jauh melampaui pemrosesan LLM berbasis teks tradisional untuk mencakup interaksi multimodal.

Selain itu, konvergensi pemrosesan bahasa alami dan model visi komputer telah memunculkan VLM, atau Model Bahasa Visi, yang menggabungkan model linguistik dan visi untuk mencapai kemampuan pemahaman dan penalaran lintas-modal. Integrasi dan munculnya model visual dan linguistik telah memainkan peran penting dalam memajukan tugas-tugas yang memerlukan pemrosesan bahasa dan pemahaman visual. Munculnya model revolusioner seperti CLIP semakin menjembatani kesenjangan antara tugas visi dan model bahasa, menunjukkan kelayakan dan kepraktisan aplikasi lintas modal. Kerangka kerja yang lebih baru seperti LLaMA dan BLIP memanfaatkan data instruksi yang disesuaikan untuk merancang strategi efisien yang menunjukkan kemampuan model yang kuat. Selain itu, menggabungkan model bahasa besar dengan keluaran gambar adalah fokus penelitian multimodal baru-baru ini, dengan metode terbaru yang mampu melewati pembangkitan langsung dengan memanfaatkan pendekatan pengambilan gambar untuk menghasilkan keluaran gambar dan teks yang disisipkan.

Meskipun demikian, meskipun ada kemajuan pesat dalam model bahasa visi yang memfasilitasi penalaran dasar dan dialog visual, masih terdapat kesenjangan kinerja yang signifikan antara model lanjutan seperti GPT-4, dan model bahasa visi. Mini-Gemini adalah upaya untuk mempersempit kesenjangan yang ada antara model bahasa visi dan model yang lebih maju dengan menggali potensi VLM untuk kinerja yang lebih baik dari tiga aspek: pembuatan dengan panduan VLM, data berkualitas tinggi, dan token visual resolusi tinggi. Untuk meningkatkan token visual, kerangka kerja Mini-Gemini mengusulkan untuk menggunakan encoder visual tambahan untuk penyempurnaan resolusi tinggi tanpa menambah jumlah token visual. Kerangka kerja Mini-Gemini selanjutnya membangun kumpulan data berkualitas tinggi dalam upaya untuk mendorong pemahaman yang tepat tentang gambar dan generasi berbasis penalaran. Secara keseluruhan, kerangka kerja Mini-Gemini berupaya menggali potensi model bahasa visi, dan bertujuan untuk memberdayakan kerangka kerja yang ada dengan penalaran gambar, pemahaman, dan kemampuan generatif secara bersamaan. Artikel ini bertujuan untuk membahas kerangka kerja Mini-Gemini secara mendalam, dan kami mengeksplorasi mekanisme, metodologi, arsitektur kerangka kerja beserta perbandingannya dengan kerangka kerja canggih. Jadi mari kita mulai. 

Mini-Gemini: Mempercepat VLM Multi-Modalitas

Selama bertahun-tahun, model bahasa besar telah berevolusi, dan kini model tersebut memiliki kemampuan multi-modal yang luar biasa, dan menjadi bagian penting dari model bahasa visi saat ini. Namun, terdapat kesenjangan antara kinerja multi-modal model bahasa besar dan model bahasa visi dengan penelitian terbaru yang mencari cara untuk menggabungkan visi dengan model bahasa besar menggunakan gambar dan video. Untuk tugas penglihatan itu sendiri, resolusi gambar merupakan elemen penting untuk secara eksplisit meskipun lingkungan sekitar dengan halusinasi visual yang minimal. Untuk menjembatani kesenjangan tersebut, para peneliti sedang mengembangkan model untuk meningkatkan pemahaman visual saat ini model bahasa penglihatan, dan dua pendekatan yang paling umum adalah: meningkatkan resolusi, dan meningkatkan jumlah token visual. Meskipun peningkatan jumlah token visual dengan gambar beresolusi lebih tinggi memang meningkatkan pemahaman visual, peningkatan tersebut sering kali disertai dengan peningkatan persyaratan komputasi dan biaya terkait terutama saat memproses banyak gambar. Selain itu, kemampuan model yang ada, kualitas data yang ada, dan penerapannya masih belum memadai untuk mempercepat proses pengembangan, sehingga menimbulkan pertanyaan bagi para peneliti, “bagaimana mempercepat pengembangan model bahasa visi dengan biaya yang dapat diterima"?

Kerangka kerja Mini-Gemini adalah upaya untuk menjawab pertanyaan tersebut ketika berupaya mengeksplorasi potensi model bahasa visi dari tiga aspek: pembuatan atau aplikasi yang diperluas dengan panduan VLM, data berkualitas tinggi, dan token visual resolusi tinggi. Pertama, kerangka kerja Mini-Gemini mengimplementasikan arsitektur ConvNet untuk menghasilkan kandidat dengan resolusi lebih tinggi secara efisien, meningkatkan detail visual sambil mempertahankan jumlah token visual untuk model bahasa besar. Kerangka kerja Mini-Gemini menggabungkan kumpulan data berkualitas tinggi yang tersedia untuk umum dalam upaya meningkatkan kualitas data, dan mengintegrasikan peningkatan ini dengan model generatif dan bahasa besar yang canggih dengan upaya untuk meningkatkan kinerja VLM, dan meningkatkan pengalaman pengguna. Strategi multifaset yang diterapkan oleh kerangka Mini-Gemini memungkinkannya mengeksplorasi kemampuan tersembunyi dari model bahasa visi, dan mencapai kemajuan signifikan dengan keterbatasan sumber daya yang nyata. 

Secara umum, kerangka Mini-Gemini menggunakan paradigma apa pun karena mampu menangani teks dan gambar sebagai masukan dan keluaran. Secara khusus, kerangka kerja Mini-Gemini memperkenalkan saluran yang efisien untuk meningkatkan token visual untuk gambar masukan, dan dilengkapi sistem encoder ganda yang terdiri dari encoder kembar: encoder pertama untuk gambar beresolusi tinggi, sedangkan encoder kedua untuk gambar beresolusi rendah. penyematan visual berkualitas. Selama inferensi, pembuat enkode bekerja dalam mekanisme perhatian, di mana pembuat enkode resolusi rendah menghasilkan kueri visual, sedangkan pembuat enkode resolusi tinggi menyediakan kunci dan nilai untuk referensi. Untuk meningkatkan kualitas data, kerangka kerja Mini-Gemini mengumpulkan dan menghasilkan lebih banyak data berdasarkan sumber daya publik, termasuk instruksi berorientasi tugas, data terkait pembuatan, dan respons resolusi tinggi, dengan peningkatan jumlah dan peningkatan kualitas akan meningkatkan kinerja secara keseluruhan dan kemampuan model. Selain itu, kerangka kerja Mini-Gemini mendukung pembuatan teks dan gambar secara bersamaan sebagai hasil integrasi model bahasa visi dengan model generatif tingkat lanjut. 

Mini-Gemini: Metodologi dan Arsitektur

Pada intinya, kerangka kerja Mini-Gemini secara konseptual sederhana dan terdiri dari tiga komponen. 

  1. Kerangka kerja ini menggunakan encoder visi ganda untuk menyediakan penyematan visual beresolusi rendah dan kandidat beresolusi tinggi. 
  2. Kerangka kerja ini mengusulkan untuk mengimplementasikan penambangan informasi patch untuk melakukan penambangan pada tingkat patch antara kueri visual resolusi rendah, dan wilayah resolusi tinggi. 
  3. Kerangka kerja Mini-Gemini menggunakan model bahasa besar untuk menggabungkan teks dengan gambar untuk pembuatan dan pemahaman secara bersamaan. 

Encoder Visi Ganda

Kerangka kerja Mini-Gemini dapat memproses input teks dan gambar, dengan opsi untuk menanganinya secara individual atau kombinasi. Seperti yang ditunjukkan pada gambar berikut, kerangka kerja Mini-Gemini memulai proses dengan menggunakan interpolasi bilinear untuk menghasilkan gambar beresolusi rendah dari gambar beresolusi tinggi yang sesuai. 

Kerangka kerja ini kemudian memproses gambar-gambar ini dan mengkodekannya ke dalam penyematan visual multi-grid dalam dua aliran gambar paralel. Lebih khusus lagi, kerangka kerja Mini-Gemini mempertahankan alur tradisional untuk aliran resolusi rendah dan menggunakan Visual Transformer yang telah dilatih sebelumnya CLIP untuk mengkodekan penyematan visual, memfasilitasi model untuk menjaga hubungan jangka panjang antara patch visual untuk interaksi berikutnya dalam bahasa besar model. Untuk aliran resolusi tinggi, kerangka kerja Mini-Gemini mengadopsi encoder berbasis CNN atau Convolution Neural Networks untuk pemrosesan gambar resolusi tinggi yang adaptif dan efisien. 

Penambangan Info Patch

Dengan encoder visi ganda yang menghasilkan penyematan LR dan fitur HR, kerangka kerja Mini-Gemini mengusulkan untuk mengimplementasikan penambangan informasi patch dengan tujuan memperluas potensi model bahasa visi dengan token visual yang ditingkatkan. Untuk mempertahankan jumlah token visual demi efisiensi dalam model bahasa besar, kerangka kerja Mini-Gemini menggunakan penyematan visual resolusi rendah sebagai kueri, dan bertujuan untuk mengambil isyarat visual yang relevan dari kandidat fitur HR, dengan kerangka kerja mengambil Peta fitur HR sebagai kunci dan nilai.

Seperti yang ditunjukkan pada gambar di atas, rumus tersebut merangkum proses penyempurnaan dan sintesis isyarat visual, yang mengarah pada pembuatan token visual tingkat lanjut untuk pemrosesan model bahasa besar berikutnya. Proses ini memastikan bahwa kerangka kerja mampu membatasi penambangan untuk setiap kueri ke subwilayah terkait di peta fitur HR dengan jumlah fitur berdasarkan piksel, sehingga menghasilkan peningkatan efisiensi. Berkat desain ini, kerangka kerja Mini-Gemini mampu mengekstrak detail fitur HR tanpa meningkatkan jumlah token visual, dan menjaga keseimbangan antara kelayakan komputasi dan kekayaan detail. 

Pembuatan Teks dan Gambar

Kerangka kerja Mini-Gemini menggabungkan token visual dan token teks masukan sebagai masukan ke model bahasa besar untuk pembuatan regresi otomatis. Tidak seperti model bahasa visi tradisional, kerangka kerja Mini-Gemini mendukung pembuatan teks saja serta teks-gambar sebagai masukan dan keluaran, yaitu kesimpulan apa pun, dan ini adalah hasil dari kemampuan pemahaman dan penalaran gambar-teks yang luar biasa, yaitu Mini-Gemini mampu menghasilkan gambar berkualitas tinggi. Tidak seperti karya terbaru yang berfokus pada kesenjangan domain antara penyematan teks pada model generasi dan model bahasa besar, kerangka kerja Mini-Gemini berupaya mengoptimalkan kesenjangan dalam domain perintah bahasa dengan menerjemahkan instruksi pengguna ke dalam perintah berkualitas tinggi yang menghasilkan gambar yang relevan dengan konteks. dalam model difusi laten. Selain itu, untuk pemahaman yang lebih baik tentang penyempurnaan instruksi, dan penyelarasan lintas modalitas, kerangka kerja Mini-Gemini mengumpulkan sampel dari kumpulan data berkualitas tinggi yang tersedia untuk umum, dan menggunakan kerangka kerja turbo GPT-4 untuk menyusun lebih lanjut instruksi 13K setelah kumpulan data guna mendukung pembuatan gambar. 

Mini-Gemini: Eksperimen dan Hasil

Untuk mengevaluasi kinerjanya, kerangka kerja Mini-Gemini dibuat dengan kerangka kerja ConvNext-L yang telah dilatih sebelumnya untuk encoder visi HR, dan dengan CLIP yang telah dilatih sebelumnya. Transformator Visi untuk encoder visi LR. Untuk memastikan efisiensi pelatihan, kerangka kerja Mini-Gemini menjaga kedua encoder visi tetap, dan mengoptimalkan proyektor penambangan informasi patch di semua tahap, dan mengoptimalkan model bahasa besar selama tahap penyetelan instruksi itu sendiri. 

Tabel berikut membandingkan performa kerangka Mini-Gemini dengan model tercanggih di berbagai pengaturan, dan juga mempertimbangkan model pribadi. Seperti yang dapat diamati, Mini-Gemini secara konsisten mengungguli kerangka kerja yang ada di berbagai LLM pada resolusi normal, dan menunjukkan kinerja unggul ketika dikonfigurasi dengan Gemma-2B dalam kategori model efisien. Selain itu, ketika model bahasa yang lebih besar digunakan, skalabilitas kerangka Mini-Gemini terlihat jelas. 

Untuk mengevaluasi kinerjanya pada resolusi tinggi dan token visual yang diperluas, eksperimen dilakukan dengan ukuran input 672 untuk encoder vision LR, dan 1536 untuk encoder visual. Seperti disebutkan sebelumnya, tujuan utama encoder visual HR adalah untuk menawarkan informasi kandidat dengan resolusi tinggi. Seperti yang dapat diamati, kerangka kerja Mini-Gemini memberikan kinerja yang unggul jika dibandingkan dengan kerangka kerja canggih. 

Selain itu, untuk menilai kecakapan pemahaman visual kerangka Mini-Gemini di lingkungan dunia nyata, pengembang menerapkan model tersebut ke berbagai tugas penalaran dan pemahaman seperti yang ditunjukkan pada gambar berikut. Seperti yang dapat diamati, kerangka kerja Mini-Gemini mampu menyelesaikan beragam tugas kompleks berkat penerapan penambangan informasi patch, dan data berkualitas tinggi. Namun yang lebih mengesankan adalah kenyataan bahwa kerangka Mini-Gemini menunjukkan penambahan detail yang tajam yang melampaui sekadar kemampuan pengenalan, dan mendeskripsikan elemen rumit dengan rumit. 

Gambar berikut memberikan evaluasi komprehensif tentang kemampuan generatif kerangka Mini-Gemini. 

Jika dibandingkan dengan model terbaru seperti ChatIllusion dan AnyGPT, kerangka kerja Mini-Gemini menunjukkan kemampuan pemahaman multi-modal yang lebih kuat, sehingga memungkinkan untuk menghasilkan teks ke gambar keterangan yang lebih selaras dengan instruksi masukan, dan menghasilkan jawaban gambar ke teks dengan kesamaan konseptual yang lebih kuat. Yang lebih mengesankan adalah kenyataan bahwa kerangka kerja Mini-Gemini menunjukkan kemahiran luar biasa dalam menghasilkan konten berkualitas tinggi menggunakan instruksi manusia multi-model hanya dengan data pelatihan teks, sebuah kemampuan yang menggambarkan interpretasi semantik yang kuat dan keterampilan penyelarasan gambar-teks dari Mini-Gemini. 

Final Thoughts

Pada artikel ini kita telah membahas tentang Mini-Gemini, kerangka kerja yang kuat dan efisien untuk model bahasa visi multi-modalitas. Tujuan utama kerangka kerja Mini-Gemini adalah untuk memanfaatkan kemampuan laten model bahasa visi menggunakan data berkualitas tinggi, desain kerangka kerja yang strategis, dan cakupan fungsional yang diperluas. Mini-Gemini adalah upaya untuk mempersempit kesenjangan yang ada antara model bahasa visi dan model yang lebih maju dengan menggali potensi VLM untuk kinerja yang lebih baik dari tiga aspek: pembuatan dengan panduan VLM, data berkualitas tinggi, dan token visual resolusi tinggi. Untuk meningkatkan token visual, kerangka kerja Mini-Gemini mengusulkan untuk menggunakan encoder visual tambahan untuk penyempurnaan resolusi tinggi tanpa menambah jumlah token visual. Kerangka kerja Mini-Gemini selanjutnya membangun kumpulan data berkualitas tinggi dalam upaya untuk mendorong pemahaman yang tepat tentang gambar dan generasi berbasis penalaran. Secara keseluruhan, kerangka kerja Mini-Gemini berupaya menggali potensi model bahasa visi, dan bertujuan untuk memberdayakan kerangka kerja yang ada dengan penalaran gambar, pemahaman, dan kemampuan generatif secara bersamaan.

"Seorang insinyur berdasarkan profesi, seorang penulis dengan hati". Kunal adalah seorang penulis teknis dengan kecintaan mendalam & pemahaman AI dan ML, berdedikasi untuk menyederhanakan konsep kompleks di bidang ini melalui dokumentasinya yang menarik dan informatif.