Kecerdasan buatan

Mini-Gemini: Menambang Potensi Model Bahasa Visi Multi-Modalitas

Published April 26, 2024

Updated April 4, 2026

Kunal Kejriwal

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

Kemajuan dalam model bahasa besar telah mempercepat pengembangan pengolahan bahasa alami, atau NLP. Pengenalan kerangka kerja transformer terbukti menjadi sebuah tonggak, memfasilitasi pengembangan gelombang baru model bahasa, termasuk OPT dan BERT, yang menunjukkan pemahaman linguistik yang mendalam. Selain itu, penciptaan GPT, atau Model Transformer Pra-pelatihan Generatif, memperkenalkan paradigma baru dengan pemodelan autoregresif dan membangun metode yang kuat untuk prediksi dan generasi bahasa. Kedatangan model bahasa seperti GPT-4, ChatGPT, Mixtral, LLaMA, dan lain-lain telah lebih lanjut mempercepat evolusi, dengan setiap model menunjukkan kinerja yang ditingkatkan dalam tugas yang melibatkan pengolahan bahasa yang kompleks. Di antara metode yang ada, penyetelan instruksi telah muncul sebagai teknik kunci untuk memperhalus output model bahasa besar pra-pelatihan, dan integrasi model ini dengan alat khusus untuk tugas visual telah menyoroti kemampuan adaptasi mereka dan membuka pintu untuk aplikasi masa depan. Ini meluas jauh melampaui pemrosesan teks tradisional dari LLM untuk mencakup interaksi multimodal.

Selanjutnya, konvergensi pengolahan bahasa alami dan model visi komputer telah melahirkan VLM, atau Model Bahasa Visi, yang menggabungkan model linguistik dan visi untuk mencapai pemahaman dan kemampuan penalaran cross-modal. Integrasi dan munculnya model visual dan linguistik telah memainkan peran kunci dalam memajukan tugas yang memerlukan pemrosesan bahasa dan pemahaman visual. Munculnya model revolusioner seperti CLIP telah lebih lanjut menjembatani kesenjangan antara tugas visi dan model bahasa, menunjukkan kelayakan dan praktikabilitas aplikasi cross-modal. Kerangka kerja lebih baru seperti LLaMA dan BLIP menggunakan data instruksi yang disesuaikan untuk mengembangkan strategi yang efisien yang menunjukkan kemampuan model yang kuat. Selain itu, menggabungkan model bahasa besar dengan output gambar adalah fokus penelitian multimodal terbaru, dengan metode terbaru dapat melewati generasi langsung dengan menggunakan pendekatan pengambilan gambar untuk menghasilkan output gambar dan teks yang berselang-seling.

Dengan demikian, dan meskipun kemajuan pesat dalam model bahasa visi yang memfasilitasi penalaran dasar dan dialog visual, masih ada kesenjangan kinerja yang signifikan antara model canggih seperti GPT-4, dan model bahasa visi. Mini-Gemini adalah upaya untuk mempersempit kesenjangan yang ada antara model bahasa visi dan model yang lebih canggih dengan menambang potensi VLM untuk kinerja yang lebih baik dari tiga aspek: generasi yang dipandu VLM, data berkualitas tinggi, dan token visual berkualitas tinggi. Untuk meningkatkan token visual, kerangka kerja Mini-Gemini mengusulkan untuk menggunakan encoder visual tambahan untuk pemurnian resolusi tinggi tanpa meningkatkan jumlah token visual. Kerangka kerja Mini-Gemini lebih lanjut membangun dataset berkualitas tinggi dalam upaya untuk mempromosikan pemahaman gambar yang akurat dan generasi berbasis penalaran. Secara keseluruhan, kerangka kerja Mini-Gemini berupaya menambang potensi model bahasa visi, dan bertujuan untuk memberdayakan kerangka kerja yang ada dengan kemampuan penalaran gambar, pemahaman, dan generasi secara bersamaan. Artikel ini bertujuan untuk membahas kerangka kerja Mini-Gemini secara mendalam, dan kita menjelajahi mekanisme, metodologi, arsitektur kerangka kerja bersama dengan perbandingannya dengan kerangka kerja yang ada. Jadi, mari kita mulai.

Mini-Gemini: Mempercepat Model Bahasa Visi Multi-Modalitas

Selama beberapa tahun, model bahasa besar telah berkembang, dan sekarang mereka memiliki kemampuan multi-modalitas yang luar biasa, dan menjadi bagian penting dari model bahasa visi saat ini. Namun, ada kesenjangan antara kinerja multi-modal dari model bahasa besar dan model bahasa visi dengan penelitian terbaru yang mencari cara untuk menggabungkan visi dengan model bahasa besar menggunakan gambar dan video. Untuk tugas visi itu sendiri, resolusi gambar adalah elemen kunci untuk secara eksplisit menggambarkan lingkungan sekitar dengan hallucinasi visual minimal. Untuk menjembatani kesenjangan, peneliti sedang mengembangkan model untuk meningkatkan pemahaman visual dalam model bahasa visi saat ini, dan dua pendekatan yang paling umum adalah: meningkatkan resolusi, dan meningkatkan jumlah token visual. Meskipun meningkatkan jumlah token visual dengan gambar resolusi tinggi memperkuat pemahaman visual, peningkatan tersebut sering disertai dengan peningkatan kebutuhan komputasi dan biaya yang terkait, terutama saat memproses beberapa gambar. Selain itu, kemampuan model yang ada, kualitas data yang ada, dan kemampuan yang ada masih tidak memadai untuk proses pengembangan yang dipercepat, meninggalkan peneliti dengan pertanyaan, “bagaimana cara mempercepat pengembangan model bahasa visi dengan biaya yang dapat diterima”?

Kerangka kerja Mini-Gemini adalah upaya untuk menjawab pertanyaan tersebut karena berupaya untuk mengeksplorasi potensi model bahasa visi dari tiga aspek: generasi yang dipandu VLM atau aplikasi yang diperluas, data berkualitas tinggi, dan token visual berkualitas tinggi. Pertama, kerangka kerja Mini-Gemini mengimplementasikan arsitektur ConvNet untuk menghasilkan kandidat resolusi tinggi secara efisien, meningkatkan detail visual sambil mempertahankan jumlah token visual untuk model bahasa besar. Kerangka kerja Mini-Gemini menggabungkan dataset berkualitas tinggi yang tersedia secara publik dalam upaya untuk meningkatkan kualitas data, dan mengintegrasikan peningkatan ini dengan model generatif dan model bahasa besar yang ada untuk meningkatkan kinerja VLM, dan memperbaiki pengalaman pengguna. Strategi multifaset yang diimplementasikan oleh kerangka kerja Mini-Gemini memungkinkan untuk mengeksplorasi kemampuan tersembunyi dari model bahasa visi, dan mencapai kemajuan yang signifikan dengan kendala sumber daya yang jelas.

Secara umum, kerangka kerja Mini-Gemini menggunakan paradigma apa saja karena dapat menangani teks dan gambar sebagai input dan output. Secara khusus, kerangka kerja Mini-Gemini memperkenalkan pipeline yang efisien untuk meningkatkan token visual untuk gambar input, dan menampilkan sistem pengkode ganda yang terdiri dari dua pengkode: pengkode pertama untuk gambar resolusi tinggi, sedangkan pengkode kedua untuk pengkodean visual berkualitas rendah. Selama inferensi, pengkode bekerja dalam mekanisme perhatian, di mana pengkode resolusi rendah menghasilkan kueri visual, sedangkan pengkode resolusi tinggi menyediakan kunci dan nilai untuk referensi. Untuk meningkatkan kualitas data, kerangka kerja Mini-Gemini mengumpulkan dan menghasilkan lebih banyak data berdasarkan sumber daya publik, termasuk instruksi yang berorientasi tugas, data yang terkait dengan generasi, dan respon resolusi tinggi, dengan jumlah dan kualitas yang ditingkatkan yang meningkatkan kinerja dan kemampuan model secara keseluruhan. Selain itu, kerangka kerja Mini-Gemini mendukung generasi teks dan gambar secara bersamaan sebagai hasil dari integrasi model bahasa visi dengan model generatif yang canggih.

Mini-Gemini : Metodologi dan Arsitektur

Pada intinya, kerangka kerja Mini-Gemini secara konseptual sederhana, dan terdiri dari tiga komponen.

Kerangka kerja menggunakan pengkode visi ganda untuk menyediakan pengkodean visual berkualitas rendah dan kandidat resolusi tinggi.
Kerangka kerja mengusulkan untuk mengimplementasikan penambangan informasi patch untuk melakukan penambangan pada level patch antara kueri visual berkualitas rendah dan wilayah resolusi tinggi.
Kerangka kerja Mini-Gemini menggunakan model bahasa besar untuk menggabungkan teks dengan gambar untuk generasi dan pemahaman secara bersamaan.

Pengkode Visi Ganda

Kerangka kerja Mini-Gemini dapat memproses input teks dan gambar, dengan opsi untuk menangani mereka secara individu atau dalam kombinasi. Seperti yang ditunjukkan pada gambar berikut, kerangka kerja Mini-Gemini memulai proses dengan menggunakan interpolasi bilinear untuk menghasilkan gambar resolusi rendah dari gambar resolusi tinggi yang sesuai.

Kerangka kerja kemudian memproses gambar-gambar ini dan mengkodekannya menjadi pengkodean visual multi-grid dalam dua aliran gambar paralel. Lebih khusus, kerangka kerja Mini-Gemini mempertahankan pipeline tradisional untuk aliran resolusi rendah dan menggunakan Transformer Visual pra-pelatihan CLIP untuk mengkodekan pengkodean visual, memungkinkan model untuk mempertahankan hubungan jangka panjang antara patch visual untuk interaksi selanjutnya dalam model bahasa besar. Untuk aliran resolusi tinggi, kerangka kerja Mini-Gemini mengadopsi pengkode berbasis CNN atau Jaringan Saraf Konvolusional untuk pemrosesan gambar resolusi tinggi yang adaptif dan efisien.

Penambangan Informasi Patch

Dengan pengkode visi ganda yang menghasilkan pengkodean resolusi rendah dan fitur resolusi tinggi, kerangka kerja Mini-Gemini mengusulkan untuk mengimplementasikan penambangan informasi patch dengan tujuan untuk memperluas potensi model bahasa visi dengan token visual yang ditingkatkan. Untuk mempertahankan jumlah token visual untuk efisiensi dalam model bahasa besar, kerangka kerja Mini-Gemini mengambil pengkodean visual resolusi rendah sebagai kueri, dan berupaya untuk mengambil petunjuk visual yang relevan dari kandidat fitur resolusi tinggi, dengan kerangka kerja yang mengambil peta fitur resolusi tinggi sebagai kunci dan nilai.

Seperti yang ditunjukkan pada gambar di atas, rumus tersebut merangkum proses penghalusan dan sintesis petunjuk visual, yang mengarah pada generasi token visual yang ditingkatkan untuk pemrosesan model bahasa besar selanjutnya. Proses ini memastikan bahwa kerangka kerja dapat membatasi penambangan untuk setiap kueri ke sub-wilayah yang sesuai dalam peta fitur resolusi tinggi dengan hitungan fitur per piksel, menghasilkan efisiensi yang ditingkatkan. Karena desain ini, kerangka kerja Mini-Gemini dapat mengekstrak detail fitur resolusi tinggi tanpa meningkatkan jumlah token visual, dan mempertahankan keseimbangan antara kelayakan komputasi dan kekayaan detail.

Generasi Teks dan Gambar

Kerangka kerja Mini-Gemini menggabungkan token visual dan token teks input sebagai input untuk model bahasa besar untuk generasi autoregresif. Tidak seperti model bahasa visi tradisional, kerangka kerja Mini-Gemini mendukung generasi teks-saja serta generasi teks-gambar sebagai input dan output, yaitu inferensi apa saja ke apa saja, dan ini adalah hasil dari kemampuan pemahaman dan penalaran gambar-teks yang luar biasa, Mini-Gemini dapat menghasilkan gambar berkualitas tinggi. Tidak seperti karya terbaru yang fokus pada kesenjangan domain antara pengkodean teks dari model generasi dan model bahasa besar, kerangka kerja Mini-Gemini berupaya untuk mengoptimalkan kesenjangan dalam domain prompt bahasa dengan menerjemahkan instruksi pengguna menjadi prompt berkualitas tinggi yang menghasilkan gambar yang relevan dengan konteks dalam model difusi laten. Selain itu, untuk pemahaman yang lebih baik tentang penyetelan instruksi, dan penyelarasan cross-modal, kerangka kerja Mini-Gemini mengumpulkan sampel dari dataset berkualitas tinggi yang tersedia secara publik, dan menggunakan kerangka kerja GPT-4 turbo untuk lebih lanjut membangun dataset instruksi yang mengikuti sebesar 13K untuk mendukung generasi gambar.

Mini-Gemini : Eksperimen dan Hasil

Untuk mengevaluasi kinerjanya, kerangka kerja Mini-Gemini diinstansiasi dengan kerangka kerja ConvNext-L pra-pelatihan untuk pengkode visi resolusi tinggi, dan dengan Transformer Visual pra-pelatihan CLIP untuk pengkode visi resolusi rendah. Untuk memastikan efisiensi pelatihan, kerangka kerja Mini-Gemini mempertahankan kedua pengkode visi tetap, dan mengoptimalkan proyektor penambangan informasi patch di semua tahap, dan mengoptimalkan model bahasa besar selama tahap penyetelan instruksi itu sendiri.

Tabel berikut membandingkan kinerja kerangka kerja Mini-Gemini dengan model yang ada di berbagai pengaturan, dan juga mempertimbangkan model privat. Seperti yang dapat dilihat, Mini-Gemini outperforms kerangka kerja yang ada di berbagai rentang model bahasa besar secara konsisten pada resolusi normal, dan menunjukkan kinerja yang unggul ketika dikonfigurasi dengan Gemma-2B dalam kategori model yang efisien. Selain itu, ketika model bahasa besar yang lebih besar digunakan, skalabilitas kerangka kerja Mini-Gemini menjadi jelas.

Untuk mengevaluasi kinerjanya pada resolusi tinggi dan token visual yang diperluas, eksperimen dilakukan dengan ukuran input 672 untuk pengkode visi resolusi rendah, dan 1536 untuk pengkode visual. Seperti yang disebutkan sebelumnya, tujuan utama dari pengkode visi resolusi tinggi adalah untuk menyediakan informasi kandidat resolusi tinggi. Seperti yang dapat dilihat, kerangka kerja Mini-Gemini memberikan kinerja yang unggul ketika dibandingkan dengan kerangka kerja yang ada.

Selain itu, untuk menilai kemampuan pemahaman visual dari kerangka kerja Mini-Gemini dalam pengaturan dunia nyata, pengembang menerapkan model pada berbagai tugas penalaran dan pemahaman sebagai yang ditunjukkan pada gambar berikut. Seperti yang dapat dilihat, kerangka kerja Mini-Gemini dapat menyelesaikan berbagai tugas yang kompleks berkat implementasi penambangan informasi patch, dan data berkualitas tinggi. Namun, yang lebih mengesankan adalah fakta bahwa kerangka kerja Mini-Gemini menunjukkan penambahan detail yang tajam yang melampaui kemampuan pengenalan biasa, dan menggambarkan elemen-elemen intrinsik dengan cara yang sangat rinci.

Gambar berikut menyediakan evaluasi komprehensif tentang kemampuan generatif dari kerangka kerja Mini-Gemini.

Ketika dibandingkan dengan model terbaru seperti ChatIllusion dan AnyGPT, kerangka kerja Mini-Gemini menunjukkan kemampuan pemahaman multi-modalitas yang lebih kuat, memungkinkan untuk menghasilkan teks ke gambar yang lebih sesuai dengan instruksi input, dan menghasilkan jawaban teks ke gambar dengan kesamaan konseptual yang lebih kuat. Yang lebih mengesankan adalah fakta bahwa kerangka kerja Mini-Gemini menunjukkan kemampuan yang luar biasa dalam menghasilkan konten berkualitas tinggi menggunakan instruksi multi-model manusia hanya dengan data pelatihan teks, kemampuan yang menggambarkan interpretasi semantik yang kuat dan keterampilan penyelarasan gambar-teks dari Mini-Gemini.

Pemikiran Akhir

Dalam artikel ini, kita telah membahas tentang Mini-Gemini, kerangka kerja yang kuat dan terstruktur untuk model bahasa visi multi-modalitas. Tujuan utama dari kerangka kerja Mini-Gemini adalah untuk menambang kemampuan tersembunyi dari model bahasa visi menggunakan data berkualitas tinggi, desain strategis dari kerangka kerja, dan cakupan fungsional yang diperluas. Mini-Gemini adalah upaya untuk mempersempit kesenjangan yang ada antara model bahasa visi dan model yang lebih canggih dengan menambang potensi VLM untuk kinerja yang lebih baik dari tiga aspek: generasi yang dipandu VLM, data berkualitas tinggi, dan token visual berkualitas tinggi. Untuk meningkatkan token visual, kerangka kerja Mini-Gemini mengusulkan untuk menggunakan encoder visual tambahan untuk pemurnian resolusi tinggi tanpa meningkatkan jumlah token visual. Kerangka kerja Mini-Gemini lebih lanjut membangun dataset berkualitas tinggi dalam upaya untuk mempromosikan pemahaman gambar yang akurat dan generasi berbasis penalaran. Secara keseluruhan, kerangka kerja Mini-Gemini berupaya menambang potensi model bahasa visi, dan bertujuan untuk memberdayakan kerangka kerja yang ada dengan kemampuan penalaran gambar, pemahaman, dan generasi secara bersamaan.

Kunal Kejriwal

Seorang insinyur oleh profesi, seorang penulis oleh hati. Kunal adalah seorang penulis teknis dengan cinta yang mendalam & pemahaman tentang AI dan ML, yang didedikasikan untuk menyederhanakan konsep-konsep kompleks dalam bidang ini melalui dokumentasi yang menarik dan informatif.