Kecerdasan Buatan

EAGLE: Menjelajahi Ruang Desain untuk Model Bahasa Besar Multimodal dengan Campuran Encoder

Diterbitkan September 10, 2024

Kunal Kejriwal

EAGLE: Menjelajahi Ruang Desain untuk Model Bahasa Besar Multimodal dengan Campuran Encoder

Kemampuan untuk menafsirkan informasi visual yang kompleks secara akurat merupakan fokus penting dari model bahasa besar multimoda (MLLM). Penelitian terbaru menunjukkan bahwa persepsi visual yang ditingkatkan secara signifikan mengurangi halusinasi dan meningkatkan kinerja pada tugas-tugas yang sensitif terhadap resolusi, seperti pengenalan karakter optik dan analisis dokumen. Beberapa MLLM terbaru mencapai hal ini dengan memanfaatkan campuran encoder penglihatan. Meskipun berhasil, terdapat kekurangan perbandingan sistematis dan studi ablasi terperinci yang membahas aspek-aspek penting, seperti pemilihan ahli dan integrasi beberapa ahli penglihatan. Artikel ini menyediakan eksplorasi ekstensif dari ruang desain untuk MLLM menggunakan campuran encoder penglihatan dan resolusi, kerangka kerja Eagle yang mencoba untuk mengeksplorasi ruang desain untuk model bahasa besar multimoda dengan campuran encoder. Temuan tersebut mengungkap beberapa prinsip dasar yang umum untuk berbagai strategi yang ada, yang mengarah pada pendekatan desain yang efisien namun efektif. Eagle menemukan bahwa hanya menggabungkan token visual dari serangkaian encoder penglihatan yang saling melengkapi sama efektifnya dengan arsitektur atau strategi pencampuran yang lebih kompleks. Selain itu, Eagle memperkenalkan Pre-Alignment untuk menjembatani kesenjangan antara encoder yang berfokus pada visi dan token bahasa, sehingga meningkatkan koherensi model. Keluarga MLLM yang dihasilkan, Eagle, melampaui model open-source terkemuka lainnya pada tolok ukur MLLM utama.

Karya Eagle terkait dengan desain arsitektur umum model bahasa besar multimoda (MLLM). Selain penelitian sumber terbuka representatif yang disebutkan sebelumnya, keluarga MLLM terkenal lainnya termasuk, tetapi tidak terbatas pada, MiniGPT-4, Lynx, Otter, QwenVL, CogVLM, VILA, GPT-4V, Gemini, dan Llama 3.1. Bergantung pada bagaimana sinyal penglihatan diintegrasikan ke dalam model bahasa, MLLM dapat dikategorikan secara luas menjadi model "perhatian lintas modal" dan model "penyetelan awalan". Yang pertama menyuntikkan informasi visual ke dalam berbagai lapisan LLM menggunakan perhatian lintas modal, sedangkan yang terakhir memperlakukan token visual sebagai bagian dari urutan token bahasa dan langsung menambahkannya dengan penyematan teks. Model Eagle termasuk dalam keluarga penyetelan awalan dengan mengikuti arsitektur multimoda bergaya LLaVA. Mengingat bahwa MLLM adalah bidang yang berkembang pesat, Eagle merekomendasikan untuk merujuk ke studi dan survei yang lebih terperinci untuk wawasan lebih lanjut.

Pekerjaan Eagle berkaitan erat dengan penelitian yang difokuskan pada peningkatan desain encoder penglihatan untuk MLLM. Pekerjaan awal biasanya mengadopsi encoder penglihatan yang telah dilatih sebelumnya pada tugas penyelarasan bahasa penglihatan seperti CLIP dan EVA-CLIP. Encoder penglihatan yang lebih kuat, seperti SigLIP dan InternVL, telah diusulkan untuk meningkatkan tugas bahasa penglihatan dengan desain yang lebih baik, ukuran model yang lebih besar, dan resep pelatihan yang lebih efektif. Karena model sering kali dilatih sebelumnya pada gambar beresolusi rendah dan mungkin tidak memiliki kemampuan untuk mengodekan detail yang sangat halus, adaptasi resolusi yang lebih tinggi sering dilakukan untuk meningkatkan resolusi masukan MLLM. Selain adaptasi resolusi yang lebih tinggi, model seperti LLaVA-NeXT, LLaVA-UHD, Monkey, InternLM-XComposer, dan InternVL menggunakan tiling atau tiling adaptif untuk menangani masukan beresolusi tinggi, di mana gambar dibagi menjadi patch beresolusi lebih rendah dan diproses secara terpisah. Sementara kemampuan untuk menangani resolusi yang lebih tinggi dimungkinkan dengan memperkenalkan pakar penglihatan tambahan, pendekatan ini sedikit berbeda dari teknik tiling, meskipun keduanya kompatibel dan dapat digabungkan.

EAGLE: Menggunakan Campuran Encoder untuk Menjelajahi Ruang Desain untuk LLM Multimodal

Keberhasilan model bahasa besar (LLM) telah memicu minat yang signifikan dalam mengaktifkan kemampuan persepsi visual mereka, yang memungkinkan mereka untuk melihat, memahami, dan bernalar di dunia nyata. Inti dari model bahasa besar ini adalah: model bahasa besar multimodal (MLLM) adalah desain umum tempat gambar diubah menjadi serangkaian token visual oleh encoder visi dan ditambahkan dengan penyematan teks. CLIP sering dipilih sebagai encoder visi karena representasi visualnya selaras dengan ruang teks melalui pra-pelatihan pada pasangan gambar-teks. Bergantung pada arsitektur, resep pelatihan, dan cara token visi disuntikkan ke dalam model bahasa, keluarga MLLM yang terkenal meliputi Flamingo, BLIP, PaLI, PaLM-E, dan LLaVA. Sebagian besar model ini mempertahankan resolusi masukan yang relatif rendah karena keterbatasan dalam encoder visi yang telah dilatih sebelumnya dan panjang urutan LLM. Karya Eagle sangat selaras dengan model yang menggunakan beberapa encoder visi untuk meningkatkan persepsi. Mini-Gemini dan LLaVA-HR mengusulkan penggabungan fitur visual resolusi tinggi ke dalam token visual resolusi rendah. Di luar masalah resolusi, encoder visi yang telah dilatih sebelumnya ini mungkin tidak memiliki kemampuan khusus seperti membaca teks atau melokalisasi objek. Untuk mengatasi hal ini, berbagai model mengintegrasikan enkoder penglihatan yang telah dilatih sebelumnya pada berbagai tugas penglihatan untuk meningkatkan kemampuan enkoder penglihatan.

Misalnya, model seperti Mousi dan Brave menggabungkan token visual dari berbagai encoder penglihatan dengan menggabungkannya di sepanjang saluran atau arah token. RADIO memperkenalkan metode distilasi multiguru untuk menyatukan kemampuan berbagai encoder penglihatan menjadi satu model. MoAI, IVE, dan Prismer selanjutnya menggunakan output dari pakar penglihatan, seperti OCR, deteksi, atau estimasi kedalaman, untuk melengkapi informasi tambahan bagi MLLM guna menghasilkan jawaban. MoVA merancang jaringan perutean untuk menetapkan model penglihatan optimal berdasarkan gambar dan instruksi yang diberikan.

Studi terbaru menunjukkan bahwa desain encoder penglihatan yang lebih kuat penting untuk mengurangi Halusinasi MLLM dan meningkatkan kinerja pada tugas-tugas yang sensitif terhadap resolusi seperti pengenalan karakter optik (OCR). Beberapa karya berfokus pada peningkatan kemampuan encoder penglihatan, baik dengan meningkatkan data dan parameter pra-pelatihan atau dengan membagi gambar menjadi patch resolusi rendah. Namun, pendekatan ini sering kali menimbulkan tuntutan sumber daya pelatihan yang besar. Strategi yang efisien namun ampuh adalah mencampur encoder visual yang telah dilatih sebelumnya dengan berbagai tugas dan resolusi input, baik dengan menggabungkan encoder resolusi lebih tinggi dengan encoder CLIP, menambahkan fitur secara berurutan dari encoder yang berbeda, atau mengadopsi strategi fusi dan perutean yang lebih kompleks untuk memaksimalkan manfaat dari encoder yang berbeda. Pendekatan "campuran-pakar-penglihatan" ini telah terbukti efektif, meskipun studi terperinci tentang ruang desainnya dengan ablasi yang ketat masih kurang, memotivasi Eagle untuk meninjau kembali area ini. Pertanyaan utama tetap ada: kombinasi encoder penglihatan mana yang harus dipilih, bagaimana menggabungkan berbagai pakar, dan bagaimana menyesuaikan strategi pelatihan dengan lebih banyak encoder penglihatan.

Untuk menjawab pertanyaan-pertanyaan ini, Eagle secara sistematis menyelidiki ruang desain campuran-encoder-visi untuk meningkatkan persepsi MLLM. Eksplorasi ruang desain ini melibatkan langkah-langkah berikut: 1) Melakukan pembandingan berbagai encoder visi dan mencari adaptasi resolusi yang lebih tinggi; 2) Melakukan perbandingan "apel dengan apel" antara strategi fusi encoder visi; 3) Secara progresif mengidentifikasi kombinasi optimal dari beberapa encoder visi; 4) Meningkatkan pra-penyelarasan pakar visi dan campuran data. Langkah-langkah eksplorasi diilustrasikan dalam gambar berikut.

Studi Eagle mencakup kinerja encoder penglihatan yang telah dilatih sebelumnya pada berbagai tugas dan resolusi, seperti penyelarasan penglihatan-bahasa, pembelajaran mandiri, deteksi, segmentasi, dan OCR. Dengan menggunakan pendekatan round-robin, Eagle memulai dengan encoder CLIP dasar dan menambahkan satu pakar tambahan pada satu waktu, memilih pakar yang memberikan peningkatan terbaik di setiap putaran.

Meskipun penelitian Eagle bukanlah yang pertama yang memanfaatkan beberapa encoder penglihatan dalam MLLM, studi sistematis ini menghasilkan beberapa temuan utama dalam konteks ini:

Membuka kunci encoder penglihatan selama pelatihan MLLM itu penting. Hal ini berbeda dengan model seperti LLaVA dan model lainnya yang mempertimbangkan beberapa penyandi penglihatan atau guru, di mana pembekuan penyandi penglihatan telah menjadi praktik umum.
Beberapa strategi fusi yang diusulkan baru-baru ini tidak menunjukkan keuntungan yang signifikan. Sebaliknya, penggabungan saluran langsung muncul sebagai strategi penggabungan yang sederhana namun kompetitif, menawarkan efisiensi dan kinerja terbaik.
Melibatkan pakar penglihatan tambahan menghasilkan keuntungan yang konsisten. Hal ini menjadikannya jalur yang menjanjikan untuk meningkatkan persepsi MLLM secara sistematis, selain dari peningkatan skala encoder tunggal. Peningkatan tersebut khususnya terlihat jelas saat encoder penglihatan dibuka.
Tahap pra-penyelarasan adalah kuncinya. Eagle memperkenalkan tahap pra-penyelarasan di mana para ahli penglihatan yang tidak selaras dengan teks disempurnakan secara individual dengan LLM beku sebelum dilatih bersama. Tahap ini secara signifikan meningkatkan kinerja MLLM di bawah desain encoder campuran-penglihatan.

Elang: Metodologi dan Arsitektur

Berbeda dengan metode sebelumnya yang berfokus pada strategi atau arsitektur fusi baru di antara encoder penglihatan, tujuan Eagle adalah mengidentifikasi desain minimalis untuk menggabungkan encoder penglihatan yang berbeda, didukung oleh ablasi terperinci dan penghapusan komponen yang tidak diperlukan. Seperti yang ditunjukkan pada gambar berikut, Eagle memulai dengan memperluas encoder CLIP dasar ke sekumpulan pakar penglihatan dengan arsitektur, tugas pra-pelatihan, dan resolusi yang berbeda. Dengan para pakar ini, Eagle kemudian membandingkan berbagai arsitektur dan metode fusi dan mengeksplorasi cara mengoptimalkan strategi pra-pelatihan dengan beberapa encoder.

Terakhir, Eagle menggabungkan semua temuan dan memperluas pendekatan ke beberapa encoder visi ahli dengan resolusi dan pengetahuan domain yang bervariasi. Dengan menggunakan data pra-pelatihan yang sama seperti LLaVA-1.5, yang terdiri dari 595 ribu pasangan gambar-teks, Eagle beralih ke tahap fine-tuning terbimbing dengan mengumpulkan data dari serangkaian tugas dan mengubahnya menjadi percakapan multimodal, termasuk LLaVA-1.5, Laion-GPT4V, ShareGPT-4V, DocVQA, synDog-EN, ChartQA, DVQA, dan AI2D, yang menghasilkan 934 ribu sampel.

Model ini pertama kali dilatih terlebih dahulu dengan pasangan gambar-teks selama satu periode dengan ukuran batch 256, di mana seluruh model dibekukan, dan hanya lapisan proyektor yang diperbarui. Pada tahap kedua, model disempurnakan pada data penyempurnaan terbimbing selama satu periode dengan ukuran batch 128. Untuk eksplorasi ini, Eagle menggunakan Vicuna-7B sebagai model bahasa yang mendasarinya. Laju pembelajaran ditetapkan pada 1e-3 untuk tahap pertama dan 2e-5 untuk tahap kedua.

Encoder CLIP yang lebih kuat

Eagle memulai eksplorasi dengan model CLIP, karena telah menjadi pilihan utama bagi banyak orang MLLM. Meskipun model CLIP diketahui dapat meningkatkan tugas multimoda, keterbatasannya juga telah terdokumentasi dengan baik. Misalnya, banyak MLLM yang ada cenderung menggunakan resolusi CLIP yang telah dilatih sebelumnya (seperti 224 × 224 atau 336 × 336) sebagai resolusi inputnya. Dalam kasus ini, encoder sering kali kesulitan untuk menangkap detail yang sangat detail yang penting untuk tugas yang sensitif terhadap resolusi seperti OCR dan pemahaman dokumen.

Untuk menangani peningkatan resolusi masukan, pendekatan yang umum adalah tiling, di mana gambar masukan dibagi menjadi beberapa tile dan dikodekan secara terpisah. Metode lain yang lebih sederhana adalah dengan langsung meningkatkan resolusi masukan dan menginterpolasi penempatan posisi model vision transformer jika perlu. Eagle membandingkan kedua pendekatan ini dengan enkoder vision beku dan tidak beku di berbagai resolusi, dengan hasil yang terdapat dalam tabel di atas. Temuannya dapat diringkas sebagai berikut:

Membuka pembekuan enkoder CLIP menghasilkan peningkatan signifikan saat melakukan interpolasi ke resolusi masukan MLLM yang lebih tinggi yang berbeda dari resolusi pra-pelatihan CLIP, tanpa penurunan kinerja saat resolusi tetap sama.
Membekukan enkoder CLIP dan langsung mengadaptasinya ke resolusi masukan MLLM yang lebih tinggi secara signifikan merusak kinerja.
Di antara strategi yang dibandingkan, interpolasi langsung ke 448 × 448 dengan enkoder CLIP yang tidak dibekukan terbukti efektif dan efisien dalam hal kinerja dan biaya.
Encoder CLIP terbaik mencapai kinerja yang mendekati InternVL, meskipun modelnya jauh lebih kecil (300M vs. 6B) dengan lebih sedikit data pra-pelatihan.

Perlu dicatat bahwa CLIP-448 memungkinkan Eagle untuk mencocokkan pengaturan dengan LLaVA-HR dan InternVL, di mana encoder CLIP diadaptasi dengan cara yang sama untuk menerima input 448 × 448 dan mengeluarkan 1024 token patch. Untuk penyelidikan lebih lanjut, Eagle mengikuti strategi sederhana ini dengan meningkatkan resolusi input dan membuka kunci encoder visi selama pelatihan.

Eagle mengamati bahwa strategi fusi populer yang ada, meskipun desainnya bervariasi, dapat dikategorikan secara luas sebagai berikut:

Penambahan Urutan: Secara langsung menambahkan token visual dari backbone yang berbeda sebagai urutan yang lebih panjang.
Penggabungan Saluran: Menggabungkan token visual sepanjang dimensi saluran tanpa menambah panjang urutan.
LLaVA-HR: Menyuntikkan fitur resolusi tinggi ke dalam enkoder penglihatan resolusi rendah menggunakan adaptor campuran resolusi.
Mini-Gemini: Menggunakan token CLIP sebagai kueri beresolusi rendah untuk melakukan cross-attending dengan enkoder penglihatan beresolusi tinggi lainnya di jendela lokal yang berlokasi bersama.
Perhatian yang Dapat Dideformasi: Garis dasar baru diperkenalkan di atas Mini-Gemini, di mana perhatian jendela vanilla digantikan dengan perhatian yang dapat dideformasi.

Alih-alih melatih proyektor untuk menyelaraskan beberapa pakar penglihatan secara bersamaan seperti dalam strategi pra-pelatihan asli LLaVA, kami terlebih dahulu menyelaraskan representasi masing-masing pakar dengan model bahasa yang lebih kecil (Vicuna-7B dalam praktiknya) menggunakan supervisi prediksi token berikutnya. Seperti yang ditunjukkan pada gambar di bawah ini, dengan pra-penyelarasan, seluruh proses pelatihan terdiri dari tiga langkah: 1) melatih setiap pakar penglihatan yang telah dilatih sebelumnya dengan proyektor mereka sendiri pada data SFT, sambil menjaga model bahasa tetap beku; 2) menggabungkan semua pakar penglihatan dari langkah pertama dan hanya melatih proyektor dengan data pasangan gambar-teks; 3) melatih seluruh model pada data SFT.

Elang: Eksperimen dan Hasil

Setelah mengembangkan strateginya dengan cermat, Eagle telah menetapkan prinsip-prinsip berikut untuk model tersebut: (1) mengintegrasikan lebih banyak pakar penglihatan dengan resep pelatihan yang dioptimalkan; (2) menggabungkan beberapa pakar penglihatan melalui penggabungan saluran langsung; (3) melakukan pra-pelatihan para pakar penglihatan secara terpisah melalui pra-penyelarasan. Di bagian ini, untuk lebih menunjukkan keunggulan model Eagle, data pelatihan tambahan disertakan, dan Eagle dibandingkan dengan MLLM terkini di berbagai tugas. Eagle menggunakan Vicuna-v1.5-7B, Llama3-8B, dan Vicuna-v1.5-13B sebagai model bahasa. Untuk encoder penglihatan, berdasarkan hasil di Bagian 2.6, model Eagle dilambangkan sebagai Eagle-X4, yang mencakup empat encoder penglihatan: CLIP, ConvNeXt, Pix2Struct, dan EVA-02, dan Eagle-X5, yang mencakup encoder penglihatan SAM tambahan.

Tugas Menjawab Pertanyaan Visual

Eagle membandingkan seri model tersebut melalui tiga tolok ukur Visual Question Answering (VQA), termasuk GQA, VQAv2, dan VizWiz. Seperti yang ditunjukkan dalam tabel berikut, Eagle-X5 mencapai kinerja mutakhir pada GQA dan VQAv2, yang menyoroti keuntungan dari penambahan pakar penglihatan.

Tugas Pemahaman OCR dan Grafik

Untuk mengevaluasi kemampuan pemahaman OCR, dokumen, dan grafik Eagle, model tersebut diuji pada OCRBench, TextVQA, dan ChartQA. Seperti yang ditunjukkan pada tabel di atas, Eagle secara signifikan melampaui pesaingnya pada TextVQA, yang diuntungkan oleh arsitektur beresolusi tinggi dan integrasi berbagai encoder visual. Khususnya, Eagle mempertahankan desain yang lugas, mendukung hingga 1024 token tanpa memerlukan dekomposisi petak gambar yang rumit.

Gambar di bawah ini menyajikan contoh kasus OCR dan pemahaman dokumen. Dengan adaptasi resolusi tinggi dan penyertaan lebih banyak pakar penglihatan, Eagle dapat mengidentifikasi teks kecil dalam gambar dan mengekstrak informasi secara akurat berdasarkan instruksi pengguna.

Untuk lebih memahami manfaat dari memperkenalkan para ahli yang telah dilatih sebelumnya pada tugas-tugas penglihatan lainnya, gambar berikut memvisualisasikan hasil dari sebuah model dengan hanya encoder penglihatan ConvNeXt dan CLIP, dibandingkan dengan hasil dari Eagle-X5. Dengan rangkaian lengkap encoder penglihatan, model tersebut berhasil mengoreksi kesalahan, yang menunjukkan bahwa bahkan ketika dilengkapi dengan encoder penglihatan beresolusi tinggi yang telah dilatih sebelumnya pada penyelarasan penglihatan-bahasa, kemampuan Eagle semakin ditingkatkan dengan mengintegrasikan para ahli penglihatan tambahan yang telah dilatih sebelumnya pada berbagai tugas penglihatan.

Evaluasi Tolok Ukur Multimoda

Eagle dievaluasi pada tujuh tolok ukur untuk MLLM guna menunjukkan kemampuannya dari berbagai perspektif, termasuk MME, MMBench, SEED, MathVista, MMMU, ScienceQA, dan POPE. Secara khusus, MME, MMBench, dan SEED menilai kinerja keseluruhan pada berbagai tugas dunia nyata yang melibatkan penalaran, pengenalan, pengetahuan, dan OCR. MMMU berfokus pada masalah yang menantang dari berbagai domain yang memerlukan pengetahuan tingkat perguruan tinggi. POPE mengevaluasi halusinasi visual MLLM. Metrik yang digunakan dalam evaluasi ini mematuhi pengaturan default tolok ukur ini. Eagle melaporkan skor persepsi untuk MME, pemisahan en_dev untuk MMBench, pemisahan gambar SEED, pemisahan test-mini MathVista, pemisahan val MMMU, skor F1 POPE, dan skor gambar untuk ScienceQA, yang memastikan keselarasan dengan skor yang dilaporkan dari model lain.

Final Thoughts

Dalam artikel ini, kami telah membahas Eagle, analisis mendalam tentang ruang desain untuk mengintegrasikan vision encoder ke dalam model bahasa besar multimodal. Tidak seperti karya sebelumnya yang berfokus pada perancangan paradigma fusi baru, Eagle menemukan bahwa pilihan desain sistematis penting dan menemukan serangkaian teknik yang berguna. Langkah demi langkah, Eagle mengoptimalkan resep pelatihan vision encoder individual, mengidentifikasi metode fusi yang dapat diperluas dan efisien, dan secara bertahap menggabungkan vision encoder dengan pengetahuan domain yang berbeda. Hasilnya menyoroti pentingnya pertimbangan ruang desain dasar.

Berikutnya

Refleksi 70B: LLM dengan Kognisi Koreksi Diri dan Kinerja Terkemuka

Jangan Miss

Dari Atari hingga Doom: Bagaimana Google Mendefinisikan Ulang Video Game dengan AI

Kunal Kejriwal

"Seorang insinyur berdasarkan profesi, seorang penulis dengan hati". Kunal adalah seorang penulis teknis dengan kecintaan mendalam & pemahaman AI dan ML, berdedikasi untuk menyederhanakan konsep kompleks di bidang ini melalui dokumentasinya yang menarik dan informatif.