Kecerdasan buatan

Pengungkapan Model Multimodal Besar: Membentuk Lanskap Model Bahasa di 2024

Published January 8, 2024

Updated April 27, 2026

Dr. Tehseen Zia

Ketika kita mengalami dunia, indra kita (penglihatan, suara, bau) menyediakan berbagai macam informasi, dan kita mengekspresikan diri kita menggunakan berbagai metode komunikasi, seperti ekspresi wajah dan gerakan. Indra dan metode komunikasi ini secara kolektif disebut modalitas, yang mewakili berbagai cara kita memahami dan berkomunikasi. Mengambil inspirasi dari kemampuan manusia ini, model multimodal besar (LMM), kombinasi dari generatif dan AI multimodal, sedang dikembangkan untuk memahami dan membuat konten menggunakan berbagai jenis seperti teks, gambar, dan audio. Dalam artikel ini, kita akan mempelajari bidang yang baru muncul ini, mengeksplorasi apa itu LMM (Model Multimodal Besar), bagaimana mereka dibangun, contoh yang ada, tantangan yang mereka hadapi, dan aplikasi potensial.

Evolusi AI Generatif di 2024: Dari Model Bahasa Besar ke Model Multimodal Besar

Dalam laporan terbarunya, McKinsey menunjuk 2023 sebagai tahun pemecah untuk AI generatif, yang menyebabkan banyak kemajuan di bidang ini. Kami telah menyaksikan peningkatan yang signifikan dalam keberadaan model bahasa besar (LLM) yang mahir memahami dan menghasilkan bahasa manusia. Selain itu, model generasi gambar juga sangat berkembang, menunjukkan kemampuan mereka untuk membuat visual dari prompt teks. Namun, meskipun kemajuan yang signifikan dalam modalitas individual seperti teks, gambar, atau audio, AI generatif menghadapi tantangan dalam menggabungkan modalitas ini dengan mulus dalam proses generasi. Karena dunia secara inheren multimodal, sangat penting bagi AI untuk mengatasi informasi multimodal. Ini sangat penting untuk keterlibatan yang bermakna dengan manusia dan operasi yang sukses dalam skenario dunia nyata.

Oleh karena itu, banyak peneliti AI memprediksi munculnya LMM sebagai frontier berikutnya dalam penelitian dan pengembangan AI di 2024. Frontier yang berkembang ini berfokus pada meningkatkan kapasitas AI generatif untuk memproses dan menghasilkan output yang beragam, meliputi teks, gambar, audio, video, dan modalitas lainnya. Sangat penting untuk menekankan bahwa tidak semua sistem multimodal memenuhi syarat sebagai LMM. Model seperti Midjourney dan Stable Diffusion, meskipun multimodal, tidak termasuk dalam kategori LMM terutama karena mereka tidak memiliki kehadiran LLM, yang merupakan komponen fundamental dari LMM. Dengan kata lain, kita dapat menggambarkan LMM sebagai perluasan LLM, memberikan mereka kemampuan untuk menangani berbagai modalitas dengan mahir.

Bagaimana LMM Bekerja?

Sementara peneliti telah mengeksplorasi berbagai pendekatan untuk membangun LMM, mereka biasanya melibatkan tiga komponen dan operasi esensial. Pertama, pengkode (encoder) digunakan untuk setiap modalitas data untuk menghasilkan representasi data (yang disebut sebagai embedding) khusus untuk modalitas tersebut. Kedua, berbagai mekanisme digunakan untuk menyelaraskan embedding dari modalitas yang berbeda ke dalam ruang embedding multimodal yang seragam. Ketiga, untuk model generatif, LLM digunakan untuk menghasilkan respons teks. Karena input dapat terdiri dari teks, gambar, video, dan audio, peneliti bekerja pada cara baru untuk membuat model bahasa mempertimbangkan modalitas yang berbeda saat memberikan respons.

Pengembangan LMM di 2023

Di bawah, saya telah merangkum beberapa LMM yang paling menonjol yang dikembangkan di 2023.

LLaVA adalah LMM sumber terbuka, yang dikembangkan bersama oleh University of Wisconsin-Madison, Microsoft Research, dan Columbia University. Model ini bertujuan untuk menawarkan versi sumber terbuka dari multimodal GPT4. Dengan menggunakan Meta’s Llama LLM, itu mengintegrasikan CLIP pengkode visual untuk pemahaman visual yang kuat. Varian LLaVA yang berfokus pada kesehatan, disebut LLaVA-Med, dapat menjawab pertanyaan terkait gambar biomedis.
ImageBind adalah model sumber terbuka yang dibuat oleh Meta, meniru kemampuan persepsi manusia untuk menghubungkan data multimodal. Model ini mengintegrasikan enam modalitas—teks, gambar/video, audio, pengukuran 3D, data suhu, dan data gerakan—mempelajari representasi yang seragam di seluruh jenis data yang berbeda. ImageBind dapat menghubungkan objek dalam foto dengan atribut seperti suara, bentuk 3D, suhu, dan gerakan. Model ini dapat digunakan, misalnya, untuk menghasilkan adegan dari teks atau suara.
SeamlessM4T adalah model multimodal yang dirancang oleh Meta untuk memfasilitasi komunikasi antara komunitas berbahasa banyak. SeamlessM4T unggul dalam tugas terjemahan dan transkripsi, mendukung terjemahan ucapan-ke-ucapan, ucapan-ke-teks, teks-ke-ucapan, dan teks-ke-teks. Model ini menggunakan dekoder teks-ke-unit non-otoregresif untuk melakukan terjemahan ini. Versi yang ditingkatkan, SeamlessM4T v2, membentuk dasar untuk model seperti SeamlessExpressive dan SeamlessStreaming, menekankan pelestarian ekspresi di seluruh bahasa dan memberikan terjemahan dengan latensi minimal.
GPT4, diluncurkan oleh OpenAI, adalah kemajuan dari pendahulunya, GPT3.5. Meskipun rincian arsitektur yang spesifik tidak sepenuhnya diungkapkan, GPT4 sangat dihargai karena integrasi yang mulus dari model teks-saja, visi-saja, dan audio-saja. Model ini dapat menghasilkan teks dari input yang ditulis dan grafis. Ini unggul dalam berbagai tugas, termasuk deskripsi humor dalam gambar, ringkasan teks dari screenshot, dan merespons dengan mahir pada pertanyaan ujian yang menampilkan diagram. GPT4 juga dikenal karena kemampuan adaptasinya dalam memproses berbagai format data input.
Gemini, diciptakan oleh Google DeepMind, membedakan diri dengan menjadi secara inheren multimodal, memungkinkan interaksi yang mulus di seluruh tugas tanpa bergantung pada menggabungkan komponen modalitas tunggal. Model ini dengan mudah menangani baik teks dan input audio-visual yang beragam, menunjukkan kemampuan untuk menghasilkan output dalam format teks dan gambar.

Tantangan Model Multimodal Besar

Mengintegrasikan Lebih Banyak Modalitas Data: Kebanyakan LMM yang ada beroperasi dengan teks dan gambar. Namun, LMM perlu berkembang melampaui teks dan gambar, mengakomodasi modalitas seperti video, musik, dan 3D.
Ketersediaan Dataset yang Beragam: Salah satu tantangan utama dalam mengembangkan dan melatih model AI generatif multimodal adalah kebutuhan akan dataset yang besar dan beragam yang mencakup beberapa modalitas. Misalnya, untuk melatih model untuk menghasilkan teks dan gambar bersama, dataset perlu mencakup input teks dan gambar yang terkait satu sama lain.
Menghasilkan Output Multimodal: Sementara LMM dapat menangani input multimodal, menghasilkan output yang beragam, seperti menggabungkan teks dengan grafik atau animasi, tetap menjadi tantangan.
Mengikuti Instruksi: LMM menghadapi tantangan untuk menguasai dialog dan tugas mengikuti instruksi, melampaui sekadar penyelesaian.
Penalaran Multimodal: Sementara LMM saat ini unggul dalam mengubah satu modalitas menjadi yang lain, integrasi yang mulus dari data multimodal untuk tugas penalaran yang kompleks, seperti menyelesaikan masalah kata tertulis berdasarkan instruksi auditori, tetap menjadi upaya yang menantang.
Mengompresi LMM: Sifat LMM yang intensif sumber daya menimbulkan hambatan signifikan, membuatnya tidak praktis untuk perangkat tepi dengan sumber daya komputasi yang terbatas. Mengompresi LMM untuk meningkatkan efisiensi dan membuatnya sesuai untuk penerapan pada perangkat dengan sumber daya terbatas adalah area penelitian yang sedang berlangsung.

Studi Kasus Potensial

Pendidikan: LMM memiliki potensi untuk mengubah pendidikan dengan menghasilkan bahan belajar yang beragam dan menarik yang menggabungkan teks, gambar, dan audio. LMM menyediakan umpan balik komprehensif pada tugas, mempromosikan platform belajar kolaboratif, dan meningkatkan pengembangan keterampilan melalui simulasi interaktif dan contoh dunia nyata.
Kesehatan: Berbeda dengan sistem diagnostik AI tradisional yang menargetkan modalitas tunggal, LMM meningkatkan diagnostik medis dengan mengintegrasikan beberapa modalitas. Mereka juga mendukung komunikasi di seluruh batasan bahasa antara penyedia layanan kesehatan dan pasien, berfungsi sebagai repositori terpusat untuk berbagai aplikasi AI dalam rumah sakit.
Generasi Seni dan Musik: LMM bisa unggul dalam penciptaan seni dan musik dengan menggabungkan modalitas yang berbeda untuk output yang unik dan ekspresif. Misalnya, LMM seni dapat menggabungkan elemen visual dan auditori, memberikan pengalaman yang imersif. Demikian pula, LMM musik dapat mengintegrasikan elemen instrumental dan vokal, menghasilkan komposisi yang dinamis dan ekspresif.
Rekomendasi Personal: LMM dapat menganalisis preferensi pengguna di seluruh modalitas yang berbeda untuk memberikan rekomendasi konten yang dipersonalisasi, seperti film, musik, artikel, atau produk.

Prakiraan Cuaca dan Pemantauan Lingkungan: LMM dapat menganalisis berbagai modalitas data, seperti gambar satelit, kondisi atmosfer, dan pola sejarah, untuk meningkatkan akurasi dalam prakiraan cuaca dan pemantauan lingkungan.

Ringkasan

Lanskap Model Multimodal Besar (LMM) menandai kemajuan signifikan dalam AI generatif, menjanjikan kemajuan dalam berbagai bidang. Ketika model ini mengintegrasikan modalitas yang berbeda, seperti teks, gambar, dan audio, pengembangan mereka membuka pintu untuk aplikasi transformatif dalam kesehatan, pendidikan, seni, dan rekomendasi personal. Namun, tantangan, termasuk mengakomodasi lebih banyak modalitas data dan mengompresi model yang intensif sumber daya, menekankan upaya penelitian yang sedang berlangsung untuk merealisasikan potensi LMM secara penuh.