Kecerdasan buatan

Panduan Instruksi Berbasis Gambar Editing melalui Model Bahasa Besar Multimodal

Published February 23, 2024

Updated April 4, 2026

Kunal Kejriwal

GUIDING INSTRUCTION-BASED IMAGE EDITING VIA MULTIMODAL LARGE LANGUAGE MODELS

Alat desain visual dan model bahasa visi memiliki aplikasi yang luas di industri multimedia. Meskipun kemajuan signifikan dalam beberapa tahun terakhir, pemahaman yang solid tentang alat-alat ini masih diperlukan untuk operasionalnya. Untuk meningkatkan aksesibilitas dan kontrol, industri multimedia semakin banyak mengadopsi teknik editing gambar berbasis teks atau instruksi. Teknik-teknik ini menggunakan perintah bahasa alami sebagai gantinya masker regional atau deskripsi yang rumit, memungkinkan manipulasi gambar yang lebih fleksibel dan terkendali. Namun, metode berbasis instruksi sering menyediakan arahan singkat yang mungkin sulit bagi model yang ada untuk sepenuhnya menangkap dan melaksanakan. Selain itu, model difusi, yang terkenal dengan kemampuan mereka untuk menciptakan gambar realistis, sangat diminati dalam sektor editing gambar.

Lebih lanjut, Model Bahasa Besar Multimodal (MLLM) telah menunjukkan kinerja yang mengesankan dalam tugas-tugas yang melibatkan generasi respons visual dan pemahaman cross-modal. MLLM Guided Image Editing (MGIE) adalah sebuah studi yang terinspirasi oleh MLLM yang mengevaluasi kemampuan mereka dan menganalisis bagaimana mereka memfasilitasi editing menggunakan teks atau instruksi yang dipandu. Pendekatan ini melibatkan pembelajaran untuk memberikan bimbingan eksplisit dan menghasilkan instruksi yang ekspresif. Model editing MGIE memahami informasi visual dan melaksanakan editing melalui pelatihan ujung-ke-ujung. Dalam artikel ini, kita akan mempelajari MGIE dengan lebih dalam, menilai dampaknya pada optimasi gambar global, modifikasi gaya Photoshop, dan editing lokal. Kita juga akan membahas pentingnya MGIE dalam tugas-tugas editing gambar berbasis instruksi yang bergantung pada instruksi yang ekspresif. Mari kita mulai eksplorasi kita.

MGIE: Pengenalan

Model Bahasa Besar Multimodal dan Model Difusi adalah dua kerangka AI dan ML yang paling banyak digunakan saat ini karena kemampuan generatif yang luar biasa. Di satu sisi, Anda memiliki Model Difusi, yang terkenal karena menghasilkan gambar yang sangat realistis dan menarik, sedangkan di sisi lain, Anda memiliki Model Bahasa Besar Multimodal, yang terkenal karena kemampuan luar biasa mereka dalam menghasilkan berbagai jenis konten, termasuk teks, bahasa, ucapan, dan gambar/video.

Model Difusi menukar peta cross-modal laten untuk melakukan manipulasi visual yang mencerminkan perubahan caption tujuan input, dan mereka juga dapat menggunakan masker yang dipandu untuk mengedit area tertentu dari gambar. Namun, alasan utama mengapa Model Difusi banyak digunakan untuk aplikasi multimedia adalah karena mereka menggunakan pendekatan editing berbasis instruksi yang memungkinkan pengguna untuk mengekspresikan cara mengedit gambar secara langsung menggunakan perintah teks atau instruksi. Selanjutnya, Model Bahasa Besar tidak memerlukan pengenalan karena mereka telah menunjukkan kemajuan signifikan di berbagai tugas bahasa, termasuk ringkasan teks, terjemahan mesin, generasi teks, dan menjawab pertanyaan. MLLM biasanya dilatih pada sejumlah besar data pelatihan yang beragam, yang memungkinkan mereka memiliki kreativitas visual dan pengetahuan, sehingga mereka dapat melakukan berbagai tugas bahasa visi. Berdasarkan LLM, MLLM atau Model Bahasa Besar Multimodal dapat menggunakan gambar sebagai input alami dan memberikan respons yang tepat secara visual.

Dengan demikian, meskipun Model Difusi dan kerangka MLLM banyak digunakan untuk tugas-tugas editing gambar, ada beberapa masalah bimbingan dengan instruksi berbasis teks yang menghambat kinerja secara keseluruhan, sehingga mengembangkan MGIE atau MLLM Guided Image Editing, sebuah kerangka AI yang terdiri dari model difusi dan model MLLM, seperti yang ditunjukkan pada gambar berikut.

Dalam arsitektur MGIE, model difusi dilatih ujung-ke-ujung untuk melakukan editing gambar dengan imajinasi laten dari tujuan yang diinginkan, sedangkan kerangka MLLM belajar untuk memprediksi instruksi ekspresif yang tepat. Bersama-sama, model difusi dan kerangka MLLM memanfaatkan derivasi visual bawaan, sehingga dapat menangani perintah manusia yang ambigu dan menghasilkan editing gambar yang realistis, seperti yang ditunjukkan pada gambar berikut.

Kerangka MGIE banyak terinspirasi dari dua pendekatan yang ada: Editing Gambar Berbasis Instruksi dan Model Bahasa Besar Visi.

Editing gambar berbasis instruksi dapat meningkatkan aksesibilitas dan kontrol manipulasi visual secara signifikan dengan mematuhi perintah manusia. Ada dua kerangka utama yang digunakan untuk editing gambar berbasis instruksi: kerangka GAN dan Model Difusi. GAN atau Jaringan Adversarial Generatif dapat mengubah gambar, tetapi terbatas pada domain tertentu atau menghasilkan hasil yang tidak realistis. Di sisi lain, model difusi dengan pelatihan skala besar dapat mengontrol peta perhatian cross-modal untuk peta global untuk mencapai editing gambar dan transformasi. Editing berbasis instruksi bekerja dengan menerima perintah langsung sebagai input, seringkali tidak terbatas pada masker regional dan deskripsi yang rumit. Namun, ada kemungkinan bahwa instruksi yang diberikan tidak jelas atau tidak cukup presisi untuk diikuti untuk tugas-tugas editing.

Model Bahasa Besar Visi terkenal karena kemampuan generatif teks dan generalisasi mereka di berbagai tugas, dan mereka sering memiliki pemahaman teks yang kuat, serta dapat menghasilkan program yang dapat dijalankan atau pseudo kode. Kemampuan model bahasa besar ini memungkinkan MLLM untuk memahami gambar dan memberikan respons yang tepat menggunakan penyelarasan fitur visual dengan penyetelan instruksi, dengan model terbaru yang mengadopsi MLLM untuk menghasilkan gambar yang terkait dengan obrolan atau teks input. Namun, apa yang membedakan MGIE dari MLLM atau VLLM adalah bahwa sementara yang terakhir dapat menghasilkan gambar yang berbeda dari input dari awal, MGIE memanfaatkan kemampuan MLLM untuk meningkatkan kemampuan editing gambar dengan instruksi yang dihasilkan.

MGIE: Arsitektur dan Metodologi

Secara tradisional, model bahasa besar telah digunakan untuk tugas-tugas pemrosesan bahasa alami generatif. Namun, sejak MLLM menjadi mainstream, LLM diberdayakan dengan kemampuan untuk memberikan respons yang masuk akal dengan memahami input gambar. Konvensional, Model Bahasa Besar Multimodal diinisialisasi dari LLM yang telah dilatih sebelumnya, dan berisi encoder visual dan adapter untuk mengekstrak fitur visual dan memproyeksikan fitur visual ke modality bahasa. Karena itu, kerangka MLLM dapat memahami input visual, meskipun outputnya masih terbatas pada teks.

Kerangka MGIE yang diusulkan bertujuan untuk menyelesaikan masalah ini dan memfasilitasi MLLM untuk mengedit gambar input menjadi gambar output berdasarkan instruksi teks yang diberikan. Untuk mencapai ini, kerangka MGIE berisi MLLM dan dilatih untuk menghasilkan instruksi teks ekspresif yang ringkas. Selanjutnya, kerangka MGIE menambahkan token gambar khusus dalam arsitektur untuk menjembatani kesenjangan antara modality visi dan bahasa, serta mengadopsi edit head untuk transformasi modality. Modality ini berfungsi sebagai imajinasi visual laten dari Model Bahasa Besar Multimodal, dan memandu model difusi untuk mencapai tugas-tugas editing. Kerangka MGIE kemudian dapat melakukan tugas-tugas persepsi visual untuk editing gambar yang masuk akal.

Instruksi Ekspresif yang Ringkas

Secara tradisional, Model Bahasa Besar Multimodal dapat menawarkan respons yang terkait dengan visi dengan persepsi cross-modal mereka karena penyetelan instruksi dan penyelarasan fitur. Untuk mengedit gambar, kerangka MGIE menggunakan prompt teks sebagai input bahasa utama dengan gambar, dan menghasilkan penjelasan rinci untuk perintah editing. Namun, penjelasan ini mungkin sering terlalu panjang atau melibatkan deskripsi yang berulang, sehingga menghasilkan niat yang salah, sehingga MGIE menerapkan pemangkas yang telah dilatih sebelumnya untuk mendapatkan narasi yang ringkas, memungkinkan MLLM untuk menghasilkan output yang ringkas. Kerangka ini memperlakukan bimbingan yang ringkas namun ekspresif sebagai instruksi ekspresif, dan menerapkan kerugian entropi silang untuk melatih Model Bahasa Besar Multimodal menggunakan penyetelan guru.

Menggunakan instruksi ekspresif memberikan gagasan yang lebih konkrit dibandingkan dengan instruksi teks karena menjembatani kesenjangan untuk editing gambar yang masuk akal, meningkatkan efisiensi kerangka lebih lanjut. Selain itu, kerangka MGIE selama periode inferensi menghasilkan instruksi ekspresif yang ringkas, bukan menghasilkan narasi yang panjang dan bergantung pada ringkasan eksternal. Karena itu, kerangka MGIE dapat memahami imajinasi visual dari niat editing, tetapi masih terbatas pada modality bahasa. Untuk mengatasi hambatan ini, model MGIE menambahkan sejumlah token visual setelah instruksi ekspresif dengan embedding kata yang dapat dilatih, memungkinkan MLLM untuk menghasilkannya menggunakan kepala LM atau Bahasa Model.

Editing Gambar dengan Imajinasi Laten

Pada langkah berikutnya, kerangka MGIE mengadopsi edit head untuk mengubah instruksi gambar menjadi bimbingan visual yang sebenarnya. Edit head adalah model urutan-ke-urutan yang membantu dalam memetakan token visual urutan dari MLLM ke bimbingan editing semantik yang bermakna sebagai bimbingan editing. Lebih spesifik, transformasi lebih dari embedding kata dapat diartikan sebagai representasi umum dalam modality visual, dan menggunakan komponen imajinasi visual yang sadar instance untuk niat editing. Selanjutnya, untuk memandu editing gambar dengan imajinasi visual, kerangka MGIE menyematkan model difusi laten dalam arsitektur yang mencakup autoencoder variabel dan menangani denoising difusi dalam ruang laten. Tujuan utama model difusi laten adalah untuk menghasilkan tujuan laten dari mempertahankan input laten dan mengikuti bimbingan editing. Proses difusi menambahkan noise ke tujuan laten lebih dari interval waktu teratur dan tingkat noise meningkat dengan setiap waktu.

Pembelajaran MGIE

Gambar berikut merangkum algoritma proses pembelajaran kerangka MGIE yang diusulkan.

Seperti yang dapat dilihat, MLLM belajar untuk menghasilkan instruksi ekspresif yang ringkas menggunakan kerugian instruksi. Menggunakan imajinasi laten dari instruksi gambar input, kerangka mengubah modality edit head, dan memandu model difusi laten untuk mensintesis gambar hasil, dan menerapkan kerugian editing untuk pelatihan difusi. Akhirnya, kerangka membekukan sebagian besar bobot, menghasilkan pelatihan ujung-ke-ujung yang efisien parameter.

MGIE: Hasil dan Evaluasi

Kerangka MGIE menggunakan dataset IPr2Pr sebagai data pelatihan utama, dan berisi lebih dari 1 juta data yang disaring CLIP dengan instruksi yang diekstrak dari model GPT-3, dan model Prompt-to-Prompt untuk mensintesis gambar. Selanjutnya, kerangka MGIE memperlakukan kerangka InsPix2Pix yang dibangun atas encoder teks CLIP dengan model difusi sebagai baseline untuk tugas-tugas editing gambar berbasis instruksi. Kerangka MGIE juga mempertimbangkan model editing gambar yang dipandu LLM yang diadopsi untuk instruksi ekspresif dari input instruksi saja, tetapi tanpa persepsi visual.

Analisis Kuantitatif

Gambar berikut merangkum hasil editing dalam pengaturan zero-shot dengan model yang dilatih hanya pada dataset IPr2Pr. Untuk data GIER dan EVR yang melibatkan modifikasi gaya Photoshop, instruksi ekspresif dapat mengungkapkan tujuan yang konkrit daripada perintah yang ambigu, sehingga hasil editing lebih sesuai dengan niat editing.

Meskipun LGIE dan MGIE dilatih pada data yang sama dengan model InsPix2Pix, mereka dapat menawarkan penjelasan rinci melalui pembelajaran dengan model bahasa besar, tetapi LGIE masih terbatas pada satu modality. Selain itu, kerangka MGIE dapat menawarkan peningkatan kinerja yang signifikan karena memiliki akses ke gambar, dan dapat menggunakan gambar untuk menghasilkan instruksi yang eksplisit.

Untuk menilai kinerja pada tugas-tugas editing gambar berbasis instruksi untuk tujuan tertentu, pengembang melakukan fine-tuning beberapa model pada setiap dataset, seperti yang dirangkum dalam tabel berikut.

Seperti yang dapat dilihat, setelah menyesuaikan tugas-tugas editing gaya Photoshop untuk EVR dan GIER, model menunjukkan peningkatan kinerja. Namun, perlu diingat bahwa karena fine-tuning membuat instruksi ekspresif lebih spesifik domain, kerangka MGIE menyaksikan peningkatan kinerja yang besar karena juga mempelajari bimbingan yang terkait domain, sehingga model difusi dapat menunjukkan adegan yang diedit yang konkrit dari model bahasa besar yang difine-tuning, menguntungkan baik modifikasi lokal dan optimasi lokal. Selain itu, karena bimbingan visual yang sadar lebih sejalan dengan tujuan editing yang diinginkan, kerangka MGIE konsisten memberikan hasil yang unggul dibandingkan dengan LGIE.

Gambar berikut menunjukkan skor CLIP-S di seluruh gambar input atau tujuan dan instruksi ekspresif. Skor CLIP yang lebih tinggi menunjukkan relevansi instruksi dengan sumber editing, dan seperti yang dapat dilihat, MGIE memiliki skor CLIP yang lebih tinggi dibandingkan dengan model LGIE di seluruh gambar input dan output.

Hasil Kualitatif

Gambar berikut merangkum analisis kualitatif kerangka MGIE dengan baik.

Seperti yang kita ketahui, kerangka LGIE terbatas pada satu modality karena memiliki wawasan bahasa tunggal, dan rentan menghasilkan penjelasan yang salah atau tidak relevan untuk mengedit gambar. Namun, kerangka MGIE adalah multimodal, dan dengan akses ke gambar, kerangka ini menyelesaikan tugas-tugas editing, dan memberikan imajinasi visual yang eksplisit yang sejalan dengan tujuan yang sebenarnya.

Pemikiran Akhir

Dalam artikel ini, kita telah membahas MGIE atau MLLM Guided Image Editing, sebuah studi yang terinspirasi oleh MLLM yang bertujuan untuk mengevaluasi Model Bahasa Besar Multimodal dan menganalisis bagaimana mereka memfasilitasi editing menggunakan teks atau instruksi yang dipandu, sambil mempelajari cara memberikan bimbingan yang eksplisit dengan menghasilkan instruksi yang ekspresif secara bersamaan. Model editing MGIE memahami informasi visual dan melakukan editing atau manipulasi menggunakan pelatihan ujung-ke-ujung. Sebagai gantinya untuk bimbingan yang ambigu dan singkat, kerangka MGIE menghasilkan instruksi visual yang sadar yang eksplisit, sehingga menghasilkan editing gambar yang masuk akal.

Kunal Kejriwal

Seorang insinyur oleh profesi, seorang penulis oleh hati. Kunal adalah seorang penulis teknis dengan cinta yang mendalam & pemahaman tentang AI dan ML, yang didedikasikan untuk menyederhanakan konsep-konsep kompleks dalam bidang ini melalui dokumentasi yang menarik dan informatif.