Kecerdasan buatan

InstantID: Generasi Identitas-Preserving Zero-Shot dalam Hitungan Detik

Published March 12, 2024

Updated April 4, 2026

Kunal Kejriwal

Teknologi generasi gambar yang ditenagai AI telah mengalami pertumbuhan yang luar biasa dalam beberapa tahun terakhir sejak model difusi teks-ke-gambar besar seperti DALL-E, GLIDE, Stable Diffusion, Imagen, dan lain-lain muncul ke scene. Meskipun model AI generasi gambar memiliki arsitektur dan metode pelatihan yang unik, mereka semua memiliki satu fokus yang sama: generasi gambar yang disesuaikan dan dipersonalisasi yang bertujuan untuk menciptakan gambar dengan karakter ID, subjek, dan gaya yang konsisten berdasarkan gambar referensi. Karena kemampuan generatif yang luar biasa, kerangka kerja generasi gambar AI modern telah menemukan aplikasi di bidang termasuk animasi gambar, realitas virtual, E-Commerce, potret AI, dan lain-lain. Namun, meskipun kemampuan generatif yang luar biasa, kerangka kerja ini semua memiliki satu hambatan yang sama, sebagian besar dari mereka tidak dapat menghasilkan gambar yang disesuaikan sambil menjaga detail identitas yang halus dari objek manusia.

Menghasilkan gambar yang disesuaikan sambil menjaga detail yang rumit sangat penting terutama dalam tugas identitas wajah manusia yang memerlukan standar kesetiaan dan detail yang tinggi, dan semantik yang halus dibandingkan dengan tugas generasi gambar objek umum yang berkonsentrasi terutama pada tekstur dan warna yang kasar. Selain itu, kerangka kerja sintesis gambar yang dipersonalisasi dalam beberapa tahun terakhir seperti LoRA, DreamBooth, Textual Inversion, dan lain-lain telah berkembang secara signifikan. Namun, model generasi gambar AI yang dipersonalisasi masih tidak sempurna untuk diterapkan dalam skenario dunia nyata karena mereka memiliki persyaratan penyimpanan yang tinggi, mereka memerlukan beberapa gambar referensi, dan mereka sering memiliki proses penyetelan yang panjang. Di sisi lain, meskipun metode berbasis ID-embedding yang ada hanya memerlukan satu referensi maju, mereka tidak kompatibel dengan model pra-dilatih yang tersedia secara umum, atau mereka memerlukan proses penyetelan yang berlebihan di seluruh parameter, atau mereka gagal mempertahankan kesetiaan wajah yang tinggi.

Untuk mengatasi tantangan ini, dan lebih meningkatkan kemampuan generasi gambar, dalam artikel ini, kita akan membahas tentang InstantID, sebuah solusi berbasis model difusi untuk generasi gambar. InstantID adalah sebuah modul plug and play yang menangani generasi gambar dan personalisasi dengan mahir di seluruh gaya dengan hanya satu gambar referensi dan juga memastikan kesetiaan yang tinggi. Tujuan utama artikel ini adalah untuk memberikan pemahaman yang menyeluruh tentang landasan teknis dan komponen kerangka kerja InstantID karena kita akan melihat arsitektur model, proses pelatihan, dan skenario aplikasi secara rinci. Jadi mari kita mulai.

InstantID: Generasi Identitas-Preserving Zero-Shot

Munculnya model difusi teks-ke-gambar telah memberikan kontribusi signifikan dalam kemajuan teknologi generasi gambar. Tujuan utama model ini adalah generasi yang disesuaikan dan dipersonalisasi, dan menciptakan gambar dengan subjek, gaya, dan karakter ID yang konsisten menggunakan satu atau lebih gambar referensi. Kemampuan kerangka kerja ini untuk menciptakan gambar yang konsisten telah menciptakan aplikasi potensial di berbagai industri termasuk animasi gambar, generasi potret AI, E-Commerce, realitas virtual dan augmented, dan banyak lagi.

Namun, meskipun kemampuan yang luar biasa, kerangka kerja ini menghadapi satu tantangan mendasar: mereka sering mengalami kesulitan untuk menghasilkan gambar yang disesuaikan yang mempertahankan detail yang rumit dari subjek manusia dengan akurat. Perlu diingat bahwa menghasilkan gambar yang disesuaikan dengan detail yang rumit adalah tugas yang menantang karena identitas wajah manusia memerlukan tingkat kesetiaan dan detail yang lebih tinggi serta semantik yang lebih maju dibandingkan dengan objek umum atau gaya yang berfokus terutama pada warna atau tekstur yang kasar. Model gambar yang ada bergantung pada deskripsi teks yang rinci, dan mereka mengalami kesulitan dalam mencapai relevansi semantik yang kuat untuk generasi gambar yang disesuaikan. Selain itu, beberapa kerangka kerja gambar pra-dilatih menambahkan kontrol kondisi spasial untuk meningkatkan kontrol, memfasilitasi kontrol struktural yang halus menggunakan elemen seperti pose tubuh, peta kedalaman, sketsa yang digambar oleh pengguna, peta segmentasi semantik, dan lain-lain. Namun, meskipun penambahan dan peningkatan ini, kerangka kerja ini hanya dapat mencapai kesetiaan parsial dari gambar yang dihasilkan terhadap gambar referensi.

Untuk mengatasi hambatan ini, kerangka kerja InstantID berfokus pada sintesis gambar identitas-preserving instan, dan berusaha untuk menjembatani kesenjangan antara efisiensi dan kesetiaan yang tinggi dengan memperkenalkan sebuah modul plug and play yang sederhana yang memungkinkan kerangka kerja untuk menangani personalisasi gambar menggunakan hanya satu gambar wajah sambil mempertahankan kesetiaan yang tinggi. Selain itu, untuk mempertahankan identitas wajah dari gambar referensi, kerangka kerja InstantID menerapkan sebuah pengkode wajah yang baru yang mempertahankan detail gambar yang rumit dengan menambahkan kondisi spasial yang lemah dan kondisi semantik yang kuat yang memandu proses generasi gambar dengan mengintegrasikan prompt teks, gambar landmark, dan gambar wajah.

Terdapat tiga fitur yang membedakan kerangka kerja InstantID dari kerangka kerja generasi gambar teks-ke-gambar yang ada.

Kompatibilitas dan Pluggability: Sebagai gantinya untuk melatih parameter penuh dari kerangka kerja UNet, kerangka kerja InstantID berfokus pada melatih sebuah adapter yang ringan. Sebagai hasilnya, kerangka kerja InstantID kompatibel dan dapat dipasang dengan model pra-dilatih yang ada.

Tuning-Free: Metodologi kerangka kerja InstantID menghilangkan kebutuhan untuk penyetelan karena hanya memerlukan satu propagasi maju untuk inferensi, membuat model sangat praktis dan ekonomis untuk penyetelan.
Kinerja yang Unggul: Kerangka kerja InstantID menunjukkan fleksibilitas dan kesetiaan yang tinggi karena dapat menghasilkan kinerja yang setara dengan metode berbasis pelatihan yang menggunakan beberapa gambar referensi.

Secara keseluruhan, kontribusi kerangka kerja InstantID dapat dikategorikan dalam poin-poin berikut.

Kerangka kerja InstantID adalah sebuah metode adaptasi inovatif untuk model difusi teks-ke-gambar pra-dilatih yang bertujuan untuk menjembatani kesenjangan antara efisiensi dan kesetiaan.
Kerangka kerja InstantID kompatibel dan dapat dipasang dengan model yang telah disesuaikan dengan pelatihan khusus menggunakan arsitektur difusi yang sama dalam arsitektur yang memungkinkan pelestarian ID dalam model pra-dilatih tanpa biaya tambahan.

InstantID: Metodologi dan Arsitektur

Seperti yang disebutkan sebelumnya, kerangka kerja InstantID adalah sebuah adapter yang ringan dan efisien yang memberikan kemampuan pelestarian ID kepada model difusi teks-ke-gambar pra-dilatih dengan mudah.

Berbicara tentang arsitektur, kerangka kerja InstantID dibangun di atas model Stable Diffusion, yang terkenal karena kemampuannya untuk melakukan proses difusi dengan efisiensi komputasi yang tinggi dalam ruang laten yang berdimensi rendah bukan dalam ruang piksel dengan auto-encoder. Untuk gambar input, encoder pertama kali memetakan gambar ke representasi laten dengan faktor downsampling dan dimensi laten. Selain itu, untuk mendengarkan noise yang terdistribusi normal dengan noise laten, kondisi, dan waktu langkah saat ini, proses difusi mengadopsi komponen UNet yang dapat mendengarkan. Kondisi adalah embedding dari prompt teks yang dihasilkan menggunakan komponen encoder teks CLIP pra-dilatih.

Selain itu, kerangka kerja InstantID juga menggunakan komponen ControlNet yang dapat menambahkan kontrol spasial ke model difusi pra-dilatih sebagai kondisi, melampaui kemampuan prompt teks tradisional. Komponen ControlNet juga mengintegrasikan arsitektur UNet dari kerangka kerja Stable Diffusion menggunakan replikasi yang dilatih dari komponen UNet. Replikasi komponen UNet memiliki lapisan konvolusi nol dalam blok tengah dan blok encoder. Meskipun kesamaannya, komponen ControlNet membedakan diri dari model Stable Diffusion; mereka berbeda dalam item residu yang terakhir. Komponen ControlNet mengkodekan informasi kondisi spasial seperti pose, peta kedalaman, sketsa, dan lain-lain dengan menambahkan residu ke blok UNet, dan kemudian mengintegrasikan residu ini ke jaringan asli.

Kerangka kerja InstantID juga mengambil inspirasi dari IP-Adapter atau Image Prompt Adapter yang memperkenalkan pendekatan baru untuk mencapai kemampuan prompt gambar yang berjalan paralel dengan prompt teks tanpa memerlukan modifikasi model teks-ke-gambar asli. Komponen IP-Adapter juga menggunakan strategi perhatian silang yang terpisah yang menggunakan lapisan perhatian silang tambahan untuk mengintegrasikan fitur gambar sambil meninggalkan parameter lainnya tidak berubah.

Metodologi

Untuk memberikan gambaran singkat, kerangka kerja InstantID bertujuan untuk menghasilkan gambar yang disesuaikan dengan gaya atau pose yang berbeda menggunakan hanya satu gambar referensi ID dengan kesetiaan yang tinggi. Gambar berikut memberikan gambaran singkat tentang kerangka kerja InstantID.

Seperti yang dapat dilihat, kerangka kerja InstantID memiliki tiga komponen esensial:

Komponen embedding ID yang menangkap informasi semantik yang kuat dari fitur wajah dalam gambar.
Modul adapter yang ringan dengan komponen perhatian silang yang terpisah untuk memfasilitasi penggunaan gambar sebagai prompt visual.
Komponen IdentityNet yang mengkodekan fitur yang rinci dari gambar referensi menggunakan kontrol spasial tambahan.

Embedding ID

Tidak seperti metode yang ada seperti FaceStudio, PhotoMaker, IP-Adapter, dan lain-lain yang bergantung pada encoder gambar CLIP pra-dilatih untuk mengekstrak prompt visual, kerangka kerja InstantID berfokus pada kesetiaan yang ditingkatkan dan detail semantik yang lebih kuat dalam tugas pelestarian ID. Perlu diingat bahwa keterbatasan inheren komponen CLIP terletak terutama dalam proses pelatihannya pada data yang tidak sejajar dengan baik, yang berarti fitur yang dikodekan oleh encoder CLIP terutama menangkap informasi semantik yang umum dan kabur seperti warna, gaya, dan komposisi. Meskipun fitur ini dapat bertindak sebagai suplemen umum untuk embedding teks, mereka tidak cocok untuk tugas pelestarian ID yang presisi yang menekankan semantik yang kuat dan kesetiaan yang tinggi. Selain itu, penelitian terbaru dalam model representasi wajah, terutama dalam pengenalan wajah, telah menunjukkan efisiensi representasi wajah dalam tugas yang kompleks termasuk rekonstruksi dan pengenalan wajah. Berdasarkan hal ini, kerangka kerja InstantID bertujuan untuk memanfaatkan model wajah pra-dilatih untuk mendeteksi dan mengekstrak embedding ID dari gambar referensi, memandu model untuk generasi gambar.

Adapter Gambar

Kemampuan model difusi teks-ke-gambar pra-dilatih dalam tugas prompt gambar meningkatkan prompt teks secara signifikan, terutama untuk skenario yang tidak dapat digambarkan dengan cukup oleh prompt teks. Kerangka kerja InstantID mengadopsi strategi yang mirip dengan yang digunakan oleh model IP-Adapter untuk prompt gambar, yang memperkenalkan modul adapter yang ringan yang dipasangkan dengan komponen perhatian silang yang terpisah untuk mendukung gambar sebagai prompt input. Namun, berbeda dengan embedding CLIP yang sejajar kasar, kerangka kerja InstantID berbeda dengan menggunakan embedding ID sebagai prompt gambar dalam upaya untuk mencapai integrasi prompt yang lebih kaya dan lebih nuansa.

IdentityNet

Meskipun metode yang ada dapat mengintegrasikan prompt gambar dengan prompt teks, kerangka kerja InstantID berargumen bahwa metode ini hanya meningkatkan fitur yang kasar dengan tingkat integrasi yang tidak cukup untuk generasi gambar yang melestarikan ID. Selain itu, menambahkan token gambar dan teks dalam lapisan perhatian silang secara langsung cenderung melemahkan kontrol token teks, dan upaya untuk meningkatkan kekuatan token gambar dapat mengakibatkan merusak kemampuan token teks pada tugas editing. Untuk mengatasi tantangan ini, kerangka kerja InstantID memilih ControlNet, sebuah metode pengkodean fitur alternatif yang menggunakan informasi spasial sebagai input untuk modul yang dapat dikontrol, memungkinkan untuk mempertahankan konsistensi dengan pengaturan UNet dalam model difusi.

Kerangka kerja InstantID membuat dua perubahan pada arsitektur ControlNet tradisional: untuk input kondisional, kerangka kerja InstantID memilih 5 titik kunci wajah sebagai gantinya dari titik kunci wajah OpenPose yang halus. Kedua, kerangka kerja InstantID menggunakan embedding ID sebagai gantinya dari prompt teks sebagai kondisi untuk lapisan perhatian silang dalam arsitektur ControlNet.

Pelatihan dan Inferensi

Selama fase pelatihan, kerangka kerja InstantID mengoptimalkan parameter dari IdentityNet dan Image Adapter sambil membekukan parameter dari model difusi pra-dilatih. Seluruh pipa InstantID dilatih pada pasangan gambar-teks yang menampilkan subjek manusia, dan menggunakan tujuan pelatihan yang serupa dengan yang digunakan dalam kerangka kerja Stable Diffusion dengan kondisi gambar yang spesifik tugas. Sorotan dari metode pelatihan InstantID adalah pemisahan antara lapisan perhatian silang gambar dan teks dalam adapter prompt gambar, sebuah pilihan yang memungkinkan kerangka kerja InstantID untuk menyesuaikan bobot dari kondisi gambar ini dengan fleksibel dan secara mandiri, memastikan proses inferensi dan pelatihan yang lebih terarah dan terkendali.

InstantID: Eksperimen dan Hasil

Kerangka kerja InstantID menerapkan Stable Diffusion dan melatihnya pada LAION-Face, sebuah dataset besar yang terbuka yang terdiri dari lebih dari 50 juta pasangan gambar-teks. Selain itu, kerangka kerja InstantID mengumpulkan lebih dari 10 juta gambar manusia dengan otomatis yang dihasilkan secara otomatis oleh model BLIP2 untuk lebih meningkatkan kualitas generasi gambar. Kerangka kerja InstantID berfokus terutama pada gambar satu orang, dan menggunakan model wajah pra-dilatih untuk mendeteksi dan mengekstrak embedding ID dari gambar manusia, dan bukan melatih dataset wajah yang dipotong, melatih gambar manusia asli. Selain itu, selama pelatihan, kerangka kerja InstantID membekukan model teks-ke-gambar pra-dilatih, dan hanya memperbarui parameter dari IdentityNet dan Image Adapter.

Generasi Gambar Hanya

Model InstantID menggunakan prompt kosong untuk memandu proses generasi gambar menggunakan hanya gambar referensi, dan hasilnya tanpa prompt ditunjukkan dalam gambar berikut.

Generasi ‘Prompt Kosong’ seperti yang ditunjukkan dalam gambar di atas menunjukkan kemampuan kerangka kerja InstantID untuk mempertahankan fitur wajah yang kaya dan semantik seperti identitas, usia, dan ekspresi dengan kuat. Namun, perlu diingat bahwa menggunakan prompt kosong mungkin tidak dapat mereplikasi hasil pada semantik lain seperti gender dengan akurat. Selain itu, dalam gambar di atas, kolom 2 hingga 4 menggunakan gambar dan prompt, dan seperti yang dapat dilihat, gambar yang dihasilkan tidak menunjukkan degradasi dalam kemampuan kontrol teks, dan juga memastikan konsistensi identitas. Akhirnya, kolom 5 hingga 9 menggunakan gambar, prompt, dan kontrol spasial, menunjukkan kompatibilitas model dengan model kontrol spasial pra-dilatih yang memungkinkan model InstantID untuk memperkenalkan kontrol spasial dengan fleksibel menggunakan komponen ControlNet pra-dilatih.

Juga perlu diingat bahwa jumlah gambar referensi memiliki dampak signifikan pada gambar yang dihasilkan, seperti yang ditunjukkan dalam gambar di atas. Meskipun kerangka kerja InstantID dapat menghasilkan hasil yang baik menggunakan satu gambar referensi, beberapa gambar referensi menghasilkan gambar dengan kualitas yang lebih baik karena kerangka kerja InstantID mengambil rata-rata mean dari embedding ID sebagai prompt gambar. Berlanjut, penting untuk membandingkan kerangka kerja InstantID dengan metode yang ada yang menghasilkan gambar yang dipersonalisasi menggunakan satu gambar referensi. Gambar berikut membandingkan hasil yang dihasilkan oleh kerangka kerja InstantID dan model yang ada dengan kinerja yang setara untuk generasi gambar yang disesuaikan dengan satu referensi.

Seperti yang dapat dilihat, kerangka kerja InstantID dapat mempertahankan karakteristik wajah berkat embedding ID yang secara inheren membawa informasi semantik yang kaya, seperti identitas, usia, dan gender. Dapat dikatakan bahwa kerangka kerja InstantID outperforms model yang ada dalam generasi gambar yang disesuaikan karena dapat mempertahankan identitas manusia sambil mempertahankan kontrol dan fleksibilitas gaya.

Pemikiran Terakhir

Dalam artikel ini, kita telah membahas tentang InstantID, sebuah solusi berbasis model difusi untuk generasi gambar. InstantID adalah sebuah modul plug and play yang menangani generasi gambar dan personalisasi dengan mahir di seluruh gaya dengan hanya satu gambar referensi dan juga memastikan kesetiaan yang tinggi. Kerangka kerja InstantID berfokus pada sintesis gambar identitas-preserving instan, dan berusaha untuk menjembatani kesenjangan antara efisiensi dan kesetiaan yang tinggi dengan memperkenalkan sebuah modul plug and play yang sederhana yang memungkinkan kerangka kerja untuk menangani personalisasi gambar menggunakan hanya satu gambar wajah sambil mempertahankan kesetiaan yang tinggi.

Kunal Kejriwal

Seorang insinyur oleh profesi, seorang penulis oleh hati. Kunal adalah seorang penulis teknis dengan cinta yang mendalam & pemahaman tentang AI dan ML, yang didedikasikan untuk menyederhanakan konsep-konsep kompleks dalam bidang ini melalui dokumentasi yang menarik dan informatif.