potongan Gaya Instan: Pelestarian Gaya dalam Pembuatan Teks-ke-Gambar - Unite.AI
Terhubung dengan kami

Kecerdasan Buatan

Gaya Instan: Pelestarian Gaya dalam Pembuatan Teks-ke-Gambar

mm

Diterbitkan

 on

Selama beberapa tahun terakhir, model difusi berbasis penyetelan telah menunjukkan kemajuan luar biasa dalam beragam tugas personalisasi dan penyesuaian gambar. Namun, terlepas dari potensinya, model difusi berbasis tuning saat ini terus menghadapi sejumlah tantangan kompleks dalam memproduksi dan menghasilkan gambar yang konsisten dengan gaya, dan mungkin ada tiga alasan di balik hal tersebut. Pertama, konsep gaya masih belum terdefinisi dan ditentukan secara luas, dan terdiri dari kombinasi elemen termasuk atmosfer, struktur, desain, material, warna, dan banyak lagi. Metode berbasis inversi kedua rentan terhadap penurunan gaya, yang mengakibatkan seringnya hilangnya detail halus. Terakhir, pendekatan berbasis adaptor memerlukan penyesuaian bobot yang sering untuk setiap gambar referensi guna menjaga keseimbangan antara kemampuan kontrol teks dan intensitas gaya. 

Selain itu, tujuan utama dari sebagian besar pendekatan transfer gaya atau pembuatan gambar gaya adalah menggunakan gambar referensi, dan menerapkan gaya spesifiknya dari subset atau gambar referensi tertentu ke gambar konten target. Namun, banyaknya atribut gayalah yang menyulitkan peneliti untuk mengumpulkan kumpulan data bergaya, merepresentasikan gaya dengan benar, dan mengevaluasi keberhasilan transfer. Sebelumnya, model dan kerangka kerja yang menangani proses difusi berbasis penyempurnaan, menyempurnakan kumpulan data gambar yang memiliki gaya yang sama, sebuah proses yang memakan waktu, dan dengan kemampuan generalisasi terbatas dalam tugas dunia nyata karena sulit untuk mengumpulkan subkumpulan gambar yang memiliki gaya yang sama atau hampir identik. 

Pada artikel ini, kita akan membahas tentang InstantStyle, sebuah kerangka kerja yang dirancang dengan tujuan mengatasi masalah yang dihadapi oleh model difusi berbasis penyetelan saat ini untuk pembuatan dan penyesuaian gambar. Kita akan membahas dua strategi utama yang diterapkan oleh kerangka InstantStyle: 

  1. Pendekatan sederhana namun efektif untuk memisahkan gaya dan konten dari gambar referensi dalam ruang fitur, diprediksi dengan asumsi bahwa fitur dalam ruang fitur yang sama dapat ditambahkan atau dikurangi satu sama lain. 
  2. Mencegah kebocoran gaya dengan memasukkan fitur gambar referensi secara eksklusif ke dalam blok khusus gaya, dan dengan sengaja menghindari kebutuhan untuk menggunakan bobot yang rumit untuk penyesuaian, yang sering kali menjadi ciri desain yang lebih banyak parameternya. 

Artikel ini bertujuan untuk membahas kerangka InstantStyle secara mendalam, dan kami mengeksplorasi mekanisme, metodologi, arsitektur kerangka kerja beserta perbandingannya dengan kerangka canggih. Kita juga akan membahas tentang bagaimana kerangka InstantStyle menunjukkan hasil stilisasi visual yang luar biasa, dan memberikan keseimbangan optimal antara kemampuan kontrol elemen tekstual dan intensitas gaya. Jadi mari kita mulai. 

InstantStyle : Pelestarian Gaya dalam Pembuatan Teks ke Gambar

Kerangka kerja AI generatif teks ke gambar berbasis difusi telah meraih kesuksesan nyata dan luar biasa di beragam tugas penyesuaian dan personalisasi, terutama dalam tugas pembuatan gambar yang konsisten termasuk penyesuaian objek, pelestarian gambar, dan transfer gaya. Namun, terlepas dari kesuksesan dan peningkatan kinerja baru-baru ini, transfer gaya tetap menjadi tugas yang menantang bagi para peneliti karena sifat gaya yang tidak dapat ditentukan dan ditentukan, sering kali mencakup berbagai elemen termasuk atmosfer, struktur, desain, material, warna, dan banyak lagi. Oleh karena itu, tujuan utama pembuatan gambar bergaya atau transfer gaya adalah menerapkan gaya tertentu dari gambar referensi tertentu atau subkumpulan gambar referensi. ke gambar konten target. Namun, banyaknya atribut gaya menyulitkan peneliti untuk mengumpulkan kumpulan data bergaya, merepresentasikan gaya dengan benar, dan mengevaluasi keberhasilan transfer. Sebelumnya, model dan kerangka kerja yang menangani proses difusi berbasis penyempurnaan, menyempurnakan kumpulan data gambar yang memiliki gaya yang sama, sebuah proses yang memakan waktu, dan dengan kemampuan generalisasi terbatas dalam tugas dunia nyata karena sulit untuk mengumpulkan subkumpulan gambar yang memiliki gaya yang sama atau hampir identik. 

Dengan tantangan yang dihadapi oleh pendekatan saat ini, para peneliti tertarik untuk mengembangkan pendekatan penyesuaian untuk transfer gaya atau pembuatan gambar bergaya, dan kerangka kerja ini dapat dibagi menjadi dua kelompok berbeda: 

  • Pendekatan bebas adaptor: Pendekatan dan kerangka kerja bebas adaptor memanfaatkan kekuatan perhatian mandiri dalam proses difusi, dan dengan menerapkan operasi perhatian bersama, model ini mampu mengekstraksi fitur-fitur penting termasuk kunci dan nilai dari gambar gaya referensi tertentu secara langsung. 
  • Pendekatan Berbasis Adaptor: Pendekatan dan kerangka kerja berbasis adaptor di sisi lain menggabungkan model ringan yang dirancang untuk mengekstrak representasi gambar detail dari gambar gaya referensi. Kerangka kerja tersebut kemudian mengintegrasikan representasi ini ke dalam proses difusi dengan terampil menggunakan mekanisme perhatian silang. Tujuan utama dari proses integrasi adalah untuk memandu proses pembuatan, dan untuk memastikan bahwa gambar yang dihasilkan selaras dengan nuansa gaya yang diinginkan dari gambar referensi. 

Namun, meskipun menjanjikan, metode tanpa penyetelan sering kali menghadapi beberapa tantangan. Pertama, pendekatan bebas adaptor memerlukan pertukaran kunci dan nilai dalam lapisan perhatian mandiri, dan melakukan pra-penangkapan matriks kunci dan nilai yang berasal dari gambar gaya referensi. Saat diterapkan pada gambar alami, pendekatan bebas adaptor memerlukan inversi gambar kembali ke noise laten menggunakan teknik seperti inversi DDIM atau Denoising Diffusion Implicit Models. Namun, penggunaan DDIM atau pendekatan inversi lainnya mungkin mengakibatkan hilangnya detail halus seperti warna dan tekstur, sehingga mengurangi informasi gaya pada gambar yang dihasilkan. Selain itu, langkah tambahan yang diperkenalkan oleh pendekatan ini adalah proses yang memakan waktu dan dapat menimbulkan kelemahan yang signifikan dalam penerapan praktisnya. Di sisi lain, tantangan utama metode berbasis adaptor terletak pada keseimbangan yang tepat antara kebocoran konteks dan intensitas gaya. Kebocoran konten terjadi ketika peningkatan intensitas gaya mengakibatkan munculnya elemen non-gaya dari gambar referensi pada keluaran yang dihasilkan, dengan kesulitan utama adalah memisahkan gaya dari konten dalam gambar referensi secara efektif. Untuk mengatasi masalah ini, beberapa kerangka kerja membuat kumpulan data berpasangan yang mewakili objek yang sama dalam gaya berbeda, memfasilitasi ekstraksi representasi konten, dan mengurai gaya. Namun, karena representasi gaya yang pada dasarnya tidak dapat ditentukan, tugas pembuatan kumpulan data berpasangan berskala besar menjadi terbatas dalam hal keragaman gaya yang dapat ditangkap, dan ini juga merupakan proses yang membutuhkan banyak sumber daya. 

Untuk mengatasi keterbatasan ini, kerangka InstantStyle diperkenalkan yang merupakan mekanisme bebas penyetelan baru berdasarkan metode berbasis adaptor yang ada dengan kemampuan untuk berintegrasi secara mulus dengan metode penyuntikan berbasis perhatian lainnya, dan mencapai pemisahan konten dan gaya secara efektif. Lebih jauh lagi, kerangka InstantStyle memperkenalkan bukan hanya satu, tapi dua cara efektif untuk menyelesaikan pemisahan gaya dan konten, mencapai migrasi gaya yang lebih baik tanpa harus memperkenalkan metode tambahan untuk mencapai pemisahan atau membangun kumpulan data berpasangan. 

Selain itu, kerangka kerja berbasis adaptor sebelumnya telah digunakan secara luas dalam metode berbasis CLIP sebagai ekstraktor fitur gambar, beberapa kerangka kerja telah menjajaki kemungkinan penerapan pemisahan fitur dalam ruang fitur, dan jika dibandingkan dengan gaya yang tidak dapat ditentukan, lebih mudah untuk menerapkannya. mendeskripsikan konten dengan teks. Karena gambar dan teks berbagi ruang fitur dalam metode berbasis CLIP, operasi pengurangan sederhana fitur teks konteks dan fitur gambar dapat mengurangi kebocoran konten secara signifikan. Selain itu, di sebagian besar model difusi, ada lapisan tertentu dalam arsitekturnya yang memasukkan informasi gaya, dan menyelesaikan pemisahan konten dan gaya dengan memasukkan fitur gambar hanya ke dalam blok gaya tertentu. Dengan menerapkan dua strategi sederhana ini, kerangka InstantStyle mampu memecahkan masalah kebocoran konten yang dihadapi oleh sebagian besar kerangka kerja yang ada dengan tetap mempertahankan kekuatan gaya. 

Singkatnya, kerangka InstantStyle menggunakan dua mekanisme sederhana, lugas namun efektif untuk mencapai penguraian konten dan gaya yang efektif dari gambar referensi. Kerangka kerja Gaya Instan adalah model pendekatan yang independen dan bebas penyetelan yang menunjukkan kinerja luar biasa dalam tugas transfer gaya dengan potensi besar untuk tugas hilir. 

Gaya Instan: Metodologi dan Arsitektur

Seperti yang ditunjukkan oleh pendekatan sebelumnya, terdapat keseimbangan dalam injeksi kondisi gaya dalam model difusi bebas penyetelan. Jika intensitas kondisi gambar terlalu tinggi, hal ini dapat mengakibatkan kebocoran konten, sedangkan jika intensitas kondisi gambar turun terlalu rendah, gayanya mungkin tidak terlihat cukup jelas. Alasan utama di balik pengamatan ini adalah bahwa dalam sebuah gambar, gaya dan konten saling terkait, dan karena atribut gaya yang melekat belum ditentukan, sulit untuk memisahkan gaya dan maksud. Akibatnya, bobot yang cermat sering kali disesuaikan untuk setiap gambar referensi dalam upaya menyeimbangkan pengendalian teks dan kekuatan gaya. Selanjutnya, untuk gambar referensi masukan tertentu dan deskripsi teks terkait dalam metode berbasis inversi, pendekatan inversi seperti DDIM diadopsi pada gambar untuk mendapatkan lintasan difusi terbalik, sebuah proses yang mendekati persamaan inversi untuk mengubah gambar menjadi gambar laten. representasi kebisingan. Berdasarkan hal yang sama, dan dimulai dari lintasan difusi terbalik bersama dengan serangkaian petunjuk baru, metode ini menghasilkan konten baru dengan gaya yang selaras dengan masukan. Namun, seperti yang ditunjukkan pada gambar berikut, pendekatan inversi DDIM untuk gambar nyata seringkali tidak stabil karena bergantung pada asumsi linearisasi lokal, yang mengakibatkan penyebaran kesalahan, dan menyebabkan hilangnya konten dan rekonstruksi gambar yang salah. 

Mengenai metodologi, alih-alih menggunakan strategi rumit untuk memisahkan konten dan gaya dari gambar, kerangka Gaya Instan mengambil pendekatan paling sederhana untuk mencapai kinerja serupa. Jika dibandingkan dengan atribut gaya yang belum ditentukan, konten dapat diwakili oleh teks alami, memungkinkan kerangka Gaya Instan menggunakan encoder teks dari CLIP untuk mengekstrak karakteristik teks konten sebagai representasi konteks. Secara bersamaan, kerangka Gaya Instan mengimplementasikan encoder gambar CLIP untuk mengekstrak fitur gambar referensi. Mengambil keuntungan dari karakterisasi fitur global CLIP, dan pasca pengurangan fitur teks konten dari fitur gambar, kerangka Gaya Instan mampu memisahkan gaya dan konten secara eksplisit. Meskipun merupakan strategi sederhana, kerangka Gaya Instan ini membantu cukup efektif dalam meminimalkan kebocoran konten. 

Selain itu, setiap lapisan dalam jaringan dalam bertanggung jawab untuk menangkap informasi semantik yang berbeda, dan pengamatan utama dari model sebelumnya adalah bahwa terdapat dua lapisan perhatian yang bertanggung jawab untuk menangani gaya. ke atas Secara khusus, ini adalah lapisan blok.0.perhatian.1 dan blok bawah.2.perhatian.1 yang bertanggung jawab untuk menangkap gaya seperti warna, material, atmosfer, dan lapisan tata ruang masing-masing menangkap struktur dan komposisi. Kerangka Kerja Gaya Instan menggunakan lapisan ini secara implisit untuk mengekstrak informasi gaya, dan mencegah kebocoran konten tanpa kehilangan kekuatan gaya. Strateginya sederhana namun efektif karena model telah menempatkan blok gaya yang dapat memasukkan fitur gambar ke dalam blok tersebut untuk mencapai transfer gaya yang mulus. Selain itu, karena model ini sangat mengurangi jumlah parameter adaptor, kemampuan kontrol teks kerangka kerja ditingkatkan, dan mekanisme ini juga berlaku untuk model injeksi fitur berbasis perhatian lainnya untuk pengeditan dan tugas lainnya. 

Gaya Instan: Eksperimen dan Hasil

Kerangka kerja Gaya Instan diimplementasikan pada kerangka Difusi Stabil XL, dan menggunakan adaptor IR terlatih yang umum digunakan sebagai contoh untuk memvalidasi metodologinya, dan menonaktifkan semua blok kecuali blok gaya untuk fitur gambar. Model Gaya Instan juga melatih adaptor IR pada 4 juta kumpulan data berpasangan gambar teks berskala besar dari awal, dan alih-alih melatih semua blok, hanya memperbarui blok gaya. 

Untuk melakukan kemampuan generalisasi dan ketahanannya, kerangka Gaya Instan melakukan banyak eksperimen transfer gaya dengan berbagai gaya di berbagai konten, dan hasilnya dapat diamati pada gambar berikut. Dengan adanya gambar referensi gaya tunggal dan petunjuk yang bervariasi, kerangka Gaya Instan memberikan gaya yang konsisten dan berkualitas tinggi generasi gambar

Selain itu, karena model memasukkan informasi gambar hanya ke dalam blok gaya, model ini mampu mengurangi masalah kebocoran konten secara signifikan, dan oleh karena itu, tidak perlu melakukan penyesuaian bobot. 

Selanjutnya, kerangka Instant-Style juga mengadopsi arsitektur ControlNet untuk mencapai stilisasi berbasis gambar dengan kontrol spasial, dan hasilnya ditunjukkan pada gambar berikut. 

Jika dibandingkan dengan metode canggih sebelumnya termasuk StyleAlign, B-LoRA, Swapping Self Attention, dan IP-Adapter, kerangka Instant-Style menunjukkan efek visual terbaik. 

Final Thoughts

Dalam artikel ini, kita telah membahas tentang Gaya Instan, kerangka umum yang menggunakan dua strategi sederhana namun efektif untuk mencapai penguraian konten dan gaya yang efektif dari gambar referensi. Kerangka kerja InstantStyle dirancang dengan tujuan mengatasi masalah yang dihadapi oleh model difusi berbasis penyetelan saat ini untuk pembuatan dan penyesuaian gambar. Kerangka Kerja Gaya Instan menerapkan dua strategi penting: Pendekatan sederhana namun efektif untuk memisahkan gaya dan konten dari gambar referensi dalam ruang fitur, diprediksi dengan asumsi bahwa fitur dalam ruang fitur yang sama dapat ditambahkan atau dikurangi satu sama lain. Kedua, mencegah kebocoran gaya dengan memasukkan fitur gambar referensi secara eksklusif ke dalam blok khusus gaya, dan dengan sengaja menghindari kebutuhan untuk menggunakan bobot yang rumit untuk penyesuaian, yang sering kali menjadi ciri desain yang lebih banyak parameternya. 

"Seorang insinyur berdasarkan profesi, seorang penulis dengan hati". Kunal adalah seorang penulis teknis dengan kecintaan mendalam & pemahaman AI dan ML, berdedikasi untuk menyederhanakan konsep kompleks di bidang ini melalui dokumentasinya yang menarik dan informatif.