Kecerdasan Buatan
Meningkatkan Pembuatan Layar Hijau untuk Difusi yang Stabil

Meskipun komunitas dan investor sangat antusias dengan AI generatif visual, output dari sistem tersebut tidak selalu siap untuk digunakan di dunia nyata; salah satu contohnya adalah sistem AI generatif cenderung menghasilkan output yang tidak stabil. seluruh gambar (atau serangkaian gambar, dalam kasus video), daripada elemen-elemen individual dan terisolasi yang biasanya diperlukan untuk berbagai aplikasi dalam multimedia, dan untuk praktisi efek visual.
Contoh sederhananya adalah clip-art yang dirancang untuk 'melayang' di atas latar belakang target apa pun yang telah dipilih pengguna:

Latar belakang kotak-kotak abu-abu muda, yang mungkin paling dikenal oleh pengguna Photoshop, kini mewakili saluran alfa, atau saluran transparansi, bahkan pada barang-barang konsumen sederhana seperti gambar stok.
Transparansi semacam ini telah tersedia secara umum selama lebih dari tiga puluh tahun; sejak revolusi digital awal tahun 1990-an, pengguna telah dapat mengekstrak elemen dari video dan gambar melalui serangkaian perangkat dan teknik yang semakin canggih.
Misalnya saja tantangan untuk βmenghilangkanβ latar belakang layar biru dan layar hijau dalam rekaman video, yang dulunya merupakan ranah industri mahal proses kimia dan printer optik (sebaik tikar buatan tangan), akan menjadi hasil kerja dalam hitungan menit dalam sistem seperti aplikasi After Effects dan Photoshop milik Adobe (di antara banyak program dan sistem gratis dan berpemilik lainnya).
Setelah suatu unsur diisolasi, alpha channel (secara efektif merupakan topeng yang mengaburkan konten apa pun yang tidak relevan) memungkinkan elemen apa pun dalam video untuk dengan mudah ditumpangkan pada latar belakang baru, atau digabungkan bersama elemen lain yang terisolasi.

Contoh saluran alfa, dengan efeknya digambarkan di baris bawah. Sumber: https://helpx.adobe.com/photoshop/using/saving-selections-alpha-channel-masks.html
Keluar
Dalam visi komputer, penciptaan saluran alfa termasuk dalam lingkup segmentasi semantik, dengan proyek sumber terbuka seperti Meta Segmen Apapun menyediakan metode yang dapat diminta melalui teks untuk mengisolasi/mengekstraksi objek target, melalui pengenalan objek yang ditingkatkan secara semantik.
Kerangka kerja Segment Anything telah digunakan dalam berbagai alur kerja ekstraksi dan isolasi efek visual, seperti Proyek Alpha-CLIP.

Contoh ekstraksi menggunakan Segment Anything, dalam kerangka Alpha-CLIP: Sumber: https://arxiv.org/pdf/2312.03818
Ada banyak alternatif metode segmentasi semantik yang dapat disesuaikan dengan tugas penetapan saluran alfa.
Namun, segmentasi semantik bergantung pada data terlatih yang mungkin tidak berisi semua kategori objek yang harus diekstraksi. Meskipun model yang dilatih pada volume data yang sangat tinggi dapat memungkinkan berbagai objek dikenali (secara efektif menjadi model dasar, atau model dunia), namun mereka dibatasi oleh kelas-kelas yang mereka latih untuk dikenali secara paling efektif.

Sistem segmentasi semantik seperti Segment Anything dapat kesulitan mengidentifikasi objek tertentu, atau bagian objek, seperti yang dicontohkan di sini dalam keluaran dari perintah yang ambigu. Sumber: https://maucher.pages.mi.hdm-stuttgart.de/orbook/deeplearning/SAM.html
Dalam hal apapun, segmentasi semantik sama halnya dengan pos facto prosesnya sebagai prosedur layar hijau, dan harus mengisolasi unsur-unsur tanpa keuntungan dari satu bidang warna latar belakang yang dapat dikenali dan dihilangkan secara efektif.
Oleh karena itu, terkadang muncul pemikiran di komunitas pengguna bahwa gambar dan video dapat dibuat yang sebenarnya berisi latar belakang layar hijau yang dapat langsung dihilangkan melalui metode konvensional.
Sayangnya, populer model difusi laten seperti Difusi Stabil sering kali mengalami kesulitan dalam membuat layar hijau yang sangat jelas. Hal ini karena data pelatihan model biasanya tidak berisi banyak contoh skenario yang agak khusus ini. Bahkan ketika sistem berhasil, gagasan 'hijau' cenderung menyebar dengan cara yang tidak diinginkan ke subjek latar depan, karena konsep belitan:

Di atas, kita melihat bahwa Stable Diffusion telah memprioritaskan keaslian gambar daripada kebutuhan untuk menciptakan satu intensitas warna hijau, yang secara efektif mereplikasi masalah dunia nyata yang terjadi dalam skenario layar hijau tradisional. Di bawah, kita melihat bahwa konsep 'hijau' telah mencemari gambar latar depan. Semakin fokus perintah pada konsep 'hijau', semakin buruk masalah ini. Sumber: https://stablediffusionweb.com/
Meskipun metode yang digunakan sudah canggih, baik gaun wanita maupun dasi pria (pada gambar di bawah terlihat di atas) cenderung 'hilang' bersama dengan latar belakang hijau β masalah yang muncul* kembali ke masa penghilangan pewarna emulsi fotokimia pada tahun 1970-an dan 1980-an.
Seperti biasa, kekurangan model dapat diatasi dengan memberikan data spesifik pada suatu masalah, dan mencurahkan sumber daya pelatihan yang cukup besar. Sistem seperti penawaran Stanford tahun 2024 LapisanDiffuse membuat disetel dengan baik model yang mampu menghasilkan gambar dengan saluran alfa:

Proyek Stanford LayerDiffuse dilatih pada sejuta gambar yang tepat yang mampu memberikan model dengan kemampuan transparansi. Sumber: https://arxiv.org/pdf/2402.17113
Sayangnya, selain sumber daya kurasi dan pelatihan yang cukup besar yang dibutuhkan untuk pendekatan ini, kumpulan data yang digunakan untuk LayerDiffuse tidak tersedia untuk umum, sehingga membatasi penggunaan model yang dilatih di dalamnya. Meskipun hambatan ini tidak ada, pendekatan ini sulit untuk disesuaikan atau dikembangkan untuk kasus penggunaan tertentu.
Beberapa saat kemudian pada tahun 2024, Adobe Research berkolaborasi dengan Universitas Stonybrook untuk menghasilkan KEAJAIBAN, pendekatan ekstraksi AI yang dilatih pada gambar difusi yang dibuat khusus.

Dari makalah tahun 2024, contoh ekstraksi saluran alfa berbutir halus di MAGICK. Sumber: https://openaccess.thecvf.com/content/CVPR2024/papers/Burgert_MAGICK_A_Large-scale_Captioned_Dataset_from_Matting_Generated_Images_using_CVPR_2024_paper.pdf
150,000 objek yang diekstraksi dan dihasilkan AI digunakan untuk melatih MAGICK, sehingga sistem akan mengembangkan pemahaman intuitif tentang ekstraksi:

Sampel dari dataset pelatihan MAGICK.
Kumpulan data ini, sebagaimana dinyatakan dalam makalah sumber, sangat sulit dibuat karena alasan yang disebutkan di atas β bahwa metode difusi mengalami kesulitan dalam membuat rangkaian warna yang dapat dikunci secara solid. Oleh karena itu, pemilihan matte yang dihasilkan secara manual diperlukan.
Kendala logistik ini sekali lagi mengarah pada sistem yang tidak dapat dikembangkan atau disesuaikan dengan mudah, melainkan harus digunakan dalam rentang kemampuan yang awalnya dilatih.
TKG-DM β Ekstraksi Kroma 'Asli' untuk Model Difusi Laten
Sebuah kolaborasi baru antara peneliti Jerman dan Jepang telah mengusulkan sebuah alternatif bagi metode-metode terlatih tersebut, yang β sebagaimana dinyatakan dalam makalah tersebut β mampu memperoleh hasil yang lebih baik daripada metode-metode yang disebutkan di atas, tanpa perlu melakukan pelatihan pada kumpulan data yang dikurasi secara khusus.

TKG-DM mengubah noise acak yang menyemai citra generatif sehingga lebih mampu menghasilkan latar belakang solid yang dapat dikunci β dalam warna apa pun. Sumber: https://arxiv.org/pdf/2411.15580
Metode baru ini mendekati masalah pada tingkat pembangkitan, dengan mengoptimalkan kebisingan acak dari mana gambar dihasilkan dalam model difusi laten (LDM) seperti Difusi Stabil.
Pendekatan ini dibangun berdasarkan investigasi sebelumnya ke dalam skema warna distribusi Difusi Stabil, dan mampu menghasilkan warna latar belakang jenis apa pun, dengan lebih sedikit (atau tanpa) keterikatan warna latar belakang utama dengan konten latar depan, dibandingkan dengan metode lain.

Kebisingan awal dikondisikan oleh pergeseran rata-rata saluran yang dapat memengaruhi aspek proses penghilangan derau, tanpa melibatkan sinyal warna ke dalam konten latar depan.
Makalah tersebut menyatakan:
'Eksperimen ekstensif kami menunjukkan bahwa TKG-DM meningkatkan skor FID dan FID masker masing-masing sebesar 33.7% dan 35.9%.
'Dengan demikian, model bebas pelatihan kami menyaingi model yang disetel dengan baik, menawarkan solusi yang efisien dan serbaguna untuk berbagai tugas pembuatan konten visual yang memerlukan kontrol latar depan dan latar belakang yang tepat.'
kertas baru berjudul TKG-DM: Model Difusi Pembuatan Konten Kunci Kroma Bebas Pelatihan, dan berasal dari tujuh peneliti di Universitas Hosei di Tokyo dan RPTU Kaiserslautern-Landau & DFKI GmbH, di Kaiserslautern.
metode
Pendekatan baru ini memperluas arsitektur Difusi Stabil dengan mengkondisikan noise Gaussian awal melalui saluran berarti pergeseran (CMS), yang menghasilkan pola kebisingan yang dirancang untuk mendorong pemisahan latar belakang/latar depan yang diinginkan dalam hasil yang dihasilkan.

Skema untuk sistem yang diusulkan.
CMS menyesuaikan rata-rata setiap saluran warna sambil mempertahankan pengembangan umum proses penghilangan derau.
Para penulis menjelaskan:
'Untuk menghasilkan objek latar depan pada latar belakang kunci kroma, kami menerapkan strategi pemilihan derau init yang secara selektif menggabungkan [derau] awal dan warna [derau] init menggunakan [topeng] Gaussian 2D.
'Topeng ini menciptakan transisi bertahap dengan mempertahankan noise asli di wilayah latar depan dan menerapkan noise yang berubah warna ke wilayah latar belakang.'

Saluran warna yang diinginkan untuk warna kroma latar belakang diwujudkan dengan perintah teks nol, sementara konten latar depan yang sebenarnya dibuat secara semantik, dari instruksi teks pengguna.
Perhatian pada diri sendiri dan perhatian silang digunakan untuk memisahkan dua sisi gambar (latar belakang kroma dan konten latar depan). Self-attention membantu konsistensi internal objek latar depan, sementara cross-attention menjaga kesetiaan pada perintah teks. Makalah ini menunjukkan bahwa karena citra latar belakang biasanya kurang terperinci dan ditekankan dari generasi ke generasi, pengaruhnya yang lebih lemah relatif mudah diatasi dan diganti dengan contoh warna murni.

Sebuah visualisasi pengaruh perhatian-diri dan perhatian-silang dalam proses pembangkitan gaya-kroma.
Data dan Tes
TKG-DM diuji menggunakan Stable Diffusion V1.5 dan Stable Diffusion SDXL. Gambar dihasilkan pada resolusi masing-masing 512x512px dan 1024x1024px.
Gambar dibuat menggunakan Penjadwal DDIM asli dari Difusi Stabil, di skala panduan dari 7.5, dengan 50 langkah denoising. Warna latar belakang yang ditargetkan adalah hijau, sekarang metode putus sekolah dominan.
Pendekatan baru ini dibandingkan dengan DeepFloyd, di bawah pengaturan yang digunakan untuk MAGICK; untuk fine-tuned difusi tingkat rendah model LoRA Hijau; dan juga ke LayerDiffuse yang disebutkan sebelumnya.
Untuk data, digunakan 3000 gambar dari dataset MAGICK.

Contoh dari kumpulan data MAGICK, dari mana 3000 gambar dikurasi dalam pengujian untuk sistem baru. Sumber: https://ryanndagreat.github.io/MAGICK/Explorer/magick_rgba_explorer.html
Untuk metrik, penulis menggunakan Jarak Awal FrΓ©chet (FID) untuk menilai kualitas latar depan. Mereka juga mengembangkan metrik khusus proyek yang disebut m-FID, yang menggunakan Jaringan BiRef sistem untuk menilai kualitas masker yang dihasilkan.

Perbandingan visual sistem BiRefNet dengan metode sebelumnya. Sumber: https://arxiv.org/pdf/2401.03407
Untuk menguji keselarasan semantik dengan perintah masukan, CLIP-Kalimat (CLIP-S) dan CLIP-Gambar (CLIP-I) metode yang digunakan. CLIP-S mengevaluasi ketepatan prompt, dan CLIP-I mengevaluasi kesamaan visual dengan kebenaran dasar.

Kumpulan hasil kualitatif pertama untuk metode baru, kali ini untuk Stable Diffusion V1.5. Silakan merujuk ke PDF sumber untuk resolusi yang lebih baik.
Penulis menegaskan bahwa hasil (divisualisasikan di atas dan di bawah, masing-masing SD1.5 dan SDXL) memperlihatkan bahwa TKG-DM memperoleh hasil yang unggul tanpa rekayasa cepat atau keharusan melatih atau menyempurnakan model.

Hasil kualitatif SDXL. Silakan merujuk ke PDF sumber untuk resolusi yang lebih baik.
Mereka mengamati bahwa dengan perintah untuk memunculkan latar belakang hijau dalam hasil yang dihasilkan, Stable Diffusion 1.5 mengalami kesulitan dalam menghasilkan latar belakang yang bersih, sementara SDXL (meskipun berkinerja sedikit lebih baik) menghasilkan warna hijau muda yang tidak stabil yang dapat mengganggu pemisahan dalam proses kroma.
Mereka juga mencatat bahwa meskipun LayerDiffuse menghasilkan latar belakang yang terpisah dengan baik, terkadang ia kehilangan detail, seperti angka atau huruf yang tepat, dan penulis mengaitkan hal ini dengan keterbatasan dalam kumpulan data. Mereka menambahkan bahwa pembuatan topeng juga terkadang gagal, yang menghasilkan gambar yang 'tidak terpotong'.
Untuk pengujian kuantitatif, meskipun LayerDiffuse tampaknya memiliki keunggulan dalam SDXL untuk FID, penulis menekankan bahwa ini adalah hasil dari kumpulan data khusus yang secara efektif merupakan produk yang 'dibuat-buat' dan tidak fleksibel. Seperti yang disebutkan sebelumnya, objek atau kelas apa pun yang tidak tercakup dalam kumpulan data tersebut, atau tidak tercakup secara memadai, mungkin tidak berkinerja sebaik itu, sementara penyempurnaan lebih lanjut untuk mengakomodasi kelas-kelas baru menghadirkan beban kurasi dan pelatihan bagi pengguna.

Hasil kuantitatif untuk perbandingan. Keunggulan LayerDiffuse yang tampak, sebagaimana yang tersirat dalam makalah ini, mengorbankan fleksibilitas, dan beban kurasi dan pelatihan data.
Makalah tersebut menyatakan:
Skor FID, m-FID, dan CLIP-I DeepFloyd yang tinggi mencerminkan kemiripannya dengan kebenaran dasar berdasarkan keluaran DeepFloyd. Akan tetapi, penyelarasan ini memberinya keuntungan yang melekat, sehingga tidak cocok sebagai tolok ukur yang adil untuk kualitas gambar. Skor CLIP-S yang lebih rendah semakin menunjukkan penyelarasan teks yang lebih lemah dibandingkan dengan model lain.
Secara keseluruhan, hasil ini menggarisbawahi kemampuan model kami untuk menghasilkan latar depan berkualitas tinggi yang selaras dengan teks tanpa penyetelan halus, menawarkan solusi pembuatan konten kunci kroma yang efisien.'
Akhirnya, para peneliti melakukan studi pengguna untuk mengevaluasi kepatuhan cepat di berbagai metode. Seratus peserta diminta untuk menilai 30 pasang gambar dari setiap metode, dengan subjek diekstraksi menggunakan BiRefNet dan penyempurnaan manual di semua contoh. Pendekatan bebas pelatihan penulis lebih disukai dalam studi ini.

Hasil dari studi pengguna.
TKG-DM kompatibel dengan yang populer KontrolNet sistem pihak ketiga untuk Difusi Stabil, dan penulis berpendapat bahwa sistem ini menghasilkan hasil yang lebih unggul daripada kemampuan asli ControlNet untuk mencapai pemisahan semacam ini.
Kesimpulan
Mungkin hal yang paling penting dari makalah baru ini adalah sejauh mana model difusi laten terjerat, berbeda dengan persepsi publik populer bahwa mereka dapat dengan mudah memisahkan aspek gambar dan video saat menghasilkan konten baru.
Studi ini lebih lanjut menekankan sejauh mana komunitas penelitian dan hobi telah beralih ke fine-tuning sebagai pos facto perbaikan untuk kekurangan model β solusi yang akan selalu mengatasi kelas dan tipe objek tertentu. Dalam skenario seperti itu, model yang disetel dengan baik akan bekerja dengan sangat baik pada sejumlah kelas yang terbatas, atau bekerja lumayan dengan baik pada volume kelas dan objek yang jauh lebih tinggi, sesuai dengan jumlah data yang lebih tinggi dalam set pelatihan.
Oleh karena itu, sungguh menyegarkan melihat setidaknya ada satu solusi yang tidak bergantung pada solusi yang melelahkan dan bisa dibilang tidak jujur.
* Syuting film tahun 1978 manusia unggulAktor Christopher Reeve diharuskan mengenakan pirus Kostum Superman untuk proses pengambilan gambar layar biru, untuk menghindari kostum biru yang ikonik terhapus. Warna biru kostum kemudian dikembalikan melalui gradasi warna.