Terhubung dengan kami

Kecerdasan Buatan

HD-Painter: Lukisan Gambar Berpanduan Teks Resolusi Tinggi dengan Model Difusi

mm
HD-Painter : Pengecatan Gambar Berpanduan Teks Resolusi Tinggi dengan Model Difusi

Model difusi tidak diragukan lagi telah merevolusi industri AI dan ML, dengan penerapannya secara real-time menjadi bagian integral dari kehidupan kita sehari-hari. Setelah model teks-ke-gambar memamerkan kemampuannya yang luar biasa, teknik manipulasi gambar berbasis difusi, seperti pembuatan yang dapat dikontrol, sintesis gambar yang terspesialisasi dan dipersonalisasi, pengeditan gambar tingkat objek, variasi yang dikondisikan dengan cepat, dan pengeditan, muncul sebagai topik penelitian yang hangat. untuk aplikasi mereka dalam industri visi komputer.

Namun, terlepas dari kemampuannya yang mengesankan dan hasil yang luar biasa, kerangka kerja teks-ke-gambar, khususnya kerangka kerja pengecatan teks-ke-gambar, masih memiliki potensi untuk dikembangkan. Ini termasuk kemampuan untuk memahami pemandangan global, terutama ketika melakukan denoising pada gambar dalam rentang waktu difusi tinggi. Untuk mengatasi masalah ini, para peneliti memperkenalkan HD-Painter, sebuah kerangka kerja yang sepenuhnya bebas pelatihan yang secara akurat mengikuti instruksi cepat dan menskalakan gambar dalam lukisan resolusi tinggi secara koheren. Kerangka kerja HD-Painter menggunakan lapisan Prompt Aware Introverted Attention (PAIntA), yang memanfaatkan informasi cepat untuk meningkatkan skor perhatian diri, sehingga menghasilkan perataan teks yang lebih baik.

Untuk lebih meningkatkan koherensi perintah, model HD-Painter memperkenalkan pendekatan Reweighting Attention Score Guidance (RASG). Pendekatan ini mengintegrasikan strategi pengambilan sampel post-hoc ke dalam bentuk umum komponen DDIM secara mulus, sehingga mencegah pergeseran laten di luar distribusi. Selain itu, kerangka kerja HD-Painter dilengkapi teknik resolusi super khusus yang disesuaikan untuk pengecatan, memungkinkannya diperluas ke skala yang lebih besar dan melengkapi area yang hilang pada gambar dengan resolusi hingga 2K.

HD-Painter: Lukisan Gambar Berpanduan Teks

Model difusi teks-ke-gambar memang telah menjadi topik penting dalam industri AI dan ML dalam beberapa bulan terakhir, dengan model-model yang menunjukkan kemampuan real-time yang mengesankan di berbagai aplikasi praktis. Model pembuatan teks-ke-gambar yang telah dilatih sebelumnya seperti DALL-E, Imagen, dan Difusi Stabil telah menunjukkan kesesuaiannya untuk penyelesaian gambar dengan menggabungkan wilayah tak dikenal yang tidak dinodai (dihasilkan) dengan wilayah diketahui yang tersebar selama proses difusi mundur. Meskipun menghasilkan output yang menarik secara visual dan selaras dengan baik, model-model yang ada kesulitan untuk memahami kondisi global, terutama dalam proses denoising dengan rentang waktu difusi yang tinggi. Dengan memodifikasi model difusi teks-ke-gambar yang telah dilatih sebelumnya untuk memasukkan informasi konteks tambahan, model tersebut dapat disesuaikan untuk penyelesaian gambar yang dipandu teks.

Selain itu, dalam model difusi, pengecatan dengan panduan teks dan penyelesaian gambar dengan panduan teks merupakan bidang minat utama para peneliti. Ketertarikan ini didorong oleh fakta bahwa model inpainting berpemandu teks dapat menghasilkan konten di wilayah tertentu dari gambar masukan berdasarkan petunjuk tekstual, yang mengarah ke penerapan potensial seperti memperbaiki wilayah gambar tertentu, memodifikasi atribut subjek seperti warna atau pakaian, dan menambahkan atau mengganti benda. Singkatnya, model difusi teks-ke-gambar baru-baru ini mencapai kesuksesan yang belum pernah terjadi sebelumnya, karena kemampuan pembuatannya yang sangat realistis dan menarik secara visual.

Namun, sebagian besar kerangka kerja yang ada menunjukkan pengabaian dalam dua skenario. Yang pertama adalah Dominasi Latar Belakang ketika model menyelesaikan wilayah yang tidak diketahui dengan mengabaikan perintah di latar belakang, sedangkan skenario kedua adalah dominasi objek di dekatnya ketika model menyebarkan objek wilayah yang diketahui ke wilayah yang tidak diketahui menggunakan kemungkinan konteks visual, bukan perintah masukan. Ada kemungkinan bahwa kedua masalah ini mungkin disebabkan oleh kemampuan difusi vanilla inpainting untuk menafsirkan perintah tekstual secara akurat atau mencampurkannya dengan informasi kontekstual yang diperoleh dari wilayah yang diketahui. 

Untuk mengatasi hambatan ini, kerangka kerja HD-Painter memperkenalkan lapisan Prompt Aware Introverted Attention atau PAIntA, yang menggunakan informasi cepat untuk meningkatkan skor perhatian diri yang pada akhirnya menghasilkan pembuatan penyelarasan teks yang lebih baik. PAIntA menggunakan pengkondisian tekstual yang diberikan untuk menyempurnakan perhatian diri skor dengan tujuan untuk mengurangi dampak informasi relevan yang tidak diminta dari wilayah gambar sekaligus meningkatkan kontribusi piksel yang diketahui yang selaras dengan perintah. Untuk lebih meningkatkan perataan teks pada hasil yang dihasilkan, kerangka kerja HD-Painter menerapkan metode panduan post-hoc yang memanfaatkan skor perhatian silang. Namun, penerapan mekanisme panduan vanilla post-hoc mungkin menyebabkan pergeseran distribusi sebagai akibat dari istilah gradien tambahan dalam persamaan difusi. Pergeseran keluar distribusi pada akhirnya akan mengakibatkan penurunan kualitas output yang dihasilkan. Untuk mengatasi hambatan ini, kerangka kerja HD-Painter menerapkan Reweighting Attention Score Guidance atau RASG, sebuah metode yang mengintegrasikan strategi pengambilan sampel post-hoc ke dalam bentuk umum komponen DDIM dengan lancar. Hal ini memungkinkan kerangka kerja untuk menghasilkan hasil pengecatan yang masuk akal secara visual dengan mengarahkan sampel ke arah laten yang diselaraskan dengan cepat, dan memuatnya dalam domain terlatihnya.

Dengan menerapkan komponen RASH dan PAIntA dalam arsitekturnya, kerangka kerja HD-Painter memiliki keunggulan signifikan dibandingkan yang sudah ada, termasuk model tercanggih, inpainting, dan difusi teks ke gambar karena berhasil memecahkan masalah pengabaian cepat yang ada. Selain itu, komponen RASH dan PAIntA menawarkan fungsionalitas plug and play, memungkinkannya kompatibel dengan model pengecatan dasar difusi untuk mengatasi tantangan yang disebutkan di atas. Selanjutnya, dengan menerapkan teknologi pencampuran yang berulang-ulang dan dengan memanfaatkan kemampuan model difusi resolusi tinggi, saluran pipa HD-Painter dapat beroperasi secara efektif untuk pengecatan dengan resolusi hingga 2K. 

Singkatnya, HD-Painter bertujuan untuk memberikan kontribusi berikut di lapangan:

  1. Hal ini bertujuan untuk menyelesaikan masalah pengabaian cepat pada latar belakang dan dominasi objek di sekitar yang dialami oleh kerangka kerja pengecatan gambar berpemandu teks dengan menerapkan lapisan Prompt Aware Introverted Attention atau PAIntA dalam arsitekturnya. 
  2. Hal ini bertujuan untuk meningkatkan perataan teks pada keluaran dengan menerapkan lapisan Reweighting Attention Score Guidance atau RASG dalam arsitekturnya yang memungkinkan kerangka kerja HD-Painter melakukan pengambilan sampel terpandu post-hoc sekaligus mencegah distribusi shift yang tidak tepat. 
  3. Untuk merancang alur penyelesaian gambar berpemandu teks bebas pelatihan yang efektif dan mampu mengungguli kerangka kerja canggih yang ada, dan menggunakan kerangka kerja resolusi super khusus inpainting yang sederhana namun efektif untuk melakukan inpainting gambar berpemandu teks hingga resolusi 2K. 

HD-Painter: Metode dan Arsitektur

Sebelum kita melihat arsitekturnya, penting untuk memahami tiga konsep dasar yang menjadi dasar kerangka HD-Painter: Inpainting Gambar, Panduan Post-Hoc dalam Kerangka Difusi, dan Pengecatan Blok Arsitektur Tertentu. 

Image Inpainting adalah pendekatan yang bertujuan untuk mengisi area yang hilang dalam sebuah gambar sekaligus memastikan daya tarik visual dari gambar yang dihasilkan. Kerangka kerja pembelajaran mendalam tradisional menerapkan metode yang menggunakan wilayah yang diketahui untuk menyebarkan fitur mendalam. Namun, pengenalan model difusi telah menghasilkan evolusi model inpainting, khususnya kerangka inpainting gambar yang dipandu teks. Secara tradisional, model difusi teks ke gambar yang telah dilatih sebelumnya menggantikan wilayah laten yang terbuka kedoknya dengan menggunakan versi noise dari wilayah yang diketahui selama proses pengambilan sampel. Meskipun pendekatan ini berhasil sampai batas tertentu, pendekatan ini menurunkan kualitas output yang dihasilkan secara signifikan karena jaringan denoising hanya melihat versi noise dari wilayah yang diketahui. Untuk mengatasi rintangan ini, beberapa pendekatan bertujuan untuk menyempurnakan model teks ke gambar yang telah dilatih sebelumnya untuk mencapai inpainting gambar yang dipandu teks. Dengan menerapkan pendekatan ini, kerangka kerja tersebut mampu menghasilkan masker acak melalui penggabungan karena model tersebut mampu mengkondisikan kerangka denoising pada wilayah yang tidak memiliki kedok. 

Selanjutnya, model pembelajaran mendalam tradisional menerapkan lapisan desain khusus untuk pengecatan yang efisien dengan beberapa kerangka kerja yang mampu mengekstrak informasi secara efektif dan menghasilkan gambar yang menarik secara visual dengan memperkenalkan lapisan konvolusi khusus untuk menangani wilayah gambar yang diketahui. Beberapa kerangka kerja bahkan menambahkan lapisan perhatian kontekstual dalam arsitekturnya untuk mengurangi kebutuhan komputasi berat yang tidak diinginkan menjadi perhatian mandiri untuk pengecatan berkualitas tinggi. 

Terakhir, metode panduan Post-hoc adalah metode pengambilan sampel difusi mundur yang memandu langkah selanjutnya prediksi laten menuju tujuan minimalisasi fungsi tertentu. Metode panduan post-hoc sangat membantu dalam menghasilkan konten visual terutama ketika ada kendala tambahan. Namun, metode panduan Post-hoc memiliki kelemahan besar: metode ini diketahui mengakibatkan penurunan kualitas gambar karena cenderung menggeser proses pembangkitan laten secara gradien. 

Mengenai arsitektur HD-Painter, kerangka kerja ini pertama-tama merumuskan masalah penyelesaian gambar yang dipandu teks, dan kemudian memperkenalkan dua model difusi yaitu Stable Inpainting dan Difusi Stabil. Model HD-Painter kemudian memperkenalkan blok PAIntA dan RASG, dan akhirnya kita sampai pada teknik resolusi super khusus inpainting. 

Difusi Stabil dan Pengecatan Stabil

Difusi Stabil adalah model difusi yang beroperasi dalam ruang laten autoencoder. Untuk sintesis teks ke gambar, kerangka Difusi Stabil menerapkan perintah tekstual untuk memandu prosesnya. Fungsi pemandu memiliki struktur yang mirip dengan arsitektur UNet, dan lapisan perhatian silang mengkondisikannya pada petunjuk tekstual. Selain itu, model Difusi Stabil dapat melakukan pengecatan gambar dengan beberapa modifikasi dan penyesuaian. Untuk mencapai hal ini, fitur gambar bertopeng yang dihasilkan oleh pembuat enkode digabungkan dengan topeng biner yang diturunkan skalanya ke laten. Tensor yang dihasilkan kemudian dimasukkan ke dalam arsitektur UNet untuk mendapatkan estimasi noise. Kerangka kerja ini kemudian menginisialisasi filter konvolusional yang baru ditambahkan dengan nol sementara UNet lainnya diinisialisasi menggunakan pos pemeriksaan terlatih dari model Difusi Stabil. 

Gambar di atas menunjukkan gambaran umum kerangka HD-Painter yang terdiri dari dua tahap. Pada tahap pertama, kerangka kerja HD-Painter mengimplementasikan pengecatan gambar yang dipandu teks, sedangkan pada tahap kedua, model melukiskan output dengan resolusi super spesifik. Untuk mengisi wilayah misi dan tetap konsisten dengan perintah masukan, model ini menggunakan model difusi inpainting yang telah dilatih sebelumnya, menggantikan lapisan perhatian mandiri dengan lapisan PAIntA, dan mengimplementasikan mekanisme RASG untuk melakukan proses difusi mundur. Model kemudian menerjemahkan perkiraan laten akhir yang menghasilkan gambar yang tidak dicat. HD-Painter kemudian mengimplementasikan model difusi super stabil untuk mengecat gambar ukuran asli, dan mengimplementasikan proses difusi mundur dari kerangka Difusi Stabil yang dikondisikan pada gambar masukan resolusi rendah. Model ini memadukan prediksi yang dinyatakan dengan pengkodean gambar asli setelah setiap langkah di wilayah yang diketahui dan memperoleh laten berikutnya. Terakhir, model menerjemahkan kode laten dan mengimplementasikan pencampuran Poisson untuk menghindari artefak tepi. 

Perhatian Introvert Sadar Segera atau PAIntA

Model inpainting yang ada seperti Stable Inpainting cenderung lebih mengandalkan konteks visual di sekitar area inpainting dan mengabaikan perintah masukan pengguna. Berdasarkan pengalaman pengguna, masalah ini dapat dikategorikan menjadi dua kelas: dominasi objek di sekitar dan dominasi latar belakang. Masalah dominasi konteks visual atas perintah masukan mungkin disebabkan oleh sifat lapisan perhatian diri yang hanya bersifat spasial dan bebas perintah. Untuk mengatasi masalah ini, kerangka kerja HD-Painter memperkenalkan Prompt Aware Introverted Attention atau PAIntA yang menggunakan matriks perhatian silang dan topeng inpainting untuk mengontrol keluaran lapisan perhatian diri di wilayah yang tidak diketahui. 

Komponen Prompt Aware Introverted Attention pertama-tama menerapkan lapisan proyeksi untuk mendapatkan kunci, nilai, dan kueri beserta matriks kesamaan. Model tersebut kemudian menyesuaikan skor perhatian piksel yang diketahui untuk mengurangi pengaruh kuat wilayah yang diketahui terhadap wilayah yang tidak diketahui, dan mendefinisikan matriks kesamaan baru dengan memanfaatkan perintah tekstual. 

Pembobotan Ulang Panduan Skor Perhatian atau RASG

Kerangka kerja HD-Painter mengadopsi metode panduan pengambilan sampel post-hoc untuk lebih meningkatkan keselarasan generasi dengan perintah tekstual. Seiring dengan fungsi tujuan, pendekatan panduan pengambilan sampel post-hoc bertujuan untuk memanfaatkan properti segmentasi kosakata terbuka dari lapisan perhatian silang. Namun, pendekatan panduan vanilla post-hoc ini berpotensi menggeser domain laten difusi yang mungkin menurunkan kualitas gambar yang dihasilkan. Untuk mengatasi masalah ini, model HD-Painter menerapkan mekanisme Reweighting Attention Score Guidance atau RASG yang memperkenalkan mekanisme pembobotan ulang gradien yang menghasilkan pelestarian domain laten. 

HD-Painter: Eksperimen dan Hasil

Untuk menganalisis performanya, kerangka kerja HD-Painter dibandingkan dengan model terkini termasuk Stable Inpainting, GLIDE, dan BLD atau Blended Latent Diffusion pada 10000 sampel acak yang mana prompt dipilih sebagai label dari instance mask yang dipilih. 

Seperti yang dapat diamati, kerangka kerja HD-Painter mengungguli kerangka kerja yang ada pada tiga metrik berbeda dengan selisih yang signifikan, terutama peningkatan 1.5 poin pada metrik CLIP dan perbedaan dalam skor akurasi yang dihasilkan sekitar 10% dari metode canggih lainnya . 

Selanjutnya, gambar berikut menunjukkan perbandingan kualitatif kerangka HD-Painter dengan kerangka inpainting lainnya. Seperti yang dapat diamati, model dasar lainnya merekonstruksi wilayah yang hilang dalam gambar sebagai kelanjutan dari objek wilayah yang diketahui tanpa memperhatikan petunjuknya atau menghasilkan latar belakang. Di sisi lain, kerangka HD-Painter mampu menghasilkan objek target dengan sukses karena penerapan komponen PAIntA dan RASG dalam arsitekturnya. 

Final Thoughts

Dalam artikel ini, kita telah membahas tentang HD-Painter, sebuah teks bebas pelatihan yang dipandu pendekatan inpainting resolusi tinggi yang mengatasi tantangan yang dialami oleh kerangka inpainting yang ada termasuk pengabaian yang cepat, dan dominasi objek di sekitar dan latar belakang. Kerangka kerja HD-Painter mengimplementasikan lapisan Prompt Aware Introverted Attention atau PAIntA, yang menggunakan informasi cepat untuk meningkatkan skor perhatian diri yang pada akhirnya menghasilkan pembuatan penyelarasan teks yang lebih baik. 

Untuk lebih meningkatkan koherensi perintah, model HD-Painter memperkenalkan pendekatan Reweighting Attention Score Guidance atau RASG yang mengintegrasikan strategi pengambilan sampel post-hoc ke dalam bentuk umum komponen DDIM secara mulus untuk mencegah pergeseran laten di luar distribusi. Lebih jauh lagi, kerangka kerja HD-Painter memperkenalkan teknik resolusi super khusus yang disesuaikan untuk pengecatan yang menghasilkan perluasan ke skala yang lebih besar, dan memungkinkan kerangka kerja HD-Painter untuk melengkapi area yang hilang pada gambar dengan resolusi hingga 2K.

"Seorang insinyur berdasarkan profesi, seorang penulis dengan hati". Kunal adalah seorang penulis teknis dengan kecintaan mendalam & pemahaman AI dan ML, berdedikasi untuk menyederhanakan konsep kompleks di bidang ini melalui dokumentasinya yang menarik dan informatif.