Yapay Zekâ
HD-Painter: Yüksek Çözünürlüklü Metin-Rehberli Görüntü Doldurma ile Diffüzyon Modelleri

Diffüzyon modelleri şüphesiz ki AI ve ML endüstrisini devrimleştirerek, uygulamaları gerçek zamanlı olarak günlük hayatımızın ayrılmaz bir parçası haline getirdi. Metin-görüntü modelleri etkileyici yeteneklerini sergiledikten sonra, diffüzyon tabanlı görüntü işleme teknikleri, such as kontrollü üretim, özel ve kişiselleştirilmiş görüntü sentezi, nesne düzeyinde görüntü düzenleme,.prompt koşullu varyasyonlar ve düzenleme, bilgisayar görme endüstrisindeki uygulamaları nedeniyle sıcak araştırma konuları olarak ortaya çıktı.
Ancak, etkileyici yeteneklerine ve istisnai sonuçlarına rağmen, metin-görüntü çerçeveleri, özellikle metin-görüntü doldurma çerçeveleri, hala geliştirme için potansiyel alanlara sahiptir. Bunlar, özellikle yüksek diffüzyon adımlarında görüntüyü gürültüden arındırırken, global sahneleri anlamak gibi konuları içerir. Bu sorunu ele almak için araştırmacılar, HD-Painter’i tanıttı, bir.prompt Aware Introverted Attention (PAIntA) katmanı kullanan, tamamen eğitim almaksızın çalışan bir çerçeve, metin talimatlarını doğru bir şekilde takip ediyor ve yüksek çözünürlüklü görüntü doldurma için ölçeklendiriyor. PAIntA, self-attention puanlarını artırmak için metin bilgisi kullanıyor, bu da daha iyi metin hizalama üretimi ile sonuçlanıyor.
Prompt’ın tutarlılığını daha da iyileştirmek için, HD-Painter modeli, Reweighting Attention Score Guidance (RASG) yaklaşımını tanıtıyor. Bu yaklaşım, genel DDIM bileşenine sorunsuz bir şekilde post-hoc örnekleme stratejisi entegre ediyor, dağılımın latent kaymasını önler. Ayrıca, HD-Painter çerçevesi, doldurma için özel bir süper çözünürlük tekniği sunuyor, bu da daha büyük ölçeklere ulaşmasını ve görüntüdeki eksik bölgeleri 2K çözünürlüğe kadar doldurmasını sağlıyor.
HD-Painter: Metin-Rehberli Görüntü Doldurma
Metin-görüntü diffüzyon modelleri, son aylarda AI ve ML endüstrisinde önemli bir konu oldu, modeller çeşitli pratik uygulamalar boyunca etkileyici gerçek zamanlı yetenekler sergiledi. Önceden eğitilmiş metin-görüntü üretim modelleri gibi DALL-E, Imagen ve Stable Diffusion, görüntüyü tamamlama için uygunluğunu gösterdi, bilinen bölgelerin gürültülü (ürettiği) bilinmeyen bölgelerle birleştirmesi yoluyla geri diffüzyon sürecinde. Görsel olarak çekici ve uyumlu çıktılar üretmesine rağmen, mevcut modeller, özellikle yüksek diffüzyon adımında gürültüden arındırma sürecinde, global sahneyi anlamakta zorlanıyor. Önceden eğitilmiş metin-görüntü diffüzyon modellerini, ek konteks bilgisi entegre etmek için değiştirerek, metin-rehberli görüntü tamamlama için ince ayarlanabilir.
Ayrıca, diffüzyon modelleri içinde, metin-rehberli doldurma ve metin-rehberli görüntü tamamlama, araştırmacılar için önemli ilgi alanlarıdır. Bu ilgi, metin-rehberli doldurma modellerinin, metin talimatlarına dayalı olarak giriş görüntüsünün belirli bölgelerinde içerik üretebilmesinden kaynaklanmaktadır, bu da belirli görüntü bölgelerini düzeltme, konu özniteliklerini değiştirme (renkleri veya kıyafetleri) ve nesneleri ekleme veya değiştirme gibi potansiyel uygulamalara yol açar. Özetle, metin-görüntü diffüzyon modelleri, son zamanlarda, istisnai gerçekçi ve görsel olarak çekici üretim yetenekleri nedeniyle withoutöncü bir başarı elde etti.

Ancak, mevcut çerçevelerin çoğunluğu, iki senaryoda prompt ihmalini gösteriyor. İlk olarak, Arka Plan Baskınlığı, model arka planı, prompt’u dikkate almadan bilinmeyen bölgeyi tamamlarken, ikinci senaryo Yakın Nesne Baskınlığı, modelin bilinen bölge nesnelerini, görsel konteks olasılığı yerine girdi prompt’u kullanarak bilinmeyen bölgeye yaymasıdır. Bu sorunlar, vanilla doldurma diffüzyonunun, metin prompt’unu doğru bir şekilde yorumlayamaması veya bilinen bölgeden alınan konteks bilgisi ile karışması sonucu ortaya çıkabilir.
Bu engelleri aşmak için, HD-Painter çerçevesi, Prompt Aware Introverted Attention veya PAIntA katmanını tanıtıyor, bu katman, self-attention puanlarını artırmak için metin bilgisi kullanıyor, bu da daha iyi metin hizalama üretimi ile sonuçlanıyor. PAIntA, verilen metin koşullandırmasını, self-attention puanını artırmak için kullanıyor, amaç, görüntüden gelen non-prompt ilgili bilgilerin etkisini azaltmak ve bilinen piksellerin prompt ile hizalanmasını artırmaktır. Ayrıca, HD-Painter çerçevesi, post-hoc rehberlik yöntemi uygulayarak, cross-attention puanlarını kullanıyor. Ancak, vanilla post-hoc rehberlik mekanizmasının uygulanması, diffüzyon denklemindeki ek gradient terimi nedeniyle latent dağılımının kaymasına neden olabilir. Bu, üretilen çıktının kalitesinin bozulmasına yol açar. Bu engeli aşmak için, HD-Painter çerçevesi, Reweighting Attention Score Guidance veya RASG mekanizmasını uyguluyor, bu mekanizma, post-hoc örnekleme stratejisinin genel DDIM bileşenine sorunsuz bir şekilde entegre edilmesini sağlıyor. Bu, çerçeveye, örneklemeyi prompt’a hizalı latente doğru yönlendirmesini ve bunları eğitim alanlarında tutmasını sağlıyor.
Hem RASH hem de PAIntA bileşenlerini mimarisinde uygulayarak, HD-Painter çerçevesi, mevcut, dahil olmak üzere state of the art, doldurma ve metin-görüntü diffüzyon modelleri üzerinde önemli bir avantaj sağlıyor, çünkü mevcut prompt ihmal sorununu çözüyor. Ayrıca, hem RASH hem de PAIntA bileşenleri, diffüzyon tabanlı doldurma modelleri ile uyumlu bir şekilde çalışarak, yukarıda belirtilen zorlukları aşmak için tak-ve-çalıştır işlevselliği sunuyor. Ayrıca, zaman-iteratif karıştırma teknolojisi uygulayarak ve yüksek çözünürlüklü diffüzyon modellerinin yeteneklerini kullanarak, HD-Painter pipeline’ı, 2K çözünürlüğe kadar doldurma için etkili bir şekilde çalışabilir.
Özetle, HD-Painter, aşağıdaki katkıları sunmayı amaçlıyor:
- Arka plan ve yakın nesne baskınlığı gibi prompt ihmal sorunlarını, mimarisine Prompt Aware Introverted Attention veya PAIntA katmanını uygulayarak çözmeyi amaçlıyor.
- Çıktının metin hizalamasını, Reweighting Attention Score Guidance veya RASG katmanını uygulayarak, post-hoc rehberlik örneklemesini gerçekleştirmeyi ve latent dağılımının kaymasını önlemeyi amaçlıyor.
- Etkili, eğitim almaksızın çalışan, metin-rehberli görüntü tamamlama pipeline’ı tasarlamayı, mevcut state of the art çerçevelerinin performansını aşmayı ve basit ancak etkili doldurma özel süper çözünürlük çerçevesini kullanarak, 2K çözünürlüğe kadar metin-rehberli görüntü doldurma gerçekleştirmeyi amaçlıyor.
HD-Painter: Yöntem ve Mimari
Mimariye bakmadan önce, HD-Painter çerçevesinin temelini oluşturan üç temel kavramı anlamak önemlidir: Görüntü Doldurma, Diffüzyon Çerçevelerindeki Post-Hoc Rehberlik ve Doldurma Özel Mimari Blokları.
Görüntü Doldurma, eksik bölgeleri doldururken görsel olarak çekici bir görüntü oluşturmayı amaçlayan bir yaklaşımdır. Geleneksel derin öğrenme çerçeveleri, bilinen bölgelerden derin özellikler yaymak için yöntemler uyguladı. Ancak, diffüzyon modellerinin tanıtılması, özellikle metin-rehberli görüntü doldurma çerçevelerinin evrimini sağladı. Geleneksel olarak, önceden eğitilmiş metin-görüntü diffüzyon modeli, bilinen bölgenin gürültülü versiyonunu kullanarak latenti değiştirir. Bu yaklaşım bir ölçüde çalışsa da, üretilen çıktının kalitesini önemli ölçüde bozar, çünkü gürültüden arındırma ağı yalnızca bilinen bölgenin gürültülü versiyonunu görür. Bu engeli aşmak için, beberapa yaklaşım, metin-rehberli görüntü doldurma için önceden eğitilmiş metin-görüntü modelini ince ayarlamayı amaçladı. Bu yaklaşımı uygulayarak, çerçeve, rastgele bir maske oluşturabilir, çünkü model, bilinen bölgeye koşullu gürültüden arındırma çerçevesini gerçekleştirebilir.
Devam ederek, geleneksel derin öğrenme modelleri, doldurma için özel tasarım katmanları uyguladı, bazı çerçeveler bilinen bölgelerden bilgi çıkarmada etkili oldu ve görsel olarak çekici görüntüler üretebildi, çünkü özel convolution katmanları ve konteks attention katmanları uyguladılar. Bazı çerçeveler, tüm- tüm self-attention’ın gereksiz ağır hesaplama gereksinimlerini azaltmak için konteks attention katmanları ekledi.
Son olarak, Post-hoc rehberlik yöntemleri, bir sonraki adımın latent tahminini, belirli bir fonksiyon minimizasyon hedefine doğru yönlendiren geri diffüzyon örnekleme yöntemleridir. Post-hoc rehberlik yöntemleri, özellikle ek kısıtlamalar olduğunda, görsel içerik oluştururken büyük yardımcıdır. Ancak, Post-hoc rehberlik yöntemleri, latent üretim sürecini bir gradient terimi ile değiştirdiği için, görsel kalite bozulmasına neden olabilir.
HD-Painter mimarisine gelince, çerçeve önce metin-rehberli görüntü tamamlama sorununu formüle ediyor, ardından iki diffüzyon modeli tanıtıyor, Bunlar Stable Inpainting ve Stable Diffusion. HD-Painter modeli, PAIntA ve RASG bloklarını tanıtıyor ve sonunda doldurma özel süper çözünürlük tekniğine ulaşıyor.
Stable Diffusion ve Stable Inpainting
Stable Diffusion, bir oto-encoder’in latent alanında çalışan bir diffüzyon modelidir. Metin-görüntü sentezi için, Stable Diffusion çerçevesi, süreci yönlendirmek için bir metin prompt’u uygular. Rehber fonksiyonu, UNet mimarisine benzer bir yapıya sahiptir ve cross-attention katmanları, metin prompt’una koşullu olarak çalışır. Ayrıca, Stable Diffusion modeli, bazı değişiklikler ve ince ayarlamalar ile görüntü doldurma gerçekleştirebilir. Bunu başarmak için, maskeleme görüntüsünün özelliklerini, encoder tarafından üretilen özelliklerle birleştirir ve latenti girdi olarak alır. Sonraki tensor, UNet mimarisine girdi olarak verilir ve tahmini gürültü elde edilir. Çerçeve, yeni eklenen convolutional filtreleri sıfırlar, geri kalan UNet ise Stable Diffusion modelinin önceden eğitilmiş checkpoint’lerinden başlatılır.

Yukarıdaki şekil, HD-Painter çerçevesinin genel bir görünümünü gösterir, iki aşamadan oluşur. İlk aşamada, HD-Painter çerçevesi, metin-rehberli görüntü doldurma gerçekleştirir, ikinci aşamada ise model, özel süper çözünürlük için doldurma yapar. Eksik bölgeleri doldurmak ve girdi prompt’u ile tutarlı olmak için, model, önceden eğitilmiş doldurma diffüzyon modelini alır, self-attention katmanlarını PAIntA katmanları ile değiştirir ve RASG mekanizmasını uygulayarak geri diffüzyon işlemi gerçekleştirir. Model, son olarak tahmini latent’i декodlar ve doldurma görüntüsünü üretir. HD-Painter, süper stabil diffüzyon modelini uygular, orijinal boyutundaki görüntüyü doldurma yapar ve Stable Diffusion çerçevesinin geri diffüzyon sürecini, düşük çözünürlüklü girdi görüntüsüne koşullu olarak gerçekleştirir. Model, her adımda bilinen bölgenin kodlamasını, düzeltilmiş tahminlerle karıştırır ve sonraki latenti üretir. Son olarak, model latenti декodlar ve Poisson karıştırma uygular, kenar artifacts’lerini önler.
Prompt Aware Introverted Attention veya PAIntA
Mevcut doldurma modelleri gibi Stable Inpainting, genellikle bilinen bölgenin görsel konteksine daha fazla dikkat eder ve girdi prompt’larını ihmal eder. Kullanıcı deneyimi temelinde, bu sorun iki kategoriye ayrılabilir: yakın nesne baskınlığı ve arka plan baskınlığı. Görsel konteksın prompt’u ihmal etmesinin nedeni, self-attention katmanlarının yalnızca spatial ve prompt’tan bağımsız doğası olabilir. Bu soruna çözüm olarak, HD-Painter çerçevesi, Prompt Aware Introverted Attention veya PAIntA’yı tanıtır, bu, cross-attention matrisleri ve doldurma maskesini kullanarak self-attention katmanlarının çıkışını kontrol eder.
Prompt Aware Introverted Attention bileşeni, önce anahtar, değer ve sorgu için projection katmanlarını uygular ve benzerlik matrisini hesaplar. Model, bilinen piksellerin attention puanını, bilinen bölgenin bilinmeyen bölge üzerindeki güçlü etkisini azaltmak için ayarlar ve metin prompt’unu kullanarak yeni bir benzerlik matrisi tanımlar.

Reweighting Attention Score Guidance veya RASG
HD-Painter çerçevesi, metin hizalamasını daha da iyileştirmek için post-hoc örnekleme rehberlik yöntemini uygular. Bir hedef fonksiyon ile birlikte, post-hoc rehberlik yaklaşımı, cross-attention katmanlarının açık-vokabüler segmentasyon özelliklerini kullanmayı amaçlar. Ancak, vanilla post-hoc rehberlik yaklaşımı, latent dağılımının kaymasına neden olabilir, bu da üretilen görüntünün kalitesini bozar. Bu soruna çözüm olarak, HD-Painter modeli, Reweighting Attention Score Guidance veya RASG mekanizmasını uygular, bu, gradient ağırlığını yeniden düzenleyerek latent alanını korur.
HD-Painter: Deneyler ve Sonuçlar
Performansını analiz etmek için, HD-Painter çerçevesi, mevcut state of the art modelleri ile karşılaştırıldı, bunlar arasında Stable Inpainting, GLIDE ve BLD veya Blended Latent Diffusion bulunur, 10000 rastgele örnek üzerinde, prompt seçilen örnek maskesinin etiketi olarak kullanılır.

Görülebileceği gibi, HD-Painter çerçevesi, mevcut çerçevelerden, özellikle CLIP metriğinde 1.5 puanlık bir iyileşme ve diğer state of the art yöntemlerden yaklaşık %10’luk bir fark ile, üç farklı metrikte önemli bir fark ile üstündür.

Devam ederek, aşağıdaki şekil, HD-Painter çerçevesinin diğer doldurma çerçeveleri ile nitel bir karşılaştırmasını gösterir. Görülebileceği gibi, diğer temel modeller, bilinen bölge nesnelerini, prompt’u ihmal ederek, bilinen bölgeye devam ettirir veya arka plan oluşturur. Öte yandan, HD-Painter çerçevesi, PAIntA ve RASG bileşenlerini uygulayarak, hedef nesneleri başarıyla üretir.

Son Düşünceler
Bu makalede, HD-Painter’i, eğitim almaksızın çalışan, yüksek çözünürlüklü metin-rehberli görüntü doldurma yaklaşımını tanıttık, mevcut doldurma çerçevelerinin karşılaştığı, prompt ihmal ve yakın nesne ve arka plan baskınlığı gibi zorlukları ele aldı. HD-Painter çerçevesi, Prompt Aware Introverted Attention veya PAIntA katmanını uygulayarak, self-attention puanlarını artırır, bu da daha iyi metin hizalama üretimi ile sonuçlanır.
Prompt’un tutarlılığını daha da iyileştirmek için, HD-Painter modeli, Reweighting Attention Score Guidance veya RASG yaklaşımını tanıtır, bu, post-hoc örnekleme stratejisinin genel DDIM bileşenine sorunsuz bir şekilde entegre edilmesini sağlar, latent dağılımının kaymasını önler. Ayrıca, HD-Painter çerçevesi, doldurma için özel süper çözünürlük tekniği sunar, bu da daha büyük ölçeklere ulaşmasını ve görüntüdeki eksik bölgeleri 2K çözünürlüğe kadar doldurmasını sağlar.












