Anderson’un Açısı
AI Görüntü Düzenleme Doğruluğunu Artırma

Adobe’nin Firefly latent diffusion model (LDM) açıkça mevcut en iyi seçeneklerden biri olmasına rağmen, Photoshop kullanıcıları quienes bu özelliğini denediğinde, mevcut görüntüleri kolayca düzenleyemediğini fark edeceklerdir – bunun yerine kullanıcıların seçtiği alanı metin.promptına dayalı görüntülerle değiştirir (her ne kadar Firefly, oluşan generated bölümü görüntünün bağlamına entegre etmekte usta olsa da).
Mevcut beta sürümde, Photoshop en azından referans görüntüsünü kısmi bir görüntü promptı olarak içerebilir, bu da Adobe’nin amiral gemisi ürününü, Stable Diffusion kullanıcılarının iki yıldan fazla bir süredir keyfini çıkardığı türden bir işlevselliğe getirir; üçüncü taraf çerçeveleri gibi Controlnet sayesinde:

Şu anda Adobe Photoshop’un beta sürümü, yeni içeriği bir seçime dahil ederken referans görüntülerinin kullanılmasına izin veriyor – ancak şimdilik bu bir deneme-yanılma meselesi.
Bu, görüntü sentezleme araştırmalarında açık bir problemi gösterir – diffusion modellerinin mevcut görüntüleri, kullanıcı tarafından belirtilen seçimi tam ölçekli bir ‘yeniden hayal etme’ uygulamadan olmadan düzenleme konusundaki zorluğu.

Diffusion tabanlı bu inpaint, kullanıcı promptına uyuyor, ancak kaynak konu maddesini, çevre ile karıştırma dışında dikkate almadan tamamen yeniden yaratıyor. Kaynak: https://arxiv.org/pdf/2502.20376
Bu problem, LDM’lerin görüntüleri iteratif gürültü azaltma yoluyla oluşturması nedeniyle ortaya çıkar, burada işlemin her aşaması kullanıcı tarafından sağlanan metin promptına bağlıdır. Metin prompt içeriği embedding tokenlerine dönüştürülür ve Stable Diffusion veya Flux gibi bir hiperscale modeli, prompt ile ilgili yüz binlerce (veya milyonlarca) yakın eşleştirmeye sahip olduğunda, işlem bir koşullu dağılım hedefine ulaşmaya çalışır; ve her adım, bu ‘koşullu dağılım hedefine’ doğru bir adımdır.
Bu nedenle metin-görüntü – bir senaryo जह kullanıcı ‘en iyisini umar’, çünkü oluşacak generationın tam olarak ne olacağı bilinmez.
Bunun yerine, birçok kişi bir LDM’nin güçlü generatif kapasitesini mevcut görüntüleri düzenlemek için kullanmaya çalıştı – ancak bu, sadakat ve esneklik arasında bir dengeleme oyunu anlamına gelir.
Bir görüntünün DDIM inversion gibi yöntemlerle modelin latent uzayına проекtedildiği zaman, amaç mümkün olduğunca yakın bir şekilde orijinali geri yüklemek ve aynı zamanda anlamlı düzenlemelere izin vermektir. Problemin kaynağı, bir görüntünün ne kadar kesin bir şekilde yeniden inşa edildiği, modelin orijinal yapısına ne kadar çok uyduğuyla ilgilidir, bu da büyük değişiklikleri zorlaştırır.

Son yıllarda önerilen diğer birçok diffusion tabanlı görüntü düzenleme çerçeveleri gibi Renoise mimarisi de, görüntünün görünümünde gerçek bir değişiklik yapma konusunda zorluk yaşamaktadır, yalnızca kedinin boğazının tabanında bir kravatın sembolik bir göstergesi vardır.
Öte yandan, eğer işlem düzenlenebilirliği önceliklendirirse, model orijinalinden uzaklaşır, değişikliklere izin verir – ancak bu, genel olarak kaynak görüntüsüyle tutarlılık pahasına olur:

Görev başarıldı – ancak bu, çoğu AI tabanlı görüntü düzenleme çerçeveleri için bir dönüşümdür, değil bir ayar.
Bu problem, Adobe’nin önemli kaynakları bile bu sorunu çözmekte zorlanıyorsa, o zaman bu zorluğun önemli ve kolay çözümlere izin vermeyeceğini düşünebiliriz.
Sıkı Tersleme
Bu nedenle, bu hafta yayınlanan yeni bir makaledeki örnekler dikkatimi çekti, çünkü bu çalışma, bu alanda mevcut durumun üzerine değerli ve dikkat çekici bir geliştirme sunuyor, bir modelin latent uzayına projekte edilen görüntülere ince ve rafine düzenlemeler uygulayabilme yeteneği ile:

Mevcut inversion yöntemlerine Sıkı Tersleme uygulandığında, kaynak seçimi çok daha granüler bir şekilde dikkate alınır ve dönüşümler orijinal materyale uygun hale gelir, onu üzerine yazmak yerine.
LDM hobi ve uygulayıcıları, bu tür sonuçları tanıyabilir, çünkü bunların çoğu, Controlnet ve IP-Adapter gibi dış sistemler kullanarak karmaşık bir iş akışında oluşturulabilir.
Aslında, yeni yöntem – Sıkı Tersleme olarak adlandırılır – gerçekten de IP-Adapter’ı kullanır, ayrıca insan betimlemeleri için özel bir model kullanır.

Orijinal 2023 IP-Adapter makalesinden, kaynak materyale uygun düzenlemeler oluşturma örnekleri. Kaynak: https://arxiv.org/pdf/2308.06721
Sıkı Terslemenin önemli başarısı, karmaşık teknikleri mevcut sistemlere uygulanabilen tek bir drop-in plug-in modu olarak prosedürleştirmesidir.
Tabii ki, bu, Sıkı Terslemenin (TI), IP-Adapter gibi yardımcı sistemlerin de olduğu gibi, yalnızca doğru metin promptlarına değil, aynı zamanda kaynak görüntüsünü de koşullandırma faktörü olarak kullandığı anlamına gelir:

Sıkı Terslemenin, kaynak materyale gerçekten karıştırılmış düzenlemeler uygulayabilme yeteneğinin daha fazla örneği.
Yazarlar, Sıkı Terslemenin geleneksel ve devam eden bir gerilimi, diffusion tabanlı görüntü düzenleme tekniklerinde sadakat ve düzenlenebilirlik arasında bir gerilim olduğunu kabul etseler de, mevcut sistemlere TI enjekte edildiğinde, bazline performansa kıyasla devlet-sanatlı sonuçlar bildirdiler.
Yeni çalışma Sıkı Tersleme: Gerçek Görüntü Düzenleme için Görüntü Koşullu Tersleme olarak adlandırılmış ve Tel Aviv Üniversitesi ve Snap Research’tan beş araştırmacı tarafından yapılmıştır.
Yöntem
İlk olarak, bir Büyük Dil Modeli (LLM) kullanılarak, bir görüntüyü oluşturmak için çeşitli metin promptları oluşturulur. Ardından, her görüntüye üç metin koşulu ile yukarıda bahsedilen DDIM inversion uygulanır: görüntüyü oluşturmak için kullanılan metin promptı; aynı metin promptının kısaltılmış bir versiyonu; ve bir boş (boş) prompt.
Bu işlemlerden döndürülen inverted gürültü ile, görüntüler aynı koşulla, ancak sınıflandırıcı-free rehberlik (CFG) olmadan yeniden oluşturulur.

Çeşitli metriklerde DDIM inversion skorları, farklı prompt ayarlarıyla.
Gördüğümüz gibi, yukarıdaki grafikte, metin uzunluğu arttıkça skorlar çeşitli metriklerde iyileşir. Kullanılan metrikler Peak Signal-to-Noise Ratio (PSNR); L2 uzaklık; Yapısal Benzerlik İndeksi (SSIM); ve Öğrenilmiş Algısal Görüntü Yama Benzerliği (LPIPS).
Görüntü Bilinci
Esasen Sıkı Tersleme, bir ana diffusion modelinin gerçek görüntüleri düzenleme şeklini değiştirir, inversion sürecini yalnızca metin promptına değil, görüntüye de koşullandırarak.
Normalde, bir görüntüyü bir diffusion modelinin gürültü uzayına invert etmek, girdi olarak geri yüklenen gürültüyü tahmin etmek gerektirir. Standart yöntemler bir metin promptını bu süreci yönlendirmek için kullanır; ancak mükemmel olmayan bir prompt hatalara yol açabilir, detayları kaybetmeye veya yapıları değiştirmeye neden olabilir.
Sıkı Tersleme ise IP Adapter’ı kullanarak görsel bilgileri modele besler, böylece görüntüyü daha büyük bir doğrulukla yeniden inşa eder, kaynak görüntülerini koşullandırma tokenlerine dönüştürür ve inversion pipelineına projekte eder.
Bu parametreler düzenlenebilir: kaynak görüntüsünün etkisini artırarak yeniden inşa neredeyse mükemmel hale gelir, mientras ki azaltmak daha yaratıcı değişikliklere izin verir. Bu, Sıkı Terslemenin hem ince değişiklikler için (örneğin, bir gömleğin rengini değiştirmek) hem de daha önemli düzenlemeler için (örneğin, nesneleri değiştirmek) faydalı olmasını sağlar – diğer inversion yöntemlerinin ortak yan etkileri olmadan, such as fine detail kaybı veya arka plan içeriğinde beklenmeyen anormallikler.
Yazarlar şunları belirtir:
‘Düzenlenebilirlik ve sadakat arasındaki gerilim, Sıkı Tersleme ile hala mevcut olsa da, sonuçlar sunulan bu çalışmada, bu gerilimi azalttığını gösteriyor.’
Veri ve Testler
Araştırmacılar, TI’nin gerçek dünya kaynak görüntülerini yeniden inşa etme ve düzenleme kapasitesini değerlendirdiler. Tüm deneyler Stable Diffusion XL ile bir DDIM zamanlayıcı kullanılarak gerçekleştirildi; ve tüm testler 50 gürültü azaltma adımı ve 7.5’lik varsayılan rehberlik ölçeği ile gerçekleştirildi.
Görüntü koşullandırması için IP-Adapter-plus sdxl vit-h kullanıldı. Az adımda testler için araştırmacılar SDXL-Turbo ile bir Euler zamanlayıcı kullandılar ve ayrıca FLUX.1-dev ile deneyler gerçekleştirdiler, bu durumda modeli PuLID-Flux ile koşullandırdılar, RF-Inversion 28 adımda.
PulID, yalnızca insan yüzleri içeren durumlarda kullanıldı, çünkü bu, PulID’nin eğitildiği alanlardır – ve bizim insan yüzlerini oluşturma konusundaki orantısız ilgiğimiz, bu özel.prompt türü için yalnızca temel bir modelin daha geniş ağırlıklarına güvenmenin yeterli olmayabileceğini düşündürüyor.
Yeniden inşa testleri, nitel ve nicel değerlendirme için gerçekleştirildi. Aşağıdaki görüntüde, DDIM inversion için nitel örnekleri görüyoruz:

DDIM inversion için nitel sonuçlar. Her satır, ayrıntılı bir görüntüyü, inversion ve gürültü azaltma sırasındaprogressively daha precisa koşullarla yeniden inşa edilen versiyonlarıyla birlikte gösterir. Koşullandırma daha doğru hale geldikçe, yeniden inşa kalitesi iyileşir.
Makalede şöyle denir:
‘Bu örnekler, inversion sürecini bir görüntüye koşullandırmakla, özellikle ayrıntılı bölgelerde yeniden inşa kalitesinin önemli ölçüde iyileştiğini vurgular.’
‘Özellikle, [aşağıdaki görüntünün] üçüncü örneğinde, yöntemimiz sağdaki boksörün sırtındaki dövmeyi başarılı bir şekilde yeniden inşa eder. Ayrıca, boksörün bacak pozisyonu daha iyi korunur ve bacaktaki dövme görünür hale gelir.’

DDIM inversion için daha fazla nitel sonuç. Tanımlayıcı koşullar, DDIM inversionı geliştirir, özellikle karmaşık görüntülerde görüntü koşullandırması metin koşullandırmasından daha iyi performans gösterir.
Yazarlar ayrıca, Sıkı Terslemeyi mevcut sistemlerin bir drop-in modülü olarak test ettiler, değiştirilmiş sürümlerini bazline performanslarıyla karşılaştırdılar.
Test edilen üç sistem, yukarıda bahsedilen DDIM Inversion ve RF-Inversion’du; ve ayrıca ReNoise, bu makaledeki bazı yazarlarla ortaklık paylaşıyor. DDIM sonuçlarının %100 yeniden inşa elde etmekte hiçbir zorluğu olmamasına karşın, araştırmacılar yalnızca düzenlenebilirlik üzerinde odaklandılar.
(Örnek görüntülerin nitel sonuçları, orijinal makalede biraz karışık bir şekilde sunulduğundan, okuyucuyu daha iyi bir çözünürlük ve anlamlı açıklık için kaynak PDF’ye yönlendirmekteyiz.)

Solda, SDXL ile Sıkı Tersleme için nitel yeniden inşa sonuçları. Sağda, Flux ile yeniden inşa.
Burada yazarlar şunları belirtir:
‘Gösterildiği gibi, Sıkı Terslemeyi mevcut yöntemlerle entegre etmek, tutarlı bir şekilde yeniden inşa kalitesini geliştirir. Örneğin, [şekilde] sol taraftaki örneklerde, bizim yöntemimiz, el railingini ve sağ taraftaki mavi gömlekli adamı doğru bir şekilde yeniden inşa eder.’
Yazarlar ayrıca sistemi nicel olarak test ettiler. Önceki çalışmaların doğrultusunda, MS-COCO’nun doğrulama kümesini kullandılar ve Sıkı Terslemenin, tüm yöntemler için yeniden inşa kalitesini geliştirdiğini belirttiler.

Sıkı Tersleme ile ve olmadan sistemlerin performansını karşılaştıran metrikler.
Sonraki adımda, yazarlar sistemin fotoğraf düzenleme yeteneğini test etti, bunu, prompt2prompt; Edit Friendly DDPM; LED-ITS++; ve RF-Inversion bazline sürümleriyle karşılaştırdı.
Aşağıda, SDXL ve Flux için nitel sonuçların bir seçimi verilmiştir (ve okuyucuyu orijinal makaledeki daha fazla örnek ve daha iyi bir çözünürlük için yönlendirmekteyiz).

SDXL ve Flux için nitel sonuçların seçimi.
Yazarlar, Sıkı Terslemenin mevcut inversion tekniklerini, sadakat ve düzenlenebilirlik arasında daha iyi bir denge kurarak tutarlı bir şekilde aştığını iddia ediyorlar. Standart yöntemler gibi DDIM inversion ve ReNoise, bir görüntüyü iyi bir şekilde geri yükleyebilir, ancak düzenleme uygulandığında genellikle ince detayları korumakta zorlanırlar.
Karşılaştırmaya, Sıkı Tersleme, görüntü koşullandırmasını kullanarak modelin çıkışını orijinaline daha yakından bağlar, istenmeyen bozulmaları önler. Yazarlar, diğer yaklaşımların yeniden inşa edilen görüntüler görünüşte doğru olsa da, düzenleme yapıldığında genellikle hatalara veya yapısal tutarsızlıklara yol açtığını ve Sıkı Terslemenin bu sorunları hafiflettiğini belirtiyorlar.
Son olarak, yazarlar Sıkı Terslemeyi MagicBrush benchmark’u ile nicel olarak değerlendirdiler, DDIM inversion ve LEDITS++ ile ölçüldü, CLIP Sim kullanılarak.

Sıkı Terslemenin MagicBrush benchmark’u ile nicel karşılaştırmaları.
Yazarlar şöyle sonuçlandırıyor:
‘Her iki grafikte, görüntü korunumu ve hedef düzenlemeyle uyumluluk arasındaki ticaret, açıkça gözlemlenir. Sıkı Tersleme, bu ticarette daha iyi bir kontrol sağlar ve girdi görüntüsünü daha iyi korurken, aynı zamanda düzenlemeyle uyumluluk sağlar.’
‘Dikkat çekici bir şekilde, bir görüntüye ve bir metin promptına olan CLIP benzerliği 0.3’ün üzerindeyse, bu, görüntüye ve prompta arasında makul bir uyumluluk olduğunu gösterir.’
Sonuç
Sıkı Tersleme, LDM tabanlı görüntü sentezinin en zorlu zorluklarından birinde bir ‘kırılma’ noktası olmasa da, bir dizi zorlu yardımcı yaklaşımı birleşik bir yöntem olarak konsolide eder.
Düzenlenebilirlik ve sadakat arasındaki gerilim, Sıkı Tersleme ile hala mevcut olsa da, sonuçlar sunulan bu çalışmada, bu gerilimi azalttığını gösteriyor. Bu zorluğun, kendi başına ele alındığında, nihai olarak çözülmesinin zor olabileceğini ve gelecekteki sistemlerde LDM tabanlı mimarilerden öteye bakmanın gerekli olabileceğini düşünürsek, Sıkı Tersleme, durumun mevcut durumundaki bir ilerlemeyi temsil eder.
İlk olarak Cuma, 28 Şubat 2025’te yayınlandı












