Anderson'ın Açısı

Yapay Zeka Görüntü Düzenlemesinin Doğruluğunun Artırılması

Yayınlanan Şubat 28, 2025

Martin Anderson

'Sıkı Ters Çevirme: Gerçek Görüntü Düzenleme için Görüntü Koşullu Ters Çevirme' adlı makaleden görüntüler

Adobe'nin Ateş böceği Gizli yayılma modeli (LDM) tartışmasız şu anda mevcut olan en iyi modellerden biridir, üretken özelliklerini deneyen Photoshop kullanıcıları bunun kolayca yapılamadığını fark edecektir. mevcut görselleri düzenle – bunun yerine tamamen yerine Kullanıcının metin istemine dayalı olarak kullanıcının seçtiği görsel alan (Firefly'ın oluşturulan bölümü görselin bağlamına entegre etmede usta olmasına rağmen).

Mevcut beta sürümünde Photoshop en azından şunları yapabilir: bir referans görseli dahil et Adobe'nin amiral gemisi ürününün işlevsellik türünü yakalayan kısmi bir görüntü istemi olarak Kararlı Difüzyon Kullanıcılar, üçüncü taraf çerçeveler sayesinde iki yıldan uzun süredir keyif alıyorlar. Kontrol ağı:

Adobe Photoshop'un mevcut beta sürümü, bir seçim içerisinde yeni içerik oluştururken referans görsellerin kullanılmasına izin veriyor; ancak bu, şimdilik deneme yanılma yoluyla elde edilebilen bir durum.

Adobe Photoshop'un mevcut beta sürümü, bir seçim içerisinde yeni içerik oluştururken referans görsellerin kullanılmasına olanak tanıyor; ancak şu anda bu, deneme yanılma yoluyla elde edilebilen bir durum.

Bu, görüntü sentezi araştırmalarında açık bir sorunu göstermektedir: Difüzyon modellerinin, kullanıcı tarafından belirtilen seçimin tam ölçekli bir 'yeniden hayal edilmesi' uygulanmadan mevcut görüntüleri düzenlemede yaşadığı zorluk.

Bu yayılma tabanlı inpaint, kullanıcının istemine uysa da, orijinal görüntüyü dikkate almadan (yeni nesli çevreyle harmanlayarak hariç) kaynak konuyu tamamen yeniden icat ediyor. Kaynak: https://arxiv.org/pdf/2502.20376

Bu yayılma tabanlı inpaint, kullanıcının komutlarına uysa da, orijinal görüntüyü dikkate almadan (yeni nesli çevreyle harmanlayarak hariç) kaynak konuyu tamamen yeniden icat eder. Kaynak: https://arxiv.org/pdf/2502.20376

Bu sorun, LDM'lerin görüntüleri şu şekilde oluşturması nedeniyle oluşur: yinelemeli gürültü giderme, sürecin her aşamasının kullanıcı tarafından sağlanan metin istemine bağlı olduğu. Metin istemi içeriğinin dönüştürülmesiyle belirteçleri yerleştirmeve istemle ilgili yüz binlerce (veya milyonlarca) yakın eşleşen yerleştirme içeren Kararlı Difüzyon veya Akı gibi hiper ölçekli bir modelle, sürecin hesaplanmış bir koşullu dağılım Hedefe doğru; atılan her adım bu 'koşullu dağıtım hedefine' doğru bir adımdır.

Yani bu, metinden resme geçiş senaryosu – kullanıcının 'en iyisini umduğu' bir senaryo, çünkü neslin tam olarak nasıl olacağını söylemek mümkün değil.

Bunun yerine, birçok kişi mevcut görüntüleri düzenlemek için bir LDM'nin güçlü üretken kapasitesini kullanmaya çalıştı; ancak bu, sadakat ve esneklik arasında bir denge eylemi gerektiriyor.

Bir görüntü, aşağıdaki gibi yöntemlerle modelin gizli alanına yansıtıldığında: DDIM ters çevirme, amaç anlamlı düzenlemelere izin verirken orijinali olabildiğince yakın bir şekilde kurtarmaktır. Sorun, bir görüntü ne kadar hassas bir şekilde yeniden oluşturulursa, modelin de o kadar çok ona bağlı kalmasıdır. orijinal Yapısı büyük değişiklikler yapmayı zorlaştırıyor.

Son yıllarda önerilen diğer birçok difüzyon tabanlı görüntü düzenleme çerçevesi gibi, Renoise mimarisi de görüntünün görünümünde gerçek bir değişiklik yapmada zorluk çekiyor; yalnızca kedinin boğazının dibinde görünen bir papyonun yüzeysel bir göstergesi var.

Öte yandan, süreç düzenlenebilirliği önceliklendirirse, model orijinal üzerindeki kontrolünü kaybeder ve değişiklikleri tanıtmak daha kolay hale gelir; ancak bu, kaynak görüntüyle genel tutarlılığın pahasına olur:

Görev tamamlandı – ancak bu, çoğu yapay zeka tabanlı görüntü düzenleme çerçevesi için bir ayarlamadan ziyade bir dönüşümdür.

Adobe'nin hatırı sayılır kaynaklarının bile çözmeye çalıştığı bir sorun olduğu düşünüldüğünde, sorunun dikkate değer olduğu ve kolay çözümlere olanak vermeyebileceği makul bir şekilde değerlendirilebilir.

Sıkı İnversiyon

Bu nedenle bu hafta yayınlanan yeni bir makaledeki örnekler dikkatimi çekti, çünkü çalışma bu alandaki mevcut en son teknolojiye göre değerli ve kayda değer bir gelişme sunuyor ve bir modelin gizli alanına yansıtılan görüntülere ince ve rafine düzenlemeler uygulayabildiğini kanıtlıyor; bu düzenlemelerin önemsiz olmaması veya kaynak görüntüdeki orijinal içeriği boğmaması gerekiyor:

Mevcut ters çevirme yöntemlerine Sıkı Ters Çevirme uygulandığında, kaynak seçimi çok daha ayrıntılı bir şekilde ele alınır ve dönüşümler orijinal materyalin üzerine yazmak yerine ona uyum sağlar.

LDM meraklıları ve uygulayıcıları bu tür sonuçları tanıyabilir, çünkü bunların çoğu Controlnet ve benzeri harici sistemler kullanılarak karmaşık bir iş akışında oluşturulabilir. IP-Adaptör.

Aslında yeni yöntem – lakaplı Sıkı İnversiyon – insan tasvirleri için özel bir yüz tabanlı modelle birlikte IP-Adapter'ı gerçekten de kullanıyor.

Orijinal 2023 IP-Adapter makalesinden, kaynak materyale uygun düzenlemelerin oluşturulmasına dair örnekler. Kaynak: https://arxiv.org/pdf/2308.06721

Orijinal 2023 IP-Adapter makalesinden, kaynak materyale uygun düzenlemelerin yapılmasına dair örnekler. Kaynak: https://arxiv.org/pdf/2308.06721

Sıkı Tersine Çevirmenin önemli başarısı, karmaşık tekniklerin, en popüler LDM dağıtımlarının birçoğu da dahil olmak üzere mevcut sistemlere uygulanabilen tek bir eklenti biçiminde prosedürelleştirilmesidir.

Doğal olarak bu, Sıkı Ters Çevirme'nin (TI), yararlandığı ek sistemler gibi, kendi düzenlenmiş versiyonu için yalnızca doğru metin istemlerine güvenmek yerine, kaynak görüntüyü bir koşullandırma faktörü olarak kullandığı anlamına gelir:

Tight Inversion'ın kaynak materyale gerçek anlamda harmanlanmış düzenlemeler uygulayabilme becerisinin diğer örnekleri.

Tight Inversion'ın kaynak materyale gerçek anlamda harmanlanmış düzenlemeler uygulayabilme yeteneğine dair diğer örnekler.

Yazarlar, yaklaşımlarının, difüzyon tabanlı görüntü düzenleme tekniklerindeki sadakat ve düzenlenebilirlik arasındaki geleneksel ve devam eden gerilimden bağımsız olmadığını kabul etseler de, mevcut sistemlere TI enjekte edildiğinde, temel performansa kıyasla en son sonuçları bildiriyorlar.

MKS yeni iş başlıklı Sıkı Ters Çevirme: Gerçek Görüntü Düzenleme için Görüntü Koşullu Ters Çevirmeve Tel Aviv Üniversitesi ve Snap Araştırma'daki beş araştırmacının eseridir.

Yöntem

Başlangıçta, bir görüntünün oluşturulduğu çeşitli metin istemleri kümesi oluşturmak için Büyük Dil Modeli (LLM) kullanılır. Daha sonra, yukarıda belirtilen DDIM ters çevirme her görüntüye uygulanır üç metin koşuluyla: resmi oluşturmak için kullanılan metin istemi; aynı metnin kısaltılmış hali; ve bir null (boş) istem.

Bu işlemlerden dönen ters gürültü ile görüntüler aynı koşulla ve herhangi bir değişiklik yapılmadan yeniden üretilir. sınıflandırıcı içermeyen rehberlik (CFG).

DDIM ters puanları, farklı istem ayarlarıyla çeşitli metriklerde elde edilir.

Yukarıdaki grafikte görebileceğimiz gibi, çeşitli metriklerdeki puanlar, artan metin uzunluğuyla iyileşiyor. Kullanılan metrikler Tepe Sinyal-Gürültü Oranı (PSNR); L2 mesafe; Yapısal Benzerlik Endeksi (SSIM); ve Öğrenilmiş Algısal Görüntü Yama Benzerliği (LPİP'ler).

Görüntü Bilinçli

Etkili Sıkı Ters Çevirme, yalnızca metne güvenmek yerine ters çevirme işlemini görüntünün kendisine koşullandırarak, ana yayılma modelinin gerçek görüntüleri düzenleme biçimini değiştirir.

Normalde, bir görüntüyü bir difüzyon modelinin gürültü alanına çevirmek, gürültü giderildiğinde girişi yeniden oluşturan başlangıç gürültüsünü tahmin etmeyi gerektirir. Standart yöntemler bu süreci yönlendirmek için bir metin istemi kullanır; ancak kusurlu bir istem hatalara, ayrıntıların kaybolmasına veya yapıların değişmesine yol açabilir.

Sıkı Ters Çevirme ise görsel bilgileri modele beslemek için IP Bağdaştırıcısını kullanır, böylece görüntüyü daha büyük bir doğrulukla yeniden oluşturur, kaynak görüntüleri koşullandırma belirteçlerine dönüştürür ve bunları ters çevirme boru hattına yansıtır.

Bu parametreler düzenlenebilir: kaynak görüntünün etkisini artırmak yeniden yapılandırmayı neredeyse mükemmel hale getirirken, etkisini azaltmak daha yaratıcı değişikliklere olanak tanır. Bu, Tight Inversion'ı hem gömlek rengini değiştirmek gibi ince değişiklikler hem de nesneleri değiştirmek gibi daha önemli düzenlemeler için kullanışlı hale getirir - diğer ters çevirme yöntemlerinin yaygın yan etkileri olmadan, örneğin ince ayrıntıların kaybı veya arka plan içeriğinde beklenmeyen sapmalar.

Yazarlar şunları belirtiyor:

'Sıkı Ters Çevirmenin, [IP Bağdaştırıcısı değiştirilmiş modeli için yerel difüzyon çekirdeğini değiştirerek] önceki ters çevirme yöntemleriyle (örneğin, Düzenleme Dostu DDPM, ReNoise) kolayca entegre edilebileceğini ve sıkı Ters Çevirmenin bu yöntemleri hem yeniden yapılandırma hem de düzenlenebilirlik açısından sürekli olarak iyileştirdiğini belirtiyoruz.'

Veriler ve Testler

Araştırmacılar TI'ı gerçek dünya kaynak görüntülerini yeniden yapılandırma ve düzenleme kapasitesi açısından değerlendirdiler. Kullanılan tüm deneyler Kararlı Difüzyon XL DDIM zamanlayıcısı ile özetlendiği gibi orijinal Kararlı Difüzyon kağıdı; ve tüm testlerde varsayılan rehberlik ölçeği 50 olan 7.5 gürültü azaltma adımı kullanıldı.

Görüntü koşullandırma için, IP-Adaptör-artı sdxl vit-h kullanıldı. Birkaç adımlı testler için araştırmacılar SDXL-Turbo Euler zamanlayıcısı ile ve ayrıca deneyler yürüttü AKIŞ.1-dev, ikinci durumda modeli şartlandırmak PuLID-AkısıKullanılarak RF-Ters Çevirme 28 adımda.

PulID yalnızca insan yüzlerini içeren durumlarda kullanıldı, çünkü PulID'nin eğitildiği alan buydu ve bu olası istem türü için özel bir alt sistemin kullanılması dikkat çekici olsa da, insan yüzleri üretmeye olan aşırı ilgimiz, yalnızca Kararlı Difüzyon gibi bir temel modelin daha geniş ağırlıklarına güvenmenin, bu özel görev için talep ettiğimiz standartlar için yeterli olmayabileceğini gösteriyor.

Nitel ve nicel değerlendirme için yeniden yapılandırma testleri gerçekleştirildi. Aşağıdaki görüntüde, DDIM inversiyonu için nitel örnekler görüyoruz:

DDIM ters çevirme için nitel sonuçlar. Her satır, ters çevirme ve gürültü giderme sırasında her adımda giderek daha hassas koşullar kullanılarak yeniden yapılandırılmış sürümlerinin yanında oldukça ayrıntılı bir görüntü gösterir. Koşullandırma daha doğru hale geldikçe, yeniden yapılandırma kalitesi artar. En sağdaki sütun, orijinal görüntünün kendisinin koşul olarak kullanıldığı ve en yüksek sadakatin elde edildiği en iyi sonuçları gösterir. CFG hiçbir aşamada kullanılmamıştır. Daha iyi çözünürlük ve ayrıntı için lütfen kaynak belgeye bakın.

Kağıt şöyle diyor:

'Bu örnekler, ters çevirme işleminin bir görüntü üzerinde şartlandırılmasının, oldukça ayrıntılı bölgelerde yeniden yapılandırmayı önemli ölçüde iyileştirdiğini vurgulamaktadır.

'Özellikle, [aşağıdaki görseldeki] üçüncü örnekte, yöntemimiz sağ boksörün sırtındaki dövmeyi başarıyla yeniden oluşturuyor. Ayrıca, boksörün bacak duruşu daha doğru bir şekilde korunuyor ve bacaktaki dövme görünür hale geliyor.'

DDIM ters çevirme için daha fazla nitel sonuç. Betimleyici koşullar DDIM ters çevirmeyi iyileştirir, görüntü koşullandırması özellikle karmaşık görüntülerde metinden daha iyi performans gösterir.

Yazarlar ayrıca Tight Inversion'ı mevcut sistemler için bir eklenti modülü olarak test ettiler ve değiştirilmiş sürümleri temel performanslarıyla karşılaştırdılar.

Test edilen üç sistem yukarıda belirtilen DDIM İnversiyonu ve RF İnversiyonu idi; ve ayrıca Yeniden Gürültü, burada tartışılan makale ile bazı yazarlıkları paylaşan. DDIM sonuçlarının %100 yeniden yapılandırma elde etmede zorluk çekmemesi nedeniyle, araştırmacılar yalnızca düzenlenebilirliğe odaklandılar.

(Nitel sonuç görüntüleri burada yeniden üretilmesi zor bir biçimde biçimlendirilmiştir, bu nedenle okuyucuyu daha kapsamlı bilgi ve daha iyi çözünürlük için kaynak PDF'ye yönlendiriyoruz, aşağıda bazı seçimler yer almasına rağmen)

Solda, SDXL ile Sıkı İnversiyon için nitel yeniden yapılandırma sonuçları. Sağda, Flux ile yeniden yapılandırma. Bu sonuçların yayımlanmış çalışmada düzenlenmesi, burada yeniden üretilmesini zorlaştırıyor, bu nedenle elde edilen farkların gerçek bir izlenimi için lütfen kaynak PDF'ye bakın.

Yazarların yorumları şöyle:

'Gösterildiği gibi, Sıkı Ters Çevirme'yi mevcut yöntemlerle entegre etmek, yeniden yapılandırmayı sürekli olarak iyileştirir. [Örneğin,] yöntemimiz en soldaki örnekteki korkuluğu ve en sağdaki örnekteki mavi gömlekli adamı [makalenin 5. Şeklinde] doğru bir şekilde yeniden yapılandırır.'

Yazarlar ayrıca sistemi nicel olarak test ettiler. Önceki çalışmalarla uyumlu olarak, doğrulama seti of MS-COCOve sonuçların (aşağıda gösterilmiştir) tüm yöntemler için tüm ölçütlerde yeniden yapılandırmayı iyileştirdiğini unutmayın.

Sıkı Tersine Çevirmeli ve Tersine Çevirmesiz sistemlerin performans metriklerinin karşılaştırılması.

Daha sonra yazarlar sistemin yeteneğini test ettiler düzenleme fotoğraflar, önceki yaklaşımların temel versiyonlarına karşı koyuyor istem2istem; Düzenleme Dostu DDPM; LED-ITS++; ve RF-İnversiyon.

Aşağıda SDXL ve Flux için makalenin nitel sonuçlarından bir seçki gösterilmektedir (ve daha fazla örnek için okuyucuyu orijinal makalenin oldukça sıkıştırılmış düzenine yönlendiriyoruz).

Yaygın nitel sonuçlardan seçmeler (oldukça kafa karıştırıcı bir şekilde) makale boyunca yayılmıştır. Okuyucuyu daha iyi çözünürlük ve anlamlı netlik için kaynak PDF'ye yönlendiriyoruz.

Yazarlar, Tight Inversion'ın yeniden yapılandırma ve düzenlenebilirlik arasında daha iyi bir denge kurarak mevcut inversiyon tekniklerinden sürekli olarak daha iyi performans gösterdiğini iddia ediyorlar. DDIM inversiyonu ve ReNoise gibi standart yöntemler bir görüntüyü iyi bir şekilde kurtarabilir, makale bunların düzenlemeler uygulandığında genellikle ince ayrıntıları korumakta zorlandığını belirtiyor.

Buna karşılık, Sıkı Ters Çevirme, modelin çıktısını orijinaline daha yakın bir şekilde sabitlemek için görüntü koşullandırmasını kullanır ve istenmeyen bozulmaları önler. Yazarlar, rekabet eden yaklaşımlar yeniden yapılandırmalar ürettiğinde bile, görünmek Doğru olarak, düzenlemelerin tanıtımı sıklıkla hatalara veya yapısal tutarsızlıklara yol açar ve Sıkı Tersine Çevirme bu sorunları hafifletir.

Son olarak, Sıkı İnversiyonun karşılaştırılmasıyla nicel sonuçlar elde edildi. Sihirli Fırça DDIM ters çevirme ve LEDITS++ kullanılarak ölçülen kıyaslama KLİP Sim.

Tight Inversion'ın MagicBrush kıyaslamasına göre nicel karşılaştırmaları.

Yazarlar şu sonuca varıyor:

'Her iki grafikte de görüntü koruma ile hedef düzenlemeye bağlılık arasındaki denge açıkça [gözlemleniyor]. Sıkı Ters Çevirme, bu denge üzerinde daha iyi kontrol sağlıyor ve düzenleme [isteği] ile hizalanırken giriş görüntüsünü daha iyi koruyor.

'Bir resim ile metin istemi arasında 0.3'ün üzerinde bir CLIP benzerliğinin olması, resim ile istem arasında makul bir uyum olduğunu gösterir.'

Sonuç

LDM tabanlı görüntü sentezindeki en zorlu zorluklardan birinde bir 'çığır açıcı' olmasa da Tight Inversion, bir dizi külfetli yardımcı yaklaşımı, yapay zeka tabanlı görüntü düzenlemenin birleşik bir yönteminde birleştiriyor.

Bu yöntemle düzenlenebilirlik ve sadakat arasındaki gerilim ortadan kalkmasa da sunulan sonuçlara göre önemli ölçüde azaltılmıştır. Bu çalışmanın ele aldığı temel zorluğun, kendi şartlarında ele alındığında (gelecekteki sistemlerde LDM tabanlı mimarilerin ötesine bakmak yerine) nihayetinde çözümsüz hale gelebileceği düşünüldüğünde, Tight Inversion, son teknolojide hoş karşılanan kademeli bir iyileştirmeyi temsil eder.

İlk yayın tarihi Cuma, 28 Şubat 2025

İlgili konular:yapay zeka görüntüsü AI Görüntü Düzenleme