Yapay Zeka

Anında Stil: Metinden Görüntüye Oluşturmada Stil Koruması

Yayınlanan

3 hafta önce

19 Nisan 2024

Son birkaç yılda, ayarlamaya dayalı yayılma modelleri, çok çeşitli görüntü kişiselleştirme ve kişiselleştirme görevlerinde dikkate değer ilerlemeler gösterdi. Bununla birlikte, potansiyellerine rağmen mevcut akort tabanlı yayılma modelleri, stille tutarlı görüntüler üretme ve üretme konusunda bir dizi karmaşık zorlukla yüzleşmeye devam ediyor ve bunun arkasında üç neden olabilir. Birincisi, stil kavramı hala geniş ölçüde tanımlanmamış ve belirlenmemiş durumda ve atmosfer, yapı, tasarım, malzeme, renk ve çok daha fazlasını içeren öğelerin bir kombinasyonunu içeriyor. İkinci ters çevirmeye dayalı yöntemler, stil bozulmasına eğilimlidir ve bu da ince taneli ayrıntıların sıklıkla kaybolmasına neden olur. Son olarak, bağdaştırıcı tabanlı yaklaşımlar, metin kontrol edilebilirliği ile stil yoğunluğu arasında bir denge sağlamak amacıyla her bir referans görüntü için sık sık ağırlık ayarlaması gerektirir.

Ayrıca, stil aktarımı yaklaşımlarının veya stil görüntüsü oluşturmanın çoğunluğunun birincil hedefi, referans görselini kullanmak ve belirli bir alt kümeden veya referans görselinden belirli stilini bir hedef içerik görseline uygulamaktır. Ancak stilize edilmiş veri setlerinin toplanması, stilin doğru temsil edilmesi ve aktarımın başarısının değerlendirilmesi araştırmacıların işini zorlaştıran, stilin çok sayıda özelliğidir. Daha önce, ince ayar tabanlı yayılma süreciyle ilgilenen modeller ve çerçeveler, ortak bir stili paylaşan görüntülerin veri kümesinde ince ayar yapılması, hem zaman alıcı hem de zor olduğundan gerçek dünya görevlerinde genelleştirilebilirliği sınırlı olan bir süreçti. aynı veya neredeyse aynı stili paylaşan görsellerin bir alt kümesini toplamak için.

Bu yazıda, mevcut ayarlama tabanlı yayılma modellerinin görüntü oluşturma ve kişiselleştirme konusunda karşılaştığı sorunları çözmek amacıyla tasarlanmış bir çerçeve olan InstantStyle'dan bahsedeceğiz. InstantStyle çerçevesinin uyguladığı iki temel stratejiden bahsedeceğiz:

Aynı özellik alanı içindeki özelliklerin birbirine eklenebileceği veya birbirinden çıkarılabileceği varsayımıyla tahmin edilen, stil ve içeriği özellik alanı içindeki referans görüntülerden ayırmaya yönelik basit ama etkili bir yaklaşım.
Referans görüntü özelliklerini yalnızca stile özgü bloklara enjekte ederek stil sızıntılarını önlemek ve ince ayar için hantal ağırlıklar kullanma ihtiyacını bilinçli olarak ortadan kaldırmak, genellikle daha fazla parametre ağırlıklı tasarımları karakterize eder.

Bu makale, InstantStyle çerçevesini derinlemesine ele almayı amaçlamaktadır ve çerçevenin mekanizmasını, metodolojisini, mimarisini ve bunun en son teknoloji çerçevelerle karşılaştırmasını araştırıyoruz. Ayrıca InstantStyle çerçevesinin dikkat çekici görsel stilizasyon sonuçlarını nasıl gösterdiğinden ve metinsel öğelerin kontrol edilebilirliği ile stilin yoğunluğu arasında en uygun dengeyi nasıl kurduğundan da bahsedeceğiz. Öyleyse başlayalım.

InstantStyle : Metinden Görüntü Oluşturmada Stil Koruma

Difüzyon tabanlı metinden görüntüye üretken yapay zeka çerçeveleri, çok çeşitli özelleştirme ve kişiselleştirme görevlerinde, özellikle de nesne özelleştirme, görüntü koruma ve stil aktarımı dahil tutarlı görüntü oluşturma görevlerinde fark edilir ve dikkate değer bir başarı elde etti. Bununla birlikte, son zamanlardaki başarı ve performans artışına rağmen, stilin belirsiz ve tanımsız doğası nedeniyle, genellikle atmosfer, yapı, tasarım, malzeme, renk ve çok daha fazlasını içeren çeşitli unsurları içeren stil aktarımı, araştırmacılar için zorlu bir görev olmaya devam ediyor. Bununla birlikte, stilize edilmiş görüntü oluşturmanın veya stil aktarımının birincil amacı, belirli bir referans görüntüden veya bir referans görüntü alt kümesinden belirli bir stili uygulamaktır. hedef içerik resmine. Ancak stilin çok sayıda özelliği, araştırmacıların stilize edilmiş veri kümeleri toplamasını, stili doğru temsil etmesini ve aktarımın başarısını değerlendirmesini zorlaştırmaktadır. Daha önce, ince ayar tabanlı yayılma süreciyle ilgilenen modeller ve çerçeveler, ortak bir stili paylaşan görüntülerin veri kümesinde ince ayar yapılması, hem zaman alıcı hem de zor olduğundan gerçek dünya görevlerinde genelleştirilebilirliği sınırlı olan bir süreçti. aynı veya neredeyse aynı stili paylaşan görsellerin bir alt kümesini toplamak için.

Mevcut yaklaşımın karşılaştığı zorluklarla birlikte araştırmacılar, stil aktarımı veya stil aktarımı için ince ayar yaklaşımları geliştirmeye ilgi duymuşlardır. stilize edilmiş görüntü oluşturmave bu çerçeveler iki farklı gruba ayrılabilir:

Adaptörsüz Yaklaşımlar: Bağdaştırıcıdan bağımsız yaklaşımlar ve çerçeveler, yayılma süreci içerisinde öz dikkatin gücünden yararlanır ve ortak bir dikkat operasyonu uygulayarak, bu modeller, anahtarlar ve değerler dahil olmak üzere temel özellikleri, belirli bir referans tarzı görüntülerden doğrudan çıkarma kapasitesine sahiptir.

Adaptör Tabanlı Yaklaşımlar: Bağdaştırıcı tabanlı yaklaşımlar ve çerçeveler ise referans tarzı görüntülerden ayrıntılı görüntü temsillerini çıkarmak için tasarlanmış hafif bir modeli içerir. Çerçeve daha sonra çapraz dikkat mekanizmalarını kullanarak bu temsilleri ustalıkla yayılma sürecine entegre eder. Entegrasyon sürecinin birincil amacı, üretim sürecine rehberlik etmek ve ortaya çıkan görüntünün, referans görüntünün istenen stilistik nüanslarıyla hizalanmasını sağlamaktır.

Ancak verilen sözlere rağmen, ayar gerektirmeyen yöntemler sıklıkla birkaç zorlukla karşılaşıyor. Birincisi, bağdaştırıcısız yaklaşım, öz-dikkat katmanları içinde anahtar ve değerlerin değişimini gerektirir ve referans tarzı görüntülerden türetilen anahtar ve değer matrislerini önceden yakalar. Doğal görüntülere uygulandığında adaptörsüz yaklaşım, DDIM veya Gürültü Giderici Difüzyon Örtülü Modellerin ters çevrilmesi gibi teknikler kullanılarak görüntünün gizli gürültüye geri döndürülmesini gerektirir. Ancak DDIM veya diğer ters çevirme yaklaşımlarının kullanılması, renk ve doku gibi ince taneli ayrıntıların kaybına, dolayısıyla oluşturulan görüntülerdeki stil bilgilerinin azalmasına neden olabilir. Ayrıca bu yaklaşımların getirdiği ek adım, zaman alıcı bir süreçtir ve pratik uygulamalarda önemli dezavantajlar oluşturabilir. Öte yandan, bağdaştırıcıya dayalı yöntemler için temel zorluk, bağlam sızıntısı ile stil yoğunluğu arasında doğru dengenin kurulmasında yatmaktadır. İçerik sızıntısı, stil yoğunluğundaki bir artış, oluşturulan çıktıda referans görüntüden stil dışı öğelerin görünmesine neden olduğunda meydana gelir; temel zorluk noktası, stilleri referans görüntü içindeki içerikten etkili bir şekilde ayırmaktır. Bu sorunu çözmek için bazı çerçeveler, aynı nesneyi farklı stillerde temsil eden eşleştirilmiş veri kümeleri oluşturarak içerik temsilinin ve çözülmüş stillerin çıkarılmasını kolaylaştırır. Bununla birlikte, stilin doğası gereği belirlenmemiş temsili sayesinde, büyük ölçekli eşleştirilmiş veri kümeleri oluşturma görevi, yakalayabileceği stil çeşitliliği açısından sınırlıdır ve aynı zamanda kaynak yoğun bir süreçtir.

Bu sınırlamaların üstesinden gelmek için, diğer dikkat tabanlı enjeksiyon yöntemleriyle sorunsuz bir şekilde bütünleşme ve içerik ile stilin birbirinden etkili bir şekilde ayrılmasını sağlama becerisine sahip, mevcut bağdaştırıcı tabanlı yöntemlere dayanan, ayarlama gerektirmeyen yeni bir mekanizma olan InstantStyle çerçevesi tanıtıldı. Ayrıca InstantStyle çerçevesi, stil ve içeriğin ayrıştırılmasını tamamlamak için bir değil iki etkili yol sunar; ayrıştırmayı gerçekleştirmek veya eşleştirilmiş veri kümeleri oluşturmak için ek yöntemler uygulamaya gerek kalmadan daha iyi stil geçişi sağlar.

Ayrıca, önceki bağdaştırıcı tabanlı çerçeveler, bir görüntü özelliği çıkarıcı olarak CLIP tabanlı yöntemlerde yaygın olarak kullanılmıştır; bazı çerçeveler, özellik alanı içinde özellik ayırmanın uygulanması olasılığını araştırmıştır ve stilin belirsizliğiyle karşılaştırıldığında, İçeriği metinle açıklayın. CLIP tabanlı yöntemlerde görüntüler ve metinler bir özellik alanını paylaştığından, bağlam metni özellikleri ile görüntü özelliklerinin basit bir çıkarma işlemi, içerik sızıntısını önemli ölçüde azaltabilir. Ayrıca çoğunlukta difüzyon modelleri, mimarisinde stil bilgisini enjekte eden ve görüntü özelliklerini yalnızca belirli stil bloklarına enjekte ederek içerik ve stilin ayrıştırılmasını gerçekleştiren belirli bir katman vardır. InstantStyle çerçevesi, bu iki basit stratejiyi uygulayarak, stilin gücünü korurken mevcut çerçevelerin çoğunun karşılaştığı içerik sızıntısı sorunlarını çözebilir.

Özetlemek gerekirse, InstantStyle çerçevesi, içerik ve stilin referans görsellerden etkili bir şekilde ayrıştırılmasını sağlamak için iki basit, anlaşılır ancak etkili mekanizma kullanır. Anında Stil çerçevesi, aşağı akış görevleri için büyük bir potansiyele sahip stil aktarım görevlerinde olağanüstü performans sergileyen, modelden bağımsız ve ayar gerektirmeyen bir yaklaşımdır.

Anında Stil: Metodoloji ve Mimari

Önceki yaklaşımlarda gösterildiği gibi, ayar gerektirmeyen yayılma modellerinde stil koşullarının enjeksiyonunda bir denge vardır. Görüntü koşulunun yoğunluğu çok yüksekse içerik sızıntısına neden olabilir; görüntü koşulunun yoğunluğu çok düşükse stil yeterince belirgin görünmeyebilir. Bu gözlemin ardındaki temel neden, bir görüntüde stil ve içeriğin birbirine bağlı olması ve doğası gereği belirlenmemiş stil nitelikleri nedeniyle stil ve amacı birbirinden ayırmanın zor olmasıdır. Sonuç olarak, metnin kontrol edilebilirliğini ve stilin gücünü dengelemek amacıyla her bir referans görsel için sıklıkla titiz ağırlıklar ayarlanır. Ayrıca, ters çevirmeye dayalı yöntemlerde belirli bir giriş referans görüntüsü ve buna karşılık gelen metin açıklaması için, ters difüzyon yörüngesini elde etmek amacıyla görüntü üzerinde DDIM gibi ters çevirme yaklaşımları benimsenir; bu, bir görüntüyü gizli bir görüntüye dönüştürmek için ters çevirme denklemine yaklaşan bir işlemdir. gürültü temsili. Aynısını temel alan ve ters çevrilmiş yayılma yörüngesinden başlayarak yeni bir dizi istemle başlayan bu yöntemler, stili girdiyle uyumlu olacak şekilde yeni içerik üretir. Ancak, aşağıdaki şekilde gösterildiği gibi, gerçek görüntüler için DDIM ters çevirme yaklaşımı, yerel doğrusallaştırma varsayımlarına dayandığından genellikle kararsızdır, bu da hataların yayılmasına neden olur ve içerik kaybına ve hatalı görüntü yeniden yapılandırmasına yol açar.

Metodolojiye gelince, içerik ve stili görüntülerden ayırmak için karmaşık stratejiler kullanmak yerine, Instant-Style çerçevesi benzer performansı elde etmek için en basit yaklaşımı benimser. Belirlenmemiş stil nitelikleriyle karşılaştırıldığında içerik, doğal metinle temsil edilebilir; bu, Anında Stil çerçevesinin, içerik metninin özelliklerini bağlam temsilleri olarak çıkarmak için CLIP'teki metin kodlayıcıyı kullanmasına olanak tanır. Eş zamanlı olarak Instant-Style çerçevesi, referans görüntünün özelliklerini çıkarmak için CLIP görüntü kodlayıcıyı uygular. CLIP global özelliklerinin karakterizasyonundan yararlanan ve içerik metni özelliklerini görüntü özelliklerinden sonradan çıkartan Instant-Style çerçevesi, stil ve içeriği açık bir şekilde ayırabilir. Basit bir strateji olmasına rağmen Instant-Style çerçevesinin içerik sızıntısını minimumda tutmada oldukça etkili olmasına yardımcı olur.

Ayrıca, derin bir ağ içindeki her katman, farklı anlamsal bilgilerin yakalanmasından sorumludur ve önceki modellerden elde edilen temel gözlem, ele alma tarzından sorumlu iki dikkat katmanının mevcut olmasıdır. yukarı Spesifik olarak, renk, malzeme, atmosfer gibi stillerin yakalanmasından sorumlu olan bloklar.0.attentions.1 ve down bloklar.2.attentions.1 katmanlarıdır ve mekansal düzen katmanı sırasıyla yapıyı ve kompozisyonu yakalar. Anında Stil çerçevesi, stil bilgilerini çıkarmak için bu katmanları örtülü olarak kullanır ve stilin gücünü kaybetmeden içerik sızıntısını önler. Model, kesintisiz stil aktarımı elde etmek için görüntü özelliklerini bu bloklara enjekte edebilen stil blokları yerleştirdiğinden, strateji basit ama etkilidir. Ayrıca, model bağdaştırıcının parametre sayısını büyük ölçüde azalttığı için çerçevenin metin kontrol yeteneği geliştirilir ve mekanizma aynı zamanda düzenleme ve diğer görevler için diğer dikkat temelli özellik enjeksiyon modellerine de uygulanabilir.

Anında Stil: Deneyler ve Sonuçlar

Instant-Style çerçevesi, Stable Diffusion XL çerçevesi üzerinde uygulanır ve metodolojisini doğrulamak için örnek olarak yaygın olarak benimsenen önceden eğitilmiş IR adaptörünü kullanır ve görüntü özellikleri için stil blokları dışındaki tüm blokları sessize alır. Anında Stil modeli ayrıca IR adaptörünü 4 milyon büyük ölçekli metin-görüntü eşleştirilmiş veri kümesi üzerinde sıfırdan eğitir ve tüm blokları eğitmek yerine yalnızca stil bloklarını günceller.

Genelleştirme yeteneklerini ve sağlamlığını gerçekleştirmek için Instant-Style çerçevesi, farklı içeriklerde çeşitli stillerle çok sayıda stil aktarımı denemesi gerçekleştirir ve sonuçlar aşağıdaki resimlerde gözlemlenebilir. Tek bir stil referans görselinin yanı sıra değişen istemlerle birlikte Anında Stil çerçevesi yüksek kaliteli, tutarlı bir stil sunar görüntü üretimi.

Ayrıca model, görüntü bilgilerini yalnızca stil bloklarına enjekte ettiğinden içerik sızıntısı sorununu önemli ölçüde azaltabilir ve bu nedenle ağırlık ayarlaması yapmasına gerek kalmaz.

Devam edersek Instant-Style çerçevesi aynı zamanda uzaysal kontrol ile görüntü tabanlı stilizasyon elde etmek için ControlNet mimarisini de benimser ve sonuçlar aşağıdaki görüntüde gösterilmektedir.

StyleAlign, B-LoRA, Swapping Self Attention ve IP-Adapter gibi önceki son teknoloji yöntemlerle karşılaştırıldığında Instant-Style çerçevesi en iyi görsel efektleri gösterir.

Son Düşüncelerimiz

Bu makalede, içerik ve stilin referans görsellerden etkili bir şekilde ayrıştırılmasını sağlamak için iki basit ama etkili stratejiyi kullanan genel bir çerçeve olan Instant-Style'dan bahsettik. InstantStyle çerçevesi, görüntü oluşturma ve özelleştirmeye yönelik mevcut ayarlama tabanlı yayılma modellerinin karşılaştığı sorunların üstesinden gelmek amacıyla tasarlanmıştır. Anında Stil çerçevesi iki hayati stratejiyi uygular: Aynı özellik alanı içindeki özelliklerin birbirine eklenebileceği veya birbirinden çıkarılabileceği varsayımıyla tahmin edilen, stil ve içeriği özellik alanı içindeki referans görüntülerden ayırmaya yönelik basit ama etkili bir yaklaşım. İkincisi, referans görüntü özelliklerini yalnızca stile özgü bloklara enjekte ederek ve ince ayar için genellikle daha fazla parametre ağırlıklı tasarımları karakterize eden hantal ağırlıkların kullanılması ihtiyacından kasıtlı olarak kaçınarak stil sızıntılarını önlemek.

Bir sonraki

Stanford'un 10 Yapay Zeka Endeksi Raporundan En Önemli 2024 Çıkarım

Kaçırmayın

Yapay Zeka Yazılım Mühendislerinin Yükselişi: SWE-Agent, Devin Yapay Zeka ve Kodlamanın Geleceği

Kunal Kejriwal

"Meslek olarak bir mühendis, ezbere bir yazar". Kunal, yapay zeka ve makine öğrenimine derin bir sevgi ve anlayışa sahip, ilgi çekici ve bilgilendirici belgeleriyle bu alanlardaki karmaşık kavramları basitleştirmeye kendini adamış bir teknik yazardır.