Bizimle iletişime geçin

Yapay Zeka

Kişisel Dikkat Rehberi: Yayılma Modellerinin Örneklem Kalitesini Artırma

mm
Kişisel Dikkat Rehberi: Yayılma Modellerinin Örnek Kalitesinin Artırılması

Gürültü Giderici Difüzyon Modelleri, yinelemeli bir gürültü giderici süreç yoluyla gürültüden görüntüleri sentezleyen üretken yapay zeka çerçeveleridir. Sınıflandırıcı rehberliği ve sınıflandırıcısız rehberlik dahil olmak üzere büyük ölçüde metin veya sınıf koşullu rehberlik yöntemlerine atfedilen olağanüstü görüntü oluşturma yetenekleri ve çeşitlilikleri nedeniyle kutlanırlar. Bu modeller, çeşitli, yüksek kaliteli görüntüler oluşturmada oldukça başarılı olmuştur. Son araştırmalar, sınıf başlıkları ve etiketler gibi rehberlik tekniklerinin, bu modellerin oluşturduğu görüntülerin kalitesini artırmada çok önemli bir rol oynadığını göstermiştir.

Ancak yayılma modelleri ve rehberlik yöntemleri belirli dış koşullar altında sınırlamalarla karşı karşıyadır. Etiket bırakmayı kullanan Sınıflandırıcısız Rehberlik (CFG) yöntemi, eğitim sürecine karmaşıklık katarken Sınıflandırıcı Rehberliği (CG) yöntemi, ek sınıflandırıcı eğitimi gerektirir. Her iki yöntem de zorluklarla kazanılmış dış koşullara güvenmeleri, potansiyellerini sınırlamaları ve onları koşullu ortamlarla sınırlandırmaları nedeniyle bir şekilde kısıtlanmıştır.

Bu sınırlamaları gidermek için geliştiriciler, Kişisel Dikkat Rehberliği (SAG) olarak bilinen, yayılma rehberliğine daha genel bir yaklaşım formüle ettiler. Bu yöntem, görüntüleri oluşturmak için difüzyon modellerinin ara örneklerinden elde edilen bilgilerden yararlanır. Bu makalede SAG'ı inceleyeceğiz; çalışmalarını, metodolojisini ve sonuçlarını mevcut en son teknoloji çerçeveler ve boru hatlarıyla karşılaştırarak tartışacağız.

Kişisel Dikkat Rehberi: Yayılma Modellerinin Örnek Kalitesinin Artırılması

Gürültü Giderici Difüzyon Modelleri (DDM'ler), yinelemeli bir gürültü giderici süreç yoluyla gürültüden görüntü oluşturma yetenekleri nedeniyle popülerlik kazanmıştır. Bu modellerin görüntü sentezi becerisi büyük ölçüde kullanılan difüzyon yönlendirme yöntemlerinden kaynaklanmaktadır. Güçlü yönlerine rağmen, yayılma modelleri ve rehberliğe dayalı yöntemler, ilave karmaşıklık ve artan hesaplama maliyetleri gibi zorluklarla karşı karşıyadır.

Mevcut sınırlamaların üstesinden gelmek için geliştiriciler, yayılma rehberliğinden gelen harici bilgilere dayanmayan, dolayısıyla rehberlik için koşulsuz ve esnek bir yaklaşımı kolaylaştıran, yayılma rehberliğinin daha genel bir formülasyonu olan Öz-Dikkat Rehberliği yöntemini tanıttılar. difüzyon çerçeveleri. Öz-Dikkat Rehberliği tarafından tercih edilen yaklaşım, sonuçta, geleneksel yayılma rehberliği yöntemlerinin dış gereksinimleri olan veya olmayan vakalara uygulanabilirliğinin arttırılmasına yardımcı olur. 

Öz-Dikkat Rehberi, genelleştirilmiş formülasyonun basit ilkesine ve ara örneklerde yer alan içsel bilgilerin de rehberlik görevi görebileceği varsayımına dayanmaktadır. Bu prensibe dayanarak, SAG yöntemi ilk olarak numune kalitesini artırmak için basit ve anlaşılır bir çözüm olan Bulanıklaştırma Kılavuzunu sunar. Bulanıklaştırma kılavuzu, Gauss bulanıklığının bir sonucu olarak ortadan kaldırılan bilgileri kullanarak ara örnekleri yönlendirerek ince ölçekli ayrıntıları doğal olarak kaldırmak için Gauss bulanıklığının iyi huylu özelliklerinden yararlanmayı amaçlamaktadır. Bulanıklaştırma yönlendirme yöntemi, orta düzey bir yönlendirme ölçeğiyle örnek kalitesini artırsa da, çoğu zaman tüm bölgelerde yapısal belirsizliğe neden olduğundan, sonuçları geniş bir yönlendirme ölçeğinde çoğaltmakta başarısız olur. Sonuç olarak, Bulanıklaştırma yönlendirme yöntemi, orijinal girdiyi, bozulmuş girdinin tahminiyle hizalamakta zorlanır. Bulanıklaştırma kılavuzu yönteminin kararlılığını ve etkinliğini daha büyük bir kılavuz ölçeğinde geliştirmek için, Öz-Dikkat Kılavuzu, modern yayılma modelleri zaten mimarileri içinde bir öz-dikkat mekanizması içerdiğinden, yayılma modellerinin öz-dikkat mekanizmasından yararlanmaya çalışır. 

Öz-dikkatin, özünde göze çarpan bilgiyi yakalamak için gerekli olduğu varsayımıyla, Öz-Dikkat Rehberliği yöntemi, göze çarpan bilgiyi içeren bölgeleri rakipsiz bir şekilde bulanıklaştırmak için yayılma modellerinin öz-dikkat haritalarını kullanır ve bu süreçte, difüzyon modelleri gerekli kalan bilgilerle. Yöntem daha sonra görüntülerin kalitesini artırmak için difüzyon modellerinin ters süreci sırasında dikkat haritalarından yararlanır ve ek eğitim veya harici bilgi gerektirmeden yapaylıkları azaltmak için kendi kendini koşullandırmayı kullanır. 

Özetlemek gerekirse, Kişisel Dikkat Rehberliği yöntemi

  1. Herhangi bir ek eğitim gerektirmeden veya dış koşullara dayanmadan oluşturulan örnek görüntü kalitesini iyileştirmek için yayılma çerçevelerinin dahili kişisel dikkat haritalarını kullanan yeni bir yaklaşımdır. 
  2. SAG yöntemi, koşullu rehberlik yöntemlerini, ek kaynaklar veya dış koşullar gerektirmeden herhangi bir yayılma modeliyle entegre edilebilecek, koşulsuz bir yöntem halinde genelleştirmeye çalışır ve böylece rehberliğe dayalı çerçevelerin uygulanabilirliğini arttırır. 
  3. SAG yöntemi ayrıca mevcut koşullu yöntemlere ve çerçevelere ortogonal yeteneklerini göstermeye çalışır, böylece diğer yöntem ve modellerle esnek entegrasyonu kolaylaştırarak performansın artmasını kolaylaştırır. 

Devam ederken, Öz-Dikkat Rehberliği yöntemi, Gürültü Giderici Yayılma Modelleri, Örnekleme Rehberliği, Üretken Yapay Zeka Öz-Dikkat yöntemleri ve Yayılma Modellerinin Dahili Temsilleri dahil olmak üzere ilgili çerçevelerin bulgularından öğrenir. Bununla birlikte, Öz-Dikkat Rehberliği yöntemi özünde DDPM veya Gürültüyü Azaltan Yayılma Olasılık Modelleri, Sınıflandırıcı Rehberliği, Sınıflandırıcısız Rehberlik ve Yayılma çerçevelerinde Öz-Dikkat'ten öğrenilenleri uygular. Gelecek bölümde bunlardan detaylı olarak bahsedeceğiz. 

Kişisel Dikkat Rehberi: Ön Bilgiler, Metodoloji ve Mimari

Gürültüden Arındırıcı Difüzyon Olasılık Modeli veya DDPM

DDPM veya Denoising Difüzyon Olasılık Modeli Bir görüntüyü beyaz gürültüden kurtarmak için yinelemeli bir gürültü giderme işlemi kullanan bir modeldir. Geleneksel olarak, bir DDPM modeli, Markov süreci olarak bilinen ileri bir işlemi kullanarak görüntüyü elde etmek için bir zaman adımında bir giriş görüntüsü ve bir varyans çizelgesi alır. 

GAN Uygulamasıyla Sınıflandırıcı ve Sınıflandırıcısız Rehberlik

GAN veya Üretken Rekabetçi Ağlar, aslına uygunluk için benzersiz bir ticaret çeşitliliğine sahiptir ve GAN çerçevelerinin bu yeteneğini yayılma modellerine getirmek için, Öz-Dikkat Rehberliği çerçevesi, ek bir sınıflandırıcı kullanan bir sınıflandırıcı rehberlik yönteminin kullanılmasını önerir. Bunun tersine, aynı sonuçları elde etmek için sınıflandırıcı içermeyen bir yönlendirme yöntemi, ek bir sınıflandırıcı kullanılmadan da uygulanabilir. Yöntem istenen sonuçları vermesine rağmen, ek etiketler gerektirdiğinden hala hesaplama açısından uygun değildir ve aynı zamanda çerçeveyi, bir metin veya sınıf gibi ek koşulların yanı sıra karmaşıklığı artıran ek eğitim ayrıntıları gerektiren koşullu yayılma modelleriyle sınırlandırır. modeli. 

Yaygınlaştırma Kılavuzunun Genelleştirilmesi

Sınıflandırıcı ve Sınıflandırıcısız Rehberlik yöntemleri istenilen sonuçları vermesine ve difüzyon modellerinde koşullu üretime yardımcı olmasına rağmen, ek girdilere bağımlıdırlar. Herhangi bir zaman adımı için, bir yayılma modelinin girdisi, genelleştirilmiş bir durumu ve genelleştirilmiş koşulun bulunmadığı bir tedirgin numuneyi içerir. Ayrıca, genelleştirilmiş durum, tedirgin numune içindeki dahili bilgiyi veya bir dış koşulu veya hatta her ikisini de kapsar. Ortaya çıkan rehberlik, genelleştirilmiş durumu tahmin edebileceği varsayımıyla hayali bir regresörün kullanılmasıyla formüle edilmiştir. 

Kişisel Dikkat Haritalarını Kullanarak Görüntü Kalitesini Artırma

Genelleştirilmiş Yayılma Kılavuzu, tedirgin numunede bulunan genelleştirilmiş durumdaki göze çarpan bilgileri çıkararak difüzyon modellerinin ters sürecine rehberlik sağlamanın mümkün olduğunu ima eder. Aynı temele dayanarak, Öz-Dikkat Rehberliği yöntemi, önceden eğitilmiş yayılma modellerinde dağıtım dışı sorunların bir sonucu olarak ortaya çıkan riskleri sınırlandırırken, tersine süreçler için belirgin bilgileri etkili bir şekilde yakalar. 

Bulanıklaştırma Kılavuzu

Kişisel Dikkat Kılavuzundaki bulanıklık kılavuzu, giriş sinyalinin bir çıktı oluşturmak için bir Gauss filtresiyle evrildiği doğrusal bir filtreleme yöntemi olan Gauss Bulanıklığı'nı temel alır. Standart sapmanın artmasıyla birlikte Gauss Bulanıklığı, giriş sinyallerindeki ince ölçekli ayrıntıları azaltır ve bunları sabite doğru yumuşatarak yerel olarak ayırt edilemez giriş sinyalleri sağlar. Ayrıca deneyler, giriş sinyali ile çıkış sinyalinin daha ince ölçekli bilgi içerdiği Gauss bulanıklığı çıkış sinyali arasında bir bilgi dengesizliğine işaret etmiştir. 

Bu öğrenmeye dayanarak, Öz-Dikkat Rehberliği çerçevesi, bilgiyi yayılma süreci sırasında kasıtlı olarak ara yeniden yapılandırmalardan hariç tutan ve bunun yerine görüntülerin konuyla ilgisini artırmaya yönelik tahminlerini yönlendirmek için bu bilgiyi kullanan bir teknik olan Bulanıklaştırma rehberliğini sunar. bilgileri girin. Bulanıklaştırma yönlendirmesi esas olarak orijinal tahminin bulanık giriş tahmininden daha fazla sapmasına neden olur. Ayrıca, Gauss bulanıklığının iyi huylu özelliği, çıkış sinyallerinin orijinal sinyalden orta derecede bir sapma ile önemli ölçüde sapmasını önler. Basit bir ifadeyle, görüntülerde doğal olarak bulanıklık meydana gelir ve bu da Gauss bulanıklığını önceden eğitilmiş yayılma modellerine uygulanmak için daha uygun bir yöntem haline getirir. 

Öz-Dikkat Rehberliği boru hattında, giriş sinyali ilk önce bir Gauss filtresi kullanılarak bulanıklaştırılır ve daha sonra çıkış sinyalini üretmek için ek gürültüyle dağıtılır. Bunu yaparak SAG boru hattı, Gauss gürültüsünü azaltan sonuçta ortaya çıkan bulanıklığın yan etkisini hafifletir ve rehberliğin rastgele gürültüye bağlı olmak yerine içeriğe dayalı olmasını sağlar. Bulanık rehberlik, orta düzeyde rehberlik ölçeğine sahip çerçeveler üzerinde tatmin edici sonuçlar vermesine rağmen, aşağıdaki görüntüde gösterildiği gibi gürültülü sonuçlar üretme eğiliminde olduğundan, sonuçları geniş bir rehberlik ölçeğine sahip mevcut modellerde kopyalamakta başarısız olur. 

Bu sonuçlar, SAG boru hattının orijinal girdinin tahminlerini bozulmuş girdiyle hizalamasını zorlaştıran ve gürültülü çıktılara yol açan küresel bulanıklığın çerçevede ortaya çıkardığı yapısal belirsizliğin bir sonucu olabilir. 

Kendine Dikkat Mekanizması

Daha önce de belirtildiği gibi, yayılma modelleri genellikle yerleşik bir öz-dikkat bileşenine sahiptir ve bu, bir yayılma modeli çerçevesindeki en önemli bileşenlerden biridir. Kişisel Dikkat mekanizması, yayılma modellerinin merkezinde uygulanır ve aşağıdaki görüntüde üst sıradaki yüksek frekanslı maskelerle gösterildiği gibi, modelin üretken süreç sırasında girdinin göze çarpan kısımlarına dikkat etmesine olanak tanır. ve son olarak oluşturulan görüntülerin alt satırında kişisel dikkat maskeleri. 

Önerilen Öz-Dikkat Rehberliği yöntemi aynı prensibe dayanmaktadır ve yayılma modellerindeki öz-dikkat haritalarının yeteneklerinden yararlanmaktadır. Genel olarak, Öz-Dikkat Rehberliği yöntemi, giriş sinyalindeki kendi kendine katılımlı yamaları bulanıklaştırır veya basit bir ifadeyle, yayılma modellerinin katıldığı yamaların bilgilerini gizler. Ayrıca, Öz-Dikkat Kılavuzundaki çıkış sinyalleri, giriş sinyallerinin sağlam bölgelerini içerir, bu da girdilerin yapısal belirsizliğine yol açmadığı ve küresel bulanıklık sorununu çözdüğü anlamına gelir. Boru hattı daha sonra, kişisel dikkat haritalarını boyuta toplamak için GAP veya Küresel Ortalama Havuzlama gerçekleştirerek ve giriş sinyalinin çözünürlüğüne uyacak şekilde en yakın komşuyu yukarı örnekleyerek, toplanmış kişisel dikkat haritalarını elde eder. 

Kişisel Dikkat Rehberi: Deneyler ve Sonuçlar

Performansını değerlendirmek için Öz-Dikkat Kılavuzu hattı 8 Nvidia GeForce RTX 3090 GPU kullanılarak örneklendi ve önceden eğitilmiş IDDPM, ADM ve Kararlı Difüzyon çerçeveleri

Öz-Dikkat Rehberliği ile Koşulsuz Üretim

SAG boru hattının koşulsuz modeller üzerindeki etkinliğini ölçmek ve Sınıflandırıcı Rehberliği ve Sınıflandırıcı Ücretsiz Rehberlik yaklaşımının sahip olmadığı koşulsuz özelliği göstermek için SAG boru hattı, 50 bin örnek üzerinde koşulsuz olarak önceden eğitilmiş çerçeveler üzerinde çalıştırılır. 

Görülebileceği gibi SAG boru hattının uygulanması, koşulsuz girdinin FID, sFID ve IS ölçümlerini iyileştirirken aynı zamanda geri çağırma değerini de düşürür. Ayrıca, SAG boru hattının uygulanmasının bir sonucu olarak ortaya çıkan niteliksel iyileştirmeler, üstteki görüntülerin ADM ve Kararlı Difüzyon çerçevelerinin sonuçları olduğu, alttaki görüntülerin ise ADM ve Kararlı Difüzyon çerçevelerinin sonuçları olduğu aşağıdaki görüntülerde açıkça görülmektedir. SAG boru hattı. 

SAG ile Koşullu Üretim

SAG boru hattının mevcut çerçevelere entegrasyonu, koşulsuz üretimde olağanüstü sonuçlar sağlar ve SAG boru hattı, SAG boru hattının koşullu üretim için de uygulanmasına olanak tanıyan koşul-agnostisite yeteneğine sahiptir. 

Öz-Dikkat Rehberliği ile Kararlı Yayılma

Orijinal Kararlı Dağılım çerçevesi yüksek kaliteli görüntüler oluştursa da, Kararlı Dağılım çerçevesini Öz-Dikkat Rehberliği hattıyla entegre etmek, sonuçları büyük ölçüde artırabilir. Etkisini değerlendirmek için geliştiriciler, her görüntü çifti için rastgele tohum içeren Stabil Yayılma için boş istemler kullanır ve Öz-Dikkat Kılavuzu olan ve olmayan 500 görüntü çifti üzerinde insan değerlendirmesini kullanır. Sonuçlar aşağıdaki resimde gösterilmektedir.  

Ayrıca, SAG'ın uygulanması, Sınıflandırıcısız Rehberliğin Öz-Dikkat Rehberliği ile birleştirilmesi, Kararlı Yayılma modellerinin aralığını metinden görüntüye sentezlemeye kadar genişletebileceğinden, Kararlı Yayılma çerçevesinin yeteneklerini geliştirebilir. Ayrıca, aşağıdaki görüntüde gösterildiği gibi, SAG boru hattının kendi kendini koşullandırma etkisi sayesinde, Öz-Dikkat Kılavuzuna sahip Kararlı Yayılma modelinden oluşturulan görüntüler, daha az yapaylık ile daha yüksek kalitededir. 

Mevcut Sınırlamalar

Öz-Dikkat Rehberliği ardışık düzeninin uygulanması, oluşturulan görüntülerin kalitesini önemli ölçüde artırabilse de bazı sınırlamalara sahiptir. 

En büyük sınırlamalardan biri, Sınıflandırıcı-Rehberlik ve Sınıflandırıcısız Rehberlik ile dikliktir. Aşağıdaki görüntüde görülebileceği gibi, SAG'ın uygulanması FID puanını ve tahmin puanını iyileştirmektedir; bu, SAG boru hattının geleneksel rehberlik yöntemleriyle aynı anda kullanılabilen ortogonal bir bileşen içerdiği anlamına gelmektedir. 

Ancak yine de yayılma modellerinin belirli bir şekilde eğitilmesini gerektirir, bu da karmaşıklığın yanı sıra hesaplama maliyetlerini de artırır. 

Ayrıca, Kişisel Dikkat Kılavuzunun uygulanması hafızayı veya zaman tüketimini artırmaz; bu, SAG'da maskeleme ve bulanıklaştırma gibi işlemlerden kaynaklanan ek yükün göz ardı edilebilir olduğunun bir göstergesidir. Ancak, rehberlik içermeyen yaklaşımlarla karşılaştırıldığında ek bir adım içerdiğinden yine de hesaplama maliyetlerine katkıda bulunur. 

Son Düşüncelerimiz

Bu makalede, yüksek kaliteli görüntüler oluşturmak için yayılma modellerinde mevcut olan içsel bilgileri kullanan yeni ve genel bir rehberlik yöntemi formülasyonu olan Kişisel Dikkat Rehberliğinden bahsettik. Öz-Dikkat Rehberi, genelleştirilmiş formülasyonun basit ilkesine ve ara örneklerde yer alan içsel bilgilerin de rehberlik görevi görebileceği varsayımına dayanmaktadır. Öz-Dikkat Rehberliği hattı, çeşitli yayılma modellerinde uygulanabilen, koşulsuz ve eğitim gerektirmeyen bir yaklaşımdır ve oluşturulan görüntülerdeki yapaylıkları azaltmak için kendi kendini koşullandırmayı kullanır ve genel kaliteyi artırır. 

"Meslek olarak bir mühendis, ezbere bir yazar". Kunal, yapay zeka ve makine öğrenimine derin bir sevgi ve anlayışa sahip, ilgi çekici ve bilgilendirici belgeleriyle bu alanlardaki karmaşık kavramları basitleştirmeye kendini adamış bir teknik yazardır.