saplama NVIDIA'nın eDiffi Difüzyon Modeli, 'Kelimelerle Boyamaya' ve Daha Fazlasına İzin Veriyor - Unite.AI
Bizimle iletişime geçin

Yapay Zeka

NVIDIA'nın eDiffi Difüzyon Modeli, 'Kelimelerle Boyamaya' ve Daha Fazlasına İzin Verir

mm
Güncellenmiş on

Gibi gizli difüzyon üretici görüntü modelleriyle hassas kompozisyonlar yapmaya çalışmak Kararlı Difüzyon güden kediler gibi olabilir; Sistemin olağanüstü ayrıntılar yaratmasını ve görece basit metin istemlerinden olağanüstü görüntüler çıkarmasını sağlayan aynı yaratıcı ve yorumlayıcı güçler aynı zamanda kapatmak zor bir görüntü oluşturma üzerinde Photoshop düzeyinde kontrol aradığınızda.

Şimdi, NVIDIA araştırmasından yeni bir yaklaşım görüntüler için topluluk difüzyonu (eDiffi), oluşturulan içerik üzerinde çok daha büyük bir kontrol düzeyi sağlamak için birden fazla yerleştirme ve yorumlama yönteminin bir karışımını (iş hattı boyunca aynı yöntem yerine) kullanır. Aşağıdaki örnekte, her rengin bir metin isteminden tek bir kelimeyi temsil ettiği öğeleri boyayan bir kullanıcı görüyoruz:

"Kelimelerle boyama", NVIDIA'nın eDiffi yayma modelindeki iki yeni yetenekten biridir. Her karalanmış renk, bilgi isteminden bir kelimeyi temsil eder (üretim sırasında solda göründüklerine bakın) ve uygulanan alan rengi yalnızca o öğeden oluşacaktır. Daha fazla örnek ve daha iyi çözünürlük içeren gömülü resmi video için makalenin sonuna bakın. Kaynak: https://www.youtube.com/watch?v=k6cOx9YjHJc

"Kelimelerle boyama", NVIDIA'nın eDiffi yayma modelindeki iki yeni yetenekten biridir. Her karalanmış renk, bilgi isteminden bir kelimeyi temsil eder (üretim sırasında solda göründüklerine bakın) ve uygulanan alan rengi yalnızca o öğeden oluşacaktır. Daha fazla örnek ve daha iyi çözünürlük için kaynak (resmi) videoya bakın. https://www.youtube.com/watch?v=k6cOx9YjHJc

Etkili olarak bu 'maskelerle boyama'dır ve i'yi tersine çevirir.resim paradigması bozuk veya tatmin edici olmayan görüntüleri düzeltmeye veya ilk etapta istenen boyutta olabilecek görüntüleri genişletmeye dayanan Kararlı Difüzyonda.

Burada, bunun yerine, boyalı lekenin kenar boşlukları, tek bir kavramdan yalnızca bir benzersiz öğenin izin verilen yaklaşık sınırlarını temsil eder ve kullanıcının en baştan son tuval boyutunu ayarlamasına ve ardından ayrı ayrı öğeler eklemesine olanak tanır.

Yeni gazeteden örnekler. Kaynak: https://arxiv.org/pdf/2211.01324.pdf

Yeni gazeteden örnekler. Kaynak: https://arxiv.org/pdf/2211.01324.pdf

eDiffi'de kullanılan alacalı yöntemler, sistemin her öğeyi uzun ve ayrıntılı istemlere dahil etme konusunda çok daha iyi bir iş çıkardığı anlamına gelirken, Stable Diffusion ve OpenAI'nin DALL-E 2'si, istemin belirli bölümlerine, ne kadar erken olduğuna bağlı olarak öncelik verme eğilimindedir. hedef sözcükler istemde veya tam ama kapsamlı (metin istemine göre) bir kompozisyon için gerekli olan çeşitli unsurların çözülmesindeki potansiyel zorluk gibi diğer faktörlerde görünür:

Makaleden: eDiffi, mümkün olan maksimum sayıda öğe işlenene kadar komut istemini daha kapsamlı bir şekilde yineleme yeteneğine sahiptir. eDiffi (en sağdaki sütun) için iyileştirilmiş sonuçlar titizlikle seçilmiş olsa da, Stable Diffusion ve DALL-E 2'den alınan karşılaştırma görüntüleri de öyle.

Makaleden: eDiffi, mümkün olan maksimum sayıda öğe işlenene kadar komut istemini daha kapsamlı bir şekilde yineleme yeteneğine sahiptir. eDiffi (en sağdaki sütun) için iyileştirilmiş sonuçlar titizlikle seçilmiş olsa da, Stable Diffusion ve DALL-E 2'den alınan karşılaştırma görüntüleri de öyle.

Ayrıca, özel bir kullanımı T5 metinden metne kodlayıcı, eDiffi'nin bir bilgi isteminden soyut olarak talep edilen (örn. görüntü [x] metnini içeriyor) veya açıkça talep edilmiş (örn. tişört "Nvidia Rocks" diyor):

eDiffi'de özel metinden metne işleme, metnin yalnızca çıktıyı yöneten bir metinden görüntüye yorumlama katmanı aracılığıyla çalıştırılmak yerine, görüntülerde kelimesi kelimesine işlenebileceği anlamına gelir.

eDiffi'de özel metinden metne işleme, metnin yalnızca çıktıyı yöneten bir metinden görüntüye yorumlama katmanı aracılığıyla çalıştırılmak yerine, görüntülerde kelimesi kelimesine işlenebileceği anlamına gelir.

Yeni çerçevenin bir başka artısı da, bir DreamBooth modeli veya bir türün birden çok örneğine metinsel bir yerleştirme yapmak yerine tek bir görüntüyü stil bilgi istemi olarak sağlamanın mümkün olmasıdır. stil.

Stil aktarımı, bir referans görüntüden metinden görüntüye bilgi istemine veya hatta görüntüden görüntüye bilgi istemine uygulanabilir.

Stil aktarımı, bir referans görüntüden metinden görüntüye bilgi istemine veya hatta görüntüden görüntüye bilgi istemine uygulanabilir.

The yeni kağıt başlıklı eDiffi: Bir Uzman Gürültü Giderici Topluluğu ile Metinden Görüntüye Difüzyon Modelleri, ve

T5 Metin Kodlayıcı

Google'ın T kullanımıext-to-Text Transfer Trafosu (T5), eDiffi'de gösterilen iyileştirilmiş sonuçlardaki en önemli unsurdur. Ortalama gizli yayılım boru hattı, eğitilmiş görüntüler ile internetten kazındığında onlara eşlik eden altyazılar arasındaki ilişkiye odaklanır (veya daha sonra manuel olarak ayarlanır, ancak bu pahalı ve dolayısıyla nadir bir müdahaledir).

Temmuz 2020 tarihli T5 makalesinden - eDiffi'deki (ve potansiyel olarak diğer gizli yayılma modellerinde) üretici görüntü iş akışına yardımcı olabilecek metin tabanlı dönüşümler. Kaynak: https://arxiv.org/pdf/1910.10683.pdf

Temmuz 2020 tarihli T5 makalesinden - eDiffi'de (ve potansiyel olarak diğer gizli yayılma modellerinde) üretken görüntü iş akışına yardımcı olabilecek metin tabanlı dönüşümler. Kaynak: https://arxiv.org/pdf/1910.10683.pdf

Kaynak metni yeniden ifade ederek ve T5 modülünü çalıştırarak, modelde orijinal olarak eğitildiğinden daha kesin ilişkilendirmeler ve temsiller elde edilebilir, neredeyse şuna benzer: facto sonrası istenen metin isteminin şartlarına daha fazla özgüllük ve uygulanabilirlik ile manuel etiketleme.

Yazarlar açıklıyor:

Difüzyon modelleriyle ilgili mevcut çalışmaların çoğunda, gürültü giderme modeli tüm gürültü seviyelerinde paylaşılır ve zamansal dinamik, gürültü giderme modeline bir MLP ağı aracılığıyla beslenen basit bir zaman yerleştirme kullanılarak temsil edilir. Gürültü giderme difüzyonunun karmaşık zamansal dinamiklerinin, sınırlı kapasiteye sahip paylaşılan bir model kullanılarak verilerden etkili bir şekilde öğrenilemeyebileceğini savunuyoruz.

Bunun yerine, bir uzman gürültü giderici grubu sunarak gürültü giderme modelinin kapasitesini artırmayı öneriyoruz; her bir uzman gürültü giderici, belirli bir gürültü [seviyesi] aralığı için uzmanlaşmış bir gürültü giderme modelidir. Bu şekilde, her gürültü seviyesinde [işlenen öğeyi] değerlendirmenin hesaplama karmaşıklığı aynı kaldığından, örneklemeyi yavaşlatmadan model kapasitesini artırabiliriz.'

eDiffi için kavramsal iş akışı.

eDiffi için kavramsal iş akışı.

Var olan CLIP DALL-E 2 ve Stable Diffusion'da bulunan kodlama modülleri, kullanıcı girişiyle ilgili metin için alternatif görüntü yorumları bulma yeteneğine de sahiptir. Ancak orijinal modele benzer bilgiler üzerinde eğitilirler ve eDiffi'de T5'in olduğu şekilde ayrı bir yorumlayıcı katman olarak kullanılmazlar.

Yazarlar, eDiffi'nin hem bir T5 hem de bir CLIP kodlayıcının tek bir boru hattına dahil edildiğini ilk kez belirtiyor:

"Bu iki kodlayıcı farklı hedeflerle eğitildiğinden, yerleştirmeleri aynı giriş metniyle farklı görüntülerin oluşumunu destekliyor. CLIP metin yerleştirmeleri, oluşturulan görüntülerin genel görünümünü belirlemeye yardımcı olurken, çıktılar genellikle metindeki ince taneli ayrıntıları gözden kaçırır.

Buna karşılık, tek başına T5 metin gömmeleriyle oluşturulan görüntüler, metinde açıklanan tek tek nesneleri daha iyi yansıtır, ancak genel görünümleri daha az doğrudur. Bunları birlikte kullanmak, modelimizde en iyi görüntü oluşturma sonuçlarını üretir.'

Difüzyon Sürecini Durdurmak ve Artırmak

Makale, tipik bir gizli yayılma modelinin, yalnızca neslin ilk aşamalarında metne dayanarak saf gürültüden görüntüye giden yolculuğa başlayacağını belirtiyor.

Gürültü, metin istemindeki açıklamayı temsil eden bir tür kaba düzene dönüştüğünde, sürecin metin kılavuzlu yönü esasen düşer ve sürecin geri kalanı görsel özellikleri artırmaya doğru kayar.

Bu, metin kılavuzluğunda gürültü yorumlamanın yeni ortaya çıkan aşamasında çözülmemiş herhangi bir öğenin daha sonra görüntüye enjekte edilmesinin zor olduğu anlamına gelir, çünkü iki işlem (metinden düzene ve düzenden görüntüye) nispeten az örtüşür. ve temel düzen, görüntü büyütme işlemine geldiğinde oldukça karmaşıktır.

Makaleden: gürültü>görüntü süreci olgunlaştıkça boru hattının çeşitli bölümlerinin dikkat haritaları. Alt sıradaki görüntünün CLIP etkisindeki keskin düşüşü görebiliriz, bu arada T5 görüntüyü işleme sürecinde çok daha fazla etkilemeye devam ediyor.

Makaleden: gürültü>görüntü süreci olgunlaştıkça boru hattının çeşitli bölümlerinin dikkat haritaları. Alt sıradaki görüntünün CLIP etkisindeki keskin düşüşü görebiliriz, bu arada T5 görüntüyü işleme sürecinde çok daha fazla etkilemeye devam ediyor.

Profesyonel Potansiyel

Proje sayfasındaki örnekler ve YouTube video merkezi, halkla ilişkiler dostu mem-tastik şirin görüntüler oluşturma üzerine. Her zaman olduğu gibi, NVIDIA araştırması, en son yeniliğinin fotogerçekçi veya VFX iş akışlarını iyileştirme potansiyelinin yanı sıra deepfake görüntü ve videoyu geliştirme potansiyelini hafife alıyor.

Örneklerde, acemi veya amatör bir kullanıcı, belirli bir öğe için yerleşimin kabaca ana hatlarını çizerken, daha sistematik bir VFX iş akışında, bir video öğesinin birden çok karesini metinden görüntüye kullanarak yorumlamak için eDiffi'yi kullanmak mümkün olabilir; burada ana hatlar çok kesindir ve örneğin arka planın yeşil ekran veya algoritmik yöntemlerle çıkarıldığı şekillere dayanır.

Runway ML zaten yapay zeka tabanlı rotoskoplama sağlıyor. Bu örnekte, öznenin etrafındaki 'yeşil ekran' alfa katmanını temsil ederken, çıkarma gerçek dünyadaki yeşil ekran arka planının algoritmik olarak kaldırılması yerine makine öğrenimi yoluyla gerçekleştirilmiştir. Kaynak: https://twitter.com/runwayml/status/1330978385028374529

Runway ML zaten yapay zeka tabanlı rotoskop sağlıyor. Bu örnekte, konunun etrafındaki 'yeşil ekran' alfa katmanını temsil ederken, çıkarma işlemi gerçek dünyadaki yeşil ekran arka planının algoritmik olarak kaldırılması yerine makine öğrenimi yoluyla gerçekleştirilmiştir. Kaynak: https://twitter.com/runwayml/status/1330978385028374529

eğitimli kullanarak rüya kabini karakter ve eDiffi ile görüntüden görüntüye bir boru hattı, potansiyel olarak hata ayıklarından birini çivilemeye başlamak mümkündür. herhangi gizli difüzyon modeli: geçici kararlılık. Böyle bir durumda, empoze edilen görüntünün kenar boşlukları ve görüntünün içeriği, işlenen içeriğin zamansal sürekliliğiyle (yani, gerçek dünyadaki bir Tai Chi uygulayıcısını bir robota dönüştürmek) kullanıcı kanvasında 'önceden kayar' olacaktır. ) eğitim verilerini 'ezberleyen' kilitli bir DreamBooth modeli kullanılarak sağlanır - yorumlanabilirlik açısından kötü, tekrarlanabilirlik, aslına uygunluk ve süreklilik açısından harika.

Yöntem, Veriler ve Testler

Belge, eDiffi modelinin, çıktının genel estetik puanını düşürmesi muhtemel görüntüleri kaldırmak için önceden eğitilmiş bir CLIP modeli tarafından yoğun bir şekilde filtrelenmiş, 'kamuya açık ve özel veri kümelerinin bir koleksiyonu' üzerinde eğitildiğini belirtiyor. Nihai filtrelenmiş görüntü seti, "yaklaşık bir milyar" metin-görüntü çiftinden oluşur. Eğitilmiş görüntülerin boyutu, 'en kısa kenarı 64 pikselden büyük' ​​olarak tanımlanır.

Süreç için bir dizi model eğitildi; hem temel hem de süper çözünürlüklü modeller üzerinde eğitildi. AdamW 0.0001 öğrenme hızında, 0.01 ağırlık azalmasıyla ve 2048'lik müthiş bir toplu iş boyutunda iyileştirici.

Temel model 256 NVIDIA A100 GPU'da ve iki süper çözünürlüklü model 128 NVIDIA'da eğitildi A100 Her model için GPU'lar.

Sistem, NVIDIA'nın kendi Hayali PyTorch kitaplığı. COCO ve Visual Genome veri kümeleri, son modellerde yer almasa da değerlendirme için kullanıldı. MS-COCO test için kullanılan spesifik varyant. Test edilen rakip sistemler SÜRÜŞ, Olay çıkarmak, DALL-E2, Kararlı Difüzyonve Google'ın iki resim sentez sistemi, Görüntü ve Parçalar.

Benzerlerine uygun olarak önceki , sıfır atış FID-30K değerlendirme ölçütü olarak kullanılmıştır. FID-30K kapsamında, COCO doğrulama setinden rastgele 30,000 altyazı çıkarılır (yani eğitimde kullanılan görüntüler veya metinler değil), bunlar daha sonra görüntüleri sentezlemek için metin istemleri olarak kullanılır.

Frechet Başlangıç ​​Mesafesi (FID), oluşturulan görüntüler için CLIP puanının kaydedilmesine ek olarak, oluşturulan ve yer gerçeği görüntüleri arasındaki hesaplanmıştır.

COCO 2014 doğrulama veri setindeki mevcut son teknoloji yaklaşımlara karşı sıfır vuruşlu FID testlerinden elde edilen sonuçlar, daha düşük sonuçlar daha iyidir.

COCO 2014 doğrulama veri setindeki mevcut son teknoloji yaklaşımlara karşı sıfır vuruşlu FID testlerinden elde edilen sonuçlar, daha düşük sonuçlar daha iyidir.

Sonuçlarda, eDiffi, sıfır atışlı FID'de, en yüksek 20 milyar parametreye kıyasla Parti'nin 9.1 milyar parametresi gibi çok daha fazla parametreye sahip sistemlere karşı bile en düşük (en iyi) puanı elde edebildi. testler için eğitilmiş belirtilen eDiffi modeli.

Sonuç

NVIDIA'nın eDiffi'si, gizli difüzyon üretici görüntü sistemlerindeki dolaşıklık ve düzenlenemezlik ile ilgili en çetrefilli engellerden bazılarına daha akıllı ve katmanlı bir yaklaşım kullanmak yerine, mevcut sistemlere giderek daha fazla miktarda veri ve karmaşıklık eklemeye hoş bir alternatif sunuyor.

Stable Diffusion alt dizinlerinde ve Discords'ta ya doğrudan eDiffi için kullanılabilir hale getirilebilecek herhangi bir kodu dahil etme ya da arkasındaki ilkeleri ayrı bir uygulamada yeniden düzenleme tartışması zaten var. Bununla birlikte, yeni boru hattı o kadar radikal bir şekilde farklıdır ki, SD için tam bir sürüm numarası değişikliği oluşturacak ve bazı geriye dönük uyumlulukları ortadan kaldıracak, ancak büyüleyici özelliklerden ödün vermeden nihai sentezlenmiş görüntüler üzerinde büyük ölçüde geliştirilmiş kontrol seviyeleri olasılığı sunacaktır. Gizli yayılmanın yaratıcı güçleri.

 

İlk olarak 3 Kasım 2022'de yayınlandı.