Connect with us

Yapay Zekâ

NVIDIA’nin eDiffi Diffüzyon Modeli ‘Sözcüklerle Boyama’ ve Daha Fazlasını Sağlar

mm

Stable Diffusion gibi latent diffüzyon generatif görüntü modelleriyle precisa kompozisyonlar oluşturmayı denemek, kedi gibi davranan bir sistemi kontrol etmeye çalışmak gibi olabilir; sistemin, olağanüstü detaylar oluşturmak ve basit metin-prompt’lardan olağanüstü görüntüler çağırmak için kullandığı aynı hayal gücü ve yorumlama güçleri, aynı zamanda Photoshop düzeyinde bir görüntüye kontrol sağlamak istediğinizde bunları kapatmak da zor olabilir.

Şimdi, NVIDIA araştırma ekibinin yeni bir yaklaşımı, ensemble diffüzyon için görüntüler (eDiffi) olarak adlandırılan bir yöntem, pipeline boyunca aynı yöntem yerine birden fazla gömme ve yorumlama yönteminin karışımını kullanarak, oluşturulan içeriğe çok daha büyük bir kontrol düzeyi sağlar. Aşağıdaki örnekte, her rengin bir metin-prompt’tan tek bir kelimeyi temsil ettiği bir kullanıcıyı görüyoruz:

'Sözcüklerle boyama' NVIDIA'nin eDiffi diffüzyon modelinin iki yeni yeteneğinden biridir. Her bir sürülen renk, bir metin-prompt'tan bir kelimeyi temsil eder (sol tarafında oluşturulurken görün) ve uygulanan alan rengi yalnızca o öğeden oluşur. Makalenin sonunda, daha fazla örnek ve daha iyi çözünürlük için resmi videoyu içeren bağlantıyı bulun. Kaynak: https://www.youtube.com/watch?v=k6cOx9YjHJc

‘Sözcüklerle boyama’ NVIDIA’nin eDiffi diffüzyon modelinin iki yeni yeteneğinden biridir. Her bir sürülen renk, bir metin-prompt’tan bir kelimeyi temsil eder (sol tarafında oluşturulurken görün) ve uygulanan alan rengi yalnızca o öğeden oluşur. Kaynak (resmi) video için daha fazla örnek ve daha iyi çözünürlük bulun: https://www.youtube.com/watch?v=k6cOx9YjHJc

Bu, esasen ‘maskelerle boyama’ ve Stable Diffusion’daki npainting paradigm‘ini tersine çevirir, ki bu, Stable Diffusion’da kırık veya tatmin edici olmayan görüntüleri onarmaya veya uzatmaya dayalıdır.

Burada, bunun yerine, boyanmış daub’un kenarları, tek bir kavramdan tek bir öğenin izin verilen yaklaşık sınırlarını temsil eder, bu da kullanıcıya, son canvas boyutunu baştan belirleme ve sonra da ayrı ayrı öğeler ekleme izni verir.

Yeni makaleden örnekler. Kaynak: https://arxiv.org/pdf/2211.01324.pdf

Yeni makaleden örnekler. Kaynak: https://arxiv.org/pdf/2211.01324.pdf

eDiffi’de kullanılan çeşitli yöntemler, sistemin ayrıca uzun ve ayrıntılı metin-prompt’lerdeki her öğeyi dahil etme konusunda çok daha iyi bir iş çıkarması anlamına gelir, oysa Stable Diffusion ve OpenAI’nin DALL-E 2’si, metin-prompt’taki belirli kısımlarını, bunların metin-prompt’ta ne kadar erken göründüğüne veya çeşitli öğelerin birleşik bir kompozisyon (metin-prompt’a saygı duyarak) için gerekli olan diğer faktörlere bağlı olarak önceliklendirmeye eğilimlidir:

Makaledeki gibi: eDiffi, mümkün olan maksimum sayıda öğenin oluşturulmasına kadar metin-prompt'ta daha kapsamlı bir şekilde ilerleyebilir. eDiffi için geliştirilmiş sonuçlar (en sağdaki sütun) seçilmiş olsa da, Stable Diffusion ve DALL-E 2'den karşılaştırmalı görüntüler de seçilmiştir.

Makaledeki gibi: eDiffi, mümkün olan maksimum sayıda öğenin oluşturulmasına kadar metin-prompt’ta daha kapsamlı bir şekilde ilerleyebilir. eDiffi için geliştirilmiş sonuçlar (en sağdaki sütun) seçilmiş olsa da, Stable Diffusion ve DALL-E 2’den karşılaştırmalı görüntüler de seçilmiştir.

Ayrıca, özel bir T5 metin-metin kodlayıcının kullanılması, eDiffi’nin, ya soyut olarak bir metin-prompt’tan istenilen (yani görüntüde [x] metni içerir) ya da açıkça istenilen (yani t-shirt ‘Nvidia Rocks’ der) şekilde anlaşılabilecek İngilizce metinleri oluşturabilmesi anlamına gelir:

eDiffi'deki özel metin-metin işleme, metinlerin görüntülerde kelimesi kelimesine oluşturulabileceği anlamına gelir, bu da metinlerin yalnızca bir metin-görüntü yorumlama katmanından geçirilmesinden ziyade çıktı bozulmasını önler.

eDiffi’deki özel metin-metin işleme, metinlerin görüntülerde kelimesi kelimesine oluşturulabileceği anlamına gelir, bu da metinlerin yalnızca bir metin-görüntü yorumlama katmanından geçirilmesinden ziyade çıktı bozulmasını önler.

Yeni çerçeveye bir başka katkı, bir stil prompt’ı olarak tek bir görüntüyü sağlamanın mümkün olmasıdır, bu da bir DreamBooth modelini veya bir metinsel gömme öğesini birden fazla örnekten oluşan bir tür veya stil üzerinde eğitmeye gerek kalmadan:

Stil aktarımı, bir referans görüntüsünden bir metin-görüntü prompt'ına veya hatta bir görüntü-görüntü prompt'ına uygulanabilir.

Stil aktarımı, bir referans görüntüsünden bir metin-görüntü prompt’ına veya hatta bir görüntü-görüntü prompt’ına uygulanabilir.

Yeni makale eDiffi: Metin-Görüntü Diffüzyon Modelleri ile Uzman Gürültü Azaltıcıların Birbirine Bağlanması olarak adlandırılmıştır,

T5 Metin Kodlayıcısı

T5 Metin-Metin Transfer Transformer’ın (T5) kullanılması, eDiffi’deki geliştirilmiş sonuçların elde edilmesindeki kilit unsurudur. Ortalama latent diffüzyon pipeline, eğitim sırasında internetten alınan veya daha sonra manuel olarak ayarlanan görüntülerle eşlik eden açıklamalar arasındaki ilişkiye dayanır.

Temmuz 2020'de T5 için yapılan makale - metin tabanlı dönüşümler, eDiffi'deki (ve potansiyel olarak diğer latent diffüzyon modellerindeki) generatif görüntü iş akışını destekleyebilir. Kaynak: https://arxiv.org/pdf/1910.10683.pdf

Temmuz 2020’de T5 için yapılan makale – metin tabanlı dönüşümler, eDiffi’deki (ve potansiyel olarak diğer latent diffüzyon modellerindeki) generatif görüntü iş akışını destekleyebilir. Kaynak: https://arxiv.org/pdf/1910.10683.pdf

Kaynak metni yeniden ifade ederek ve T5 modülünü çalıştırarak, orijinal olarak modele eğitilenlerden daha kesin ilişkiler ve temsil edilebilenler elde edilebilir, neredeyse sonradan manuel etiketleme gibi, daha büyük özgüllük ve metin-prompt’taki şartlara uygulanabilirlik ile.

Yazarlar açıklar:

‘Mevcut çalışmalarda diffüzyon modellerinin çoğunda, gürültü azaltma modeli tüm gürültü seviyeleri boyunca paylaşılmaktadır ve zamanın dinamiği basit bir zaman gömme yoluyla gürültü azaltma modeline beslenen bir MLP ağı aracılığıyla temsil edilir. Biz, gürültü azaltma diffüzyonunun karmaşık zaman dinamiğinin sınırlı kapasiteye sahip paylaşılan bir model kullanılarak veriden etkili bir şekilde öğrenilemeyeceğini savunuyoruz.

‘Bunun yerine, gürültü azaltma modelinin kapasitesini, uzman gürültü azaltıcıların bir birleşimi sunarak ölçeklemeyi öneriyoruz; her uzman gürültü azaltıcı, belirli bir gürültü seviyesi aralığına özgü bir gürültü azaltma modelidir. Bu şekilde, model kapasitesini artırmadan, her bir gürültü seviyesinde işlenen öğenin hesaplanma karmaşıklığının aynı kalması nedeniyle örneklemeyi yavaşlatmadan artırabiliriz.’

eDiffi için kavramsal iş akışı.

eDiffi için kavramsal iş akışı.

DALL-E 2 ve Stable Diffusion’da bulunan mevcut CLIP kodlama modülleri de, kullanıcı girişine ilgili metin için alternatif görüntü yorumlamalarını bulabilme yeteneğine sahiptir. Ancak bunlar, orijinal modele benzer bilgilerle eğitilir ve eDiffi’de T5 gibi ayrı bir yorumlama katmanı olarak kullanılmaz.

Yazarlar, eDiffi’nin hem T5 hem de CLIP kodlayıcısının tek bir pipeline’a entegre edildiği ilk örnek olduğunu belirtir:

‘Bu iki kodlayıcı farklı hedeflerle eğitildiğinden, aynı girdi metniyle farklı görüntülerin oluşumunu destekler. CLIP metin gömme, oluşturulan görüntülerin genel görünümünü belirlemede yardımcı olur, ancak sonuçlar metinde belirtilen ince detayları kaçırma eğilimindedir.

‘Öte yandan, yalnızca T5 metin gömme kullanılan görüntüler, metinde belirtilen bireysel nesneleri daha iyi yansıtsa da, genel görünüm weniger doğrudur. İkisini birlikte kullanmak, bizim modelimizde en iyi görüntü oluşturma sonuçlarını verir.’

Diffüzyon Sürecini Kesintiye Uğratma ve Geliştirme

Makale, tipik bir latent diffüzyon modelinin, görüntüyü oluşturma sürecinin erken aşamalarında, yalnızca metne dayanarak saf gürültüden bir görüntüye geçişini gerçekleştirdiğini belirtir.

Gürültü, metin-prompt’taki açıklamayı temsil eden bir tür kaba düzenleme haline geldiğinde, metin yönlendirmeli sürecin esasen sona erdiği ve sürecin geri kalanının, görsel özelliklerin geliştirilmesine doğru kaydığı anlamına gelir.

Bu, metin-prompt’ta çözülmemiş herhangi bir öğeyi daha sonra görüntüye enjekte etmenin zor olduğu anlamına gelir, çünkü metin-görüntü ve düzen-görüntü arasındaki iki süreç birbirleriyle oldukça az örtüşür ve temel düzen, görüntüleme işleminin başlangıcına ulaştığında oldukça karmaşıktır.

Makaledeki gibi: pipeline'ın çeşitli kısımlarının dikkat haritaları, gürültü-görüntü süreci olgunlaştıkça. CLIP'in görüntüdeki etkisinin alt satırda keskin bir şekilde düşüşünü, T5'in ise görüntüleme işleminin daha ilerisine kadar etkisini görebiliriz.

Makaledeki gibi: pipeline’ın çeşitli kısımlarının dikkat haritaları, gürültü-görüntü süreci olgunlaştıkça. CLIP’in görüntüdeki etkisinin alt satırda keskin bir şekilde düşüşünü, T5’in ise görüntüleme işleminin daha ilerisine kadar etkisini görebiliriz.

Profesyonel Potansiyel

Örnekler ve YouTube videosu, PR dostu, sevimli görüntü oluşturma üzerine odaklansa da, NVIDIA araştırması, VFX iş akışlarını veya derin sahte görüntü ve video geliştirmelerini iyileştirme potansiyelini düşük tutmaya devam etmektedir.

Örneklerde, bir acemi veya amatör kullanıcı, belirli bir öğenin yerleştirilmesi için kaba konturlar çizerken, daha sistematik bir VFX iş akışında, eDiffi’nin, metin-görüntü veya görüntü-görüntü kullanarak video öğelerinin birden fazla karesini yorumlamayı mümkün kılabilmesi mümkündür, burada konturlar çok kesin olup, örneğin yeşil ekran veya algoritmik yöntemlerle arka planı kaldırılmış figürler gibi olabilir.

Runway ML zaten AI tabanlı rotoskopi sağlar. Bu örnekte, konunun etrafındaki 'yeşil ekran', alfa katmanını temsil ederken, çıkarılma, gerçek bir yeşil ekran arka planının algoritmik olarak kaldırılmasından ziyade makine öğrenimi yoluyla gerçekleştirilmiştir. Kaynak: https://twitter.com/runwayml/status/1330978385028374529

Runway ML zaten AI tabanlı rotoskopi sağlar. Bu örnekte, konunun etrafındaki ‘yeşil ekran’, alfa katmanını temsil ederken, çıkarılma, gerçek bir yeşil ekran arka planının algoritmik olarak kaldırılmasından ziyade makine öğrenimi yoluyla gerçekleştirilmiştir. Kaynak: https://twitter.com/runwayml/status/1330978385028374529

Eğitimli bir DreamBooth karakteri ve eDiffi ile bir görüntü-görüntü pipeline’u kullanarak, potansiyel olarak, herhangi bir latent diffüzyon modelinin canavarlarından biri olan zamansal stabiliteyi ele almaya başlamak mümkündür. Bu durumda, hem uygulanan görüntünün kenarları hem de içeriği, kullanıcı canvas’ına karşı ‘önceden yüzdürülür’ ve oluşturulan içeriğin zamansal sürekliliği (örneğin, gerçek bir Tai Chi uygulayıcısını bir robota dönüştürme), eğitim verilerini ‘hatırlamış’ ve yorumlanabilirlik için kötü, ancak yeniden üretilebilirlik, sadakat ve süreklilik için harika olan kilitli bir DreamBooth modeli kullanılarak sağlanır.

Yöntem, Veri ve Testler

Makale, eDiffi modelinin ‘kamuya açık ve özel veri setlerinin bir koleksiyonu’ üzerinde eğitildiğini, önceden eğitilmiş bir CLIP modeli tarafından ağır bir şekilde süzüldüğünü ve genel estetik puanını düşürmeye likely olan görüntüleri kaldırdığını belirtir. Son süzülmüş görüntü kümesi ‘yaklaşık bir milyar’ metin-görüntü çiftini içerir. Eğitim görüntülerinin boyutu ‘en kısa kenarının 64 pikselden büyük’ olarak tanımlanır.

Sürecin çeşitli modelleri eğitildi, hem temel hem de süper çözünürlük modelleri AdamW optimizatörü ile 0.0001’lik öğrenme hızında, 0.01’lik ağırlık çürümesiyle ve 2048’lik muazzam bir toplu işlemler boyutunda eğitildi.

Temel model, 256 NVIDIA A100 GPU’su üzerinde ve iki süper çözünürlük modeli her biri için 128 NVIDIA A100 GPU’su üzerinde eğitildi.

Sistem, NVIDIA’nın kendi Imaginaire PyTorch kütüphanesine dayanıyordu. COCO ve Visual Genome veri setleri değerlendirme için kullanıldı, ancak nihai modellere dahil edilmedi, MS-COCO ise test için kullanılan spesifik varyanttı. Karşılaştırılmış sistemler GLIDE, Make-A-Scene, DALL-E 2, Stable Diffusion ve Google’ın iki görüntü sentez sistemi Imagen ve Parti idi.

Benzer önceki çalışmalara uygun olarak, sıfır atış FID-30K bir değerlendirme metriği olarak kullanıldı. FID-30K’de, 30.000 açıklama COCO doğrulama kümesinden rastgele çıkarılır (yani eğitimde kullanılan görüntüler veya metin değil), bunlar daha sonra görüntü sentezlemek için metin-prompt’lar olarak kullanılır.

Oluşturulan ve gerçek görüntüler arasındaki Frechet Inception Distance (FID) hesaplanır ve ayrıca oluşturulan görüntüler için CLIP puanı kaydedilir.

COCO 2014 doğrulama veri kümesindeki mevcut durumun en iyisi yaklaşımlarına karşı sıfır atış FID testlerinin sonuçları, daha düşük sonuçlar daha iyidir.

COCO 2014 doğrulama veri kümesindeki mevcut durumun en iyisi yaklaşımlarına karşı sıfır atış FID testlerinin sonuçları, daha düşük sonuçlar daha iyidir.

Sonuçlarda, eDiffi, daha yüksek sayıda parametreye sahip sistemlere (örneğin, 20 milyar parametreye sahip Parti) karşı bile sıfır atış FID’de en düşük (en iyi) puanı elde edebildi, bu da 9.1 milyar parametreye sahip en yüksek özellikli eDiffi modeliydi.

Sonuç

NVIDIA’nın eDiffi’si, mevcut sistemlere daha fazla veri ve karmaşıklık eklemekten ziyade, bazı latent diffüzyon generatif görüntü sistemlerindeki en zorlu engellere karşı daha akıllı ve katmanlı bir yaklaşım sunar.

Zaten Stable Diffusion alt Reddit’leri ve Discord’larında, eDiffi için herhangi bir kodun kullanılabilir kılınması durumunda, bu ilkelerin doğrudan entegre edilmesi veya ayrı bir uygulamada yeniden sahnelenmesi hakkında tartışmalar vardır. Yeni pipeline, jedoch, o kadar radikal olarak farklıdır ki, bu, SD için tüm bir sürüm numarasındaki değişimi teşkil edecektir, bazı geri dönüştürme uyumluluğunu feda ederek, ancak oluşturulan görüntülerin kontrol düzeyini önemli ölçüde iyileştirme olanağı sunar, bu sırada latent diffüzyonun büyüleyici hayal gücü yeteneklerini feda etmeden.

İlk olarak 3 Kasım 2022’de yayımlandı.

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]