Yapay Zekâ
Stability AI, DeepFloyd IF Metin-Resim Modelini Yayınlar

Stability AI ve çok modlu AI araştırma laboratuvarı DeepFloyd, DeepFloyd IF adlı bir metin-resim kasкad pixel difüzyon modelinin araştırma yayınını duyurdu. Model başlangıçta ticari olmayan, araştırma izni veren bir lisans altında yayınlanıyor, ancak gelecekte açık kaynaklı bir yayın planlanıyor.
DeepFloyd IF beberapa dikkat çekici özelliklere sahip:
- Derin metin.prompt anlama: Model, T5-XXL-1.1’i bir metin kodlayıcı olarak kullanıyor ve birçok metin-görüntü çapraz dikkat katmanı ile birlikte çalışıyor, böylece.prompt’lar ve görüntüler arasında daha iyi bir hizalama sağlanıyor.
- Ürettiği görüntülerdeki tutarlı ve net metin: DeepFloyd IF, çeşitli özelliklere ve uzaysal ilişkilere sahip nesneleri içeren görüntüler üretebiliyor.
- Yüksek derecede gerçekçilik: Model, COCO veri kümesinde etkileyici bir sıfır-atış FID puanı olan 6.66’ya ulaştı.
- En boy oranı değişimi: Model, dikey, yatay ve standart kare en boy oranlarına sahip görüntüler üretebiliyor.
- Sıfır-atış görüntü-görüntü çevirileri: Model, bir görüntünün stilini, desenlerini ve ayrıntılarını değiştirebilirken temel formunu koruyor.
Aşağıda DeepFloyd IF tarafından oluşturulan bazı örnek kavramlar yer alıyor:




DeepFloyd IF’nin modüler, kasкad, pixel difüzyon tasarımı, birbirleriyle sinerjik olarak çalışan birkaç nöral modülden oluşuyor. Model, piksel alanında çalışıyor ve yüksek çözünürlüklü verileri, farklı çözünürlüklerde ayrı ayrı eğitilen modeller kullanarak kaskad bir şekilde işliyor. Bu, düşük çözünürlüklü örnekler üreten bir temel model ve yüksek çözünürlüklü görüntüler üreten ardışık süper çözünürlük modellerini içerir.
Model, 1 milyar (görüntü, metin) çifti içeren özel yüksek kaliteli LAION-A veri kümesinde eğitildi. Bu veri kümesi, LAION-5B veri kümesinin İngilizce bölümünün bir alt kümesidir. DeepFloyd’un özel filtreleri, su işareti içeren, NSFW ve diğer uygun olmayan içerikleri entfermek için kullanıldı.

DeepFloyd IF’nin süreci
DeepFloyd IF başlangıçta araştırma lisansı altında yayınlanıyor. Araştırmacılar, sanat, tasarım, hikaye anlatımı, sanal gerçeklik ve erişilebilirlik gibi alanlarda yeni uygulamaların geliştirilmesini teşvik etmeyi amaçlıyorlar. Potansiyel araştırmaları teşvik etmek için several teknik, akademik ve etik araştırma soruları önerdiler.
Teknik araştırma soruları şunları içerir:
- IF modelinin performansını, ölçeklenebilirliğini ve verimliliğini artırmak için optimizasyonu.
- Örnekleme, yönlendirme veya modelin fine-tuning yoluyla çıktı kalitesini iyileştirmek.
- Stable Diffusion çıkışını değiştirmek için kullanılan teknikleri DeepFloyd IF’ye uygulamak.
Akademik araştırma soruları şunları içerir:
- Ön eğitim için aktarım öğreniminin rolünü keşfetmek.
- Modelin görüntü oluşturma üzerindeki kontrolünü artırmak.
- Çoklu modaliteyi entegre ederek modelin yeteneklerini metin-resim sentezinin ötesine taşımak.
- Üretilen görüntülerin görsel özelliklerinin anlaşılmasını iyileştirmek için modelin yorumlanabilirliğini değerlendirmek.
Etik araştırma soruları şunları içerir:
- DeepFloyd IF’deki önyargıları tanımlamak ve azaltmak.
- Modelin sosyal medya ve içerik oluşturma üzerindeki etkisini değerlendirmek.
- Modeli kullanarak etkili bir sahte görüntü dedektörü geliştirmek.
Modelin ağırlıklarına erişmek için kullanıcıların DeepFloyd’un Hugging Face alanına giderek lisansı kabul etmesi gerekiyor. Daha fazla bilgi için modelin web sitesini, GitHub deposunu, Gradio demo veya DeepFloyd’un Linktree aracılığıyla kamu tartışmalarına katılabilirsiniz.












