Bizimle iletişime geçin

Yapay Zeka

Ana Akım Bir Tüketici Ürünü Olarak Kararlı Yayılma Nasıl Gelişebilir?

mm

İronik olarak, kararlı difüzyonDünyayı kasıp kavuran yeni yapay zeka görüntü sentezleme çerçevesi n, ne istikrarlı ne de gerçekten 'yaygın' - en azından henüz değil.

Sistemin yeteneklerinin tamamı, Discord'daki çeşitli konuşmalarda en son bilgileri ve teorileri çılgınca paylaşan bir avuç geliştiricinin sürekli değişen tekliflerinden oluşan çeşitli bir açık büfeye yayılmıştır ve oluşturdukları veya değiştirdikleri paketlerin kurulum prosedürlerinin büyük çoğunluğu 'tak ve çalıştır'dan çok uzaktır.

Bunun yerine, komut satırı veya BAT güdümlü GIT, Conda, Python, Miniconda ve diğer ileri teknoloji geliştirme çerçeveleri aracılığıyla kurulum - tüketicilerin genel akışı arasında o kadar nadir bulunan yazılım paketleri ki kurulumları sık sık işaretlenir virüsten koruma ve kötü amaçlı yazılımdan koruma satıcıları tarafından güvenliği ihlal edilmiş bir ana bilgisayar sisteminin kanıtı olarak.

Standart Kararlı Difüzyon kurulumunun şu anda gerektirdiği, eldivende yalnızca küçük bir aşama seçimi. Dağıtımların çoğu ayrıca, kullanıcının makinesinde kurulu mevcut sürümlerle çakışabilecek belirli Python sürümleri gerektirir - ancak bu, Docker tabanlı yüklemelerle ve bir dereceye kadar Conda ortamlarının kullanımıyla önlenebilir.

Standart Stable Diffusion kurulumunun şu anda gerektirdiği aşamaların yalnızca küçük bir kısmı. Dağıtımların çoğu, kullanıcının makinesine yüklü mevcut sürümlerle çakışabilecek belirli Python sürümleri de gerektiriyor. Ancak bu, Docker tabanlı kurulumlarla ve bir dereceye kadar Conda ortamlarının kullanımıyla önlenebilir.

Hem SFW hem de NSFW Stable Diffusion topluluklarındaki ileti dizileri, iyileştirilmiş işlevsellik sağlamak veya sık görülen bağımlılık hatalarını ve bir dizi başka sorunu çözmek için Python betiklerini ve standart kurulumları hacklemeyle ilgili ipuçları ve püf noktaları ile doludur.

Bu, ilgilenen ortalama tüketiciyi bırakır harika görüntüler yaratmak çoğu, belirteçlerin satın alınmasını gerektirmeden önce minimum sayıda ücretsiz görüntü oluşturma olanağı sunan, artan sayıda para kazandıran API web arayüzlerinin insafına kalmıştır.

Ayrıca, bu web tabanlı tekliflerin neredeyse tamamı NSFW içerikleri yayınlamayı reddediyor (bunların çoğu genel ilgi gören pornografik olmayan konularla, örneğin 'savaş'la ilgili olabilir) ve bu da Stable Diffusion'ı OpenAI'nin DALL-E 2'sinin sansürlenmiş hizmetlerinden ayırıyor.

'Kararlı Yayılım için Photoshop'

Twitter'ın #stablediffusion etiketini her gün dolduran muhteşem, cesur veya dünya dışı görüntülerin cazibesine kapılan daha geniş dünyanın tartışmasız beklediği şey şu: 'Kararlı Yayılım için Photoshop' – Stability.ai mimarisinin en iyi ve en güçlü işlevselliğini ve ortaya çıkan SD geliştirme topluluğunun çeşitli yaratıcı yeniliklerini, yüzen CLI pencereleri, belirsiz ve sürekli değişen kurulum ve güncelleme rutinleri veya eksik özellikler olmadan bir araya getiren, platformlar arası kurulabilir bir uygulama.

Şu anda sahip olduğumuz şey, daha yetenekli kurulumların çoğunda, bedensiz bir komut satırı penceresiyle bölünmüş ve URL'si bir yerel ana bilgisayar bağlantı noktası olan, çeşitli şekillerde zarif bir web sayfasıdır:

FaceSwap ve BAT merkezli DeepFaceLab gibi CLI güdümlü sentez uygulamalarına benzer şekilde, Stable Diffusion'ın 'prepack' yüklemesi, iletişim kuran bir yerel ana bilgisayar bağlantı noktası (yukarıdaki görüntünün üst kısmına bakın) aracılığıyla erişilen arabirimle komut satırı köklerini gösterir. CLI tabanlı Kararlı Yayılma işleviyle.

FaceSwap ve BAT merkezli DeepFaceLab gibi CLI tabanlı sentez uygulamalarına benzer şekilde, Stable Diffusion'ın 'önceden paketlenmiş' kurulumu, komut satırı köklerini gösteriyor ve arayüze, CLI tabanlı Stable Diffusion işlevselliğiyle iletişim kuran bir localhost portu (yukarıdaki resmin üst kısmına bakın) aracılığıyla erişiliyor.

Şüphesiz, daha akıcı bir uygulama geliyor. Halihazırda indirilebilecek birkaç Patreon tabanlı entegre uygulama var, örneğin GRisk ve NMKD (aşağıdaki resme bakın) – ancak henüz hiçbiri, Stable Diffusion'ın daha gelişmiş ve daha az erişilebilir uygulamalarından bazılarının sunabileceği tüm özellikleri entegre etmiyor.

Erken, Patreon tabanlı Kararlı Difüzyon paketleri, hafifçe 'uygulamalı'. NMKD'ler, CLI çıktısını doğrudan GUI'ye entegre eden ilk kişidir.

Stable Diffusion'ın Patreon tabanlı, hafifçe 'uygulamalaştırılmış' erken paketleri. NMKD, CLI çıktısını doğrudan GUI'ye entegre eden ilk pakettir.

Bu şaşırtıcı açık kaynak harikasının daha cilalı ve bütünleşik bir uygulamasının sonunda nasıl görünebileceğine ve hangi zorluklarla karşılaşabileceğine bir bakalım.

Tamamen Finanse Edilen Ticari Stabil Difüzyon Uygulaması için Yasal Hususlar

NSFW Faktörü

Kararlı Difüzyon kaynak kodu, bir son derece izin verici lisans bu, ticari yeniden uygulamaları ve kapsamlı bir şekilde kaynak kodundan oluşturulan türetilmiş çalışmaları yasaklamaz.

Bahsedilen ve artan sayıda Patreon tabanlı Stable Diffusion yapılarının yanı sıra, çok sayıda uygulama eklentisi geliştirilmektedir. figma, Krita, Photoshop, GIMP, ve karıştırıcı (diğerleri arasında), yok pratik iyi finanse edilen bir yazılım geliştirme evinin neden çok daha sofistike ve yetenekli bir Kararlı Difüzyon uygulaması geliştirememesinin nedeni. Piyasa perspektifinden bakıldığında, bu tür birkaç girişimin halihazırda iyi bir şekilde devam ettiğine inanmak için her türlü neden var.

Burada, bu tür çabalar, Stable Diffusion için web API'lerinin çoğunda olduğu gibi, uygulamanın Stable Diffusion'ın yerel NSFW filtresine (bir kod parçası), kapatılacak.

NSFW Anahtarını 'Gömmek'

Stability.ai'nin Stable Diffusion için açık kaynaklı lisansı, kullanılabileceği uygulamaların geniş bir şekilde yorumlanabilen bir listesini içerse de değil kullanılacak (muhtemelen dahil pornografik içerik ve deepfakes), bir satıcının bu tür bir kullanımı etkili bir şekilde yasaklayabilmesinin tek yolu, NSFW filtresini bir Python dosyasındaki bir parametre yerine opak bir yürütülebilir dosyada derlemek veya Python dosyasında veya NSFW yönergesini içeren DLL'de bir sağlama toplamı karşılaştırmasını zorunlu kılmaktır. böylece kullanıcılar bu ayarı değiştirirse işlemeler gerçekleşemez.

Bu, varsayılan uygulamayı, aşağıdaki şekilde 'etkisiz' bırakacaktır: DALL-E 2 şu anda, ticari çekiciliğini azaltıyor. Ayrıca, kaçınılmaz olarak, bu bileşenlerin derlenmiş "düzenlenmiş" sürümleri (Topaz serisi yapay zeka görüntü iyileştirme araçlarında kullanılan orijinal Python çalışma zamanı öğeleri veya derlenmiş DLL dosyaları) torrent/bilgisayar korsanlığı topluluğunda ortaya çıkacak ve bu kısıtlamaları ortadan kaldıracaktır. Bunu, engelleyici öğeleri değiştirerek ve tüm sağlama toplamı gerekliliklerini ortadan kaldırarak yapacaktır.

Sonuç olarak, satıcı, mevcut birçok Kararlı Difüzyon dağıtımının ilk çalışmasını karakterize eden Stability.ai'nin kötüye kullanıma karşı uyarısını tekrarlamayı tercih edebilir.

Bununla birlikte, şu anda bu şekilde geçici sorumluluk reddi beyanları kullanan küçük açık kaynak geliştiricilerin, Stable Diffusion'ı tam özellikli ve erişilebilir hale getirmek için önemli miktarda zaman ve para yatıran bir yazılım şirketine kıyasla kaybedecek çok az şeyi var - ki bu daha derinlemesine düşünmeye davet ediyor.

Deepfake Sorumluluğu

Biz gibi yakın zamanda belirttiStable Diffusion'ın devam eden modellerinin eğitildiği 4.2 milyar görüntünün bir parçası olan LAION-estetik veritabanı, kullanıcıların deepfake ünlü pornosu da dahil olmak üzere deepfake'leri etkili bir şekilde oluşturmasını sağlayan çok sayıda ünlü görüntüsü içeriyor.

Son makalemizden, Jennifer Connelly'nin kariyerinin kırk yılı aşkın süredir dört aşaması, Stable Difüzyon'dan çıkarılmıştır.

Son makalemizden, Jennifer Connelly'nin kariyerinin kırk yılı aşkın süredir dört aşaması, Stable Difüzyon'dan çıkarılmıştır.

Bu, (genellikle) yasal olan ve 'gerçek' insanları tasvir etmeyen 'soyut' pornonun üretilmesinden ayrı ve daha tartışmalı bir konudur (bu tür görüntüler eğitim materyalindeki birden fazla gerçek fotoğraftan çıkarılsa da).

ABD'de giderek artan sayıda eyalet ve ülke deepfake pornografisine karşı yasalar geliştirdiğinden veya çıkardığından, Stable Diffusion'ın ünlü pornosu yaratma yeteneği, tamamen sansürlenmemiş (yani pornografik materyal yaratabilen) ticari bir uygulamanın algılanan ünlü yüzlerini filtreleme yeteneğine ihtiyaç duyması anlamına gelebilir.

Bir yöntem, kullanıcı isteminde kabul edilmeyecek terimlerin, ünlü isimleri ve bunlarla ilişkilendirilebilecek hayali karakterlerle ilgili yerleşik bir "kara liste" oluşturmak olabilir. Kaynak veriler başka dilleri de içerdiğinden, bu tür ayarların yalnızca İngilizce'de değil, daha fazla dilde de uygulanması gerekebilir. Bir diğer yaklaşım ise Clarifai tarafından geliştirilenler gibi ünlü tanıma sistemlerini entegre etmek olabilir.

Yazılım üreticilerinin, tam teşekküllü bağımsız bir Stable Diffusion uygulamasının ünlü yüzler oluşturmasını engellemeye yardımcı olabileceğinden, bu tür işlevleri yasa dışı kılabilecek yeni mevzuat bekleyene kadar, belki de başlangıçta kapatılmış olan bu tür yöntemleri dahil etmesi gerekebilir.

Bununla birlikte, bir kez daha, bu tür işlevsellik kaçınılmaz olarak ilgili taraflarca kaynak koda dönüştürülebilir ve tersine çevrilebilir; bununla birlikte, yazılım üreticisi, bu tür bir tersine mühendislik aşırı derecede kolay yapılmadığı sürece, bu durumda, bunun etkin bir şekilde onaylanmamış vandalizm olduğunu iddia edebilir.

Dahil Edilebilecek Özellikler

Stable Diffusion'ın herhangi bir dağıtımındaki temel işlevsellik, iyi finanse edilen herhangi bir ticari uygulamadan beklenebilir. Bunlar, uygun görüntüler oluşturmak için metin istemlerini kullanma becerisini içerir (metinden görüntüye); yeni oluşturulan görüntüler için kılavuz olarak eskizleri veya diğer resimleri kullanma yeteneği (resimden resme); sistemin ne kadar 'hayal gücü' kullanması gerektiğini ayarlama araçları; kaliteye karşı işleme süresini dengeleme yolu; ve isteğe bağlı otomatik görüntü/istem arşivleme ve rutin isteğe bağlı yükseltme gibi diğer 'temel özellikler' gerçekESRGANve en azından temel 'yüz düzeltme' ile GPGAN or KodFormer.

Bu oldukça basit bir kurulum. Gelin, şu anda geliştirilmekte veya genişletilmekte olan, tam teşekküllü bir "geleneksel" Stable Diffusion uygulamasına dahil edilebilecek daha gelişmiş özelliklerden bazılarını inceleyelim.

Stokastik Donma

Sen bile bir tohumu yeniden kullanmak önceki başarılı bir işlemeden, Stable Difusion'ın bir dönüşümü doğru bir şekilde tekrar etmesini sağlamak çok zordur. herhangi bir bölüm bilgi isteminin veya kaynak görüntünün (veya her ikisinin) bir sonraki işleme için değiştirilmesi.

kullanmak istiyorsanız bu bir sorundur. EbSynth Stable Diffusion'ın dönüşümlerini gerçek videoya zamansal olarak tutarlı bir şekilde uygulamak için - teknik basit baş ve omuz çekimleri için çok etkili olabilir:

Sınırlı hareket, EbSynth'i Stabil Difüzyon dönüşümlerini gerçekçi videoya dönüştürmek için etkili bir araç haline getirebilir. Kaynak: https://streamable.com/u0pgzd

Sınırlı hareket, EbSynth'i Stabil Difüzyon dönüşümlerini gerçekçi videoya dönüştürmek için etkili bir araç haline getirebilir. Kaynak: https://streamable.com/u0pgzd

EbSynth, 'değiştirilmiş' anahtar karelerin küçük bir seçimini, bir dizi görüntü dosyasına dönüştürülmüş (ve daha sonra tekrar bir videoya dönüştürülebilen) bir videoya dönüştürerek çalışır.

EbSynth sitesinden alınan bu örnekte, bir videodan birkaç kare sanatsal bir şekilde boyanmıştır. EbSynth, benzer şekilde tüm videoyu boyalı stille eşleşecek şekilde değiştirmek için bu çerçeveleri stil kılavuzları olarak kullanır. Kaynak: https://www.youtube.com/embed/eghGQtQhY38

EbSynth sitesinden alınan bu örnekte, bir videodan birkaç kare sanatsal bir şekilde boyanmıştır. EbSynth, benzer şekilde tüm videoyu boyalı stille eşleşecek şekilde değiştirmek için bu çerçeveleri stil kılavuzları olarak kullanır. Kaynak: https://www.youtube.com/embed/eghGQtQhY38

Soldaki (gerçek) sarışın yoga eğitmeninin neredeyse hiç hareket etmediği aşağıdaki örnekte, Stable Diffusion'ın tutarlı bir yüz ifadesi sağlamada hala zorluk çektiği görülüyor, çünkü 'anahtar kareler' olarak dönüştürülen üç görüntü, hepsi aynı sayısal kaynağı paylaşmasına rağmen, tamamen aynı değil.

Burada, üç dönüşümün hepsinde aynı bilgi istemi ve tohumla ve kaynak kareler arasında çok az değişiklikle bile, vücut kaslarının boyutu ve şekli değişir, ancak daha da önemlisi, yüz tutarsızdır ve potansiyel bir EbSynth işlemesinde zamansal tutarlılığı engeller.

Burada, üç dönüşümün hepsinde aynı bilgi istemi ve tohumla ve kaynak kareler arasında çok az değişiklikle bile, vücut kaslarının boyutu ve şekli değişir, ancak daha da önemlisi, yüz tutarsızdır ve potansiyel bir EbSynth işlemesinde zamansal tutarlılığı engeller.

Aşağıdaki SD/EbSynth videosu oldukça yaratıcı olmasına rağmen, kullanıcının parmakları sırasıyla yürüyen bir pantolon bacağına ve bir ördeğe dönüştürülmüş. Ancak pantolonun tutarsızlığı, Stable Diffusion'ın farklı anahtar kareler arasında tutarlılığı korumada yaşadığı sorunu, kaynak kareler birbirine benzer ve kaynak kareler tutarlı olsa bile, tipik bir şekilde gösteriyor.

Bir adamın parmakları, Stable Diffusion ve EbSynth aracılığıyla yürüyen bir adama ve ördeğe dönüşür. Kaynak: https://old.reddit.com/r/StableDiffusion/comments/x92itm/proof_of_concept_using_img2img_ebsynth_to_animate/

Bir adamın parmakları, Stable Diffusion ve EbSynth aracılığıyla yürüyen bir adam ve bir ördek haline geliyor. Kaynak: https://old.reddit.com/r/StableDiffusion/comments/x92itm/proof_of_concept_using_img2img_ebsynth_to_animate/

Bu videoyu oluşturan kullanıcı yorumladı daha az çarpıcı ve orijinal olsa da, ikisi arasında tartışmasız daha etkili olan ördek dönüşümünün yalnızca tek bir dönüştürülmüş ana kare gerektirdiğini, oysa daha zamansal sergileyen yürüyüş pantolonunu yaratmak için 50 Stable Difüzyon görüntüsünün oluşturulması gerektiğini söyledi. tutarsızlık. Kullanıcı ayrıca, 50 ana karenin her biri için tutarlılık elde etmek için beş deneme gerektiğini de not etti.

Bu nedenle, gerçekten kapsamlı bir Kararlı Yayılma uygulamasının, anahtar kareler arasında özellikleri maksimum ölçüde koruyan işlevsellik sağlaması büyük bir avantaj olacaktır.

Bir olasılık, uygulamanın kullanıcının her karedeki dönüşüm için stokastik kodlamayı 'dondurmasına' izin vermesidir; bu, şu anda yalnızca kaynak kodunu manuel olarak değiştirerek gerçekleştirilebilir. Aşağıdaki örnekte görüldüğü gibi, bu zamansal tutarlılığa yardımcı olur, ancak sorunu kesinlikle çözmez:

Bir Reddit kullanıcısı, yalnızca çekirdeği kalıcı kılmakla kalmayıp (her Stable Diffusion uygulamasının yapabileceği) stokastik_encode() parametresinin her dönüşümde aynı olmasını sağlayarak, kendi web kamerası görüntülerini farklı ünlü kişilere dönüştürdü. Bu, kod değiştirilerek gerçekleştirildi, ancak kolayca kullanıcı tarafından erişilebilir bir anahtar haline gelebilir. Bununla birlikte, açıkça, tüm zamansal sorunları çözmez. Kaynak: https://old.reddit.com/r/StableDiffusion/comments/wyeoqq/turning_img2img_into_vid2vid/

Bir Reddit kullanıcısı, yalnızca çekirdeği kalıcı kılmakla kalmayıp (her Stable Diffusion uygulamasının yapabileceği) stokastik_encode() parametresinin her dönüşümde aynı olmasını sağlayarak, kendi web kamerası görüntülerini farklı ünlü kişilere dönüştürdü. Bu, kod değiştirilerek gerçekleştirildi, ancak kolayca kullanıcı tarafından erişilebilir bir anahtar haline gelebilir. Bununla birlikte, açıkça, tüm zamansal sorunları çözmez. Kaynak: https://old.reddit.com/r/StableDiffusion/comments/wyeoqq/turning_img2img_into_vid2vid/

Bulut Tabanlı Metin Tersine Çevirme

Zamansal olarak tutarlı karakterleri ve nesneleri ortaya çıkarmak için daha iyi bir çözüm, onları bir şeye 'pişirmektir' Metin Tersine Çevirme – sadece beş açıklamalı görüntüye dayalı olarak birkaç saat içinde eğitilebilen ve daha sonra özel bir program tarafından ortaya çıkarılabilen 5 KB'lık bir dosya '*' hızlı, örneğin, bir anlatıya dahil edilmek üzere yeni karakterlerin kalıcı bir şekilde ortaya çıkmasını sağlar.

Uygun etiketlerle ilişkili görüntüler, Metinsel Tersine Çevirme aracılığıyla ayrı varlıklara dönüştürülebilir ve özel belirteç sözcüklerle belirsizlik olmadan ve doğru bağlam ve stilde çağrılabilir. Kaynak: https://huggingface.co/docs/diffusers/training/text_inversion

Uygun etiketlerle ilişkili görüntüler, Metinsel Tersine Çevirme aracılığıyla ayrı varlıklara dönüştürülebilir ve özel belirteç sözcüklerle belirsizlik olmadan ve doğru bağlam ve stilde çağrılabilir. Kaynak: https://huggingface.co/docs/diffusers/training/text_inversion

Metinsel Ters Çevirmeler, Stable Diffusion'ın kullandığı çok büyük ve tam olarak eğitilmiş modele ek dosyalardır ve etkili bir şekilde ortaya çıkarma/teşvik etme sürecine 'kaydırılırlar', böylece katılmak Modelden türetilen sahnelerde, modelin nesneler, stiller, ortamlar ve etkileşimler hakkındaki muazzam bilgi veri tabanından yararlanın.

Bununla birlikte, bir Metni Tersine Çevirmenin eğitilmesi uzun sürmese de, yüksek miktarda VRAM gerektirir; çeşitli güncel izlenecek yollara göre, 12, 20 ve hatta 40 GB arasında bir yerde.

Çoğu sıradan kullanıcının emrinde bu tür bir GPU ağırlığına sahip olma olasılığı düşük olduğundan, Hugging Face sürümü de dahil olmak üzere işlemi gerçekleştirecek bulut hizmetleri şimdiden ortaya çıkıyor. olmasına rağmen Google Colab uygulamaları Stable Diffusion için metinsel ters çevirmeler oluşturabilen, gerekli VRAM ve zaman gereksinimleri, bunları ücretsiz katman Colab kullanıcıları için zorlaştırabilir.

Potansiyel olarak tam teşekküllü ve iyi yatırım yapılmış bir Stable Diffusion (kurulu) uygulaması için, bu ağır görevi şirketin bulut sunucularına aktarmak bariz bir para kazanma stratejisi gibi görünüyor (düşük veya ücretsiz bir Stable Diffusion uygulamasının bu tür ücretsiz olmayan işlevlerle dolu olduğu varsayıldığında, ki bu, önümüzdeki 6-9 ay içinde bu teknolojiden ortaya çıkacak birçok olası uygulamada olası görünüyor).

Ek olarak, gönderilen görsel ve metinlerin açıklama ve biçimlendirme gibi oldukça karmaşık bir süreç, entegre bir ortamda otomasyondan faydalanabilir. Stable Diffusion'ın uçsuz bucaksız dünyalarını keşfedip onlarla etkileşime girebilen benzersiz öğeler yaratmanın potansiyel "bağımlılık yaratan etkisi", hem genel meraklılar hem de genç kullanıcılar için potansiyel olarak zorlayıcı görünebilir.

Çok Yönlü Hızlı Ağırlıklandırma

Kullanıcının uzun bir metin isteminin bir bölümüne daha fazla vurgu yapmasına izin veren birçok güncel uygulama vardır, ancak araçsallık bunlar arasında oldukça fazla değişiklik gösterir ve sıklıkla hantal veya sezgisel değildir.

Çok popüler Kararlı Difüzyon çatalı AUTOMATIC1111 tarafındanörneğin, bir bilgi istemi sözcüğünü tekli veya çoklu parantez (vurgu kaldırmak için) veya ekstra vurgu için köşeli parantez içine alarak azaltabilir veya yükseltebilir.

Köşeli parantezler ve/veya parantezler, Stable Difusion istem ağırlıklarının bu sürümünde kahvaltınızı dönüştürebilir, ancak bu her iki şekilde de bir kolesterol kabusudur.

Bu Stable Diffusion istemi ağırlıklarında köşeli parantezler ve/veya köşeli parantezler kahvaltınızı dönüştürebilir, ancak her iki durumda da kolesterol için bir kabustur.

Stable Diffusion'ın diğer yinelemeleri, vurgu için ünlem işaretleri kullanırken, en çok yönlü olanı, kullanıcıların GUI aracılığıyla bilgi istemindeki her kelimeye ağırlık atamasına izin verir.

Sistem ayrıca izin vermelidir negatif bilgi istemi ağırlıkları – sadece için değil korku hayranları, ancak Stable Diffusion'ın gizli alanında, sınırlı dil kullanımımızın ortaya çıkarabileceğinden daha az endişe verici ve daha öğretici gizemler olabileceği için.

Dış boyama

Stable Diffusion'ın sansasyonel açık kaynak kullanımından kısa bir süre sonra, OpenAI - büyük ölçüde boşuna - DALL-E 2 gök gürültüsünün bir kısmını yeniden ele geçirmeye çalıştı. duyuran Kullanıcının anlamsal mantık ve görsel tutarlılık ile bir görüntüyü sınırlarının ötesine taşımasına olanak tanıyan 'dış boyama'.

Doğal olarak, bu o zamandan beri uygulanan Kararlı Difüzyon için çeşitli formlarda ve ayrıca Krita'dave kesinlikle Stable Diffusion'ın kapsamlı, Photoshop tarzı bir sürümüne dahil edilmelidir.

Döşeme tabanlı büyütme, istemler, mevcut görüntü ve anlamsal mantık izin verdiği sürece standart bir 512x512 işlemeyi neredeyse sonsuza kadar genişletebilir. Kaynak: https://github.com/lkwq007/stablediffusion-infinity

Döşeme tabanlı büyütme, istemler, mevcut görüntü ve anlamsal mantık izin verdiği sürece standart bir 512×512 işlemeyi neredeyse sonsuza kadar genişletebilir. Kaynak: https://github.com/lkwq007/stablediffusion-infinity

Stable Diffusion 512x512 piksellik görüntülerde eğitildiği için (ve başka çeşitli sebeplerden dolayı), komutta açıkça 'baş vurgusu' vb. belirtilmiş olsa bile, sıklıkla insan deneklerin başlarını (veya vücudun diğer önemli kısımlarını) keser.

Kararlı Difüzyon 'baş kesme'nin tipik örnekleri; ama dış boyama, George'u yeniden resme sokabilir.

Kararlı Difüzyon 'kafa kesme'nin tipik örnekleri; ancak dış boyama George'u tekrar resme sokabilir.

Yukarıdaki canlandırılmış görüntüde gösterilen türden herhangi bir dışa boyama uygulaması (yalnızca Unix kitaplıklarına dayalıdır, ancak Windows'ta kopyalanabilmelidir), bunun için tek tıklamayla/istemli bir çözüm olarak araçlandırılmalıdır.

Şu anda, bir grup kullanıcı 'başsız' tasvirlerin tuvalini yukarı doğru genişletiyor, baş bölgesini kabaca dolduruyor ve hatalı çizimi tamamlamak için img2img'yi kullanıyor.

Bağlamı Anlayan Etkili Maskeleme

Maskeleme Stable Diffusion'da, söz konusu çatala veya sürüme bağlı olarak, son derece isabetli ve isabetsiz bir durum olabilir. Çoğu zaman, tutarlı bir maske çizmenin mümkün olduğu durumlarda, belirtilen alan, resmin tüm bağlamını hesaba katmayan içerikle boyanır.

Bir keresinde, bir yüz görüntüsünün kornealarını maskeledim ve istemi sağladım. 'Mavi gözlü' Boyalı bir maske gibi - ve kendimi, iki kesilmiş insan gözüyle, uzaktaki, dünya dışı görünümlü bir kurdun resmine bakıyormuş gibi buldum. Sanırım Frank Sinatra olmadığı için şanslıyım.

Semantik düzenleme şu şekilde de mümkündür: gürültüyü tanımlama ilk etapta görüntüyü oluşturan, kullanıcının görüntünün geri kalanına müdahale etmeden bir işlemedeki belirli yapısal öğeleri ele almasına izin veren:

Resmin ilk kaynağı olan gürültüyü tanımlayarak ve resmin hedef alana katkıda bulunan kısımlarını ele alarak, geleneksel maskeleme olmadan ve bitişik içeriği değiştirmeden bir görüntüdeki bir öğeyi değiştirme. Kaynak: https://old.reddit.com/r/StableDiffusion/comments/xboy90/a_better_way_of_doing_img2img_by_finding_the/

Resmin ilk kaynağı olan gürültüyü tanımlayarak ve resmin hedef alana katkıda bulunan kısımlarını ele alarak, geleneksel maskeleme olmadan ve bitişik içeriği değiştirmeden bir görüntüdeki bir öğeyi değiştirme. Kaynak: https://old.reddit.com/r/StableDiffusion/comments/xboy90/a_better_way_of_doing_img2img_by_finding_the/

Bu yönteme dayalı K-Difüzyon örnekleyici.

Fizyolojik Goofs için Semantik Filtreler

Daha önce de belirttiğimiz gibi, Stable Diffusion, çoğunlukla veri sorunları ve onu eğiten görüntülere eşlik eden açıklamalardaki eksiklikler nedeniyle sıklıkla uzuv ekleyebilir veya çıkarabilir.

Tıpkı okulun grup fotoğrafında dilini çıkaran o yaramaz çocuk gibi, Stable Diffusion'ın biyolojik vahşeti her zaman hemen belli olmaz ve fazladan elleri veya erimiş uzuvları fark etmeden en son yapay zeka şaheserinizi Instagram'da paylaşmış olabilirsiniz.

Tıpkı okul grup fotoğrafında dilini çıkaran o asi çocuk gibi, Stable Diffusion'ın biyolojik vahşetleri her zaman hemen belli olmuyor ve fazladan elleri veya erimiş uzuvları fark etmeden önce son yapay zeka şaheserinizi Instagram'da paylaşmış olabilirsiniz.

Bu tür hataları düzeltmek o kadar zordur ki, tam boyutlu bir Stable Difusion uygulaması, gelen resmin ciddi anatomik eksiklikler içerip içermediğini (yukarıdaki resimde olduğu gibi) semantik segmentasyon kullanan bir tür anatomik tanıma sistemi içeriyorsa faydalı olacaktır. ) ve kullanıcıya sunmadan önce yeni bir oluşturma lehine atar.

Tabii ki, tanrıça Kali'yi veya Doktor Ahtapot'u işlemek, hatta uzuvları olan bir resmin etkilenmemiş bir bölümünü kurtarmak isteyebilirsiniz, bu nedenle bu özellik isteğe bağlı bir geçiş olmalıdır.

Kullanıcılar telemetri yönünü tolere edebilirlerse, bu tür teklemeler, gelecekteki modellerin anatomik mantık anlayışlarını geliştirmelerine yardımcı olabilecek ortak bir federatif öğrenme çabasıyla anonim olarak bile iletilebilir.

LAION Tabanlı Otomatik Yüz İyileştirme

notumda belirttiğim gibi önceki görünüm Stable Diffusion'ın gelecekte ele alabileceği üç konu var; GFPGAN'ın herhangi bir sürümü, ilk aşamadaki renderlarda render edilmiş yüzleri 'iyileştirmeye' çalışmaktan başka bir şey yapmamalı.

GFPGAN'ın 'geliştirmeleri' son derece genel nitelikte, sıklıkla tasvir edilen bireyin kimliğini baltalıyor ve yalnızca resmin diğer kısımlarından daha fazla işleme süresi veya ilgi görmediği için genellikle kötü bir şekilde işlenmiş bir yüz üzerinde çalışıyor.

Bu nedenle, Kararlı Difüzyon için profesyonel standartlarda bir program, bir yüzü tanıyabilmeli (YOLO gibi standart ve nispeten hafif bir kütüphaneyle), mevcut GPU gücünün tamamını yeniden işlemeye uygulayabilmeli ve iyileştirilmiş yüzü orijinal tam bağlam işlemeyle harmanlayabilmeli veya manuel yeniden birleştirme için ayrı olarak kaydedebilmelidir. Şu anda bu, oldukça "pratik" bir işlemdir.

Stable Diffusion'ın bir ünlünün yeterli sayıda görüntüsü üzerinde eğitildiği durumlarda, tüm GPU kapasitesini yalnızca işlenmiş görüntünün yüzünün sonraki bir işlemesine odaklamak mümkündür; , yalnızca işlenmiş pikselleri ayarlamak yerine, LAION tarafından eğitilmiş verilerden bilgi alır.

Stable Diffusion'ın bir ünlünün yeterli sayıda görüntüsü üzerinde eğitildiği durumlarda, tüm GPU kapasitesini yalnızca işlenmiş görüntünün yüzünün sonraki işlenmesine odaklamak mümkündür; bu genellikle dikkate değer bir gelişmedir ve GFPGAN'ın aksine, işlenmiş pikselleri ayarlamak yerine LAION tarafından eğitilen verilerden bilgi alır.

Uygulama İçi LAION Aramaları

Kullanıcılar LAION'un veri tabanında kavramlar, kişiler ve temalar aramanın Stable Diffusion'ı daha iyi kullanmalarına yardımcı olabileceğini fark etmeye başladığından beri, haveibeentrained.com da dahil olmak üzere çeşitli çevrimiçi LAION tarayıcıları oluşturuldu.

haveibeentrained.com'daki arama işlevi, kullanıcıların Stable Diffusion'ı güçlendiren görüntüleri keşfetmelerine ve sistemden ortaya çıkarmak isteyebilecekleri nesnelerin, insanların veya fikirlerin sisteme eğitilmiş olup olmadığını keşfetmelerine olanak tanır. Bu tür sistemler, ünlülerin kümelenme şekli veya mevcut fikirden yola çıkan "sonraki fikir" gibi bitişik varlıkları keşfetmek için de yararlıdır. Kaynak: https://haveibeentrained.com/?search_text=bowl%20of%20fruit

haveibeentrained.com'daki arama işlevi, kullanıcıların Kararlı Yayılım'ı destekleyen görselleri keşfetmelerine ve sistemden çıkarmak isteyebilecekleri nesnelerin, kişilerin veya fikirlerin sisteme eğitilmiş olma olasılığını keşfetmelerine olanak tanır. Bu tür sistemler, ünlülerin kümelenme biçimi veya mevcut fikirden yola çıkan "bir sonraki fikir" gibi bitişik varlıkları keşfetmek için de faydalıdır. Kaynak: https://haveibeentrained.com/?search_text=bowl%20of%20fruit

Bu tür web tabanlı veritabanları genellikle görüntülere eşlik eden bazı etiketleri ortaya çıkarsa da, işlem genelleme model eğitimi sırasında gerçekleşen herhangi bir görüntünün, etiketini bilgi istemi olarak kullanarak çağrılmasının olası olmadığı anlamına gelir.

Ek olarak, kaldırılması 'durdurma sözcükleri' ve Doğal Dil İşleme'deki kök çıkarma ve lemmatizasyon uygulaması, sergilenen ifadelerin çoğunun Kararlı Yayılma konusunda eğitilmeden önce bölündüğü veya çıkarıldığı anlamına gelir.

Bununla birlikte, estetik grupların bu arayüzlerde bir araya gelme biçimi, son kullanıcıya Kararlı Yayılımın mantığı (veya tartışmasız 'kişiliği') hakkında çok şey öğretebilir ve daha iyi görüntü üretimine yardımcı olabilir.

Sonuç

Stable Diffusion'ın tam yerel masaüstü uygulamasında görmek istediğim birçok başka özellik var. Bunlardan biri de standart Stable Diffusion sürecini tersine çeviren ve kullanıcının sistemin kaynak görüntü veya render ile doğal olarak ilişkilendireceği ifadeleri ve kelimeleri çıkarmasına olanak tanıyan yerel CLIP tabanlı görüntü analizi.

Ek olarak, ESRGAN neredeyse GPGAN kadar kör bir araç olduğundan, gerçek karo tabanlı ölçeklendirme hoş bir katkı olacaktır. Neyse ki, entegre etmeyi planlıyor txt2imghd GOBIG'in uygulanması, bunu dağıtımlar genelinde hızla gerçeğe dönüştürüyor ve bir masaüstü yinelemesi için bariz bir seçim gibi görünüyor.

Discord topluluklarından gelen diğer bazı popüler talepler, örneğin entegre hızlı sözlükler ve uygulanabilir sanatçı ve stil listeleri gibi beni daha az ilgilendiriyor, ancak uygulama içi bir not defteri veya özelleştirilebilir bir kelime öbeği sözlüğü mantıklı bir ekleme gibi görünüyor.

Aynı şekilde, CogVideo ve diğer çeşitli projeler tarafından başlatılmış olmasına rağmen, Stable Diffusion'daki insan merkezli animasyonun mevcut sınırlamaları, inanılmaz derecede gelişmeye devam ediyor ve otantik insan hareketiyle ilgili zamansal önceliklere yönelik yukarı yönlü araştırmaların insafına kalıyor.

Şimdilik, Stabil Difüzyon videosu kesinlikle psychedelic, EbSynth ve diğer nispeten yeni metin-video girişimleri aracılığıyla deepfake kuklacılığında çok daha parlak bir yakın geleceğe sahip olsa da (ve Runway'in sentezlenmiş veya 'değiştirilmiş' insanların eksikliğine dikkat çekmeye değer) en son tanıtım videosu).

Bir diğer değerli özellik ise, Cinema4D'nin doku düzenleyicisinde ve diğer benzer uygulamalarda uzun süredir yer alan şeffaf Photoshop geçiş özelliğidir. Bu sayede, görseller uygulamalar arasında kolayca aktarılabilir ve her uygulama, en iyi olduğu dönüşümleri gerçekleştirmek için kullanılabilir.

Son olarak ve belki de en önemlisi, tam bir masaüstü Stable Difüzyon programı, yalnızca kontrol noktaları (yani, sisteme güç veren temel modelin sürümleri) arasında kolayca değiş tokuş yapabilmekle kalmamalı, aynı zamanda işe yarayan özel yapım Metinsel Ters Çevirmeleri de güncelleyebilmelidir. ancak modelin sonraki sürümleri tarafından bozulabilir (resmi Discord'daki geliştiricilerin belirttiği gibi, durum böyle olabilir).

İronik bir şekilde, Stable Diffusion için böylesine güçlü ve entegre bir araç matrisi oluşturmak için en iyi konumda olan kuruluş olan Adobe, Adobe ile çok güçlü bir şekilde ittifak kurmuştur. İçerik Özgünlük Girişimi Bu durum şirket için geriye dönük bir halkla ilişkiler hatası gibi görünebilir - ancak Stable Diffusion'ın üretken güçlerini OpenAI'nin DALL-E 2'de yaptığı gibi tamamen engellemez ve bunun yerine onu stok fotoğrafçılıktaki önemli varlıklarının doğal bir evrimi olarak konumlandırmazsa.

 

İlk olarak 15 Eylül 2022'de yayınlandı.

Makine öğrenimi yazarı, insan görüntü sentezi alanında uzman. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel sitesi: martinanderson.ai
İletişim [e-posta korumalı]
Twitter: @manders_ai