saplama Kararlı Yayılma Ana Akım Tüketici Ürünü Olarak Nasıl Gelişebilir - Unite.AI
Bizimle iletişime geçin

Yapay Zeka

Ana Akım Bir Tüketici Ürünü Olarak Kararlı Yayılma Nasıl Gelişebilir?

mm
Güncellenmiş on

İronik olarak, kararlı difüzyonn, dünyayı kasıp kavuran yeni AI görüntü sentezi çerçevesi ne kararlı ne de gerçekten o kadar "yaygın" - en azından henüz değil.

Sistemin tüm yetenekleri, Discord'daki çeşitli konuşmalarda en son bilgileri ve teorileri ve oluşturdukları paketler için kurulum prosedürlerinin büyük çoğunluğunu çılgınca değiş tokuş eden bir avuç geliştiricinin sürekli değişen tekliflerinden oluşan çeşitli bir smorgasbord'a yayılmıştır. değişiklik yapmak 'tak ve çalıştır'dan çok uzaktır.

Bunun yerine, komut satırı veya BAT güdümlü GIT, Conda, Python, Miniconda ve diğer ileri teknoloji geliştirme çerçeveleri aracılığıyla kurulum - tüketicilerin genel akışı arasında o kadar nadir bulunan yazılım paketleri ki kurulumları sık sık işaretlenir virüsten koruma ve kötü amaçlı yazılımdan koruma satıcıları tarafından güvenliği ihlal edilmiş bir ana bilgisayar sisteminin kanıtı olarak.

Standart Kararlı Difüzyon kurulumunun şu anda gerektirdiği, eldivende yalnızca küçük bir aşama seçimi. Dağıtımların çoğu ayrıca, kullanıcının makinesinde kurulu mevcut sürümlerle çakışabilecek belirli Python sürümleri gerektirir - ancak bu, Docker tabanlı yüklemelerle ve bir dereceye kadar Conda ortamlarının kullanımıyla önlenebilir.

Standart Kararlı Difüzyon kurulumunun şu anda gerektirdiği, eldivende yalnızca küçük bir aşama seçimi. Dağıtımların çoğu ayrıca, kullanıcının makinesinde kurulu mevcut sürümlerle çakışabilecek belirli Python sürümleri gerektirir - ancak bu, Docker tabanlı yüklemelerle ve bir dereceye kadar Conda ortamlarının kullanımıyla önlenebilir.

Hem SFW hem de NSFW Stable Diffusion topluluklarındaki ileti dizileri, iyileştirilmiş işlevsellik sağlamak veya sık görülen bağımlılık hatalarını ve bir dizi başka sorunu çözmek için Python betiklerini ve standart kurulumları hacklemeyle ilgili ipuçları ve püf noktaları ile doludur.

Bu, ilgilenen ortalama tüketiciyi bırakır harika görüntüler yaratmak çoğu, belirteçlerin satın alınmasını gerektirmeden önce minimum sayıda ücretsiz görüntü oluşturma olanağı sunan, artan sayıda para kazandıran API web arayüzlerinin insafına kalmıştır.

Ek olarak, bu web tabanlı tekliflerin neredeyse tamamı, Stable Diffusion'ı OpenAI'nin DALL-E'nin abartılı hizmetlerinden ayıran NSFW içeriğinin (çoğu 'savaş' gibi genel ilgi alanına giren porno olmayan konularla ilgili olabilir) çıktısını vermeyi reddediyor. 2.

"Kararlı Difüzyon için Photoshop"

Twitter'ın #stablediffusion hashtag'ini günlük olarak dolduran muhteşem, müstehcen veya diğer dünyaya ait görüntülerle kışkırtılan, daha geniş dünyanın muhtemelen beklediği şey "Kararlı Difüzyon için Photoshop" – Stability.ai'nin mimarisinin en iyi ve en güçlü işlevselliğini ve gelişmekte olan SD geliştirme topluluğunun çeşitli dahiyane yeniliklerini, kayan CLI pencereleri, anlaşılmaz ve sürekli değişen yükleme ve güncelleme olmaksızın katlayan platformlar arası kurulabilir bir uygulama rutinler veya eksik özellikler.

Şu anda sahip olduğumuz şey, daha yetenekli kurulumların çoğunda, bedensiz bir komut satırı penceresiyle bölünmüş ve URL'si bir yerel ana bilgisayar bağlantı noktası olan, çeşitli şekillerde zarif bir web sayfasıdır:

FaceSwap ve BAT merkezli DeepFaceLab gibi CLI güdümlü sentez uygulamalarına benzer şekilde, Stable Diffusion'ın 'prepack' yüklemesi, iletişim kuran bir yerel ana bilgisayar bağlantı noktası (yukarıdaki görüntünün üst kısmına bakın) aracılığıyla erişilen arabirimle komut satırı köklerini gösterir. CLI tabanlı Kararlı Yayılma işleviyle.

FaceSwap ve BAT merkezli DeepFaceLab gibi CLI güdümlü sentez uygulamalarına benzer şekilde, Stable Diffusion'ın 'prepack' yüklemesi, iletişim kuran bir yerel ana bilgisayar bağlantı noktası (yukarıdaki görüntünün üst kısmına bakın) aracılığıyla erişilen arabirimle komut satırı köklerini gösterir. CLI tabanlı Kararlı Yayılma işleviyle.

Şüphesiz, daha akıcı bir uygulama geliyor. Halihazırda indirilebilecek birkaç Patreon tabanlı entegre uygulama var, örneğin GRisk ve NMKD (aşağıdaki resme bakın) – ancak henüz hiçbiri, Stable Diffusion'ın daha gelişmiş ve daha az erişilebilir uygulamalarından bazılarının sunabileceği tüm özellikleri entegre etmiyor.

Erken, Patreon tabanlı Kararlı Difüzyon paketleri, hafifçe 'uygulamalı'. NMKD'ler, CLI çıktısını doğrudan GUI'ye entegre eden ilk kişidir.

Erken, Patreon tabanlı Kararlı Difüzyon paketleri, hafifçe 'uygulamalı'. NMKD'ler, CLI çıktısını doğrudan GUI'ye entegre eden ilk kişidir.

Bu şaşırtıcı açık kaynak mucizesinin daha gösterişli ve bütünsel bir uygulamasının sonunda nasıl görünebileceğine ve hangi zorluklarla karşılaşabileceğine bir göz atalım.

Tamamen Finanse Edilen Ticari Stabil Difüzyon Uygulaması için Yasal Hususlar

NSFW Faktörü

Kararlı Difüzyon kaynak kodu, bir son derece izin verici lisans bu, ticari yeniden uygulamaları ve kapsamlı bir şekilde kaynak kodundan oluşturulan türetilmiş çalışmaları yasaklamaz.

Bahsedilen ve artan sayıda Patreon tabanlı Stable Diffusion yapılarının yanı sıra, çok sayıda uygulama eklentisi geliştirilmektedir. figma, Krita, Photoshop, GIMP, ve karıştırıcı (diğerleri arasında), yok pratik iyi finanse edilen bir yazılım geliştirme evinin neden çok daha sofistike ve yetenekli bir Kararlı Difüzyon uygulaması geliştirememesinin nedeni. Piyasa perspektifinden bakıldığında, bu tür birkaç girişimin halihazırda iyi bir şekilde devam ettiğine inanmak için her türlü neden var.

Burada, bu tür çabalar, Stable Diffusion için web API'lerinin çoğu gibi, uygulamanın Stable Diffusion'ın yerel NSFW filtresine (bir kod parçası), kapatılacak.

NSFW Anahtarını 'Gömmek'

Stability.ai'nin Stable Diffusion için açık kaynak lisansı, geniş çapta yorumlanabilir bir uygulama listesi içermesine rağmen, değil kullanılacak (muhtemelen dahil pornografik içerik ve deepfakes), bir satıcının bu tür bir kullanımı etkili bir şekilde yasaklayabilmesinin tek yolu, NSFW filtresini bir Python dosyasındaki bir parametre yerine opak bir yürütülebilir dosyada derlemek veya Python dosyasında veya NSFW yönergesini içeren DLL'de bir sağlama toplamı karşılaştırmasını zorunlu kılmaktır. böylece kullanıcılar bu ayarı değiştirirse işlemeler gerçekleşemez.

Bu, farazi uygulamayı tıpkı şu şekilde "kısırlaştırılmış" bırakacaktır: DALL-E 2 şu anda, ticari çekiciliğini azaltıyor. Ayrıca, kaçınılmaz olarak, bu bileşenlerin (ya orijinal Python çalışma zamanı öğeleri ya da artık AI görüntü geliştirme araçlarının Topaz serisinde kullanıldığı gibi derlenmiş DLL dosyaları) kaynak koda dönüştürülmüş 'kurgulanmış' sürümleri, muhtemelen bu tür kısıtlamaların kilidini açmak için torrent/hackleme topluluğunda ortaya çıkacaktır. , sadece engelleyici öğeleri değiştirerek ve herhangi bir sağlama toplamı gereksinimlerini reddederek.

Sonunda, satıcı Stability.ai'nin mevcut birçok Stable Diffusion dağıtımının ilk çalıştırmasını karakterize eden kötüye kullanıma karşı uyarısını tekrarlamayı seçebilir.

Bununla birlikte, şu anda bu şekilde geçici sorumluluk reddi beyanları kullanan küçük açık kaynak geliştiricilerin, Stable Diffusion'ı tam özellikli ve erişilebilir hale getirmek için önemli miktarda zaman ve para yatıran bir yazılım şirketine kıyasla kaybedecek çok az şeyi var - ki bu daha derinlemesine düşünmeye davet ediyor.

Deepfake Sorumluluğu

Biz gibi yakın zamanda belirttiStable Diffusion'ın devam eden modellerinin eğitildiği 4.2 milyar görüntünün bir parçası olan LAION-aesthetics veritabanı, çok sayıda ünlü görseli içeriyor ve kullanıcıların deepfake ünlü pornosu da dahil olmak üzere etkili bir şekilde deepfake'ler oluşturmasına olanak tanıyor.

Son makalemizden, Jennifer Connelly'nin kariyerinin kırk yılı aşkın süredir dört aşaması, Stable Difüzyon'dan çıkarılmıştır.

Son makalemizden, Jennifer Connelly'nin kariyerinin kırk yılı aşkın süredir dört aşaması, Stable Difüzyon'dan çıkarılmıştır.

Bu, 'gerçek' insanları tasvir etmeyen (bu tür görüntüler eğitim materyalindeki birden fazla gerçek fotoğraftan çıkarılsa da) (genellikle) yasal 'soyut' porno üretiminden ayrı ve daha tartışmalı bir konudur.

Giderek artan sayıda ABD eyaleti ve ülkesi derin sahte pornografiye karşı yasalar geliştirdiğinden veya yürürlüğe koyduğundan, Stable Diffusion'ın ünlü pornosu oluşturma yeteneği, tamamen sansürlenmemiş (yani pornografik malzeme oluşturabilen) bir ticari uygulamanın hala bazılarına ihtiyaç duyabileceği anlamına gelebilir. algılanan ünlü yüzlerini filtreleme yeteneği.

Yöntemlerden biri, bir kullanıcı isteminde kabul edilmeyecek olan, ünlü isimleri ve bunların ilişkilendirilebileceği hayali karakterlerle ilgili yerleşik bir 'kara liste' sağlamak olabilir. Kaynak veriler başka dilleri de içerdiğinden, muhtemelen bu tür ayarların sadece İngilizce'den daha fazla dilde kurulması gerekecektir. Başka bir yaklaşım, Clarifai tarafından geliştirilenler gibi ünlüleri tanıma sistemlerini dahil etmek olabilir.

Yazılım üreticilerinin, tam teşekküllü bağımsız bir Stable Diffusion uygulamasının ünlü yüzler oluşturmasını engellemeye yardımcı olabileceğinden, bu tür işlevleri yasa dışı kılabilecek yeni mevzuat bekleyene kadar, belki de başlangıçta kapatılmış olan bu tür yöntemleri dahil etmesi gerekebilir.

Bununla birlikte, bir kez daha, bu tür işlevsellik kaçınılmaz olarak ilgili taraflarca kaynak koda dönüştürülebilir ve tersine çevrilebilir; bununla birlikte, yazılım üreticisi, bu tür bir tersine mühendislik aşırı derecede kolay yapılmadığı sürece, bu durumda, bunun etkin bir şekilde onaylanmamış vandalizm olduğunu iddia edebilir.

Dahil Edilebilecek Özellikler

Stable Diffusion'ın herhangi bir dağıtımındaki temel işlevsellik, iyi finanse edilen herhangi bir ticari uygulamadan beklenebilir. Bunlar, uygun görüntüler oluşturmak için metin istemlerini kullanma becerisini içerir (metinden görüntüye); yeni oluşturulan görüntüler için kılavuz olarak eskizleri veya diğer resimleri kullanma yeteneği (resimden resme); sistemin ne kadar 'yaratıcı' olması talimatını verdiğini ayarlamanın araçları; işleme süresini kaliteye karşı takas etmenin bir yolu; ve isteğe bağlı otomatik görüntü/istem arşivleme ve rutin isteğe bağlı yükseltme gibi diğer "temel bilgiler" gerçekESRGANve en azından temel 'yüz sabitleme' ile GPGAN or KodFormer.

Bu güzel bir 'vanilya kurulumu'. Tam teşekküllü bir 'geleneksel' Kararlı Difüzyon uygulamasına dahil edilebilecek, şu anda geliştirilmekte veya genişletilmekte olan daha gelişmiş özelliklerden bazılarına bir göz atalım.

Stokastik Donma

Sen bile bir tohumu yeniden kullanmak önceki başarılı bir işlemeden, Stable Difusion'ın bir dönüşümü doğru bir şekilde tekrar etmesini sağlamak çok zordur. herhangi bir bölüm bilgi isteminin veya kaynak görüntünün (veya her ikisinin) bir sonraki işleme için değiştirilmesi.

kullanmak istiyorsanız bu bir sorundur. EbSynth Stable Diffusion'ın dönüşümlerini gerçek videoya geçici olarak tutarlı bir şekilde empoze etmek için - teknik basit baş-omuz çekimleri için çok etkili olsa da:

Sınırlı hareket, EbSynth'i Stabil Difüzyon dönüşümlerini gerçekçi videoya dönüştürmek için etkili bir araç haline getirebilir. Kaynak: https://streamable.com/u0pgzd

Sınırlı hareket, EbSynth'i Stabil Difüzyon dönüşümlerini gerçekçi videoya dönüştürmek için etkili bir araç haline getirebilir. Kaynak: https://streamable.com/u0pgzd

EbSynth, küçük bir 'değiştirilmiş' ana kare seçimini, bir dizi görüntü dosyasına dönüştürülen (ve daha sonra tekrar bir video halinde birleştirilebilen) bir videoya tahmin ederek çalışır.

EbSynth sitesinden alınan bu örnekte, bir videodan birkaç kare sanatsal bir şekilde boyanmıştır. EbSynth, benzer şekilde tüm videoyu boyalı stille eşleşecek şekilde değiştirmek için bu çerçeveleri stil kılavuzları olarak kullanır. Kaynak: https://www.youtube.com/embed/eghGQtQhY38

EbSynth sitesinden alınan bu örnekte, bir videodan birkaç kare sanatsal bir şekilde boyanmıştır. EbSynth, benzer şekilde tüm videoyu boyalı stille eşleşecek şekilde değiştirmek için bu çerçeveleri stil kılavuzları olarak kullanır. Kaynak: https://www.youtube.com/embed/eghGQtQhY38

Soldaki (gerçek) sarışın yoga eğitmeninden neredeyse hiç hareketin olmadığı aşağıdaki örnekte, Stable Diffusion, 'anahtar kareler' olarak dönüştürülen üç görüntü tamamen aynı olmadığı için tutarlı bir yüz elde etmekte hâlâ güçlük çekiyor. hepsi aynı sayısal çekirdeği paylaşsalar bile.

Burada, üç dönüşümün hepsinde aynı bilgi istemi ve tohumla ve kaynak kareler arasında çok az değişiklikle bile, vücut kaslarının boyutu ve şekli değişir, ancak daha da önemlisi, yüz tutarsızdır ve potansiyel bir EbSynth işlemesinde zamansal tutarlılığı engeller.

Burada, üç dönüşümün hepsinde aynı bilgi istemi ve tohumla ve kaynak kareler arasında çok az değişiklikle bile, vücut kaslarının boyutu ve şekli değişir, ancak daha da önemlisi, yüz tutarsızdır ve potansiyel bir EbSynth işlemesinde zamansal tutarlılığı engeller.

Aşağıdaki SD/EbSynth videosu, kullanıcının parmaklarının (sırasıyla) yürüyen bir çift pantolonlu bacağa ve bir ördeğe dönüştürüldüğü çok yaratıcı olsa da, pantolonların tutarsızlığı, Stable Diffusion'ın farklı anahtar kareler arasında tutarlılığı sağlama sorununun tipik örneğidir. , kaynak çerçeveler birbirine benzer ve çekirdek tutarlı olsa bile.

Bir adamın parmakları, Stable Diffusion ve EbSynth aracılığıyla yürüyen bir adama ve ördeğe dönüşür. Kaynak: https://old.reddit.com/r/StableDiffusion/comments/x92itm/proof_of_concept_using_img2img_ebsynth_to_animate/

Bir adamın parmakları, Stable Diffusion ve EbSynth aracılığıyla yürüyen bir adama ve ördeğe dönüşür. Kaynak: https://old.reddit.com/r/StableDiffusion/comments/x92itm/proof_of_concept_using_img2img_ebsynth_to_animate/

Bu videoyu oluşturan kullanıcı yorumladı daha az çarpıcı ve orijinal olsa da, ikisi arasında tartışmasız daha etkili olan ördek dönüşümünün yalnızca tek bir dönüştürülmüş ana kare gerektirdiğini, oysa daha zamansal sergileyen yürüyüş pantolonunu yaratmak için 50 Stable Difüzyon görüntüsünün oluşturulması gerektiğini söyledi. tutarsızlık. Kullanıcı ayrıca, 50 ana karenin her biri için tutarlılık elde etmek için beş deneme gerektiğini de not etti.

Bu nedenle, gerçekten kapsamlı bir Kararlı Yayılma uygulamasının, anahtar kareler arasında özellikleri maksimum ölçüde koruyan işlevsellik sağlaması büyük bir avantaj olacaktır.

Bir olasılık, uygulamanın, şu anda yalnızca kaynak kodu manuel olarak değiştirerek elde edilebilen, her çerçevedeki dönüşüm için kullanıcının stokastik kodlamayı 'dondurmasına' izin vermesidir. Aşağıdaki örneğin gösterdiği gibi, bu kesinlikle çözmese de zamansal tutarlılığa yardımcı olur:

Bir Reddit kullanıcısı, yalnızca çekirdeği kalıcı kılmakla kalmayıp (her Stable Diffusion uygulamasının yapabileceği) stokastik_encode() parametresinin her dönüşümde aynı olmasını sağlayarak, kendi web kamerası görüntülerini farklı ünlü kişilere dönüştürdü. Bu, kod değiştirilerek gerçekleştirildi, ancak kolayca kullanıcı tarafından erişilebilir bir anahtar haline gelebilir. Bununla birlikte, açıkça, tüm zamansal sorunları çözmez. Kaynak: https://old.reddit.com/r/StableDiffusion/comments/wyeoqq/turning_img2img_into_vid2vid/

Bir Reddit kullanıcısı, yalnızca çekirdeği kalıcı kılmakla kalmayıp (her Stable Diffusion uygulamasının yapabileceği) stokastik_encode() parametresinin her dönüşümde aynı olmasını sağlayarak, kendi web kamerası görüntülerini farklı ünlü kişilere dönüştürdü. Bu, kod değiştirilerek gerçekleştirildi, ancak kolayca kullanıcı tarafından erişilebilir bir anahtar haline gelebilir. Bununla birlikte, açıkça, tüm zamansal sorunları çözmez. Kaynak: https://old.reddit.com/r/StableDiffusion/comments/wyeoqq/turning_img2img_into_vid2vid/

Bulut Tabanlı Metin Tersine Çevirme

Geçici olarak tutarlı karakterleri ve nesneleri ortaya çıkarmak için daha iyi bir çözüm, onları bir "pişirmek"tir. Metin Tersine Çevirme – sadece beş açıklamalı görüntüye dayalı olarak birkaç saat içinde eğitilebilen ve daha sonra özel bir program tarafından ortaya çıkarılabilen 5 KB'lık bir dosya '*' hızlı, örneğin, bir anlatıya dahil edilmek üzere yeni karakterlerin kalıcı bir şekilde ortaya çıkmasını sağlar.

Uygun etiketlerle ilişkili görüntüler, Metinsel Tersine Çevirme aracılığıyla ayrı varlıklara dönüştürülebilir ve özel belirteç sözcüklerle belirsizlik olmadan ve doğru bağlam ve stilde çağrılabilir. Kaynak: https://huggingface.co/docs/diffusers/training/text_inversion

Uygun etiketlerle ilişkili görüntüler, Metinsel Tersine Çevirme aracılığıyla ayrı varlıklara dönüştürülebilir ve özel belirteç sözcüklerle belirsizlik olmadan ve doğru bağlam ve stilde çağrılabilir. Kaynak: https://huggingface.co/docs/diffusers/training/text_inversion

Metinsel Ters Çevirmeler, Stable Diffusion'ın kullandığı çok büyük ve tam olarak eğitilmiş modele ek dosyalardır ve ortaya çıkarma/sorma işlemine etkili bir şekilde 'slipstream' edilirler, böylece katılmak modelden türetilen sahnelerde ve modelin nesneler, stiller, ortamlar ve etkileşimler hakkındaki muazzam bilgi veritabanından yararlanın.

Bununla birlikte, bir Metni Tersine Çevirmenin eğitilmesi uzun sürmese de, yüksek miktarda VRAM gerektirir; çeşitli güncel izlenecek yollara göre, 12, 20 ve hatta 40 GB arasında bir yerde.

Çoğu sıradan kullanıcının emrinde bu tür bir GPU ağırlığına sahip olma olasılığı düşük olduğundan, Hugging Face sürümü de dahil olmak üzere işlemi gerçekleştirecek bulut hizmetleri şimdiden ortaya çıkıyor. olmasına rağmen Google Colab uygulamaları Stable Diffusion için metinsel ters çevirmeler oluşturabilen, gerekli VRAM ve zaman gereksinimleri, bunları ücretsiz katman Colab kullanıcıları için zorlaştırabilir.

Potansiyel olarak gelişmiş ve iyi yatırım yapılmış bir Stable Diffusion (kurulu) uygulaması için, bu ağır görevi şirketin bulut sunucularına aktarmak bariz bir para kazanma stratejisi gibi görünmektedir (düşük maliyetli veya ücretsiz bir Stable Diffusion uygulamasına bu tür olmayan önümüzdeki 6-9 ay içinde bu teknolojiden çıkacak birçok olası uygulamada muhtemel görünen ücretsiz işlevsellik).

Ek olarak, gönderilen resimlere ve metne açıklama ekleme ve biçimlendirme gibi oldukça karmaşık süreç, entegre bir ortamda otomasyondan yararlanabilir. Stable Diffusion'ın uçsuz bucaksız dünyalarını keşfedebilen ve bunlarla etkileşime girebilen benzersiz öğeler yaratmanın potansiyel 'bağımlılık faktörü', hem genel meraklılar hem de genç kullanıcılar için potansiyel olarak zorlayıcı görünebilir.

Çok Yönlü Hızlı Ağırlıklandırma

Kullanıcının uzun bir metin isteminin bir bölümüne daha fazla vurgu yapmasına izin veren birçok güncel uygulama vardır, ancak araçsallık bunlar arasında oldukça fazla değişiklik gösterir ve sıklıkla hantal veya sezgisel değildir.

Çok popüler Kararlı Difüzyon çatalı AUTOMATIC1111 tarafındanörneğin, bir bilgi istemi sözcüğünü tekli veya çoklu parantez (vurgu kaldırmak için) veya ekstra vurgu için köşeli parantez içine alarak azaltabilir veya yükseltebilir.

Köşeli parantezler ve/veya parantezler, Stable Difusion istem ağırlıklarının bu sürümünde kahvaltınızı dönüştürebilir, ancak bu her iki şekilde de bir kolesterol kabusudur.

Köşeli parantezler ve/veya parantezler, Stable Difusion istem ağırlıklarının bu sürümünde kahvaltınızı dönüştürebilir, ancak bu her iki şekilde de bir kolesterol kabusudur.

Stable Diffusion'ın diğer yinelemeleri, vurgu için ünlem işaretleri kullanırken, en çok yönlü olanı, kullanıcıların GUI aracılığıyla bilgi istemindeki her kelimeye ağırlık atamasına izin verir.

Sistem ayrıca izin vermelidir negatif bilgi istemi ağırlıkları – sadece için değil korku hayranları, ancak Stable Diffusion'ın gizli alanında bizim sınırlı dil kullanımımızın ortaya çıkarabileceğinden daha az endişe verici ve daha eğitici gizemler olabileceği için.

Dış boyama

Stable Diffusion'ın sansasyonel açık kaynak kullanımından kısa bir süre sonra, OpenAI - büyük ölçüde boşuna - DALL-E 2 gök gürültüsünün bir kısmını yeniden ele geçirmeye çalıştı. duyuran Bir kullanıcının anlamsal mantık ve görsel tutarlılık ile bir görüntüyü sınırlarının ötesine genişletmesine izin veren 'dış boyama'.

Doğal olarak, bu o zamandan beri uygulanan Kararlı Difüzyon için çeşitli formlarda ve ayrıca Krita'dave kesinlikle Stable Diffusion'ın kapsamlı, Photoshop tarzı bir sürümüne dahil edilmelidir.

Döşeme tabanlı büyütme, istemler, mevcut görüntü ve anlamsal mantık izin verdiği sürece standart bir 512x512 işlemeyi neredeyse sonsuza kadar genişletebilir. Kaynak: https://github.com/lkwq007/stablediffusion-infinity

Döşeme tabanlı büyütme, istemler, mevcut görüntü ve anlamsal mantık izin verdiği sürece standart bir 512×512 işlemeyi neredeyse sonsuza kadar genişletebilir. Kaynak: https://github.com/lkwq007/stablediffusion-infinity

Kararlı Difüzyon 512x512 piksel görüntülerle eğitildiğinden (ve çeşitli başka nedenlerden dolayı), komut isteminde açıkça 'kafa vurgusu' vb. belirtilmiş olsa bile, sıklıkla insan deneklerin kafalarını (veya diğer önemli vücut kısımlarını) keser.

Kararlı Difüzyon 'baş kesme'nin tipik örnekleri; ama dış boyama, George'u yeniden resme sokabilir.

Kararlı Difüzyon 'baş kesme'nin tipik örnekleri; ama dış boyama, George'u yeniden resme sokabilir.

Yukarıdaki canlandırılmış görüntüde gösterilen türden herhangi bir dışa boyama uygulaması (yalnızca Unix kitaplıklarına dayalıdır, ancak Windows'ta kopyalanabilmelidir), bunun için tek tıklamayla/istemli bir çözüm olarak araçlandırılmalıdır.

Şu anda, bazı kullanıcılar 'başı kesilmiş' tasvirler tuvalini yukarı doğru genişletiyor, kabaca kafa alanını dolduruyor ve img2img'yi kullanarak hatalı işlemeyi tamamlıyor.

Bağlamı Anlayan Etkili Maskeleme

Maskeleme söz konusu çatala veya sürüme bağlı olarak, Kararlı Difüzyonda çok vur-kaç olayı olabilir. Sıklıkla, tutarlı bir maske çizmenin mümkün olduğu durumlarda, belirtilen alan, resmin tüm bağlamını hesaba katmayan içerikle boyanır.

Bir keresinde, bir yüz görüntüsünün kornealarını maskeledim ve istemi sağladım. 'Mavi gözlü' bir maske boyası olarak - sadece iki oyulmuş insan gözüyle, dünyevi olmayan bir kurdun uzak bir resmine bakıyormuş gibi göründüğümü bulmak için. Sanırım Frank Sinatra olmadığı için şanslıyım.

Semantik düzenleme şu şekilde de mümkündür: gürültüyü tanımlama ilk etapta görüntüyü oluşturan, kullanıcının görüntünün geri kalanına müdahale etmeden bir işlemedeki belirli yapısal öğeleri ele almasına izin veren:

Resmin ilk kaynağı olan gürültüyü tanımlayarak ve resmin hedef alana katkıda bulunan kısımlarını ele alarak, geleneksel maskeleme olmadan ve bitişik içeriği değiştirmeden bir görüntüdeki bir öğeyi değiştirme. Kaynak: https://old.reddit.com/r/StableDiffusion/comments/xboy90/a_better_way_of_doing_img2img_by_finding_the/

Resmin ilk kaynağı olan gürültüyü tanımlayarak ve resmin hedef alana katkıda bulunan kısımlarını ele alarak, geleneksel maskeleme olmadan ve bitişik içeriği değiştirmeden bir görüntüdeki bir öğeyi değiştirme. Kaynak: https://old.reddit.com/r/StableDiffusion/comments/xboy90/a_better_way_of_doing_img2img_by_finding_the/

Bu yönteme dayalı K-Difüzyon örnekleyici.

Fizyolojik Goofs için Semantik Filtreler

Daha önce de belirttiğimiz gibi, Stable Difüzyon, büyük ölçüde onu eğiten görüntülere eşlik eden ek açıklamalardaki veri sorunları ve eksiklikler nedeniyle sık sık uzuvlar ekleyebilir veya çıkarabilir.

Tıpkı okulun grup fotoğrafında dilini çıkaran o yaramaz çocuk gibi, Stable Diffusion'ın biyolojik vahşeti her zaman hemen belli olmaz ve fazladan elleri veya erimiş uzuvları fark etmeden en son yapay zeka şaheserinizi Instagram'da paylaşmış olabilirsiniz.

Tıpkı okulun grup fotoğrafında dilini çıkaran o yaramaz çocuk gibi, Stable Diffusion'ın biyolojik vahşeti her zaman hemen belli olmaz ve fazladan elleri veya erimiş uzuvları fark etmeden en son yapay zeka şaheserinizi Instagram'da paylaşmış olabilirsiniz.

Bu tür hataları düzeltmek o kadar zordur ki, tam boyutlu bir Stable Difusion uygulaması, gelen resmin ciddi anatomik eksiklikler içerip içermediğini (yukarıdaki resimde olduğu gibi) semantik segmentasyon kullanan bir tür anatomik tanıma sistemi içeriyorsa faydalı olacaktır. ) ve kullanıcıya sunmadan önce yeni bir oluşturma lehine atar.

Tabii ki, tanrıça Kali'yi veya Doktor Ahtapot'u işlemek, hatta uzuvları olan bir resmin etkilenmemiş bir bölümünü kurtarmak isteyebilirsiniz, bu nedenle bu özellik isteğe bağlı bir geçiş olmalıdır.

Kullanıcılar telemetri yönünü tolere edebilirlerse, bu tür teklemeler, gelecekteki modellerin anatomik mantık anlayışlarını geliştirmelerine yardımcı olabilecek ortak bir federatif öğrenme çabasıyla anonim olarak bile iletilebilir.

LAION Tabanlı Otomatik Yüz İyileştirme

notumda belirttiğim gibi önceki görünüm Stable Diffusion'ın gelecekte ele alabileceği üç şeyde, ilk örnek oluşturmalarda işlenmiş yüzleri 'iyileştirmeye' çalışmak yalnızca herhangi bir GFPGAN sürümüne bırakılmamalıdır.

GFPGAN'ın "iyileştirmeleri" son derece jeneriktir, sık sık tasvir edilen bireyin kimliğini baltalar ve yalnızca, resmin diğer herhangi bir bölümünden daha fazla işlem süresi veya dikkat almadığı için genellikle kötü işlenmiş bir yüz üzerinde çalışır.

Bu nedenle, Stable Diffusion için profesyonel standartta bir program bir yüzü tanıyabilmeli (YOLO gibi standart ve nispeten hafif bir kitaplıkla), onu yeniden işlemek için mevcut GPU gücünün tüm ağırlığını uygulayabilmeli ve ya iyileştirilmiş yüzü karıştırabilmelidir. orijinal tam bağlam oluşturma veya manuel yeniden oluşturma için ayrı olarak kaydetme. Şu anda, bu oldukça 'uygulamalı' bir operasyondur.

Stable Diffusion'ın bir ünlünün yeterli sayıda görüntüsü üzerinde eğitildiği durumlarda, tüm GPU kapasitesini yalnızca işlenmiş görüntünün yüzünün sonraki bir işlemesine odaklamak mümkündür; , yalnızca işlenmiş pikselleri ayarlamak yerine, LAION tarafından eğitilmiş verilerden bilgi alır.

Stable Diffusion'ın bir ünlünün yeterli sayıda görüntüsü üzerinde eğitildiği durumlarda, tüm GPU kapasitesini yalnızca işlenmiş görüntünün yüzünün sonraki bir işlemesine odaklamak mümkündür; , yalnızca işlenmiş pikselleri ayarlamak yerine, LAION tarafından eğitilmiş verilerden bilgi alır.

Uygulama İçi LAION Aramaları

Kullanıcılar LAION veritabanında kavramlar, kişiler ve temalar aramanın Stable Diffusion'ın daha iyi kullanılmasına yardımcı olabileceğini fark etmeye başladığından beri, aralarında haveibeentrained.com'un da bulunduğu birçok çevrimiçi LAION kaşifi oluşturuldu.

haveibeentrained.com'daki arama işlevi, kullanıcıların Stable Diffusion'ı güçlendiren görüntüleri keşfetmelerine ve sistemden ortaya çıkarmak isteyebilecekleri nesnelerin, insanların veya fikirlerin sisteme eğitilmiş olup olmadığını keşfetmelerine olanak tanır. Bu tür sistemler, ünlülerin kümelenme şekli veya mevcut fikirden yola çıkan "sonraki fikir" gibi bitişik varlıkları keşfetmek için de yararlıdır. Kaynak: https://haveibeentrained.com/?search_text=bowl%20of%20fruit

haveibeentrained.com'daki arama işlevi, kullanıcıların Stable Diffusion'ı güçlendiren görüntüleri keşfetmelerine ve sistemden ortaya çıkarmak isteyebilecekleri nesnelerin, insanların veya fikirlerin sistemde eğitilmiş olup olmadığını keşfetmelerine olanak tanır. Bu tür sistemler, ünlülerin kümelenme şekli veya mevcut fikirden yola çıkan "sonraki fikir" gibi bitişik varlıkları keşfetmek için de yararlıdır. Kaynak: https://haveibeentrained.com/?search_text=bowl%20of%20fruit

Bu tür web tabanlı veritabanları genellikle görüntülere eşlik eden bazı etiketleri ortaya çıkarsa da, işlem genelleme model eğitimi sırasında gerçekleşen herhangi bir görüntünün, etiketini bilgi istemi olarak kullanarak çağrılmasının olası olmadığı anlamına gelir.

Ek olarak, kaldırılması 'sözleri durdur' ve Doğal Dil İşleme'deki kök çıkarma ve lemmatizasyon uygulaması, sergilenen ifadelerin çoğunun Kararlı Yayılma konusunda eğitilmeden önce bölündüğü veya çıkarıldığı anlamına gelir.

Bununla birlikte, bu arayüzlerde estetik gruplamaların bir araya gelme şekli, son kullanıcıya Stable Difüzyon'un mantığı (veya muhtemelen 'kişiliği') hakkında çok şey öğretebilir ve daha iyi görüntü üretimine yardımcı olabilir.

Sonuç

Standart Stable Diffusion sürecini tersine çeviren ve kullanıcının sistemin kullandığı tümceleri ve sözcükleri ortaya çıkarmasına izin veren yerel CLIP tabanlı görüntü analizi gibi, Stable Diffusion'ın tam yerel masaüstü uygulamasında görmek istediğim birçok başka özellik var. doğal olarak kaynak görüntü veya işleme ile ilişkilendirilir.

Ek olarak, ESRGAN neredeyse GPGAN kadar kör bir araç olduğundan, gerçek karo tabanlı ölçeklendirme hoş bir katkı olacaktır. Neyse ki, entegre etmeyi planlıyor txt2imghd GOBIG'in uygulanması, bunu dağıtımlar genelinde hızla gerçeğe dönüştürüyor ve bir masaüstü yinelemesi için bariz bir seçim gibi görünüyor.

Discord topluluklarından gelen diğer bazı popüler talepler, örneğin entegre hızlı sözlükler ve uygulanabilir sanatçı ve stil listeleri gibi beni daha az ilgilendiriyor, ancak uygulama içi bir not defteri veya özelleştirilebilir bir kelime öbeği sözlüğü mantıklı bir ekleme gibi görünüyor.

Aynı şekilde, CogVideo ve diğer çeşitli projeler tarafından başlatılmış olmasına rağmen, Stable Diffusion'daki insan merkezli animasyonun mevcut sınırlamaları, inanılmaz derecede gelişmeye devam ediyor ve otantik insan hareketiyle ilgili zamansal önceliklere yönelik yukarı yönlü araştırmaların insafına kalıyor.

Şimdilik, Stabil Difüzyon videosu kesinlikle psychedelic, EbSynth ve diğer görece gelişmekte olan metinden videoya girişimleri aracılığıyla derin sahte kuklacılıkta çok daha parlak bir yakın geleceğe sahip olsa da (ve Runway'in en son tanıtım videosu).

Diğer bir değerli işlevsellik, diğer benzer uygulamaların yanı sıra Cinema4D'nin doku düzenleyicisinde çoktan kurulmuş olan şeffaf Photoshop düz geçişi olacaktır. Bununla, görüntüler uygulamalar arasında kolayca şant edilebilir ve her uygulama, üstün olduğu dönüşümleri gerçekleştirmek için kullanılabilir.

Son olarak ve belki de en önemlisi, tam bir masaüstü Stable Difüzyon programı, yalnızca kontrol noktaları (yani, sisteme güç veren temel modelin sürümleri) arasında kolayca değiş tokuş yapabilmekle kalmamalı, aynı zamanda işe yarayan özel yapım Metinsel Ters Çevirmeleri de güncelleyebilmelidir. ancak modelin sonraki sürümleri tarafından bozulabilir (resmi Discord'daki geliştiricilerin belirttiği gibi, durum böyle olabilir).

İronik bir şekilde, Stable Diffusion için böylesine güçlü ve entegre bir araç matrisi oluşturmak için en iyi konumda olan kuruluş olan Adobe, Adobe ile çok güçlü bir şekilde ittifak kurmuştur. İçerik Özgünlük Girişimi OpenAI'nin DALL-E 2 ile yaptığı gibi Stable Diffusion'ın üretken güçlerini tam anlamıyla engellemediği ve bunun yerine stok fotoğrafçılığındaki önemli varlıklarının doğal bir evrimi olarak konumlandırmadığı sürece, şirket için geriye dönük bir PR yanlış adımı gibi görünebilir.

 

İlk olarak 15 Eylül 2022'de yayınlandı.