Connect with us

Stable Diffusion’un Bir Ana Akım Tüketici Ürünü Olarak Nasıl Gelişebileceği

Yapay Zekâ

Stable Diffusion’un Bir Ana Akım Tüketici Ürünü Olarak Nasıl Gelişebileceği

mm

Ironik olarak, Stable Diffusion, dünyayı kasıp kavuran yeni bir AI görüntü sentez çerçevesi, aslında ne稳il ne de gerçekten “dağılmış” – en azından henüz değil.

Sistemin tüm khảnciası, bir avuç geliştiricinin Discord’daki çeşitli sohbetlerde en son bilgileri ve teorileri aceleyle paylaşmasıyla oluşan değişken bir smörgåsbord’da dağılmış durumda ve bu paketlerin çoğunun kurulum prosedürleri çok uzakta değil. “plug and play” değil.

Bunun yerine, genellikle komut satırı veya BAT ile sürülen kurulumları gerektirir. GIT, Conda, Python, Miniconda ve diğer ileri teknoloji geliştirme çerçeveleri aracılığıyla – tüketici arasında nadir görülen yazılım paketlerinin kurulumu sık sık antivirüs ve antimalware satıcıları tarafından bir sistemdeki tehlikenin kanıtı olarak işaretlenir.

[kapak resimi]
Stable Diffusion kurulumunun şu anda gerektirdiği aşamaların sadece küçük bir seçimi. Dağıtımların çoğu ayrıca, kullanıcı makinesinde zaten yüklenmiş olan sürümlerle çakışabileceği için Python’un belirli sürümlerini gerektirir – ancak bu, Docker tabanlı kurulumlar ve bir dereceye kadar Conda ortamlarının kullanımı ile bertaraf edilebilir.

Hem SFW hem de NSFW Stable Diffusion topluluklarında, gelişmiş işlevselliği etkinleştirmek veya sık görülen bağımlılık hatalarını ve diğer sorunları çözmek için Python betiklerini ve standart kurulumları hacklemeyle ilgili ipuçları ve hilelerle dolu mesajlar var.

Bu, ortalama tüketicinin, metin.prompt’larından harika görüntüler oluşturmaya ilgi duyan, çok sayıda ücretsiz resim oluşturma için para ödenmesi gereken bir dizi API web arayüzünün insafına bırakır.

Ayrıca, bu web tabanlı tekliflerin neredeyse tamamı, Stable Diffusion’u DALL-E 2’nin sansürlü hizmetlerinden ayıran NSFW içeriğini (bunların birçoğu genel ilgi konularıyla ilgili olabilir, örneğin “savaş”) üretmeyi reddeder.

‘Stable Diffusion için Photoshop’

Daha geniş dünya, Twitter’ın #stablediffusion etiketinin günlük olarak süslediği, muhteşem, çılgın veya diğer dünyevi görüntülere bakarak büyülenmiş durumda – ‘Stable Diffusion için Photoshop’ bekliyor – Stability.ai mimarisinin en iyi ve en güçlü işlevselliğini, SD geliştirme topluluğunun çeşitli mucitçe yeniliklerini bir araya getiren, hiçbir yüzen CLI penceresi, belirsiz ve değişen kurulum ve güncelleme rutinleri veya eksik özellikler olmadan, platformlar arası kurulumlu bir uygulama.

Şu anda, daha yetenekli kurulumların çoğunda, bir web sayfası, bir localhost bağlantı noktası aracılığıyla erişilen ve bir CLI penceresi ile birlikte gelen bir uygulama var:

[kapak resimi]
FaceSwap ve BAT odaklı DeepFaceLab gibi CLI sürümlü sentez uygulamalarına benzer şekilde, Stable Diffusion’un “prepack” kurulumu, komut satırı kökenlerini, bir localhost bağlantı noktası (yukarıdaki resmin üst kısmına bakın) aracılığıyla CLI tabanlı Stable Diffusion işlevselliğiyle iletişim kuran bir arabirim aracılığıyla gösterir.

Kuşkusuz, daha akıcı bir uygulama geliyor. Zaten Patreon tabanlı entegre uygulamalar mevcut, GRisk ve NMKD gibi (aşağıdaki resme bakın) – ancak henüz, bazı gelişmiş ve daha az erişilebilir Stable Diffusion uygulamaları sunabilecek özelliklerin tam aralığını entegre eden yok.

[kapak resimi]
Patreon tabanlı, hafifçe “uygulama haline getirilmiş” Stable Diffusion paketlerinin erken örnekleri. NMKD, CLI çıktısını GUI’ye doğrudan entegre eden ilk pakettir.

Daha çok işlenmiş ve entegre bir Stable Diffusion uygulamasının nasıl görünebileceğini ve hangi zorluklarla karşılaşabileceğini inceleyelim.

Tamamen Finanse Edilmiş Ticari Stable Diffusion Uygulaması için Yasal Considerations

NSFW Faktörü

Stable Diffusion kaynak kodu, ticari yeniden uygulamaları ve türetilmiş çalışmaların prohibition edilmeyen son derece permissive bir lisans altında yayınlandı.

Patreon tabanlı Stable Diffusion derlemelerinin yanı sıra, Figma, Krita, Photoshop, GIMP ve Blender (ve diğerleri) için geliştirilen geniş uygulama eklentileri düşünüldüğünde, bir yazılım geliştirme evinin, çok daha sofistike ve yetenekli bir Stable Diffusion uygulaması geliştirmesi için pratik bir neden yok.

Pazardan bakıldığında, böyle girişimlerin birçoğunun zaten iyi bir şekilde ilerlediğine inanmak için her türlü neden var.

Burada, bu tür çabalar derhal Stable Diffusion’un yerleşik NSFW filtresini (bir kod parçası) açıp kapatma ikilemiyle karşı karşıya kalıyor.

‘NSFW Switch’ini Gömmek

Stability.ai’nin Stable Diffusion için açık kaynak lisansı, değil kullanılabileceği uygulamaların geniş bir listesini içerir (muhtemelen pornografik içerik ve derin sahtecilik dahil) – ancak bir satıcıyı böyle bir kullanımı etkili bir şekilde yasaklayabilmesinin tek yolu, NSFW filtresini, bir Python dosyasındaki bir parametre yerine, şeffaf bir çalıştırılabilir dosya olarak derlemektir veya Python dosyası veya DLL’deki NSFW direktifini içeren bir kontrol toplamını zorla uygulamaktır, böylece değiştirilirse renderings gerçekleşemez.

Bu, uygulamayı, DALL-E 2 şu anda olduğu gibi, önemli ölçüde “hadım” bırakacaktır – ticari çekiciliğini azaltacaktır. Ayrıca, kaçınılmaz olarak, bu kısıtlamaları aşmak için bu bileşenlerin (orijinal Python çalışma zamanı öğeleri veya derlenen DLL dosyaları, şimdi Topaz AI görüntü iyileştirme araçları serisinde kullanılanlar gibi) değiştirilmiş, “değiştirilmiş” sürümleri, checksum gereksinimlerini geçersiz kılmak için simplemente bu engellenen öğeleri değiştirerek, torrent/hacking topluluğunda ortaya çıkacaktır.

Sonuçta, satıcı, Stability.ai’nin birçok güncel Stable Diffusion dağıtımı karakterize eden ilk çalıştırma için uyarıyı tekrarlayabilir.

Ancak, bu tür uyarılara偶 olarak sahip olan küçük açık kaynak geliştiricilerin çok az şey kaybetmesi vardır – önemli miktarda zaman ve para yatırımı olan bir yazılım şirketi için durum böyle değildir – bu, daha derin bir düşünceyi davet eder.

Derin Sahtecilik Sorumluluğu

Son olarak, daha önce de belirttiğimiz gibi, Stable Diffusion’un sürekli modellerinin eğitildiği 4.2 milyar görüntüden oluşan LAION-estetik veritabanı, birçok ünlü görüntüsünü içerir – bu, kullanıcıların etkili bir şekilde derin sahtecilik oluşturmasına, derin sahtecilik ünlüsü pornografisi dahil, olanak tanır.

[kapak resimi]
Son makalemizden, Jennifer Connelly’nin kariyerindeki dört aşama, Stable Diffusion tarafından çıkarıldı.

Bu, genellikle yasal olarak kabul edilen “soyut” pornografinin (gerçek insanları temsil etmeyen, ancak eğitim materyallerindeki birden fazla gerçek fotoğraftan çıkarılan) oluşturulmasından ayrı ve daha tartışmalı bir konudur.

Çünkü birçok ABD eyaleti ve ülke, derin sahtecilik pornosu karşıtı yasalar geliştiriyor veya çıkarmış durumda – Stable Diffusion’un ünlü pornosu oluşturma yeteneği, sansürsüz bir ticari uygulama için bu tür içerikleri oluşturmak zorunda kalabileceği anlamına gelebilir – yani, pornografik materyal üretebilen bir uygulama.

Bunun bir yolu, kullanıcı.prompt’larına kabul edilmeyecek, ünlülerin adlarına ve bunlarla ilişkili kurgusal karakterlere ilişkin bir “kara liste” sağlamak olacaktır. Muhtemelen bu ayarların İngilizce dışında dillerde de kurulması gerekecektir – çünkü orijinal veriler diğer dilleri de içerir. Bir başka yaklaşım, Clarifai tarafından geliştirilen ünlüleri tanıyabilen sistemleri entegre etmek olabilir.

Yazılım üreticilerinin, gelecekte böyle bir işlevselliğin yasadışı olabileceğini öngören yeni yasalar çıkarmadan önce, belki de bu yöntemleri entegre etmesi gerekebilir – ancak bu tür bir işlevsellik her zaman tersine mühendislik yoluyla bertaraf edilebilir – ancak yazılım üreticisi, bu tür tersine mühendisliğin etkili bir şekilde izinsiz vandalizm olduğunu iddia edebilir.

Dahil Edilebilecek Özellikler

Herhangi bir Stable Diffusion dağıtımı için beklenen temel işlevsellik, herhangi bir iyi finanse edilmiş ticari uygulamanın da temelini oluşturacaktır. Bunlar, metin.prompt’larını kullanarak resimler oluşturma yeteneğini ( metin-görüntü ); resimleri veya diğer resimleri yeni oluşturulan resimlere rehber olarak kullanma yeteneğini ( görüntü-görüntü ); sistemin ne kadar “hayalci” olacağını ayarlayabilme; render zamanı ile kalite arasında bir ticaret yapabilme; ve diğer “temel” özellikler, chẳng hạn như isteğe bağlı otomatik görüntü/prompt arşivleme ve rutin isteğe bağlı upscaling via RealESRGAN ve en azından temel “yüz düzeltme” ile GFPGAN veya CodeFormer.

Bu, oldukça “vanilya” bir kurulum. Daha gelişmiş özelliklere ve bir geleneksel Stable Diffusion uygulamasına dahil edilebileceklerine bir göz atalım.

Stokastik Donma

Bir önceki başarılı renderin tohumunu yeniden kullanmış olsanız bile, herhangi bir bölümü değiştirilmişse, Stable Diffusion’un bir dönüşümü doğru bir şekilde tekrarlamasını sağlamak çok zor.

Bu, EbSynth ile gerçek videoya Stable Diffusion’un dönüşümlerini uygulamak istediğinizde zaman içinde tutarlı bir şekilde sorun yaratır – bu teknik, basit baş ve omuz çekimleri için çok etkili olabilir:

[kapak resimi]
EbSynth, bir dizi resim dosyasına dönüştürülmüş bir videoyu, bir dizi “değiştirilmiş” ana kareyi, videoya benzeyen bir video oluşturmak için uzatarak çalışır.

[kapak resimi]
Bu örnekte, EbSynth sitesinden, bir videoya ait birkaç kare, sanatsal bir şekilde boyanmıştır. EbSynth, bu kareleri stil rehberleri olarak kullanır ve tüm videoyu, boyanmış stil ile eşleştirecek şekilde değiştirir.

Aşağıdaki videoda, parmaklar bir yürüyen pantolon ve bir ördek haline gelir, Stable Diffusion ve EbSynth ile:

[kapak resimi]
Bir adamın parmakları, Stable Diffusion ve EbSynth ile, bir yürüyen pantolon ve bir ördek haline gelir. Kaynak: https://old.reddit.com/r/StableDiffusion/comments/x92itm/proof_of_concept_using_img2img_ebsynth_to_animate/

Bu videoyu oluşturan kullanıcı, yorumladı ki, daha etkili ve orijinal olan ördek dönüşümü, yalnızca bir dönüşülmüş ana kare gerektirirken, yürüyen pantolon daha fazla zaman içinde tutarlılık gösterir ve 50 Stable Diffusion görüntüsünü oluşturmak gerektirir.

Kullanıcı, her bir ana kare için tutarlılığı sağlamak için beş deneme gerektiğini de belirtti.

Bu nedenle, gerçekten kapsamlı bir Stable Diffusion uygulamasının, ana kareler boyunca özelliklerin korunmasına izin veren bir işlevsellik sunması büyük bir avantaj olacaktır.

Mümkün bir çözüm, uygulamanın her karedeki dönüşüm için stokastik kodlamayı “dondurmasına” izin vermektir – bu, şu anda yalnızca kaynak kodunu manuel olarak değiştirerek elde edilebilir. Aşağıdaki örnek, bunun zaman içinde tutarlılığa nasıl yardımcı olabileceğini gösterir, ancak kesinlikle bunu çözmez:

[kapak resimi]
Bir Reddit kullanıcısı, kendisini farklı ünlü insanlara dönüştürmek için Stable Diffusion’u kullandı, ancak yalnızca numeric tohumu korurken (herhangi bir Stable Diffusion uygulaması bunu yapabilir), aynı zamanda her dönüşüm için stokastik_encode() parametresini de aynı tuttu. Bu, kodu değiştirerek yapıldı, ancak kullanıcıya erişilebilecek bir anahtara kolayca dönüştürülebilir. Açıkçası, bu, tüm zaman içinde tutarlılık sorunlarını çözmez.

Bulut Tabanlı Metinsel Dönüşüm

Zaman içinde tutarlı karakterleri ve nesneleri elde etmenin daha iyi bir yolu, bunları Metinsel Dönüşüme “hapsedermektir” – bu, birkaç saat içinde beş adet etiketlenmiş görüntüden eğitilebilen 5KB’lik bir dosyadır ve özel bir ‘*’ prompt ile çağrılabilir, böylece yeni karakterlerin bir anlatıya dahil edilmesini sağlar.

[kapak resimi]
Etiketli görüntüler, Metinsel Dönüşüm aracılığıyla, belirsizlik ve bağlam olmadan, özel token kelimelerle çağrılabilen ayrı varlıklara dönüştürülebilir. Kaynak: https://huggingface.co/docs/diffusers/training/text_inversion

Metinsel Dönüşümler, Stable Diffusion’un kullandığı çok büyük ve tam olarak eğitilmiş modelin ek dosyalarıdır ve model türetilen sahnelerde yer alabilmesi için “slipstream” edilebilir, böylece modelin nesneler, stiller, ortamlar ve etkileşimler hakkında bilgi veritabanından yararlanabilirler.

Ancak, bir Metinsel Dönüşüm eğitimi uzun sürmez, ancak önemli miktarda VRAM gerektirir – çeşitli güncel walkthrough’lara göre, 12 ila 20 veya hatta 40 GB arasında değişen bir miktar.

Çoğu casual kullanıcının bu tür bir GPU gücüne sahip olması pek olası değildir, bu nedenle bulut hizmetleri zaten bu işlemi ele almak için ortaya çıkıyor – Hugging Face versiyonu dahil. Stable Diffusion için Metinsel Dönüşümler oluşturmak için Google Colab uygulamaları vardır, ancak gereken VRAM ve zaman gereksinimleri, ücretsiz Colab kullanıcıları için bu işlemi zorlaştırabilir.

Potansiyel olarak tam bir Stable Diffusion uygulaması için, bu ağır işi şirketin bulut sunucularına aktarmak, açık bir para kazanma stratejisi gibi görünüyor (tabii ki, bir Stable Diffusion uygulaması, bu tür ücretsiz olmayan işlevlerle doluysa – bu, ortaya çıkacak birçok uygulamada muhtemeldir).

Ayrıca, gönderilen görüntüleri ve metinleri etiketleme ve biçimlendirme sürecinin, entegre bir ortamda otomatikleştirerek yararlanabileceği çok şey var. Stable Diffusion’un geniş dünyalarında keşfedilebilecek ve etkileşime girebilecek benzersiz öğeler oluşturmanın potansiyel “bağımlılık faktörü”, hem genel meraklılar hem de genç kullanıcılar için potansiyel olarak kompulsif olabilir.

Esnek Prompt Ağırlıkları

Uzun bir metin.prompt’ındaki bir bölümüne daha büyük önem atfetmesine izin veren birçok güncel uygulama vardır, ancak bu, bu uygulamalar arasında oldukça değişkenlik gösterir ve genellikle hantal veya kullanışsızdır.

Örneğin, AUTOMATIC1111 tarafından yapılan çok popüler Stable Diffusion çatalı, bir kelimenin değerini, parantez içinde (azaltma için) veya kare parantez içinde (daha fazla vurgulama için) kapatarak azaltabilir veya artırabilir.

[kapak resimi]
Kare parantez ve/veya parantezler, bu Stable Diffusion prompt ağırlıklarında kahvaltınızı dönüştürebilir, ancak her şekilde bir kolesterol kâbusu.

Diğer Stable Diffusion sürümleri, vurgulama için ünlem işaretleri kullanır, mentre en esnek olanlar, kullanıcıların prompttaki her kelimeye ağırlık atamasına izin verir.

Sistem ayrıca negatif prompt ağırlıklarına de izin vermelidir – sadece korku severler için değil, sondern çünkü Stable Diffusion’un dilimizle çağıramayacağımız daha az alarm verici ve daha eğitici gizemleri olabilir.

Outpainting

Stable Diffusion’un açık kaynaklı sürümünün ortaya çıkmasından kısa bir süre sonra, OpenAI, DALL-E 2’nin bazılarını geri kazanmaya çalıştı – “outpainting”i duyurdu, bu, bir kullanıcıya bir görüntüyü mantıksal ve görsel olarak tutarlı bir şekilde sınırlarının ötesine uzatma olanağı tanır.

Tabii ki, bu, çeşitli formlarda Stable Diffusion için de uygulanmıştır ve Krita için de uygulanmıştır ve kapsamlı bir Stable Diffusion sürümünde kesinlikle dahil edilmelidir.

[kapak resimi]
Tile-based augmentation, bir standard 512×512 render’ı, prompt’lar, mevcut resim ve mantıksal mantık izin verdiği sürece neredeyse sınırsız bir şekilde uzatabilir. Kaynak: https://github.com/lkwq007/stablediffusion-infinity

Stable Diffusion, 512x512px görüntülerde eğitildiğinden (ve diğer birçok nedenlerden dolayı) sık sık insan konularının başlarını veya diğer önemli vücut parçalarını kesebilir – hatta prompt, “baş vurgulama” gibi şeyleri açıkça belirtse bile.

[kapak resimi]
Tipik Stable Diffusion “kesme” örnekleri; ancak outpainting, George’u resme geri getirebilir.

Herhangi bir outpainting uygulaması, yukarıdaki animasyonlu resimde gösterilen türde olmalıdır ve ayrıca, genellikle Stable Diffusion tarafından “kesilen” görüntülerin baş veya diğer önemli vücut parçalarını onarmak için bir çözüm olarak kullanılmalıdır.

Şu anda, birçok kullanıcı, “kesilen” görüntülerin canvas’ini yukarı doğru genişletir, baş alanını yaklaşık olarak doldurur ve img2img kullanarak bozulmuş render’ı tamamlar.

Etkin Maskleme

Maskleme, Stable Diffusion’da, sürüme bağlı olarak, korkunç bir şekilde hit-and-miss olabilir. Sık sık, birleşik bir maske çizebildiğinizde, belirtilen alan, resmin tüm bağlamını dikkate almayan içerikle boyanır.

Bir seferinde, yüz resminin iris’lerini maskeledim ve maskeli boyama için ‘mavi gözler’ prompt’ını verdim – sadece uzakta bir resimde doğaüstü görünen bir kurt aracılığıyla bana baktığım gibi göründüm. Sanırım şanslıyım, bu Frank Sinatra değildi.

Semanik düzenleme, görüntüyü oluşturan gürültüyü tanımlayarak da mümkündür – bu, render’ın geri kalanını bozmadan resmin belirli yapısal öğelerine hitap etmenize olanak tanır:

[kapak resimi]
Geleneksel maskleme ve render’ın geri kalanını değiştirmeden, görüntüdeki bir öğeyi değiştirmeden, görüntüyü oluşturan gürültüyü tanımlayarak ve bu gürültünün hedef alanaya katkıda bulunan kısımlarına hitap ederek bir öğeyi değiştirme. Kaynak: https://old.reddit.com/r/StableDiffusion/comments/xboy90/a_better_way_of_doing_img2img_by_finding_the/

Bu yöntem, K-Diffusion örnekleyicisine dayanır.

Fizyolojik Hatalar için Semantik Filtreler

Stable Diffusion, sık sık, büyük ölçüde eğitim verilerinin eksikliklerine ve bunlarla birlikte gelen açıklamaların yetersizliğine bağlı olarak, eklemeleri veya uzuvları ekleyebilir veya çıkarabilir.

[kapak resimi]
Stable Diffusion’un biyolojik felaketleri; ve bu, genellikle ilk bakışta hemen belli olmaz ve son AI şaheserinizi Instagram’da paylaştığınızda, fazla elleri veya erimiş uzuvları fark edene kadar.

Bu tür hataları düzeltmek o kadar zordur ki, bir Stable Diffusion uygulamasının, gelen resmin ciddi anatomik eksikliklere sahip olup olmadığını hesaplamak için semantik segmentasyonu kullanan bir anatomik tanıma sistemi içerilmesi yararlı olur ve bunu, kullanıcıya sunmadan önce yeni bir render lehine atar.

Tabii ki, Kali tanrıçası, Doctor Octopus veya bir uzvun etkilenmeyen bir bölümünü kurtarmak isteyebilirsiniz, bu nedenle bu özellik isteğe bağlı bir geçiş olmalıdır.

Eğer kullanıcılar telemetri yönünü tolere edebilirse, bu tür hatalar, gelecekteki modellerin anatomik mantığı anlayışını iyileştirmeye yardımcı olabilecek bir federatif öğrenme çabasının bir parçası olarak anonim olarak iletilabilir.

LAION Tabanlı Otomatik Yüz İyileştirme

Önceki makalemde de belirttiğim gibi, Stable Diffusion’un ilk render’lerdeki yüzleri “iyileştirmeye” çalışmak için yalnızca GFPGAN’a bırakılmaması gerekir.

GFPGAN’ın “iyileştirmeleri” son derece geneldir, genellikle resimde yer alan bireyin kimliğini zayıflatır ve genellikle render edilen yüzün aldığından daha fazla işlem görmeyen bir yüzle çalışır.

Bu nedenle, bir profesyonel standardında Stable Diffusion programı, bir yüzü tanıyabilmeli (örneğin, YOLO gibi bir standart ve nispeten hafif bir kütüphane ile), mevcut GPU gücünün tamamını yüzün yeniden render edilmesine uygulamalı ve ardından geliştirilmiş yüzü orijinal render’a entegre etmeli veya manuel yeniden kompozisyon için ayrı olarak kaydetmelidir. Şu anda, bu oldukça elle tutulan bir işlemdir.

[kapak resimi]
Stable Diffusion, yeterli sayıda ünlü görüntüsüne eğitim verilmişse, bir ünlü görüntüsünün yüzünü, yalnızca yüzü render ederek ve LAION eğitimi verilmiş verilerden yararlanarak, genellikle önemli bir şekilde geliştirebilir – bu, GFPGAN’ın yalnızca render edilen pikselleri ayarlayarak yaptığı şeyden farklıdır.

Uygulama İçi LAION Aramaları

Kullanıcılar, Stable Diffusion’u daha iyi kullanmak için LAION veritabanını aramanın faydalı olabileceğini fark etmeye başladıklarından beri, haveibeentrained.com gibi çeşitli çevrimiçi LAION gezginleri oluşturuldu.

[kapak resimi]
haveibeentrained.com’daki arama işlevi, kullanıcıların Stable Diffusion’u güçlendiren görüntüleri keşfetmelerine ve sistemden çıkarmak istedikleri nesneler, insanlar veya fikirlerin muhtemelen eğitildiğini keşfetmelerine olanak tanır. Bu sistemler, ayrıca, ünlülerin nasıl kümelendiğini, bir kavramdan sonraki “sonraki fikri” keşfetmek gibi komşu varlıkları keşfetmek için de yararlıdır. Kaynak: https://haveibeentrained.com/?search_text=bowl%20of%20fruit

Bu tür web tabanlı veritabanlarının çoğu, görüntülerle birlikte gelen etiketlerin bir kısmını ortaya koyar, ancak model eğitimi sırasında meydana gelen genelleme süreci, herhangi bir görüntüyü, etiketini bir prompt olarak kullanarak çağırmak pek olası değildir.

Ayrıca, doğal dil işleminin bir parçası olarak “durur” kelimelerin kaldırılması ve kökteleme, birçok etiketin, eğitim materyallerine dahil edilmeden önce bölünmüş veya省略 edildiği anlamına gelir.

Bununla birlikte, bu arayüzlerdeki estetik gruplamaların bir araya gelmesi, Stable Diffusion’un mantığını (veya argüman olarak, “kişiliğini”) öğretmek için çok şey öğretebilir ve görüntü üretimini iyileştirmeye yardımcı olabilir.

Sonuç

Stable Diffusion için tam bir masaüstü uygulamasında görmek istediğim diğer birçok özellik var – örneğin, yerel CLIP tabanlı görüntü analizi, bu, standardı Stable Diffusion işlemini tersine çevirir ve kullanıcıya, sistemle doğal olarak ilişkilendireceği cümleler ve kelimeler çıkarmasına olanak tanır.

Ayrıca, gerçek tile-based ölçeklendirme hoş olurdu, çünkü ESRGAN, GFPGAN kadar kaba bir araçtır. Şanslıyız ki, txt2imghd implementationının GOBIG entegrasyonu, bu, birçok dağıtımda hızla bir gerçeklik haline geliyor.

Diğer bazı popüler talepler, örneğin, entegre prompt sözlükleri ve uygulanabilir sanatçı ve stiller listeleri, bana göre menos ilginç geliyor, ancak bir uygulamaya özgü not defteri veya özelleştirilebilir bir cümle koleksiyonu, mantıklı bir ek gibi görünüyor.

Ayrıca, Stable Diffusion’daki insan merkezli animasyonun当前 sınırlamaları, CogVideo ve diğer projeler tarafından başlatılmış olsa da, masih çok yeni ve insan hareketinin zaman önceliğine ilişkin yukarı akış araştırmalarına bağlı.

Şimdilik, Stable Diffusion video,严格 olarak psikedelik – ancak derin sahtecilik kukla yoluyla daha parlak bir yakın geleceği olabilir, EbSynth ve diğer tương đối yeni metin-görüntü girişimleri aracılığıyla (ve Runway’in son tanıtımlı videosunda sentezlenen veya “değiştirilen” insanların eksikliğini dikkate alın).

Diğer değerli bir işlev, şeffaf bir Photoshop geçişi olurdu, bu, Cinema4D’nin texture editöründe zaten kurulmuştur – bu, görüntüleri uygulamalar arasında kolayca geçişmenize ve her uygulamanın transformation’larını yapmasını sağlar.

Son olarak, ve belki de en önemlisi, tam bir masaüstü Stable Diffusion programı, yalnızca checkpoints (yani, sistemin gücünü sağlayan temel modelin sürümleri) arasında kolayca geçiş yapabilmeli, aynı zamanda önceki resmi model sürümleriyle çalışmış, ancak daha yeni model sürümleriyle çalışmayabilecek özel Metinsel Dönüşümleri güncelleyebilmelidir (resmi Discord’daki geliştiriciler, bu durumun olabileceğini belirtti).

Ironik olarak, Stable Diffusion için böyle güçlü ve entegre bir araçlar matrisi oluşturmak için en iyi konumda olan kuruluş, Adobe, Content Authenticity Initiative ile öyle güçlü bir şekilde ittifak halinde ki, bu, şirket için geri dönülmez bir PR hatası gibi görünüyor – trừ ki, Stable Diffusion’un üretken güçlerini, DALL-E 2 gibi OpenAI tarafından yapıldığı gibi, tamamen engellemiş ve onu stok fotoğrafçılıktaki önemli varlıklarının doğal bir evrimi olarak konumlandırmış olsun.

 

İlk olarak 15 Eylül 2022’de yayınlandı.

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]