Bizimle iletişime geçin

Yapay Zeka

İstikrarlı Yayılım İçin Önümüzdeki Üç Zorluk

mm
Güncellenmiş on

The serbest stable.ai'nin Kararlı Difüzyonu gizli difüzyon Birkaç hafta önceki görüntü sentezi modeli, en önemli teknolojik açıklamalardan biri olabilir. 1999'da DeCSS'den beri; 2017'den bu yana yapay zeka tarafından oluşturulan görüntülerde kesinlikle en büyük olay. derin sahte kod GitHub'a kopyalandı ve ne olacağı için çatallandı Derin Yüz Laboratuvarı ve Yüz nakli, gerçek zamanlı akışlı deepfake yazılımının yanı sıra DerinYüzCanlı.

Bir vuruşta, kullanıcı hayal kırıklığı üzerinde içerik kısıtlamaları DALL-E 2'nin görüntü sentezi API'sinde, Stable Diffusion'ın NSFW filtresinin bir değiştirilerek devre dışı bırakılabileceği ortaya çıktıkça bir kenara atıldı. tek kod satırı. Porno merkezli Stable Diffusion Reddit'ler neredeyse anında ortaya çıktı ve bir o kadar da hızla kesildi, geliştirici ve kullanıcı kampı Discord'u resmi ve NSFW toplulukları olarak ikiye ayırdı ve Twitter fantastik Stable Diffusion kreasyonlarıyla dolmaya başladı.

Şu anda, her gün, sistemi benimseyen geliştiricilerden bazı şaşırtıcı yenilikler getiriyor gibi görünüyor, eklentiler ve üçüncü taraf ekleri alelacele yazılıyor. Krita, Photoshop, Cinema4D, karıştırıcıve diğer birçok uygulama platformu.

Kararlı Difüzyon Krita Eklentisi

Bu arada, hızlı zanaat – 'Filofax ciltleyici'den bu yana en kısa kariyer seçeneği haline gelebilecek olan 'AI fısıldama'nın artık profesyonel sanatı şimdiden yaygınlaşıyor ticarileşmeden rahatsız oldu., Stable Difusion'ın erken para kazanma özelliği şu aşamada gerçekleşirken: Patreon seviyesi, gezinmek istemeyenler için daha sofistike tekliflerin geleceğinden emin olarak Conda tabanlı kaynak kodunun yüklemeleri veya web tabanlı uygulamaların yasaklayıcı NSFW filtreleri.

Geliştirme hızı ve kullanıcılardan gelen özgür keşif duygusu o kadar baş döndürücü bir hızla ilerliyor ki çok ilerisini görmek zor. Esasen, henüz neyle uğraştığımızı veya tüm sınırlamaların veya olasılıkların ne olabileceğini tam olarak bilmiyoruz.

Bununla birlikte, hızla oluşan ve hızla büyüyen Stable Diffusion topluluğunun yüzleşmesi ve umarız üstesinden gelmesi için en ilginç ve zorlu engellerden üçüne bir göz atalım.

1: Döşeme Tabanlı İşlem Hatlarını Optimize Etme

Sınırlı donanım kaynakları ve eğitim görüntülerinin çözünürlüğüne ilişkin katı sınırlamalar ile birlikte, geliştiricilerin Stable Diffusion çıktısının hem kalitesini hem de çözünürlüğünü iyileştirmek için geçici çözümler bulması muhtemel görünmektedir. Bu projelerin çoğu, yalnızca 512×512 piksellik doğal çözünürlüğü gibi sistemin sınırlamalarından yararlanmayı içerecek şekilde ayarlanmıştır.

Bilgisayarlı görme ve görüntü sentezi girişimlerinde her zaman olduğu gibi, Stabil Difüzyon, kare oranlı görüntüler üzerinde eğitildi; bu durumda 512x512 olarak yeniden örneklendi, böylece kaynak görüntüler düzenlenebildi ve GPU'ların kısıtlamalarına uyabildi. modeli eğittim.

Bu nedenle, Kararlı Difüzyon 512×512 terimleriyle ve kesinlikle kare cinsinden “düşünür” (eğer düşünürse). Halihazırda sistemin sınırlarını araştıran birçok kullanıcı, Stable Difüzyon'un bu oldukça kısıtlı en boy oranında en güvenilir ve en az hatalı sonuçları ürettiğini bildiriyor (aşağıdaki 'ekstremitelere hitap etme' bölümüne bakın).

Çeşitli uygulamalarda yükseltme özelliği olsa da gerçekESRGAN (ve kötü oluşturulmuş yüzleri GPGAN) birkaç kullanıcı şu anda görüntüleri 512x512 piksellik bölümlere ayırmak ve daha büyük kompozit işler oluşturmak için görüntüleri birleştirmek için yöntemler geliştiriyor.

Bu 1024x576 işleme, tek bir Stable Diffusion işlemede genellikle imkansız olan bir çözünürlük, dikkat.py Python dosyasının Stable Diffusion'ın DoggettX çatalından (döşeme tabanlı yükseltme uygulayan bir sürüm) başka bir çatala kopyalanıp yapıştırılmasıyla oluşturuldu. Kaynak: https://old.reddit.com/r/StableDiffusion/comments/x6yeam/1024x576_with_6gb_nice/

Bu 1024×576 işleme, tek bir Kararlı Difüzyon oluşturmada genellikle imkansız olan bir çözünürlük, dikkat.py Python dosyasının kopyalanıp yapıştırılmasıyla oluşturuldu. DoggettX Kararlı Difüzyon çatalı (karo tabanlı yükseltme uygulayan bir sürüm) başka bir çatala. Kaynak: https://old.reddit.com/r/StableDiffusion/comments/x6yeam/1024x576_with_6gb_nice/

Bu türden bazı girişimler orijinal kod veya diğer kitaplıkları kullanıyor olsa da, txt2imghd bağlantı noktası GOBIG (VRAM'e aç ProgRockDiffusion'daki bir mod), bu işlevselliği yakında ana şubeye sağlayacak şekilde ayarlanmıştır. txt2imghd, GOBIG'in özel bir bağlantı noktası olsa da, topluluk geliştiricilerinin diğer çabaları, GOBIG'in farklı uygulamalarını içerir.

Orijinal 512x512px oluşturmada (soldan ve soldan ikinci) uygun şekilde soyut bir resim; artık tüm Kararlı Difüzyon dağıtımlarında aşağı yukarı yerel olan ESGRAN tarafından yükseltilmiş; ve bir GOBIG uygulamasıyla 'özel ilgi' gösterilerek, en azından görüntü bölümünün sınırları içinde daha iyi ölçeklenmiş görünen ayrıntılar üretilir. Kaynak: https://old.reddit.com/r/StableDiffusion/comments/x72460/stable_diffusion_gobig_txt2imghd_easy_mode_colab/

Orijinal 512x512px oluşturmada (soldan ve soldan ikinci) uygun şekilde soyut bir resim; artık tüm Kararlı Difüzyon dağıtımlarında aşağı yukarı yerel olan ESGRAN tarafından yükseltilmiş; ve bir GOBIG uygulamasıyla 'özel ilgi' gösterilerek, en azından görüntü bölümünün sınırları dahilinde, daha iyi ölçeklenmiş görünen ayrıntılar üretilir. Skaynak: https://old.reddit.com/r/StableDiffusion/comments/x72460/stable_diffusion_gobig_txt2imghd_easy_mode_colab/

Yukarıda belirtilen türden soyut örnek, yükseltmeye yönelik bu solipsist yaklaşıma uyan birçok ayrıntı "küçük krallığına" sahiptir, ancak bu, tekrarlanmayan, tutarlı yükseltme üretmek için daha zorlayıcı kod odaklı çözümler gerektirebilir. bak birçok parçadan toplanmış gibi. En azından, anormalliklere veya 'sarsıcı' eserlere alışılmadık bir şekilde uyum sağladığımız insan yüzleri söz konusu olduğunda. Bu nedenle, yüzler sonunda özel bir çözüme ihtiyaç duyabilir.

Kararlı Difüzyon şu anda, insanların yüz bilgilerine öncelik verdiği şekilde, bir işleme sırasında dikkati yüze odaklamak için bir mekanizmaya sahip değildir. Discord topluluklarındaki bazı geliştiriciler, bu tür "geliştirilmiş dikkati" uygulamak için yöntemler düşünse de, ilk işleme gerçekleştikten sonra yüzü manuel olarak (ve nihayetinde otomatik olarak) geliştirmek şu anda çok daha kolay.

Bir insan yüzü, (örneğin) bir binanın alt köşesindeki bir 'döşemede' bulunmayacak içsel ve eksiksiz bir anlamsal mantığa sahiptir ve bu nedenle şu anda çok etkili bir şekilde 'yakınlaştırmak' ve yeniden oluşturmak mümkündür. Kararlı Difüzyon çıkışında 'kabataslak' yüz.

Solda, Stable Diffusion'ın 'Christina Hendricks'in yağmurluk giyerek kalabalık bir yere girerken çekilmiş tam boy renkli fotoğrafı; Canon50, göz teması, yüksek detay, yüksek yüz detayı'. Sağda, ilk işlemedeki bulanık ve kabataslak yüzün Img2Img kullanılarak Stable Difüzyon'un tam dikkatine geri beslenmesiyle elde edilen iyileştirilmiş bir yüz (aşağıdaki animasyonlu resimlere bakın).

Solda, Stable Diffusion'ın 'Christina Hendricks'in yağmurluk giyerek kalabalık bir yere girerken çekilmiş tam boy renkli fotoğrafı; Canon50, göz teması, yüksek detay, yüksek yüz detayı'. Sağda, ilk işlemedeki bulanık ve kabataslak yüzün Img2Img kullanılarak Stable Difüzyon'un tam dikkatine geri beslenmesiyle elde edilen iyileştirilmiş bir yüz (aşağıdaki animasyonlu resimlere bakın).

Özel bir Metinsel Tersine Çevirme çözümünün yokluğunda (aşağıya bakın), bu yalnızca söz konusu kişinin Stable Difusion'ı eğiten LAION veri altkümelerinde zaten iyi bir şekilde temsil edildiği ünlü resimleri için işe yarayacaktır. Bu nedenle, Tom Cruise, Brad Pitt, Jennifer Lawrence ve kaynak verilerde çok sayıda görüntüde bulunan sınırlı sayıda gerçek medya aydınları üzerinde çalışacaktır.

"Christina Hendricks'in yağmurluk giymiş olarak kalabalık bir yere girerken çekilmiş tam boy renkli fotoğrafı" ile inandırıcı bir basın fotoğrafı oluşturmak; Canon50, göz teması, yüksek detay, yüksek yüz detayı'.

"Christina Hendricks'in yağmurluk giymiş olarak kalabalık bir yere girerken çekilmiş tam boy renkli fotoğrafı" ile inandırıcı bir basın fotoğrafı oluşturmak; Canon50, göz teması, yüksek detay, yüksek yüz detayı'.

Uzun ve kalıcı bir kariyere sahip ünlüler için, Stable Difusion genellikle kişinin yakın tarihli (yani daha yaşlı) bir görüntüsünü oluşturur ve aşağıdaki gibi hızlı eklerin eklenmesi gerekir. 'genç' or "[YEAR] yılında" Daha genç görünen görüntüler elde etmek için.

Yaklaşık 40 yıla yayılan önemli, çok fotoğraflanan ve tutarlı bir kariyere sahip olan aktris Jennifer Connelly, LAION'da Stable Diffusion'ın bir yaş aralığını temsil etmesine izin veren bir avuç ünlüden biridir. Kaynak: önceden paketlenmiş Kararlı Difüzyon, yerel, v1.4 kontrol noktası; yaşla ilgili istemler.

Yaklaşık 40 yıla yayılan önemli, çok fotoğraflanan ve tutarlı bir kariyere sahip olan aktris Jennifer Connelly, LAION'da Stable Diffusion'ın bir yaş aralığını temsil etmesine izin veren bir avuç ünlüden biridir. Kaynak: önceden paketlenmiş Kararlı Difüzyon, yerel, v1.4 kontrol noktası; yaşla ilgili istemler.

Bunun başlıca nedeni, 2000'lerin ortalarından itibaren dijital (pahalı, emülsiyon tabanlı değil) basın fotoğrafçılığının çoğalması ve daha sonra artan geniş bant hızları nedeniyle görüntü çıktı hacmindeki büyümedir.

Oluşturulan görüntü, bir "odak alanı"nın seçildiği Stable Diffusion'da Img2Img'ye aktarılır ve yalnızca o alan için yeni, maksimum boyutlu bir işleme yapılır ve Stable Diffusion'ın mevcut tüm kaynakları yüzü yeniden oluşturmaya yoğunlaştırmasına olanak tanır.

Oluşturulan görüntü, bir "odak alanı"nın seçildiği Stable Diffusion'da Img2Img'ye aktarılır ve yalnızca o alan için yeni, maksimum boyutlu bir işleme yapılır ve Stable Diffusion'ın mevcut tüm kaynakları yüzü yeniden oluşturmaya yoğunlaştırmasına olanak tanır.

"Yüksek dikkat" yüzü yeniden orijinal işlemeyle birleştiriliyor. Yüzlerin yanı sıra, bu süreç yalnızca orijinal fotoğrafın saat veya araba gibi ayrı bir nesneye sahip olan bir bölümü gibi potansiyel olarak bilinen, uyumlu ve bütünleyici bir görünüme sahip varlıklarla çalışacaktır. Örneğin, bir duvarın bir bölümünü yükseltmek, çok garip görünen yeniden birleştirilmiş bir duvara yol açacaktır, çünkü karo kaplamaların, işlenirken bu 'yapboz parçası' için daha geniş bir bağlamı yoktur.

"Yüksek dikkat" yüzü yeniden orijinal işlemeyle birleştiriliyor. Yüzlerin yanı sıra, bu süreç yalnızca orijinal fotoğrafın saat veya araba gibi ayrı bir nesneye sahip olan bir bölümü gibi potansiyel olarak bilinen, uyumlu ve bütünleyici bir görünüme sahip varlıklarla çalışacaktır. Örneğin, bir duvarın bir bölümünü yükseltmek, çok garip görünen yeniden birleştirilmiş bir duvara yol açacaktır, çünkü karo kaplamaların, bu 'yapboz parçası' için daha geniş bir bağlamı yoktur.

Veritabanındaki bazı ünlüler, ya erken öldükleri için (Marilyn Monroe gibi) ya da sınırlı bir süre içinde yüksek hacimli görüntüler üreterek yalnızca geçici bir ana akım üne kavuştukları için zaman içinde 'önceden donmuş' gelirler. Polling Stable Diffusion, muhtemelen modern ve daha yaşlı yıldızlar için bir tür 'mevcut' popülerlik endeksi sağlıyor. Bazı eski ve yeni ünlüler için, kaynak verilerde çok iyi bir benzerlik elde etmek için yeterli görüntü bulunmazken, belirli uzun zaman önce ölmüş veya başka bir şekilde solmuş yıldızların kalıcı popülaritesi, makul benzerliklerinin sistemden elde edilebilmesini sağlar.

Kararlı Difüzyon oluşturmaları, eğitim verilerinde hangi ünlü yüzlerin iyi temsil edildiğini hızla ortaya çıkarır. Yazma sırasında daha yaşlı bir genç olarak muazzam popülaritesine rağmen, Millie Bobby Brown daha gençti ve LAION kaynak veri kümeleri web'den kazındığında daha az tanınıyordu, bu da şu anda Stable Difüzyon ile yüksek kaliteli bir benzerliği sorunlu hale getiriyordu.

Kararlı Difüzyon oluşturmaları, eğitim verilerinde hangi ünlü yüzlerin iyi temsil edildiğini hızla ortaya çıkarır. Yazma sırasında daha yaşlı bir genç olarak muazzam popülaritesine rağmen, Millie Bobby Brown daha gençti ve LAION kaynak veri kümeleri web'den kazındığında daha az tanınıyordu, bu da şu anda Stable Difüzyon ile yüksek kaliteli bir benzerliği sorunlu hale getiriyordu.

Verilerin mevcut olduğu yerlerde, Stable Diffusion'daki karo tabanlı yüksek çözünürlüklü çözümler yüze odaklanmaktan daha ileri gidebilir: yüz hatlarını kırarak ve yerel GPU'nun tüm gücünü çevirerek potansiyel olarak daha da doğru ve ayrıntılı yüzler sağlayabilirler. Yeniden birleştirmeden önce, göze çarpan özelliklerle ilgili kaynaklar, şu anda yine manuel olan bir süreçtir.

Bu, yüzlerle sınırlı değildir, ancak ana nesnenin daha geniş bağlamına en azından öngörülebilir şekilde yerleştirilmiş ve hiper ölçekte bulmayı makul bir şekilde bekleyebileceğimiz üst düzey katıştırmalara uyan nesnelerin parçalarıyla sınırlıdır. veri kümesi.

Gerçek sınır, veri kümesindeki mevcut referans verilerinin miktarıdır, çünkü sonunda derinlemesine tekrarlanan ayrıntılar tamamen 'halüsinasyon' (yani hayali) ve daha az gerçek hale gelecektir.

Jennifer Connelly'nin durumunda bu tür üst düzey ayrıntılı genişlemeler işe yarıyor çünkü o, çeşitli yaşlarda iyi bir şekilde temsil ediliyor. LAION estetiği (birincil altkümesi LAYON 5B Kararlı Difüzyonun kullandığı) ve genellikle LAION genelinde; diğer birçok durumda, doğruluk veri eksikliğinden zarar görür ve ince ayar (ek eğitim, aşağıdaki 'Özelleştirme'ye bakın) veya Metinsel Tersine Çevirme (aşağıya bakın) gerektirir.

Döşemeler, Stable Difüzyon'un yüksek çözünürlüklü çıktı üretmesini sağlamak için güçlü ve nispeten ucuz bir yoldur, ancak bu türden algoritmik döşemeli yükseltme, bir tür daha geniş, daha yüksek seviyeli dikkat mekanizmasından yoksunsa, umulan- çeşitli içerik türlerinde standartlar için.

2: İnsan Uzuvlarıyla İlgili Sorunları Ele Alma

Stable Difusion, insan uzuvlarının karmaşıklığını tasvir ederken adının hakkını vermiyor. Eller rastgele çoğalabilir, parmaklar birleşir, üçüncü bacaklar davetsiz görünür ve mevcut uzuvlar iz bırakmadan kaybolur. Stable Diffusion, savunmasında, sorunu istikrarlı arkadaşlarıyla ve kesinlikle DALL-E 2 ile paylaşıyor.

Ağustos 2'nin sonunda DALL-E 1.4 ve Stable Difusion'dan (2022) elde edilen düzenlenmemiş sonuçlar, her ikisi de uzuvlarla ilgili sorunları gösteriyor. Komut istemi 'Bir erkeği kucaklayan bir kadın'

Ağustos 2'nin sonunda DALL-E 1.4 ve Stable Difusion'dan (2022) elde edilen düzenlenmemiş sonuçlar, her ikisi de uzuvlarla ilgili sorunları gösteriyor. Komut istemi 'Bir erkeği kucaklayan bir kadın'

Yaklaşan 1.5 kontrol noktasının (modelin geliştirilmiş parametrelerle daha yoğun bir şekilde eğitilmiş bir versiyonu) uzuv karışıklığını çözeceğini uman Kararlı Difüzyon hayranları muhtemelen hayal kırıklığına uğrayacaklar. XNUMX yılında piyasaya sürülecek olan yeni model yaklaşık iki haftalık zaman, şu anda ticari stable.ai portalında prömiyeri yapılıyor Rüya Stüdyosu, varsayılan olarak 1.5 kullanan ve kullanıcıların yeni çıktıyı yerel veya diğer 1.4 sistemlerindeki işlemelerle karşılaştırabileceği yer:

Kaynak: Yerel 1.4 ön paketi ve https://beta.dreamstudio.ai/

Kaynak: Yerel 1.4 ön paketi ve https://beta.dreamstudio.ai/

Kaynak: Yerel 1.4 ön paketi ve https://beta.dreamstudio.ai/

Kaynak: Yerel 1.4 ön paketi ve https://beta.dreamstudio.ai/

Kaynak: Yerel 1.4 ön paketi ve https://beta.dreamstudio.ai/

Kaynak: Yerel 1.4 ön paketi ve https://beta.dreamstudio.ai/

Çoğu zaman olduğu gibi, veri kalitesi buna katkıda bulunan birincil neden olabilir.

Stable Diffusion ve DALL-E 2 gibi görüntü sentez sistemlerini besleyen açık kaynaklı veritabanları, hem bireysel insanlar hem de insanlar arası eylem için birçok etiket sağlayabilir. Bu etiketler, ilişkili görüntüleri veya görüntü segmentleri ile simbiyotik olarak eğitilirler.

Kararlı Difüzyon kullanıcıları, sisteme güç sağlayan daha büyük LAION 5B veri kümesinin bir alt kümesi olan LAION-estetik veri kümesini sorgulayarak modelde eğitilen kavramları keşfedebilirler. Görüntüler alfabetik etiketlerine göre değil, "estetik puanlarına" göre sıralanmıştır. Kaynak: https://rom1504.github.io/clip-retrieval/

Kararlı Difüzyon kullanıcıları, sisteme güç sağlayan daha büyük LAION 5B veri kümesinin bir alt kümesi olan LAION-estetik veri kümesini sorgulayarak modelde eğitilen kavramları keşfedebilirler. Görüntüler alfabetik etiketlerine göre değil, "estetik puanlarına" göre sıralanmıştır. Kaynak: https://rom1504.github.io/clip-retrieval/

A iyi hiyerarşi Bir insan kolunun tasvirine katkıda bulunan Bireysel etiketlerin ve sınıfların sayısı, şuna benzer bir şey olurdu: vücut>kol>el>parmaklar>[alt basamaklar + başparmak]> [rakam bölümleri]>Tırnaklar.

Bir elin parçalarının ayrıntılı semantik segmentasyonu. Bu alışılmadık derecede ayrıntılı yapısöküm bile, her bir "parmağı" tek bir varlık olarak bırakır, bir parmağın üç bölümünü ve bir başparmağın iki bölümünü hesaba katmaz Kaynak: https://athitsos.utasites.cloud/publications/rezaei_petra2021.pdf

Bir elin parçalarının ayrıntılı semantik segmentasyonu. Bu olağandışı ayrıntılı yapısöküm bile, parmağın üç bölümünü ve başparmağın iki bölümünü hesaba katmadan, her bir "parmağı" tek bir varlık olarak bırakır. Kaynak: https://athitsos.utasites.cloud/publications/rezaei_petra2021.pdf

Gerçekte, kaynak görüntülerin tüm veri kümesi boyunca bu kadar tutarlı bir şekilde açıklanması olası değildir ve denetimsiz etiketleme algoritmaları muhtemelen en son noktada duracaktır. daha yüksek - örneğin - 'el' seviyesinde ve teknik olarak 'parmak' bilgisini içeren) iç pikselleri, özelliklerin keyfi olarak türetileceği ve daha sonraki işlemelerde sarsıcı bir öğe olarak ortaya çıkabilecek, etiketlenmemiş bir piksel kütlesi olarak bırakın.

Etiketleme için sınırlı kaynaklar veya veri kümesinde varsa bu tür etiketlerin mimari kullanımı nedeniyle nasıl olması gerektiği (üst kesim değilse sağ üst) ve nasıl olma eğiliminde olduğu (sağ alt).

Etiketleme için sınırlı kaynaklar veya veri kümesinde varsa bu tür etiketlerin mimari kullanımı nedeniyle nasıl olması gerektiği (üst kesim değilse sağ üst) ve nasıl olma eğiliminde olduğu (sağ alt).

Bu nedenle, gizli bir yayılma modeli bir kol oluşturmaya kadar giderse, neredeyse kesin olarak en azından o kolun ucunda bir el oluşturmayı deneyecektir, çünkü kol>el mimarinin 'insan anatomisi' hakkında bildiklerinin oldukça yukarısında yer alan asgari gereklilik hiyerarşisidir.

Bundan sonra, insan ellerini tasvir ederken dikkate alınması gereken 14 parmak/başparmak alt parçası olmasına rağmen, 'parmaklar' en küçük gruplama olabilir.

Bu teori geçerliyse, manuel açıklama için sektör çapında bütçe eksikliği ve düşük hata oranları üretirken etiketlemeyi otomatikleştirebilecek yeterince etkili algoritmaların olmaması nedeniyle gerçek bir çare yoktur. Gerçekte, model şu anda üzerinde eğitildiği veri kümesinin eksikliklerini gidermek için insan anatomik tutarlılığına güveniyor olabilir.

Bunun olası bir nedeni olamaz buna güven, son zamanlarda önerilen Kararlı Difüzyon Uyuşmazlığında, modelin (gerçekçi) bir insan elinin sahip olması gereken doğru parmak sayısı konusunda kafasının karışabilmesidir, çünkü ona güç veren LAION'dan türetilmiş veri tabanı, daha az parmağa sahip olabilecek çizgi film karakterleri içerir (ki bu kendi içindedir) emek tasarrufu sağlayan bir kısayol).

Kararlı Difüzyon ve benzer modellerde 'eksik parmak' sendromunun potansiyel suçlularından ikisi. Aşağıda, Stable Diffusion'ı destekleyen LAION-estetik veri kümesinden karikatür el örnekleri bulunmaktadır. Kaynak: https://www.youtube.com/watch?v=0QZFQ3gbd6I

Kararlı Difüzyon ve benzer modellerde 'eksik parmak' sendromunun potansiyel suçlularından ikisi. Aşağıda, Stable Diffusion'ı destekleyen LAION-estetik veri kümesinden karikatür el örnekleri bulunmaktadır. Kaynak: https://www.youtube.com/watch?v=0QZFQ3gbd6I

Bu doğruysa, o zaman tek bariz çözüm, modeli yeniden eğitmek, gerçekçi olmayan insan temelli içeriği hariç tutmak ve gerçek ihmal vakalarının (örn. amputeler) istisnalar olarak uygun bir şekilde etiketlenmesini sağlamaktır. Yalnızca bir veri düzenleme noktasından bakıldığında, bu, özellikle kaynak sıkıntısı çeken topluluk çabaları için oldukça zor olacaktır.

İkinci yaklaşım, OpenAI'nin bir dereceye kadar sahip olduğu şekilde, bu tür içeriğin (yani 'üç/beş parmaklı el') işleme zamanında ortaya çıkmasını engelleyen filtreler uygulamak olacaktır. süzülmüş GPT-3 ve DALL-E2, böylece kaynak modelleri yeniden eğitmeye gerek kalmadan çıktıları düzenlenebilir.

Stable Difüzyon için, parmaklar ve hatta uzuvlar arasındaki anlamsal ayrım korkunç bir şekilde bulanıklaşabilir ve bu da akla David Cronenberg gibilerinin 1980'lerdeki korku filmlerinin 'vücut korkusu' dizisini getirir. Kaynak: https://old.reddit.com/r/StableDiffusion/comments/x6htf6/a_study_of_stable_diffusions_strange_relationship/

Stable Difüzyon için, parmaklar ve hatta uzuvlar arasındaki semantik ayrım korkunç bir şekilde bulanıklaşabilir ve bu da akla David Cronenberg gibilerinin 1980'lerdeki korku filmlerinin 'vücut korkusu' dizisini getirir. Kaynak: https://old.reddit.com/r/StableDiffusion/comments/x6htf6/a_study_of_stable_diffusions_strange_relationship/

Ancak, yine, bu, etkilenen tüm görüntülerde bulunmayabilecek etiketleri gerektirecek ve bizi aynı lojistik ve bütçesel zorluklarla karşı karşıya bırakacaktır.

İleriye dönük iki yol olduğu ileri sürülebilir: soruna daha fazla veri atmak ve burada açıklanan türden fiziksel saçmalıklar son kullanıcıya sunulduğunda müdahale edebilecek üçüncü taraf yorumlayıcı sistemleri uygulamak (en azından, ikincisi, OpenAI'ye, eğer şirket bunu yapmak için motive olmuşsa, "vücut korkusu" oluşturmaları için geri ödeme sağlamak için bir yöntem verecektir).

3: Özelleştirme

Stable Difusion'ın geleceği için en heyecan verici olasılıklardan biri, gözden geçirilmiş sistemler geliştiren kullanıcıların veya kuruluşların olasılığıdır; önceden eğitilmiş LAION alanının dışındaki içeriğin sisteme entegre edilmesine izin veren modifikasyonlar - ideal olarak, tüm modeli yeniden eğitmenin yönetilemeyen masrafı veya mevcut, olgun ve yetenekli bir görüntüye büyük hacimli yeni görüntülerde eğitim yaparken ortaya çıkan risk olmadan. modeli.

Bir benzetmeyle: Daha az yetenekli iki öğrenci, otuz öğrenciden oluşan ileri bir sınıfa katılırsa, ya asimile olacak ve yetişecekler ya da aykırı değerler olarak başarısız olacaklar; her iki durumda da, sınıf ortalama performansı muhtemelen etkilenmeyecektir. Bununla birlikte, daha az yetenekli 15 öğrenci katılırsa, tüm sınıf için not eğrisinin zarar görmesi muhtemeldir.

Aynı şekilde, uzun süreli ve pahalı model eğitimi üzerine kurulan sinerjik ve oldukça hassas ilişkiler ağı, aşırı yeni veriler tarafından tehlikeye atılabilir, bazı durumlarda etkili bir şekilde yok edilebilir ve modelin çıktı kalitesini genel olarak düşürür.

Bunu yapma durumu, öncelikle, modelin ilişkilere ve şeylere ilişkin kavramsal anlayışını tamamen ele geçirmek ve onu, eklediğiniz ek malzemeye benzer özel içerik üretimi için tahsis etmekle ilgilendiğiniz yerdir.

Böylece 500,000 eğitim Simpsonlar çerçeveleri mevcut bir Kararlı Difüzyon kontrol noktasına dönüştürmek, sonunda size daha iyi bir Simpsonlar Yeterince geniş semantik ilişkilerin süreçten sağ çıktığı varsayıldığında (örn. Homer Simpson sosisli sandviç yiyor, ek materyalinizde olmayan ancak kontrol noktasında zaten var olan sosisli sandviçler hakkında materyal gerektirebilir) ve aniden geçiş yapmak istemediğinizi varsayarsak Simpsonlar oluşturulacak içerik Greg Rutkowski'den muhteşem manzara – çünkü eğitim sonrası modelinizin dikkati büyük ölçüde başka yöne çevrildi ve bu tür şeyleri yapmakta eskisi kadar iyi olmayacak.

Bunun dikkate değer bir örneği, waifu-difüzyon, başarılı bir şekilde eğitim sonrası 56,000 anime görüntüsü tamamlanmış ve eğitimli bir Kararlı Difüzyon kontrol noktasına. Bununla birlikte, model, NVIDIA'nın gelecek 30XX serisi sürümlerinde tüketici seviyesinde bulunabilecek olanın çok ötesinde, göz yaşartıcı minimum 40 GB VRAM gerektirdiğinden, bu bir hobi tutkunu için zor bir ihtimal.

Özel içeriğin Stable Diffusion'a eğitimi: model, bu düzeyde bir çizimin çıktısını alabilmek için eğitimden sonra iki hafta sürdü. Soldaki altı resim, modelin yeni eğitim verilerine dayalı konu tutarlı çıktılar oluşturmadaki ilerlemesini göstermektedir. Kaynak: https://gigazine.net/gsc_news/en/20220121-how-waifu-labs-create/

Waifu-difüzyon yoluyla Stable Diffusion'a özel içeriğin eğitimi: modelin bu seviyede bir çizim çıkarması için iki haftalık eğitim sonrası eğitim aldı. Soldaki altı resim, eğitim ilerledikçe modelin yeni eğitim verilerine dayalı konu tutarlı çıktılar elde etmedeki ilerlemesini gösterir. Kaynak: https://gigazine.net/gsc_news/en/20220121-how-waifu-labs-create/

Kararlı Difüzyon kontrol noktalarının bu tür 'çatallarına' büyük çaba harcanabilir, ancak teknik borç tarafından engellenebilir. Resmi Discord'daki geliştiriciler, daha sonraki kontrol noktası sürümlerinin, önceki bir sürümle çalışmış olabilecek istem mantığıyla bile geriye dönük uyumlu olmayacağını zaten belirttiler, çünkü asıl ilgi alanları desteklemek yerine mümkün olan en iyi modeli elde etmektir. eski uygulamalar ve süreçler.

Bu nedenle, bir kontrol noktasını etkin bir şekilde ticari bir ürüne ayırmaya karar veren bir şirket veya bireyin geri dönüşü yoktur; modelin versiyonu, bu noktada, bir 'hard fork' ve daha sonraki kararlılık.ai sürümlerinden yukarı akış faydalarını çekemeyecektir - ki bu oldukça büyük bir taahhüttür.

Kararlı Difüzyonun özelleştirilmesi için mevcut ve daha büyük umut, Metin Tersine Çevirme, kullanıcının küçük bir avuç içinde eğittiği CLIPhizalanmış görüntüler.

Tel Aviv Üniversitesi ile NVIDIA arasındaki bir işbirliği olan metinsel ters çevirme, kaynak modelin yeteneklerini yok etmeden ayrık ve yeni varlıkların eğitimine olanak tanır. Kaynak: https://textual-inversion.github.io/

Tel Aviv Üniversitesi ile NVIDIA arasındaki bir işbirliği olan metinsel ters çevirme, kaynak modelin yeteneklerini yok etmeden ayrık ve yeni varlıkların eğitimine olanak tanır. Kaynak: https://textual-inversion.github.io/

Metni tersine çevirmenin birincil belirgin sınırlaması, çok az sayıda görüntünün önerilmesidir - beş kadar az. Bu, fotogerçekçi nesnelerin eklenmesinden ziyade stil aktarma görevleri için daha yararlı olabilecek sınırlı bir öğeyi etkili bir şekilde üretir.

Bununla birlikte, şu anda çok daha fazla sayıda eğitim görüntüsü kullanan çeşitli Kararlı Difüzyon Uyuşmazlıklarında deneyler yapılıyor ve yöntemin ne kadar verimli olacağını göreceğiz. Yine, teknik çok fazla VRAM, zaman ve sabır gerektirir.

Bu sınırlayıcı faktörler nedeniyle, Kararlı Difüzyon meraklılarının daha karmaşık metinsel tersine çevirme deneylerinden bazılarını görmek için bir süre beklememiz gerekebilir - ve bu yaklaşımın sizi 'resmin içine sokup sokamayacağını' Resmi kontrol noktalarının şaşırtıcı işlevselliğini korurken Photoshop kes ve yapıştır.

 

İlk olarak 6 Eylül 2022'de yayınlandı.

Makine öğrenimi yazarı, insan görüntü sentezi alanında uzman. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel sitesi: martinanderson.ai
İletişim [e-posta korumalı]
Twitter: @manders_ai