Bizimle iletişime geçin

Anderson'ın Açısı

İnsan Odaklı Yapay Zeka Videosunda Önemli Bir Gelişme

mm
DreamActor proje sayfasından örnekler.

Not: Bu çalışmanın proje sayfası, yükleme sırasında sistemimi dengesizleştiren, toplamda yarım gigabaytlık 33 otomatik oynatılan yüksek çözünürlüklü videoyu içeriyor. Bu nedenle, doğrudan bağlantı vermeyeceğim. Okuyucular isterlerse URL'yi makalenin özetinde veya PDF'inde bulabilirler.

Mevcut video sentez araştırmalarındaki temel amaçlardan biri, tek bir görüntüden tam bir AI destekli video performansı üretmektir. Bu hafta Bytedance Intelligent Creation'dan yeni bir makale, bu türde şimdiye kadarki en kapsamlı sistem olabilecek, ifade dolu yüz ayrıntılarını doğru büyük ölçekli hareketle birleştiren tam ve yarı vücut animasyonları üretebilen ve aynı zamanda gelişmiş kimlik tutarlılığı sağlayan bir sistem özetledi; bu, önde gelen ticari sistemlerin bile sıklıkla yetersiz kaldığı bir alandır.

Aşağıdaki örnekte, bir aktör tarafından yönetilen (sol üst) ve tek bir görüntüden (sağ üst) türetilen bir performansı görüyoruz; bu, olağan hiçbir şey olmadan, dikkate değer derecede esnek ve becerikli bir sunum sağlıyor. sorunlar büyük hareketler yaratma veya kapalı alanlar hakkında 'tahmin' yapma (yani, tek kaynak fotoğrafta görünmediği için çıkarılması veya uydurulması gereken giyim parçaları ve yüz açıları) etrafında:

SESLİ İÇERİK. Oynatmak için tıklayın. Bir performans iki kaynaktan doğar, dudak senkronizasyonu da dahil, ki bu normalde özel yardımcı sistemlerin korumasındadır. Bu, kaynak siteden kısaltılmış bir versiyondur (makalenin başındaki notu inceleyin – buradaki diğer tüm gömülü videolar için geçerlidir).

Her klip ilerledikçe kimliğin kalıcılığıyla ilgili bazı kalıcı zorluklar görebilsek de, bu, genel olarak (her zaman olmasa da) uzun süreli bir süre boyunca kimliğin korunmasında üstünlük sağlayan gördüğüm ilk sistemdir. LoRA'lar:

SESLİ İÇERİK. Oynatmak için tıklayınDreamActor projesinden diğer örnekler.

Yeni sistem, başlıklı RüyaAktörü, yüz ifadesine, baş dönüşüne ve temel iskelet tasarımına özel önem veren üç parçalı bir hibrit kontrol sistemi kullanıyor ve böylece yüz veya vücut görünümünün diğerinin pahasına etkilenmediği, yapay zeka destekli performanslara olanak tanıyor. Bu, benzer sistemler arasında nadir bulunan, tartışmasız bilinmeyen bir yetenek.

Aşağıda bu yönlerden birini görüyoruz, kafa dönüşü, eylem halinde. Her küçük resmin köşesinde sağa doğru bulunan renkli top, yüz hareketi ve ifadesinden bağımsız olarak baş yönelimini tanımlayan bir tür sanal gimbal'i gösterir; burada bu bir aktör tarafından yönlendirilir (sol alt).

Oynamak için tıklayınBurada görselleştirilen çok renkli top, avatarın başının dönüş eksenini temsil ederken, ifade ayrı bir modül tarafından destekleniyor ve bir aktörün performansıyla bilgilendiriliyor (burada sol altta görülüyor).

Projenin en ilginç işlevlerinden biri, makalenin testlerinde bile düzgün bir şekilde yer almayan, dudak senkronizasyonu hareketini doğrudan sesten türetme kapasitesidir. Bu yetenek, sürüş oyuncusu videosu olmadan bile alışılmadık derecede iyi çalışır.

Araştırmacılar, çokça övülen bu arayışta en iyi adayları, aralarında Podyum Birinci Perde ve Canlı Portreve DreamActor'ın daha iyi niceliksel sonuçlar elde edebildiğini bildiriyor.

Araştırmacılar kendi kriterlerini belirleyebildikleri için nicel sonuçlar mutlaka deneysel bir standart değildir; ancak eşlik eden nitel testler yazarların sonuçlarını destekliyor gibi görünmektedir.

Ne yazık ki bu sistem kamuya açık olarak yayınlanmak üzere tasarlanmamıştır ve topluluğun bu çalışmadan elde edebileceği tek potansiyel değer, makalede özetlenen metodolojileri yeniden üretmektir (aynı şekilde kapalı kaynaklı için de dikkate değer bir etki yaratacak şekilde yapıldığı gibi) 2022'de Google Dreambooth).

Belgede*:

'İnsan görüntü animasyonunun, sahte videolar yapmak için kötüye kullanılması gibi olası sosyal riskleri vardır. Önerilen teknoloji, insanların sahte videolarını oluşturmak için kullanılabilir, ancak mevcut tespit araçları [Demamba, Uyuyan] bu sahteleri tespit edebilir.

'Bu riskleri azaltmak için net etik kurallar ve sorumlu kullanım yönergeleri gereklidir. Kötüye kullanımı önlemek için temel modellerimize ve kodlarımıza erişimi kesinlikle kısıtlayacağız.'

Doğal olarak, bu tür etik düşünceler ticari açıdan uygundur, çünkü modele yalnızca API erişimi için bir gerekçe sağlar ve bu daha sonra paraya çevrilebilir. ByteDance bunu 2025'te bir kez yaptı ve çok övülen OmniHuman Dreamina web sitesinde ücretli krediler için kullanılabilir. Bu nedenle, DreamActor muhtemelen daha güçlü bir ürün olduğundan, bu olası sonuç gibi görünüyor. Geriye, makalede açıklandığı kadarıyla ilkelerinin açık kaynak topluluğuna ne ölçüde yardımcı olabileceği kalıyor.

MKS yeni kağıt başlıklı DreamActor-M1: Hibrit Rehberlikle Bütünsel, İfade Edici ve Güçlü İnsan Görüntüsü Animasyonuve altı Bytedance araştırmacısından geliyor.

Yöntem

Makalede önerilen DreamActor sistemi, bir referans görüntü ve bir sürüş videosundan insan animasyonu üretmeyi amaçlamaktadır. Difüzyon Trafosu (DiT) çerçevesi uyarlandı gizli alan (Görünüşe göre Kararlı Difüzyonun bir çeşidi, ancak makale yalnızca 2022'nin önemli yayın yayını).

Yazarlar, referans koşullandırmasını yönetmek için harici modüllere güvenmek yerine, görünüm ve hareket özelliklerini doğrudan DiT omurgasının içinde birleştirerek, dikkat yoluyla uzay ve zaman arasında etkileşime izin veriyorlar:

Yeni sistem için şema: DreamActor, pozu, yüz hareketini ve görünümü ayrı latentlere kodlar ve bunları 3D VAE tarafından üretilen gürültülü video latentleriyle birleştirir. Bu sinyaller, dallar arasında paylaşılan ağırlıklarla, öz ve çapraz dikkat kullanılarak bir Difüzyon Transformatörü içinde birleştirilir. Model, gürültüsü giderilmiş çıktıların temiz video latentleriyle karşılaştırılmasıyla denetlenir. Kaynak: https://arxiv.org/pdf/2504.01724

Yeni sistem için şema: DreamActor, pozu, yüz hareketini ve görünümü ayrı latentlere kodlar ve bunları 3D VAE tarafından üretilen gürültülü video latentleriyle birleştirir. Bu sinyaller, dallar arasında paylaşılan ağırlıklarla, öz ve çapraz dikkat kullanılarak bir Difüzyon Transformatörü içinde birleştirilir. Model, gürültüsü giderilmiş çıktıların temiz video latentleriyle karşılaştırılmasıyla denetlenir. Kaynak: https://arxiv.org/pdf/2504.01724

Bunu yapmak için model önceden eğitilmiş bir 3B kullanır değişken otomatik kodlayıcı hem giriş videosunu hem de referans görüntüsünü kodlamak için. Bu latentler yamalı, birleştirilir ve DiT'e beslenir, DiT bunları birlikte işler.

Bu mimari, etkili olan referans enjeksiyonu için ikincil bir ağ ekleme yaklaşımı olan yaygın uygulamadan ayrılır. Herhangi Birini Canlandırın ve Herhangi Birini Canlandırın 2 projeleri.

Bunun yerine DreamActor, füzyonu ana modelin kendisine yerleştirir ve görünüm ile hareket ipuçları arasındaki bilgi akışını artırırken tasarımı basitleştirir. Daha sonra model, akış eşleştirme standart difüzyon hedefi yerine (Akış eşleştirme, veri ve gürültü arasındaki hız alanlarını doğrudan tahmin ederek difüzyon modellerini eğitir, atlar) puan tahmini).

Hibrit Hareket Rehberliği

Sinirsel görselleştirmeleri bilgilendiren Hibrit Hareket Rehberliği yöntemi, 3 boyutlu vücut iskeletlerinden ve baş kürelerinden türetilen poz belirteçlerini; önceden eğitilmiş bir yüz kodlayıcı tarafından çıkarılan örtük yüz temsillerini; ve kaynak görüntüden örneklenen referans görünüm belirteçlerini birleştirir.

Bu unsurlar, farklı dikkat mekanizmaları kullanılarak Difüzyon Transformatörü içerisinde entegre edilerek sistemin, üretim süreci boyunca küresel hareketi, yüz ifadesini ve görsel kimliği koordine etmesine olanak sağlıyor.

Bunlardan ilki için, DreamActor yüz özelliklerine güvenmek yerine, ifade üretimini yönlendirmek için örtük yüz temsillerini kullanıyor ve bu da görünüşe göre yüz dinamikleri üzerinde daha hassas bir kontrol sağlarken kimliği ve baş pozunu ifadeden ayırıyor.

Bu gösterimleri oluşturmak için, boru hattı önce sürüş videosunun her karesindeki yüz bölgesini algılar ve kırpar ve 224x224 olarak yeniden boyutlandırır. Kırpılan yüzler, önceden eğitilmiş bir yüz hareketi kodlayıcısı tarafından işlenir. PD-FGC daha sonra bir koşula tabi tutulan veri kümesi MLP katmanı.

DreamActor'da kullanılan PD-FGC, dudak senkronizasyonunun (sesten), baş pozisyonunun, göz hareketinin ve ifadenin (ayrı videolardan) ayrıştırılmış kontrolüyle bir referans görüntüden konuşan bir kafa oluşturur ve her birinin hassas, bağımsız bir şekilde manipüle edilmesine olanak tanır. Kaynak: https://arxiv.org/pdf/2211.14506

DreamActor'da kullanılan PD-FGC, dudak senkronizasyonunun (sesten), baş pozisyonunun, göz hareketinin ve ifadenin (ayrı videolardan) ayrı ayrı kontrolüyle referans görüntüden konuşan bir kafa oluşturur ve her birinin hassas ve bağımsız bir şekilde manipüle edilmesine olanak tanır. Kaynak: https://arxiv.org/pdf/2211.14506

Sonuç, Difüzyon Transformatörüne bir yüz hareketi jetonu aracılığıyla enjekte edilen bir dizi yüz hareketi jetonudur. çapraz dikkat katmanı.

Aynı çerçeve ayrıca bir ses odaklı varyantı, konuşma girişini doğrudan yüz hareketi belirteçlerine eşleyen ayrı bir kodlayıcının eğitildiği. Bu, sürüş videosu olmadan dudak hareketleri de dahil olmak üzere senkronize yüz animasyonu oluşturmayı mümkün kılar.

SESLİ İÇERİK. Oynatmak için tıklayın. Dudak senkronizasyonu tamamen sesten türetilmiştir, sürükleyici bir aktör referansı yoktur. Tek karakter girişi sağ üstte görülen statik fotoğraftır.

İkinci olarak, baş pozisyonunu yüz ifadesinden bağımsız olarak kontrol etmek için sistem, yüz dinamiklerini genel baş hareketinden ayıran ve animasyon sırasında hassasiyeti ve esnekliği artıran 3 boyutlu bir baş küresi gösterimi sunuyor (bu makalenin önceki kısımlarında yer alan videoya bakın).

Baş küreleri, sürüş videosundan dönüş ve kamera pozisyonu gibi 3 boyutlu yüz parametrelerinin çıkarılmasıyla üretilir. YüzAyet izleme yöntemi.

FaceVerse projesi için şema. Kaynak: https://www.liuyebin.com/faceverse/faceverse.html

FaceVerse projesinin şeması. Kaynak: https://www.liuyebin.com/faceverse/faceverse.html

Bu parametreler, 2B görüntü düzlemine yansıtılan ve sürüş kafasıyla uzamsal olarak hizalanan bir renk küresi oluşturmak için kullanılır. Kürenin boyutu referans kafayla eşleşir ve rengi kafanın yönelimini yansıtır. Bu soyutlama, 3B kafa hareketini öğrenmenin karmaşıklığını azaltır ve animasyondan çizilen karakterlerde stilize veya abartılı kafa şekillerinin korunmasına yardımcı olur.

Baş yönelimini etkileyen kontrol küresinin görselleştirilmesi.

Baş yönelimini etkileyen kontrol küresinin görselleştirilmesi.

Son olarak, tüm vücut hareketini yönlendirmek için sistem, uyarlanabilir kemik uzunluğu normalizasyonuna sahip 3B vücut iskeletlerini kullanır. Vücut ve el parametreleri, aşağıdakiler kullanılarak tahmin edilir: 4DHümanlar ve el odaklı HaMeRher ikisi de şu şekilde çalışır: SMPL-X vücut modeli.

SMPL-X, bir görüntüdeki tüm insan vücudu üzerinde, hacimsel bir kılavuz olarak ağı kullanarak poz farkında manipülasyona olanak sağlamak için tahmini poz ve ifadeyle hizalanan bir parametrik ağ uygular. Kaynak: https://arxiv.org/pdf/1904.05866

SMPL-X, bir görüntüdeki tüm insan vücudu üzerinde parametrik bir ağ uygular, tahmini poz ve ifadeyle hizalayarak, ağı hacimsel bir kılavuz olarak kullanarak poz farkında manipülasyona olanak tanır. Kaynak: https://arxiv.org/pdf/1904.05866

Bu çıktılardan, anahtar eklemler seçilir, 2B'ye yansıtılır ve çizgi tabanlı iskelet haritalarına bağlanır. Gibi yöntemlerin aksine Şampiyon, tüm vücudu kapsayan ağlar oluşturan bu yaklaşım, önceden tanımlanmış şekil önceliklerini empoze etmekten kaçınır ve yalnızca iskelet yapısına güvenerek, modelin vücut şeklini ve görünümünü doğrudan referans görüntülerden çıkarsaması teşvik edilir, bu da sabit vücut tiplerine yönelik önyargıyı azaltır ve çeşitli pozlar ve yapılar arasında genellemeyi iyileştirir.

Eğitim sırasında, 3 boyutlu vücut iskeletleri baş küreleriyle birleştirilir ve bir poz kodlayıcıdan geçirilir; bu da çıktı verir Özellikler Daha sonra, Difüzyon Transformatörü tarafından kullanılan gürültü belirteçlerini üretmek için gürültülü video latentleriyle birleştirilir.

Çıkarım zamanında, sistem kemik uzunluklarını normalleştirerek denekler arasındaki iskelet farklılıklarını hesaba katar. TohumDüzenle önceden eğitilmiş görüntü düzenleme modeli hem referans hem de sürüş görüntülerini standart bir görüntüye dönüştürür kanonik yapılandırma. RTMPoz Daha sonra iskelet oranları çıkarılarak referans öznenin anatomisine uyacak şekilde sürüş iskeleti ayarlanır.

Çıkarım boru hattının genel görünümü. Görünüş ipuçlarını zenginleştirmek için sözde referanslar üretilebilirken, hibrit kontrol sinyalleri (örtük yüz hareketi ve baş kürelerinden ve vücut iskeletlerinden açık poz) sürüş videosundan çıkarılır. Bunlar daha sonra, yüz hareketinin vücut pozundan ayrıştırıldığı ve sesin sürücü olarak kullanılmasına olanak tanıyan animasyonlu çıktı üretmek için bir DiT modeline beslenir.

Çıkarım boru hattının genel görünümü. Görünüş ipuçlarını zenginleştirmek için sözde referanslar üretilebilirken, hibrit kontrol sinyalleri (örtük yüz hareketi ve baş kürelerinden ve vücut iskeletlerinden açık poz) sürüş videosundan çıkarılır. Bunlar daha sonra, yüz hareketinin vücut pozundan ayrıştırıldığı ve sesin sürücü olarak kullanılmasına olanak tanıyan animasyonlu çıktı üretmek için bir DiT modeline beslenir.

Görünüm Rehberliği

Özellikle örtülü veya nadiren görülebilen alanlarda görünüm doğruluğunu artırmak için sistem, birincil referans görüntüsünü giriş videosundan örneklenen sözde referanslarla destekler.

Oynamak için tıklayınSistem, örtülü bölgeleri doğru ve tutarlı bir şekilde işleme ihtiyacını öngörüyor. Bu, bu tür bir projede gördüğüm kadarıyla CGI tarzı bitmap doku yaklaşımına en yakın olanı.

Bu ek kareler, RTMPose kullanılarak poz çeşitliliği açısından seçilir ve öznenin kimliğiyle tutarlı kalmalarını sağlamak için CLIP tabanlı benzerlik kullanılarak filtrelenir.

Tüm referans çerçeveleri (birincil ve sözde) aynı görsel kodlayıcı tarafından kodlanır ve bir öz-dikkat mekanizmasıyla birleştirilir, bu da modelin tamamlayıcı görünüm ipuçlarına erişmesine olanak tanır. Bu kurulum, profil görünümleri veya uzuv dokuları gibi ayrıntıların kapsamını iyileştirir. Sözde referanslar her zaman eğitim sırasında ve isteğe bağlı olarak çıkarım sırasında kullanılır.

Eğitim

DreamActor, karmaşıklığı kademeli olarak artırmak ve kararlılığı artırmak için üç aşamada eğitildi.

İlk aşamada, yüz temsilleri hariç olmak üzere yalnızca 3 boyutlu vücut iskeletleri ve 3 boyutlu baş küreleri kontrol sinyalleri olarak kullanıldı. Bu, başlatılan temel video oluşturma modeline izin verdi MMDıT, ince ayarlı kontrollerle boğulmadan insan animasyonuna uyum sağlamak.

İkinci aşamada örtük yüz temsilleri eklendi, ancak diğer tüm parametreler dondurulmuşBu noktada yalnızca yüz hareketi kodlayıcı ve yüz dikkat katmanları eğitildi ve bu sayede modelin ifade edici ayrıntıları izole bir şekilde öğrenmesi sağlandı.

Son aşamada, görünüm, poz ve yüz dinamikleri genelinde ortak optimizasyon için tüm parametreler çözüldü.

Veriler ve Testler

Test aşaması için model, önceden eğitilmiş bir görüntü-video DiT kontrol noktasından başlatılır ve üç aşamada eğitim verildi: İlk iki aşamada her biri 20,000 adım, üçüncü aşamada ise 30,000 adım.

Geliştirmek genelleme farklı süreler ve çözünürlüklerde, video klipler 25 ila 121 kare arasındaki uzunluklarda rastgele örneklendi. Bunlar daha sonra en boy oranını koruyarak 960x640 piksele yeniden boyutlandırıldı.

Sekiz ( üzerinde eğitim gerçekleştirildiÇin odaklı) Her biri 20 GB VRAM'e sahip NVIDIA H96 GPU'ları, AdamW (oldukça yüksek) bir optimizasyon aracı öğrenme oranı 5e−6'nın.

Çıkarımda, her video segmenti 73 kare içeriyordu. Segmentler arasında tutarlılığı korumak için, bir segmentten gelen son latent, bir sonraki için başlangıç ​​latent'i olarak yeniden kullanıldı; bu da görevi ardışık görüntü-video oluşturma olarak bağlamlandırır.

Sınıflandırıcı içermeyen rehberlik Hem referans görüntüler hem de hareket kontrol sinyalleri için 2.5 ağırlık uygulandı.

Yazarlar, çeşitli alanlardan alınan 500 saatlik videodan oluşan bir eğitim veri seti oluşturdular (makalede hiçbir kaynak belirtilmemiştir) ve (diğerlerinin yanı sıra) dans, spor, film ve halk önünde konuşma örnekleri içeriyordu. Veri seti, tam vücut ve yarım vücut çekimleri arasında eşit bir dağılımla, geniş bir insan hareketi ve ifadesi spektrumunu yakalamak için tasarlandı.

Yüz sentez kalitesini artırmak için, Ners topluluğu veri hazırlama sürecine dahil edildi.

DreamActor için verileri artırmak amacıyla kullanılan Nersemble veri kümesinden örnekler. Kaynak: https://www.youtube.com/watch?v=a-OAWqBzldU

DreamActor için verileri zenginleştirmek amacıyla kullanılan Nersemble veri setinden örnekler. Kaynak: https://www.youtube.com/watch?v=a-OAWqBzldU

Değerlendirme için araştırmacılar, çeşitli senaryolar arasında genellemeyi değerlendirmek amacıyla veri setlerini bir ölçüt olarak da kullandılar.

Modelin performansı önceki çalışmalardan alınan standart metrikler kullanılarak ölçüldü: Fréchet Başlangıç ​​Mesafesi (UYG); Yapısal Benzerlik Endeksi (SSM); Öğrenilmiş Algısal Görüntü Yama Benzerliği (LPIP'ler); ve Tepe Sinyal-Gürültü Oranı (PSNR) kare düzeyinde kalite için. Fréchet Video Mesafesi (FVD) zamansal tutarlılığı ve genel video sadakatini değerlendirmek için kullanıldı.

Yazarlar, tek bir (hedef) referans görüntü kullanarak hem vücut animasyonu hem de portre animasyonu görevlerinde deneyler yürüttüler.

Vücut animasyonu için DreamActor-M1, Animate Anyone; Champ ile karşılaştırıldı; Taklit Hareketi, ve Atmak.

Rakip çerçevelere karşı nicel karşılaştırmalar.

Rakip çerçevelere karşı nicel karşılaştırmalar.

PDF'te görsel karşılaştırma için statik bir görüntü sunulsa da, proje sahasından alınan videolardan biri farklılıkları daha net bir şekilde ortaya koyabilir:

SESLİ İÇERİK. Oynamak için tıklayınChallenger çerçeveleri arasında görsel bir karşılaştırma. Sürüş videosu sol üstte görülüyor ve yazarların DreamActor'ın en iyi sonuçları ürettiği sonucuna varması makul görünüyor.

Portre animasyon testleri için model LivePortrait ile karşılaştırıldı; X-Portre; SkyReels-A1; ve Birinci Perde.

Portre animasyonu için nicel karşılaştırmalar.

Portre animasyonu için nicel karşılaştırmalar.

Yazarlar, yöntemlerinin nicel testlerde başarılı olduğunu ve nitel olarak da üstün olduğunu ileri sürüyorlar.

SESLİ İÇERİK. Oynatmak için tıklayınPortre animasyon karşılaştırmalarına örnekler.

Yukarıdaki videoda gösterilen kliplerin üçüncüsü ve sonuncusunun, birkaç rakip çerçeveye kıyasla daha az ikna edici bir dudak senkronizasyonu sergilediği iddia edilebilir, ancak genel kalite dikkate değer derecede yüksektir.

Sonuç

Bu yeniden yaratmaları besleyen tek hedef görüntüde ima edilen ancak gerçekte mevcut olmayan dokulara olan ihtiyacı öngörerek, ByteDance difüzyon tabanlı video üretiminin karşılaştığı en büyük zorluklardan biri olan tutarlı, kalıcı dokuları ele aldı. Böyle bir yaklaşımı mükemmelleştirdikten sonraki mantıksal adım, LoRA'lar olmadan görünümü korumak için sonraki farklı nesillere uygulanabilecek, başlangıçta oluşturulan klipten bir referans atlası oluşturmak olacaktır.

Böyle bir yaklaşım aslında hâlâ harici bir referans olsa da, bu geleneksel CGI tekniklerindeki doku eşlemesinden farklı değildir ve gerçekçilik ve makul olma kalitesi, eski yöntemlerin elde edebileceğinden çok daha yüksektir.

Bununla birlikte DreamActor'ın en etkileyici yönü, yüz odaklı ve vücut odaklı insan sentezi arasındaki geleneksel uçurumu ustaca bir şekilde kapatan, üç parçalı birleşik rehberlik sistemidir.

Bu temel prensiplerden bazılarının daha erişilebilir tekliflerde kullanılıp kullanılamayacağını görmek için beklemek gerekiyor; DreamActor şu anki haliyle, kullanım kısıtlamaları ve ticari bir mimariyle kapsamlı deneyler yapmanın pratik olmayışı nedeniyle, bir başka sentez hizmeti teklifi haline gelmeye mahkum görünüyor.

 

* Yazarlar için hiper bağlantıların benim tarafımdan değiştirilmesi; satır içi alıntılar

Daha önce de belirtildiği gibi bu projede Stable Diffusion aromasının nasıl kullanıldığı net değildir.

İlk yayın tarihi Cuma, 4 Nisan 2025

Makine öğrenimi yazarı, insan görüntü sentezi alanında uzman. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel sitesi: martinanderson.ai
İletişim [e-posta korumalı]
Twitter: @manders_ai