Connect with us

Anderson’un Açısı

İnsan Sürüklenen AI Videosunda Önemli Bir İlerleme

mm
Examples from the DreamActor project page.

Not: Bu çalışmanın proje sayfası, toplamda yarım gigabayt boyutunda 33 otomatik oynayan yüksek çözünürlüklü video içermektedir ve bu, sistemi yüklerken sistemi destabilize etti. Bu nedenle, doğrudan bağlantısını vermeyeceğim. Okuyucular, paper’ın özeti veya PDF’sinde URL’yi bulabilirler.

Video sentezleme araştırmalarında birincil hedeflerden biri, tek bir görüntüden tam AI sürüklenen video performansı oluşturmaktır. Bu hafta, Bytedance Intelligent Creation’dan yeni bir makale, bu türün şimdiye kadarki en kapsamlı sistemi olabilecek birthing, tam ve yarı vücut animasyonlarını üretebilen, ifadeci yüz ayrıntılarını büyük ölçekli hareketle birleştiren ve ayrıca geliştirilmiş kimlik tutarlılığı sağlayan bir sistem tanıttı – bu, даже lider ticari sistemlerin sık sık düştüğü bir alandır.

Aşağıdaki örnekte, bir aktör (en üstte sol) tarafından sürüklenen ve tek bir görüntüden (en üstte sağ) türetilen bir performansı görüyoruz, bu, şaşırtıcı bir şekilde esnek ve yetenekli bir rendering sunuyor, büyük hareketleri oluşturma veya “gizli” alanlar hakkında tahminlerde bulunma etrafındaki обыч sorunlar olmadan.

SES İÇERİĞİ. Oynatmak için tıklayın. Bir performans, iki kaynaktan doğar, bunlar arasında lip-sync bulunur, bu genellikle ayrıntılandırılmış yardımcı sistemlerin ayrıcalığıdır. Bu, kaynak sitesinden (makalenin başında belirtilen not applies to tüm diğer gömülü videolara da uygulanır) azaltılmış bir sürümdür.

Her bir klipte kimlik tutarlılığının sürmesi konusunda bazı kalıntı zorluklar görebiliriz, ancak bu, LoRAs kullanmadan genellikle (her zaman değil) kimliği sürdürmeyi başaran ilk sistemdir:

SES İÇERİĞİ. Oynatmak için tıklayın. DreamActor projesinden daha fazla örnek.

Yeni sistem, DreamActor olarak adlandırılmaktadır ve yüz ifadesine, baş dönmesine ve core iskelet tasarımına özel dikkat gösteren üç parçalı hibrit kontrol sistemi kullanır, böylece AI sürüklenen performanslarda neither yüz neither vücut yönü diğerinin maliyetine gitmeden gerçekleştirilir – bu, benzer sistemler arasında nadir, belki de bilinmeyen bir yetenektir.

Aşağıda, bu yönlerden birinin, baş dönmesinin, eylemde olduğunu görüyoruz. Her bir mini resmin sağ köşesindeki renklendirilmiş top, sanal bir gimbal’ı temsil eder, bu, yüz hareketi ve ifadesinden bağımsız olarak baş yönünü tanımlar, bu, bir aktör (en altta sol) tarafından sürüklenmektedir.

Oynatmak için tıklayın. Burada görselleştirilen çok renkli top, avatarın başının dönme ekseni temsil eder, ifade ise ayrı bir modül tarafından güçlendirilir ve bir aktörün performansı (burada en solda görüldüğü gibi) tarafından bilgilendirilir.

Projenin en ilginç özelliklerinden biri, makaledeki testlerde uygun bir şekilde dahil edilmeyen, ses hareketini doğrudan sesden türetme kapasitesidir – bu, genellikle bir aktör videosu olmadan bile olağanüstü bir şekilde iyi çalışır.

Araştırmacılar, bu alanda en iyi mevcut sistemlerle, çok övgü alan Runway Act-One ve LivePortrait ile karşılaştırmışlar ve DreamActor’un daha iyi nicel sonuçlar elde edebildiğini bildirmişlerdir.

Nicel sonuçlar, araştırmacıların kendi kriterlerini belirleyebileceği için mutlak bir standart değildir; ancak eşlik eden nitel testler, yazarların sonuçlarını desteklemekte görünmektedir.

Maalesef, bu sistem kamu sürümü için amaçlanmamıştır ve topluluğun bu çalışmadan potentially elde edebileceği tek değer, makalede açıklanan metodolojileri potentially yeniden üretmektir (bu, 2022’de eşit olarak kapalı kaynaklı Google Dreambooth için yapıldı).

Makalede denir*:

‘İnsan görüntü animasyonu, sahte videolar oluşturmak gibi sosyal riskler içerir. Önerilen teknoloji, insanların sahte videolarını oluşturmak için kullanılabilir, ancak mevcut algılama araçları [Demamba, Dormant] bu sahteleri tespit edebilir.

‘Bu riskleri azaltmak için, açık etik kuralları ve sorumlu kullanım rehberleri gerekli. Temel modellerimize ve kodlarımıza erişimi kısıtlamak için sıkı önlemler alacağız.

Doğal olarak, bu tür etik考虑ler, ticari açıdan uygun olmakla birlikte, modelin API-only erişimini sağlar ve bu da para kazanılabilir. ByteDance, 2025 yılında OmniHuman’ı Dreamina web sitesinde ödenen krediler için kullanılabilir hale getirerek bunu zaten bir kez yaptı. Dolayısıyla, DreamActor’un muhtemelen daha güçlü bir ürün olduğu için, bu muhtemelen sonucu olacaktır. Kalan, makalede açıklanan ilkelerin, açık kaynak topluluğuna nasıl yardımcı olabileceğini görmektir.

Yeni makale, DreamActor-M1: Holistik, İfade Edici ve Dayanıklı İnsan Görüntü Animasyonu ile Hibrit Rehberlik olarak adlandırılmaktadır ve Bytedance’dan altı araştırmacının eseridir.

Yöntem

Makalede önerilen DreamActor sistemi, bir referans görüntüsünden ve bir sürükleyici videodan insan animasyonu oluşturmak için, Diffusion Transformer (DiT) çerçevesini kullanır, bu, latent uzayda (görünüşte Stable Diffusion’un bir türü, ancak makale sadece 2022 landmark release publication’a atıfta bulunmaktadır).

DiT’nin omurgasına doğrudan entegre ederek, referans koşullandırma için dış modüllere güvenmek yerine, yazarlar görünüm ve hareket özelliklerini birleştirir, böylece uzay ve zaman boyunca dikkat ile etkileşim sağlar:

Yeni sistemin şeması: DreamActor, poz, yüz hareketi ve görünümü ayrı latents'lere kodlar, bunları 3D VAE tarafından üretilen gürültülü video latents ile birleştirir. Bu sinyaller, paylaşılan ağırlıklara sahip dallar boyunca self- ve cross-attention kullanarak DiT içinde birleştirilir. Model, temiz video latents ile karşılaştırılarak denoised çıkışlar tarafından denetlenir.

Yeni sistemin şeması: DreamActor, poz, yüz hareketi ve görünümü ayrı latents’lere kodlar, bunları 3D VAE tarafından üretilen gürültülü video latents ile birleştirir. Bu sinyaller, paylaşılan ağırlıklara sahip dallar boyunca self- ve cross-attention kullanarak DiT içinde birleştirilir. Model, temiz video latents ile karşılaştırılarak denoised çıkışlar tarafından denetlenir. Kaynak: https://arxiv.org/pdf/2504.01724

Bunu yapmak için, model, hem girdi videosunu hem de referans görüntüsünü kodlamak için önceden eğitilmiş bir 3D varyasyonel oto-encoder kullanır. Bu latents, parçalanır, birleştirilir ve DiT’ye girdi olarak verilir, bu da onları birlikte işler.

Bu mimari, referans enjeksiyonu için ikincil bir ağa bağlama uygulamasından uzaklaşır, bu, Animate Anyone ve Animate Anyone 2 projeleri için kullanılan yaklaşımdı.

Bunun yerine, DreamActor, birleştirme işlemini ana modele kendisi entegre eder, böylece tasarımı basitleştirir ve görünüm ve hareket ipuçları arasındaki bilgi akışını geliştirir. Model, ardından akış eşleştirme yerine standart difüzyon nesnesi kullanılarak eğitilir (Akış eşleştirme, difüzyon modellerini doğrudan veri ve gürültü arasındaki hız alanlarını tahmin ederek eğitir, bu da puan tahmini atlar).

Hibrit Hareket Rehberliği

Hibrit Hareket Rehberliği yöntemi, nöral renderings’i bilgilendirir ve 3D vücut iskeletlerinden ve baş kürelerinden türetilen poz token’lerini, implicit yüz temsilcileriyle birleştirir ve referans görünüm token’lerini kaynak görüntüsünden örnekler.

Bu öğeler, ayrı dikkat mekanizmaları kullanarak DiT içinde entegre edilir, böylece sistem, global hareket, yüz ifadesi ve görsel kimliği, tüm üretim süreci boyunca koordine edebilir.

İlk olarak, yüz ifadesi oluşturma rehberliği için, yüz landmarks’a güvenmek yerine, DreamActor, implicit yüz temsilcilerini kullanır, bu da yüz dinamikleri üzerinde daha ince bir kontrol sağlar ve kimlik ve baş pozunu ifadeden ayırmaya olanak tanır.

Bu temsilcileri oluşturmak için, işlem önce sürükleyici videonun her bir karesindeki yüz bölgesini algılar ve 224×224 boyutuna yeniden boyutlandırır. Kesilmiş yüzler, PD-FGC veri kümesi üzerinde önceden eğitilmiş bir yüz hareketi kodlayıcısı tarafından işlenir, bu da bir MLP katmanı tarafından koşullandırılır.

PD-FGC, DreamActor'da kullanılan, bir referans görüntüsünden konuşan bir baş oluşturur, dudak senkronizasyonu (sesden), baş pozisyonu, göz hareketi ve ifade (ayrı videolardan) üzerinde ayrıntılandırılmış kontrol sağlar, her birini bağımsız olarak manipüle etmesini sağlar.

PD-FGC, DreamActor’da kullanılan, bir referans görüntüsünden konuşan bir baş oluşturur, dudak senkronizasyonu (sesden), baş pozisyonu, göz hareketi ve ifade (ayrı videolardan) üzerinde ayrıntılandırılmış kontrol sağlar, her birini bağımsız olarak manipüle etmesini sağlar. Kaynak: https://arxiv.org/pdf/2211.14506

Sonuç, bir dizi yüz hareketi token’idir, bu token’ler, bir cross-attention katmanı aracılığıyla DiT’ye enjekte edilir.

Aynı çerçeve, ayrıca bir ses sürüklenen varyantını da destekler, burada ayrı bir kodlayıcı, ses girişini doğrudan yüz hareketi token’lerine haritalar, bu da senkronize yüz animasyonu oluşturulmasına, dudak hareketleri dahil olmak üzere, sürükleyici video olmadan olanak tanır.

SES İÇERİĞİ. Oynatmak için tıklayın. Sesden türetilen dudak senkronizasyonu, bir aktör referansı olmadan. Tek karakter girişi, sağ üstte görünen statik fotoğraftır.

İkincisi, yüz ifadesinden bağımsız olarak baş pozunu kontrol etmek için, sistem bir 3D baş küresi temsilini tanıtır (bu makaledeki daha önce gömülü videoyu görün), bu, yüz dinamikleri ile global baş hareketini ayırmaya olanak tanır, animasyon sırasında doğruluk ve esneklik sağlar.

Baş küreleri, FaceVerse izleme yöntemi kullanılarak sürükleyici videodan 3D yüz parametreleri çıkarılarak oluşturulur.

FaceVerse projesinin şeması. Kaynak: https://www.liuyebin.com/faceverse/faceverse.html

FaceVerse projesinin şeması. Kaynak: https://www.liuyebin.com/faceverse/faceverse.html

Bu parametreler, 2D görüntü düzleminde uzaysal olarak hizalanmış ve başın boyutuna uygun bir renk küresini oluşturmak için kullanılır. Kürenin rengi, başın yönünü yansıtır. Bu soyutlama, 3D baş hareketi öğrenme karmaşıklığını azaltmaya yardımcı olur ve stilize edilmiş veya abartılmış baş şekillerini karakterlerde koruyabilir.

Kontrol küresinin baş yönünü etkilemesi görselleştirilmesi.

Kontrol küresinin baş yönünü etkilemesi görselleştirilmesi.

Son olarak, tam vücut hareketini rehberlik etmek için, sistem 3D vücut iskeletlerini uyarlanabilir kemik uzunluğu normalizasyonu ile kullanır. Vücut ve el parametreleri, 4DHumans ve el odaklı HaMeR kullanılarak tahmin edilir, her ikisi de SMPL-X vücut modeli üzerinde çalışır.

SMPL-X, bir görüntüdeki tam vücut üzerinde parametrik bir mesh uygular, tahmini poz ve ifade ile hizalanır ve mesh'i bir hacimsel rehber olarak kullanarak poz-bilinçli manipülasyonu sağlar. Kaynak: https://arxiv.org/pdf/1904.05866

SMPL-X, bir görüntüdeki tam vücut üzerinde parametrik bir mesh uygular, tahmini poz ve ifade ile hizalanır ve mesh’i bir hacimsel rehber olarak kullanarak poz-bilinçli manipülasyonu sağlar. Kaynak: https://arxiv.org/pdf/1904.05866

Bu çıktılardan, ana eklemler seçilir, 2D’ye projekte edilir ve çizgi tabanlı iskelet haritalarına bağlanır. Champ gibi yöntemlerin aksine, bu yaklaşım, önceden tanımlanmış şekil ön yargılarını dayatmaktan kaçınır ve yalnızca iskelet yapısına güvenerek, modelin vücut şekli ve görünümünü doğrudan referans görüntülerden çıkarmasını sağlar, bu da önyargıyı azaltır ve çeşitli pozlar ve yapılar boyunca genellemeyi geliştirir.

Eğitim sırasında, 3D vücut iskeletleri, baş küreleriyle birleştirilir ve bir poz kodlayıcısına geçirilir, bu da DiT tarafından kullanılan gürültülü video latents’i üretmek için kullanılan özellikler çıkışı verir.

Çıktı zamanında, sistem, kemik uzunluğu normalize ederek konu arasındaki iskelet farklılıklarını hesaba katar. SeedEdit önceden eğitilmiş görüntü düzenleme modeli, hem referans hem de sürükleyici görüntüleri standart bir konfigürasyona dönüştürür. RTMPose, ardından iskelet oranlarını çıkarmak için kullanılır, bu da referans konusunun anatomisine uydurmak için sürükleyici iskeleti ayarlamak için kullanılır.

Çıktı pipeline'ın genel görünümü. Pseudo-referanslar, görünüm ipuçlarını zenginleştirmek için oluşturulabilir, hibrit kontrol sinyalleri - implicit yüz hareketi ve head küreleri ve vücut iskeletlerinden açık poz - sürükleyici videodan çıkarılır, ardından bir DiT modeline girdi olarak verilir, bu da yüz hareketinin vücut pozundan ayrıldığı animasyonlu çıktı üretir, sesin bir sürükleyici olarak kullanılmasına olanak tanır.

Çıktı pipeline’ın genel görünümü. Pseudo-referanslar, görünüm ipuçlarını zenginleştirmek için oluşturulabilir, hibrit kontrol sinyalleri – implicit yüz hareketi ve head küreleri ve vücut iskeletlerinden açık poz – sürükleyici videodan çıkarılır, ardından bir DiT modeline girdi olarak verilir, bu da yüz hareketinin vücut pozundan ayrıldığı animasyonlu çıktı üretir, sesin bir sürükleyici olarak kullanılmasına olanak tanır.

Görünüm Rehberliği

Görünüm sadakatini artırmak için, özellikle gizli veya nadiren görünen alanlarda, sistem birincil referans görüntüsünü, girdi videosundan örneklenen pseudo-referanslarla tamamlar.

Oynatmak için tıklayın. Sistem, gizli bölgeleri doğru ve tutarlı bir şekilde oluşturmanın gereğini öngörüyor. Bu, bu tür bir projede gördüğüm, bir CGI-stil bitmap-texture yaklaşımına en yakın şey.

Bu ek çerçeveler, RTMPose kullanarak poz çeşitliliği için seçilir ve CLIP tabanlı benzerlik menggunakan tutarlı kalmasını sağlamak için filtrelenir.

Tüm referans çerçeveleri (birincil ve pseudo), aynı görsel kodlayıcı tarafından kodlanır ve self-attention mekanizması aracılığıyla birleştirilir, bu da modelin komplementer görünüm ipuçlarına erişmesini sağlar. Bu ayar, profil görünümleri veya uzuv tekstürleri gibi ayrıntıların kapsamını geliştirir. Pseudo-referanslar her zaman eğitim sırasında ve isteğe bağlı olarak çıktı zamanında kullanılır.

Eğitim

DreamActor, karmaşıklığı dần dần tanıtmak ve stabiliteyi iyileştirmek için üç aşamada eğitilmiştir.

İlk aşamada, yalnızca 3D vücut iskeletleri ve 3D baş küreleri kontrol sinyalleri olarak kullanılmıştır, yüz temsilcileri hariç tutulmuştur. Bu, MMDiT’den başlatılan temel video oluşturma modelinin, yüz ifadesi gibi ince kontrolsüz olmadan insan animasyonuna uyum sağlamasını sağlar.

İkinci aşamada, implicit yüz temsilcileri eklendi, ancak diğer tüm parametreler donduruldu. Sadece yüz hareketi kodlayıcısı ve yüz dikkat katmanları bu noktada eğitildi, bu da modelin ifadesel ayrıntıları izole bir şekilde öğrenmesini sağlar.

Son aşamada, tüm parametreler birlikte optimize edilmek için açılır.

Veri ve Testler

Test aşamasında, model, önceden eğitilmiş bir görüntü-vidya DiT checkpoint’inden başlatılır ve üç aşamada eğitilir: ilk iki aşama için 20.000 adım ve üçüncü aşama için 30.000 adım.

Farklı süreler ve çözünürlükler boyunca genellemeyi iyileştirmek için, video klipleri 25 ila 121 kare arasında rasgele örneklenmiştir. Bunlar daha sonra 960x640px’ye yeniden boyutlandırılmış, ancak yön oranını korumuştur.

Eğitim, her biri 96GB VRAM ile sekiz (Çin odaklı) NVIDIA H20 GPU’sunda gerçekleştirildi, AdamW optimizatörü ve (hoş bir şekilde yüksek) 5e−6 öğrenme oranı kullanıldı.

Çıktı zamanında, her video segmenti 73 kare içerir. Segmentler arası tutarlılığı korumak için, bir segmentin son latenti, bir sonraki segmentin ilk latenti olarak yeniden kullanılır, bu da görevi sıralı görüntü-vidya oluşturma olarak bağlamlar.

Sınıflandırıcı-free rehberlik, hem referans görüntüleri hem de hareket kontrol sinyalleri için 2.5 ağırlığıyla uygulanmıştır.

Araştırmacılar, dans, spor, film ve halka konuşma gibi çeşitli alanlardan örnekleri içeren 500 saatlik video içeren bir eğitim veri kümesi oluşturdular. Veri kümesi, geniş bir insan hareketi ve ifade yelpazesini yakalamak üzere tasarlandı, tam vücut ve yarı vücut görüntüleri arasında eşit bir dağılım vardı.

Yüz sentez kalitesini artırmak için, Nersemble veri kümesi eğitim veri hazırlama sürecine dahil edildi.

Nersemble veri kümesinden örnekler, DreamActor için kullanılmıştır. Kaynak: https://www.youtube.com/watch?v=a-OAWqBzldU

Nersemble veri kümesinden örnekler, DreamActor için kullanılmıştır. Kaynak: https://www.youtube.com/watch?v=a-OAWqBzldU

Değerlendirme için, araştırmacılar kendi veri kümesini bir benchmark olarak kullandılar, çeşitli senaryolarda genellemeyi değerlendirmek için.

Modelin performansı, önceki çalışmalardan standart metriklerle ölçüldü: Fréchet Inception Distance (FID); Structural Similarity Index (SSIM); Learned Perceptual Image Patch Similarity (LPIPS); ve Peak Signal-to-Noise Ratio (PSNR) için kare düzeyinde kalite. Fréchet Video Distance (FVD) zamanlı tutarlılık ve genel video sadakatini değerlendirmek için kullanıldı.

Araştırmacılar, vücut animasyonu ve portre animasyonu görevleri üzerinde deneyler gerçekleştirdiler, tümü tek bir referans görüntüsünü kullandı.

Vücut animasyonu için, DreamActor-M1, Animate Anyone; Champ; MimicMotion; ve DisPose ile karşılaştırıldı.

Rakip çerçevelerle nicel karşılaştırmalar.

Rakip çerçevelerle nicel karşılaştırmalar.

PDF, statik bir görüntü olarak bir görsel karşılaştırma sağlar, ancak projenin web sitesindeki bir video, farklılıkları daha net bir şekilde vurgulayabilir:

SES İÇERİĞİ. Oynatmak için tıklayın. Rakip çerçeveler arasında görsel bir karşılaştırma. Sürükleyici video en üstte solda görünür ve yazarların DreamActor’un en iyi sonuçları ürettiği sonucuna varması makul görünmektedir.

Portre animasyonu testleri için, model LivePortrait; X-Portrait; SkyReels-A1; ve Act-One ile karşılaştırıldı.

Portre animasyonu için nicel karşılaştırmalar.

Portre animasyonu için nicel karşılaştırmalar.

Yazarlar, yöntemlerinin nicel testlerde kazandığını ve aynı zamanda nitel olarak üstün olduğunu belirtiyorlar.

SES İÇERİĞİ. Oynatmak için tıklayın. Portre animasyonu karşılaştırmaları örnekleri.

Argüman edilebilir ki, yukarıdaki videodaki üçüncü ve son klibin, bazı rakip çerçevelerle karşılaştırıldığında, dudak senkronizasyonu daha az ikna edicidir, ancak genel kalite şaşırtıcı derecede yüksektir.

Sonuç

Bu animasyonları besleyen tek görüntü tarafından gerçekten mevcut olmayan tekstürlerin ihtiyacını öngörerek, ByteDance, difüzyon tabanlı video oluşturmanın karşılaştığı en büyük zorluklardan birini, tutarlı ve sürekli tekstürleri, ele almıştır. Bu yaklaşımın mantıksal bir sonraki adımı, ilk oluşturulan klibin bir referans atlasını oluşturmak olacaktır, bu da sonraki, farklı oluşturmalar için uygulanabilir ve görünümü LoRAs olmadan koruyabilir.

Bu tür bir yaklaşım, aslında geleneksel CGI tekniklerindeki tekstür haritalamadan farklı değildir ve gerçekçilik ve inandırıcılık kalitesi, bu eski yöntemlerin elde edebileceğinden çok daha yüksektir.

Dedi ki, DreamActor’un en etkileyici yönü, geleneksel olarak yüz odaklı ve vücut odaklı insan sentezinin arasındaki ayrımı, akıllıca bir şekilde köprüleyen birleşik üç parçalı rehberlik sistemidir.

Şimdi, bu ilkelerin bazılarının, daha erişilebilir tekliflerde nasıl kullanılacağı görülmesi kaldı; şu anda, DreamActor, kullanım kısıtlamaları ve ticari bir mimarinin geniş çapta deneysel kullanımının uygunsuzluğu ile ciddi şekilde bağlı olan bir sentez-as-a-service teklifi haline gelmek üzere görünüyor.

* Yazarların yerine benim hyperlinks eklemem; satır içi alıntılar

Önceden de bahsedildiği gibi, bu projede hangi Stable Diffusion varyantının kullanıldığı belli değildir.

İlk olarak 4 Nisan 2025 Cuma günü yayınlandı

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]