Anderson’un Açısı

İnsanların Yönettiği AI Video’da Önemli Bir İlerleme

mm
Examples from the DreamActor project page.

Not: Bu çalışmanın proje sayfası, 33 otomatik oynayan yüksek çözünürlüklü videoyu içeriyor ve bunlar toplamda yarım gigabayt boyutunda. Bu nedenle, doğrudan bağlantıyı vermeyeceğim. Okuyucular, bu URL’yi makalenin özeti veya PDF’sinde bulabilirler.

Şu anda video sentezleme araştırmalarında birincil hedeflerden biri, tek bir görüntüden tam AI sürücünlü video performansı oluşturmaktır. Bu hafta, Bytedance Intelligent Creation’dan yeni bir makale, bu türün şimdiye kadar gördüğüm en kapsamlı sistemini sundu; bu sistem, tam ve yarı vücut animasyonlarını oluşturabiliyor, ifadeci yüz ayrıntılarını büyük ölçekli hareketle birleştirebiliyor ve ayrıca kimlik tutarlılığını iyileştiriyor – bu, even önde gelen ticari sistemlerin sık sık düştüğü bir alandır.

Aşağıdaki örnekte, bir aktör tarafından yönlendirilen (sol üst) ve tek bir görüntüden (sağ üst) türetilen bir performansı görüyoruz; bu, şaşırtıcı derecede esnek ve becerikli bir işleme sunuyor ve büyük hareketler oluşturma veya “gizli” alanlar hakkında “tahmin” yapma gibi sorunlar yok.

SES İÇERİĞİ. Oynatmak için tıklayın. Bir performans, iki kaynaktan doğar, bunlardan biri de normalde ayrı sistemlerin ayrıcalığı olan senkronize hareket.

Her ne kadar kimlik tutarlılığı konusunda bazı kalıntı zorluklar görülebilse de, bu, kimliği genellikle (her zaman değilse de) uzun bir süre boyunca korurken, LoRAs kullanmadan bunu başaran ilk sistem.

SES İÇERİĞİ. Oynatmak için tıklayın. DreamActor projesinden daha fazla örnek.

Yeni sistem, DreamActor, yüz ifadesine, baş dönmesine ve core iskelet tasarımına özel dikkat veren üç parçalı hibrit kontrol sistemi kullanıyor; böylece, AI sürücünlü performanslarda, yüz veya vücut yönünden hiçbirinin diğerinin giderine gitmediği bir dengelenme sağlanıyor – bu, benzer sistemler arasında nadir görülen veya bilinmeyen bir yetenek.

Aşağıda, bu yönlerden birinin, baş dönmesi, eylemde olduğunu görüyoruz. Her bir küçük resmin sağ tarafındaki renkli top, başın dönme eksenini bağımsız olarak tanımlayan sanal bir jimbalı temsil ediyor ve bu, yüz hareketinden ve ifadesinden bağımsız olarak işliyor.

Oynatmak için tıklayın. Bu çok renkli top, avatarın başının dönme eksenini temsil ediyor ve ifade, ayrı bir modül tarafından güçlendiriliyor ve bir aktörün performansı tarafından bilgilendiriliyor.

Projenin en ilgi çekici özelliklerinden biri, kağıdın testlerinde bile düzgün bir şekilde dahil edilmeyen, ses hareketini doğrudan sesden türetme yeteneğidir – bu, genellikle bir aktör videosu olmadan bile olağanüstü derecede iyi çalışır.

Araştırmacılar, bu alanda en iyilerle, özellikle de çok övgü alan Runway Act-One ve LivePortrait ile yarıştılar ve DreamActor’un daha iyi nicel sonuçlar elde ettiğini bildirdiler.

Nicel sonuçlar, araştırmacıların kendi kriterlerini belirleyebildiği için mutlak bir standart değil; ancak eşlik eden nitel testler, yazarların sonuçlarını destekler gibi görünüyor.

Maalesef, bu sistem kamu kullanımına açık değil ve topluluğun bu çalışmadan elde edebileceği tek değer, kağıdında açıklanan metodolojileri potentially yeniden üretmek (2022’de kapalı kaynaklı Google Dreambooth için yapıldığı gibi).

Makalede deniyor*:

‘İnsan görüntü animasyonu, sahte videolar oluşturmak gibi sosyal riskler içerir. Önerilen teknoloji, insanların sahte videolarını oluşturmak için kullanılabilir, ancak mevcut tespit araçları [Demamba, Dormant] bu sahtekarlıkları tespit edebilir.

‘Bu riskleri azaltmak için, net etik kuralları ve sorumlu kullanım kılavuzları gerekli. Core modellerimize ve kodlarımıza erişimi, suistimali önlemek için严格 olarak sınırlayacağız.’

Tabii ki, bu tür etik endişeleri, ticari bir bakış açisinden thuậnlıklıdır, çünkü API’ye erişim için bir gerekçe sağlar ve bu da modeli para karşılığında sunulabilir. ByteDance, 2025’te OmniHuman’ı Dreamina sitesinde ücretli krediler için sunarak bunu zaten bir kez yaptı. Dolayısıyla, DreamActor’un muhtemelen daha güçlü bir ürün olduğu için, bu muhtemelen benzer bir sonuç olacaktır. Kalan soru, kağıdında açıklanan ilkelerin, açık kaynak topluluğuna nasıl yardımcı olabileceğidir.

Yeni makale, DreamActor-M1: Holistik, İfade Edici ve Dayanıklı İnsan Görüntüsü Animasyonu ile Hibrit Rehberlik başlığını taşıyor ve Bytedance’tan altı araştırmacı tarafından yazıldı.

Yöntem

Makalede önerilen DreamActor sistemi, bir referans görüntüsünden ve bir sürücü videosundan insan animasyonu oluşturmak için, Diffusion Transformer (DiT) çerçevesini, gizil uzay için uyarladı (apparently bazı Stable Diffusion türü).

Dış modüllere başvurmak yerine referans koşullandırma için, yazarlar, görünüm ve hareket özelliklerini doğrudan DiT iskeletinin içine birleştirdiler, böylece uzay ve zaman boyunca dikkat yoluyla etkileşime izin verildi:

Yeni sistemin şeması: DreamActor, poz, yüz hareketi ve görünümü ayrı latents'e kodlar, bunları 3D VAE tarafından üretilen gürültülü video latents ile birleştirir. Bu sinyaller, paylaşılan ağırlıklara sahip dallar boyunca self- ve cross-attention kullanarak Diffusion Transformer içinde birleştirilir. Model, temiz video latents ile karşılaştırıldığında gürültüsüz çıkışları tarafından denetlenir.

Yeni sistemin şeması: DreamActor, poz, yüz hareketi ve görünümü ayrı latents’e kodlar, bunları 3D VAE tarafından üretilen gürültülü video latents ile birleştirir. Bu sinyaller, paylaşılan ağırlıklara sahip dallar boyunca self- ve cross-attention kullanarak Diffusion Transformer içinde birleştirilir. Model, temiz video latents ile karşılaştırıldığında gürültüsüz çıkışları tarafından denetlenir. Kaynak: https://arxiv.org/pdf/2504.01724

Bunu yapmak için, model, hem girdi videosunu hem de referans görüntüsünü kodlamak için önceden eğitilmiş bir 3D varyasyonel oto-encoder kullanır. Bu latents, patchified, birleştirilir ve DiT’ye beslenir, bunlar ortak olarak işlenir.

Bu mimari, referans enjeksiyonu için ikincil bir ağa bağlanma uygulamasından ayrılır, bu, Animate Anyone ve Animate Anyone 2 projeleri için kullanılan yaklaşımdı.

DreamActor, bu birleşmeyi ana modele kendisi entegre ediyor, böylece tasarımı basitleştirirken, görünüm ve hareket ipuçları arasındaki bilgi akışını güçlendiriyor. Model, akış eşleştirmesi kullanılarak eğitilir, standart difüzyon nesnesi değil (Akış eşleştirmesi, veri ve gürültü arasındaki hız alanlarını doğrudan tahmin ederek difüzyon modellerini eğitir, puan tahmini atlar).

Hibrit Hareket Rehberliği

Hibrit Hareket Rehberliği yöntemi, nöral renderings’i bilgilendiren, 3D vücut iskeletlerinden türetilen poz tokenlerini; önceden eğitilmiş bir yüz kodlayıcısı tarafından çıkarılan açık yüz temsilini; ve kaynak görüntüsünden örneklenen referans görünüm tokenlerini birleştirir.

Bunlar, Diffusion Transformer içinde ayrı dikkat mekanizmaları kullanılarak entegre edilir, böylece sistem, global hareket, yüz ifadesi ve görsel kimlik arasındaki koordinasyonu sağlar.

Bunlardan ilki için, DreamActor, yüz ifadesi oluşturmak için yüz özellikleri yerine açık yüz temsilini kullanır, bu da yüz dinamikleri üzerinde daha ince bir kontrol sağlar ve kimliği ve baş pozisyonunu ifadeden ayırır.

Bu temsilin oluşturulması için, işlem 먼저 sürücü videosunun her bir çerçevesindeki yüz bölgesini tespit eder ve 224×224’e yeniden boyutlandırır. Kesilmiş yüzler, PD-FGC veri kümesi üzerinde önceden eğitilmiş bir yüz hareket kodlayıcısı tarafından işlenir, daha sonra bir MLP katmanı tarafından koşullandırılır.

PD-FGC, DreamActor'da kullanılan, bir referans görüntüsünden konuşan bir baş oluşturur, ses senkronizasyonu (seslerden), baş pozisyonu, göz hareketi ve ifade (ayrı videolardan) için ayrıntılı kontrol sağlar.

PD-FGC, DreamActor’da kullanılan, bir referans görüntüsünden konuşan bir baş oluşturur, ses senkronizasyonu (seslerden), baş pozisyonu, göz hareketi ve ifade (ayrı videolardan) için ayrıntılı kontrol sağlar. Kaynak: https://arxiv.org/pdf/2211.14506

Sonuç, yüz hareket tokenlerinin bir dizisidir, bunlar bir cross-attention katmanı aracılığıyla Diffusion Transformer’a enjekte edilir.

Aynı çerçeve, ayrıca ses girişini doğrudan yüz hareket tokenlerine eşleyen ayrı bir kodlayıcı tarafından eğitilen bir ses sürümlü varyantını da destekler. Bu, aktör videosu olmadan senkronize yüz animasyonu oluşturmayı mümkün kılar.

SES İÇERİĞİ. Oynatmak için tıklayın. Sesden türetilen ses senkronizasyonu, aktör videosu olmadan. Tek karakter girişi, sağ üstte görünen statik fotoğraftır.

İkincisi, yüz ifadesinden bağımsız olarak baş pozisyonunu kontrol etmek için, sistem bir 3D baş küresi temsilini tanıtır (bu makalede daha önce gömülen videoyu görün), bu, yüz dinamikleri ile global baş hareketini ayırır, animasyon sırasında hassasiyet ve esnekliği artırır.

Baş küreleri, FaceVerse izleme yöntemi kullanılarak sürücü videosundan 3D yüz parametreleri çıkarılarak oluşturulur.

FaceVerse projesinin şeması. Kaynak: https://www.liuyebin.com/faceverse/faceverse.html

FaceVerse projesinin şeması. Kaynak: https://www.liuyebin.com/faceverse/faceverse.html

Bu parametreler, 2D görüntü düzleminde sürücü başıyla uzaysal olarak hizalanmış ve başın boyutuna uygun bir renk küresini oluşturmak için kullanılır. Kürenin rengi, başın yönünü yansıtır. Bu soyutlama, 3D baş hareketinin öğrenilme karmaşıklığını azaltır ve stilize edilmiş veya abartılmış baş şekillerini karakter animasyonlarında korumaya yardımcı olur.

Baş yönünü etkileyen kontrol küresinin görselleştirilmesi.

Baş yönünü etkileyen kontrol küresinin görselleştirilmesi.

Son olarak, tam vücut hareketini yönlendirmek için, sistem, adaptif kemik uzunluğu normalize eden 3D vücut iskeletlerini kullanır. Vücut ve el parametreleri, 4DHumans ve el odaklı HaMeR kullanılarak tahmin edilir, her ikisi de SMPL-X vücut modelinde çalışır.

SMPL-X, bir görüntüdeki tam insan vücuduna parametrik bir ağ örer, tahmini poz ve ifade ile hizalanır ve mesh'i bir hacimsel rehber olarak kullanarak poz-bilinçli manipülasyonu sağlar.

SMPL-X, bir görüntüdeki tam insan vücuduna parametrik bir ağ örer, tahmini poz ve ifade ile hizalanır ve mesh’i bir hacimsel rehber olarak kullanarak poz-bilinçli manipülasyonu sağlar. Kaynak: https://arxiv.org/pdf/1904.05866

Bu çıktılardan, ana eklemler seçilir, 2B’ye projekte edilir ve çizgi tabanlı iskelet haritalarına bağlanır. Champ gibi yöntemlerin aksine, tam vücut mesh’leri oluşturan bu yaklaşım, önceden tanımlanmış şekil öncüllerini dayatmaktan kaçınır ve yalnızca iskelet yapısına güvenerek, modelin vücut şekli ve görünümünü doğrudan referans görüntülerden çıkarmaya teşvik edilir, bu da önceden tanımlanmış vücut tiplerine yönelik önyargıyı azaltır ve çeşitli pozlar ve yapılar boyunca genellemeyi artırır.

Eğitim sırasında, 3D vücut iskeletleri, baş küreleriyle birleştirilir ve bir poz kodlayıcısına geçirilir, bu da Diffusion Transformer tarafından kullanılan gürültü tokenlerini üretmek için gürültülü video latents ile birleştirilen özellikler çıkarır.

Çıktı zamanında, sistem, kemik uzunluğu normalize ederek konular arasındaki iskelet farklılıklarını hesaba katar. SeedEdit önceden eğitilmiş görüntü düzenleme modeli, hem referans hem de sürücü görüntülerini standart bir kanonik konfigürasyona dönüştürür. RTMPose daha sonra iskeletsel oranları çıkarmak için kullanılır, bunlar sürücü iskeletini referans konunun anatomisine uydurmak için kullanılır.

Çıktı işlem hattının genel görünümü. Sahte referanslar, görünüm ipuçlarını zenginleştirmek için oluşturulabilir, hibrit kontrol sinyalleri - açık yüz hareketi ve baş küreleri ve vücut iskeletlerinden açık poz - sürücü videosundan çıkarılır. Bunlar daha sonra DiT modeline beslenir ve yüz hareketi vücut pozundan ayrılmış olarak animasyonlu çıktı üretir, sesin sürücü olarak kullanılmasına izin verir.

Çıktı işlem hattının genel görünümü. Sahte referanslar, görünüm ipuçlarını zenginleştirmek için oluşturulabilir, hibrit kontrol sinyalleri – açık yüz hareketi ve baş küreleri ve vücut iskeletlerinden açık poz – sürücü videosundan çıkarılır. Bunlar daha sonra DiT modeline beslenir ve yüz hareketi vücut pozundan ayrılmış olarak animasyonlu çıktı üretir, sesin sürücü olarak kullanılmasına izin verir.

Görünüm Rehberliği

Görünüm Sadakatini artırmak için, özellikle de gizli veya nadiren görünen alanlarda, sistem birincil referans görüntüsünü, girdi videosundan örneklenen sahte referanslarla tamamlar.

Oynatmak için tıklayın. Sistem, occluded bölgeleri doğru ve tutarlı bir şekilde oluşturmayı öngörüyor. Bu, CGI-style bitmap-texture yaklaşımına benzer.

Bu ek çerçeveler, RTMPose kullanılarak poz çeşitliliği için seçilir ve CLIP tabanlı benzerlik kullanarak konu kimliğiyle tutarlı kalması için filtrelenir.

Tüm referans çerçeveleri (birincil ve sahte), aynı görsel kodlayıcı tarafından kodlanır ve self-attention mekanizması aracılığıyla birleştirilir, böylece model, tamamlayıcı görünüm ipuçlarına erişebilir. Bu kurulum, profil görünümleri veya uzuv metinleri gibi ayrıntıların kapsamını iyileştirir. Sahte referanslar her zaman eğitim sırasında ve isteğe bağlı olarak çıktı zamanında kullanılır.

Eğitim

DreamActor, karmaşıklığı dần dần tanıtmak ve stabiliteyi iyileştirmek için üç aşamada eğitildi.

İlk aşamada, yalnızca 3D vücut iskeletleri ve 3D baş küreleri kontrol sinyalleri olarak kullanıldı, yüz temsilini hariç tuttu. Bu, MMDiT tarafından başlatılan temel video oluşturma modelinin, insan animasyonu olmadan ince kontrolü tarafından bunaltılmadan adapte olmasını sağladı.

İkinci aşamada, açık yüz temsilini eklediler, ancak diğer tüm parametreleri dondurdular. Sadece yüz hareket kodlayıcısı ve yüz dikkat katmanları bu noktada eğitildi, böylece model, yüz ayrıntılarını izole ederek öğrenmeye başladı.

Son aşamada, tüm parametreler, görünüm, poz ve yüz dinamikleri boyunca ortak optimizasyon için serbest bırakıldı.

Veri ve Testler

Test aşamasında, model, önceden eğitilmiş bir görüntü-vidyaya DiT checkpoint’inden başlatılır ve üç aşamada eğitilir: ilk iki aşama için 20.000 adım ve üçüncü aşama için 30.000 adım.

Farklı süreler ve çözünürlükler boyunca genellemeyi iyileştirmek için, video klipleri 25 ila 121 çerçeve arasında rasgele örneklenerek seçildi. Bunlar daha sonra 960x640px’e yeniden boyutlandırıldı, ancak_aspect oranı korunur.

Eğitim, her biri 96GB VRAM ile donatılmış sekiz (Çin odaklı) NVIDIA H20 GPU’sunda, AdamW optimizatörü ve (hoş bir şekilde yüksek) öğrenme oranı 5e−6 ile gerçekleştirildi.

Çıktı zamanında, her video segmenti 73 çerçeve içeriyordu. Segmentler arasında tutarlılığı korumak için, bir segmentin son latenti, bir sonraki segmentin ilk latenti olarak yeniden kullanıldı, bu da görevi sıralı görüntü-vidya oluşturma olarak bağlamlı hale getirir.

Sınıflandırıcı-özgür rehberlik 2.5 ağırlığında hem referans görüntüleri hem de hareket kontrol sinyalleri için uygulandı.

Araştırmacılar, 500 saatlik video içeren bir eğitim veri kümesi oluşturdular (kağıtta belirtilen hiçbir kaynak yok), çeşitli alanlardan örnekler içerir: dans, spor, film ve halka konuşma. Veri kümesi, geniş bir insan hareketi ve ifade yelpazesini yakalamak ve tam vücut ve yarı vücut çekimlerini eşit olarak dağıtmak üzere tasarlandı.

Yüz sentez kalitesini artırmak için, Nersemble veri hazırlama sürecine dahil edildi.

DreamActor için kullanılan Nersemble veri kümesinden örnekler. Kaynak: https://www.youtube.com/watch?v=a-OAWqBzldU

DreamActor için kullanılan Nersemble veri kümesinden örnekler. Kaynak: https://www.youtube.com/watch?v=a-OAWqBzldU

Değerlendirme için, araştırmacılar, kendi veri kümesini, çeşitli senaryolarda genellemeyi değerlendirmek için bir referans olarak kullandılar.

Modelin performansı, önceki çalışmalardan standart metriklere göre ölçüldü: Fréchet Inception Distance (FID); Yapısal Benzerlik Endeksi (SSIM); Öğrenilen Algısal Görüntü Parçası Benzerliği (LPIPS); ve Zirve Sinyal- Gürültü Oranı (PSNR) için çerçeve düzeyinde kalite. Fréchet Video Distance (FVD), zamanlı tutarlılık ve genel video sadakatini değerlendirmek için kullanıldı.

Araştırmacılar, vücut animasyonu ve portre animasyonu görevleri üzerinde deneyler yaptılar, tümü tek bir referans görüntüsünü kullandı.

Vücut animasyonu için, DreamActor-M1, Animate Anyone; Champ; MimicMotion ve DisPose ile karşılaştırıldı.

Rakip çerçevelerle nicel karşılaştırmalar.

Rakip çerçevelerle nicel karşılaştırmalar.

PDF, görsel bir karşılaştırma olarak statik bir resim sunarken, projenin web sitesindeki bir video, bu farklılıkları daha net bir şekilde vurgulayabilir:

AUDIO CONTENT. Oynatmak için tıklayın. Rakip çerçeveler arasında görsel bir karşılaştırma. Sürücü videosu sol üstte ve yazarların DreamActor’un en iyi sonuçları ürettiği sonucuna varması makul görünüyor.

Portre animasyonu testleri için, model, LivePortrait; X-Portrait; SkyReels-A1 ve Act-One ile karşılaştırıldı.

Portre animasyonu için nicel karşılaştırmalar.

Portre animasyonu için nicel karşılaştırmalar.

Araştırmacılar, yöntemlerinin nicel testlerde kazandığını ve aynı zamanda niteliksel olarak üstün olduğunu iddia ediyorlar.

AUDIO CONTENT. Oynatmak için tıklayın. Portre animasyonu karşılaştırmalarından örnekler.

Arguably, yukarıda gösterilen videodaki üçüncü ve son klip, bazı rakip çerçevelerle karşılaştırıldığında daha az ikna edici bir ses senkronizasyonu sergiliyor, ancak genel kalite gerçekten etkileyici.

Sonuç

Bytedance, bu yeniden yaratımları besleyen tek hedef görüntüsünde gerçekten mevcut olmayan, ancak ima edilen tekstürlerin ihtiyacını öngörerek, difüzyon tabanlı video oluşturmanın karşılaştığı en büyük zorluklardan birini ele aldı – tutarlı, sürekli tekstürler. Bu yaklaşımın doğal bir sonraki adımı, bu tür bir yaklaşımı mükemmelleştirdikten sonra, ilk oluşturulan klip için bir referans atlası oluşturmak ve bunu sonraki, farklı oluşturmalar için uygulamaktır, böylece LoRAs olmadan görünümü koruyabilir.

Bu yaklaşım, aslında geleneksel CGI tekniklerindeki texture-mapping’e benzer, ancak gerçekçilik ve inandırıcılık kalitesi, bu eski yöntemlerin ulaşabileceğinden çok daha yüksektir.

DreamActor’un en etkileyici yönü, geleneksel yüz odaklı ve vücut odaklı insan sentezini köprüleyen üç parçalı rehberlik sistemidir.

Şimdi, bu ilkelerin bazılarının, daha erişilebilir tekliflerde nasıl kullanılabileceğini görmek kalıyor; DreamActor, kullanım kısıtlamaları ve ticari bir mimari ile geniş çaplı deneysel çalışmalara yönelik uygulamaların pratik olmaması nedeniyle, sentez-as-a-hizmet teklifine dönüşmeye mahkûm görünüyor.

 

* Yazarların yerine hiperlinklerin benim yerime ikamesi; satır içi alıntılar

Önceden de bahsedildiği gibi, bu projede hangi Stable Diffusion lezzetinin kullanıldığı açık değil.

İlk olarak Cuma, 4 Nisan 2025 tarihinde yayınlandı

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]