Anderson’un Açısı

Yeni bir Sistem için Zamansal Olarak Konsistent Stable Diffusion Video Karakterleri

mm
A capture from the project page of MIMO (https://menyifang.github.io/projects/MIMO/index.html), depicting a motion-driven wolf creature.

Alibaba Group’tan yeni bir girişim, Stable Diffusion tabanlı bir temel modelden tam vücutlu insan avatarları oluşturmak için gördüğüm en iyi yöntemlerden birini sunuyor.

Adı MIMO (MIMicking ile Object Interactions) olan sistem, CGI tabanlı insan modelleri ve AnimateDiff dahil olmak üzere popüler teknolojiler ve modüller kullanır. Bu sayede, videolarda zamansal olarak tutarlı karakter değişimi veya bir karakteri kullanıcı tanımlı iskeletsel bir pozisyonda sürme ermöglicht.

Tek bir görüntü kaynağından enterpolated karakterleri ve önceden tanımlanmış bir hareketle sürülen karakterleri burada görüyoruz:

[Aşağıdaki videoyu oynatmak için tıklayın]

Tek bir kaynak görüntüsünden üç farklı karakter, 3D poz sequence (en solda) kullanarak MIMO sistemiyle sürülür. Proje websitesi ve bu makalenin sonunda bulunan YouTube videosu için daha fazla örnek ve daha yüksek çözünürlük için bkz. Kaynak: https://menyifang.github.io/projects/MIMO/index.html Proje websitesi ve bu makalenin sonunda bulunan YouTube videosu için daha fazla örnek ve daha yüksek çözünürlük için bkz. Kaynak: https://menyifang.github.io/projects/MIMO/index.html

Oluşturulan karakterler, video çerçevelerinden ve çeşitli diğer yollarla da sağlanabilir ve gerçek dünya görüntülerine entegre edilebilir.

MIMO, karakter, sahne ve örtme (yani, bir nesne veya kişinin karakterin önünde geçmesi durumunda maskeleme) için üç ayrı kodlama oluşturan yeni bir sistem sunar. Bu kodlamalar, çıkarım zamanında entegre edilir.

[Aşağıdaki videoyu oynatmak için tıklayın]

MIMO, orijinal karakterleri fotogerçekçi veya stilize karakterlerle değiştirebilir ve hedef videodan hareketi takip edebilir. Proje websitesi ve bu makalenin sonunda bulunan YouTube videosu için daha fazla örnek ve daha yüksek çözünürlük için bkz.

Sistem, Stable Diffusion V1.5 modeli üzerinde eğitilir ve araştırmacılar tarafından oluşturulan özel bir veri setini kullanır. Bu veri seti, gerçek dünya ve simüle edilmiş videolardan eşit oranda oluşur.

Diffusion tabanlı videoların büyük sorunu, zamansal tutarlılıkdır, yani videonun içeriği ya titreşir ya da istenmeyen şekilde “evrilir”.

MIMO, bunun yerine, tutarlı rehberlik için tek bir görüntüyü etkili bir şekilde kullanır ve bu, SMPL CGI modeli tarafından düzenlenebilir ve kısıtlanabilir.

Kaynak referansı tutarlıdır ve temel model, yeterli temsil motion örnekleriyle güçlendirilmiştir, sistem zamansal olarak tutarlı çıktı için genel standartların üzerinde yeteneklere sahiptir.

[Aşağıdaki videoyu oynatmak için tıklayın]

POSE sürülen MIMO karakterlerinin daha fazla örneği. Proje websitesi ve bu makalenin sonunda bulunan YouTube videosu için daha fazla örnek ve daha yüksek çözünürlük için bkz.

Tek bir görüntü, etkili nöral temsil için kaynak olarak kullanılmaya daha sık rastlanıyor. Örneğin, popüler LivePortrait yüz transfer sistemi, tek bir yüz görüntüsünden yüksek olasılıkla derin sahte yüzler oluşturabilir.

Araştırmacılar, MIMO sisteminin prensiplerinin diğer ve yeni türlerdeki oluşturucu sistemlere ve çerçevelere genişletilebileceğine inanıyorlar.

Yeni makale, MIMO: Kontrol Edilebilir Karakter Video Sentezi ile Mekansal Ayrıştırılmış Modelleme başlığını taşır ve Alibaba Group’un Akıllı Bilgisayar Enstitüsü’nden dört araştırmacı tarafından yazılmıştır. Çalışmanın video dolu bir proje sayfası ve bu makalenin sonunda bulunan YouTube videosu vardır.

Yöntem

MIMO, yukarıda belirtilen üç uzaysal bileşenin otomatik ve gözetimsiz ayrılmasını sağlar ve bu, bir sondan sona mimari (yani, tüm alt işlemler sistemi entegre edilmiştir ve kullanıcı yalnızca girdi materyali sağlamalıdır) içinde gerçekleştirilir.

MIMO'nun kavramsal şeması. Kaynak: https://arxiv.org/pdf/2409.16160

MIMO’nun kavramsal şeması. Kaynak: https://arxiv.org/pdf/2409.16160

Kaynak videolarındaki nesneler, ilk olarak Depth Anything monocular derinlik tahmini kullanılarak 2D’den 3D’ye çevrilir. Herhangi bir karedeki insan öğesi, Tune-A-Video projesinden uyarlanan yöntemlerle çıkarılır.

Bu özellikler, daha sonra Facebook Research’ın Segment Anything 2 mimarisine dayalı video tabanlı hacimsel yüzeylere dönüştürülür.

Sahne katmanı, diğer iki katmandaki nesnelerin çıkarılmasıyla elde edilir ve bu, otomatik olarak bir rotoskop tarzı maske sağlar.

Hareket için, insan öğesi için çıkarılan latent kodlar seti, varsayılan bir insan CGI tabanlı SMPL modeline sabitlenir ve bu modelin hareketleri, oluşturulan insan içeriğinin bağlamını sağlar.

İnsan içeriği için 2D özellik haritası, ayrıştırılabilir bir rasterizer kullanılarak elde edilir. Bu, 2020 girişiminden NVIDIA’dan türetilir. SMPL’den elde edilen 3D veri ile NVIDIA yöntemiyle elde edilen 2D veri birleştirilerek, ‘nöral kişi’yi temsil eden latent kodlar, eventual bağlamına sağlam bir şekilde karşılık gelir.

Bu noktada, SMPL kullanan mimarilerde genellikle gerekli olan bir referans oluşturmak gerekir – kanonik bir poz. Bu, Da Vinci’nin ‘Vitruvian Man’ gibi, bir sıfır-poz template’sini temsil eder ve bu, içeriği kabul edebilir ve sonra deforme edilebilir, etkili olarak texture-mapped içeriğiyle birlikte gelir.

Bu deformasyonlar veya ‘normdan sapmalar’, insan hareketini temsil ederken, SMPL modeli, çıkarılan insan kimliğini temsil eden latent kodları korur ve bu, poz ve dokuya göre avatarı doğru bir şekilde temsil eder.

SMPL figüründe kanonik bir poz örneği. Kaynak: https://www.researchgate.net/figure/Layout-of-23-joints-in-the-SMPL-models_fig2_351179264

SMPL figüründe kanonik bir poz örneği. Kaynak: https://www.researchgate.net/figure/Layout-of-23-joints-in-the-SMPL-models_fig2_351179264

Karmaşa (eğitim verilerinin esnekliği) sorunuyla ilgili olarak, yazarlar şunları belirtir:

‘Tamamen poze video çerçevelerinden görünümü ayırmak için ideal bir çözüm, monocular video ve posed uzaydan kanonik uzaya dinamik insan temsilini öğrenmektir.

‘Verimliliği dikkate alarak, posed insan görüntüsünü kanonik sonuçta standart A-pozisyon kullanarak önceden eğitilmiş bir insan repoz modeli ile doğrudan dönüştüren basitleştirilmiş bir yöntem kullanıyoruz. Sentezlenen kanonik görünüm görüntüsü, kimlik kodunu elde etmek için ID kodlayıcılara beslenir.

‘Bu basit tasarım, kimlik ve hareket özniteliklerinin tam ayrılmasını sağlar. Animate Anyone gibi, ID kodlayıcıları bir CLIP görüntü kodlayıcısı ve bir referans-ağı mimarisi içerir ve küresel ve yerel özellikler için sırasıyla.

Sahne ve örtme açısından, paylaşılan ve sabit bir Variational Autoencoder (VAE – bu durumda 2013 yayınından türetilir) kullanılır ve bu, sahne ve örtme öğelerini latent uzaya gömerek işler. Tutarsızlıklar, boyama yöntemiyle ProPainter projesinden (2023) işlenir.

Bu şekilde birleştirilip düzenlendiğinde, video中的 arka plan ve örtme nesneleri, hareketli insan avatarı için bir maske sağlar.

Bu ayrıştırılmış özellikler, daha sonra Stable Diffusion V1.5 mimarisine dayalı bir U-Net omurgasına beslenir. Tam sahne kodu, ana sistemin yerel latent gürültüsüne eklenir. İnsan bileşeni, sırasıyla kendine dikkat ve çapraz dikkat katmanları aracılığıyla entegre edilir.

Daha sonra, gürültüsüz sonuç, VAE decoder aracılığıyla çıktı olarak verilir.

Veri ve Testler

Eğitim için araştırmacılar, 5.000 gerçek karakter videosu ve En3D sistemi tarafından oluşturulan 2.000 sentetik animasyon içeren HUD-7K adlı bir insan video veri seti oluşturdular. Gerçek videolar, MIMO mimarisindeki figür çıkarma prosedürlerinin non-semantik doğası nedeniyle herhangi bir anotasyona gerek duymadı. Sentetik veri tamamen anotlandı.

Model, sekiz NVIDIA A100 GPU’sunda (makale, bu GPU’ların 40GB veya 80GB VRAM modelleri olup olmadığını belirtmez), 50 iterasyon, 24 video karesi ve dörtlük bir toplu işleme boyutu ile, convergence sağlanana kadar eğitildi.

Sistemin hareket modülü, AnimateDiff’in ağırlıkları üzerinde eğitildi. Eğitim sürecinde, VAE encoder/decoder ve CLIP görüntü encoder’ın ağırlıkları donduruldu (tam fine-tuning ile karşılaştırıldığında, bu, temel modele çok daha geniş bir etkiye sahiptir).

MIMO, benzer sistemlerle karşılaştırılmadı, ancak araştırmacılar, AMASS ve Mixamo‘dan alınan zorlu out-of-distribution motion dizilerinde test etti. Bu hareketler, tırmanma, oynama ve dans etme hareketlerini içeriyordu.

Araştırmacılar, sistemi ayrıca vahşi ortam insan videolarında da test etti. Her iki durumda da, makale ‘yüksek dayanıklılık’ rapor eder, farklı açılardan gelen 3D hareketler için.

Makale, sistemin etkinliğini gösteren çoklu statik görüntü sonuçları sunar, ancak MIMO’nun gerçek performansı, proje sayfasında ve bu makalenin sonunda bulunan YouTube videosunda sağlanan geniş video sonuçlarıyla en iyi şekilde değerlendirilir.

Yazarlar şunları kếtüller:

‘Deneysel sonuçlar, yöntemimizin sadece esnek karakter, hareket ve sahne kontrolü değil, aynı zamanda keyfi karakterlere, yeni 3D hareketlere ve etkileşimli sahnelere ölçeklenebilirlik ve genellik sağladığını gösterir.

‘Ayrıca, 3D doğasını ve 2D videoyu hiyerarşik uzaysal bileşenlere otomatik olarak kodlayan çözümümüzün, 3D farkında video sentezi için gelecekteki araştırmaları ilham vereceğine inanıyoruz.

‘Ayrıca, çerçevemiz karakter videoları oluşturmak için iyi bir şekilde uyarlanabilir, ancak aynı zamanda kontrol edilebilir video sentezi görevleri için de potansiyel olarak uyarlanabilir.’

SONUÇ

Zamansal olarak tutarlı Stable Diffusion tabanlı bir avatar sistemi görmek canlandırıcı – özellikle de Gaussian Avatars’ın bu araştırma alanında üstünlük kazanmakta olduğu düşünüldüğünde.

Stylize edilen avatarlar, etkili ve MIMO’nun ürettiği fotogerçekçilik düzeyi, şimdilik Gaussian Splatting’in ürettiği seviyeye eşit olmasa da, zamansal olarak tutarlı insanların oluşturulmasında Latent Diffusion Network (LDM) tabanlı bir sistemde avantajlar önemlidir.

 

* Yazarların içsel alıntılarını hyperlinklere ve gerektiğinde dışlayıcı açıklamalı hyperlinklere dönüştürme işleminin benim tarafımdan yapılması.

Çarşamba, 25 Eylül 2024 tarihinde ilk kez yayımlandı.

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]