Yapay Zekâ

Zamanda Uygun Yeni bir Sistem için Stable Diffusion Video Karakterleri

Published September 25, 2024

Updated April 3, 2026

Martin Anderson

A capture from the project page of MIMO (https://menyifang.github.io/projects/MIMO/index.html), depicting a motion-driven wolf creature.

Alibaba Grubu’ndan yeni bir girişim, Stable Diffusion tabanlı bir temel modelden tam vücut insan avatarları oluşturmak için gördüğüm en iyi yöntemlerden birini sunuyor.

MIMO (MIMicking with Object Interactions) olarak adlandırılan sistem, CGI tabanlı insan modelleri ve AnimateDiff dahil olmak üzere popüler teknolojiler ve modüllerin bir diziğini kullanarak, videolarda zamanla tutarlı karakter değişimi veya bir karakteri kullanıcı tanımlı iskelet pozuna göre sürme olanağı sağlar.

Burada, tek bir görüntü kaynağından enterpolated karakterleri ve önceden tanımlanmış bir hareket tarafından sürülen karakterleri görüyoruz:

[Aşağıdaki videoyu oynatmak için tıklayın]

Tek bir kaynak görüntüsünden üç farklı karakter, MIMO sistemi kullanılarak 3D poz sekansıyla (en solda) sürülüyor. Proje websitesi ve bu makalenin sonunda yer alan YouTube videosu için daha fazla örnek ve daha yüksek çözünürlük için tıklayın. Kaynak: https://menyifang.github.io/projects/MIMO/index.html

Oluşturulan karakterler, ayrıca videodaki karelerden ve çeşitli diğer yollardan da sağlanabilir ve gerçek dünya görüntülerine entegre edilebilir.

MIMO, karakter, sahne ve örtme (yani, matting, bir nesne veya kişinin karakterin önünde geçtiği zaman) için her biri için üç ayrı kodlama oluşturan yeni bir sistem sunar. Bu kodlamalar, çıkarım zamanında entegre edilir.

[Aşağıdaki videoyu oynatmak için tıklayın]

MIMO, orijinal karakterleri hedef videodan hareketi takip eden fotogerçekçi veya stilize karakterlerle değiştirebilir. Proje websitesi ve bu makalenin sonunda yer alan YouTube videosu için daha fazla örnek ve daha yüksek çözünürlük için tıklayın.

Sistem, Stable Diffusion V1.5 modeli üzerinde eğitilir ve araştırmacılar tarafından oluşturulan özel bir veri kümesiyle birlikte, gerçek dünya ve simüle videoların eşit bir bileşiminden oluşur.

Diffüzyon tabanlı videoların büyük sorunu, zamansal stabilite sorunudur, burada videonun içeriği ya parlar ya da karakterin tutarlı bir şekilde temsil edilmesi için istenmeyen şekillerde “evrim geçirir”.

MIMO, bunun yerine, tutarlı rehberlik için tek bir görüntüyü etkili bir şekilde kullanır, bu da ara SMPL CGI modeli tarafından orkestralanabilir ve kısıtlanabilir.

Kaynak referans tutarlı olduğu ve temel modelin üzerine sistem eğitildiği için, sistemin zamansal olarak tutarlı çıktı yetenekleri, diffüzyon tabanlı avatarlar için genel standartların üzerinde yer alıyor.

[Aşağıdaki videoyu oynatmak için tıklayın]

POSE sürülen MIMO karakterlerinin daha fazla örneği. Proje websitesi ve bu makalenin sonunda yer alan YouTube videosu için daha fazla örnek ve daha yüksek çözünürlük için tıklayın.

Tek görüntülerin etkili nöral temsil için kaynak olarak kullanılması, ya tek başına ya da metin promtleriyle kombinasyon halinde, giderek daha yaygın hale geliyor. Örneğin, popüler LivePortrait yüz transfer sistemi, tek yüz görüntülerinden yüksek derecede inandırıcı deepfaked yüzler de oluşturabilir.

Araştırmacılar, MIMO sisteminin ilkelerini yeni ve çeşitli türdeki oluşturucu sistemlere ve çerçevelere genişletmenin mümkün olabileceğine inanıyorlar.

Yeni makale yayınlandı ve MIMO: Mekansal Ayrıştırılmış Modelleme ile Kontrollü Karakter Video Sentezi olarak adlandırıldı. Makale, Alibaba Group’un Akıllı Bilgisayar Enstitüsü’nden dört araştırmacı tarafından yazıldı. Çalışmanın video dolu proje sayfası ve bu makalenin sonunda yer alan YouTube videosu bulunmaktadır.

Yöntem

MIMO, yukarıda belirtilen üç mekansal bileşenin otomatik ve gözetimsiz ayrıştırılmasını, bir sondan sona mimari (yani, tüm alt işlemler sistemi entegre edilmiştir ve kullanıcı yalnızca girdi malzemesi sağlamalıdır) sağlar.

MIMO’nun kavramsal şeması. Kaynak: https://arxiv.org/pdf/2409.16160

Kaynak videolarındaki nesneler, ilk olarak Depth Anything monoküler derinlik tahmini kullanılarak 2D’den 3D’ye çevrilir. Her karedeki insan öğesi, Tune-A-Video projesinden uyarlanan yöntemlerle çıkarılır.

Bu özellikler daha sonra Facebook Research’in Segment Anything 2 mimarisi kullanılarak video tabanlı hacimsel yüzeylere çevrilir.

Sahne katmanı, diğer iki katmandaki nesnelerin kaldırılmasıyla elde edilir, bu da otomatik olarak rotoskop tarzı bir maske sağlar.

Hareket için, insan öğesi için çıkarılan bir dizi latent kod, varsayılan bir insan CGI tabanlı SMPL modeline sabitlenir, hareketleri de insan içeriğinin bağlamını sağlar.

İnsan içeriği için 2D özellik haritası, ayrıştırılabilir bir rasterizer kullanılarak elde edilir. NVIDIA’nin 2020 girişimi temel alınarak oluşturulan bu yöntem, SMPL’den elde edilen 3D verileri ve NVIDIA yöntemiyle elde edilen 2D verileri birleştirir, bu da “nöral kişi”nin latent kodlarının eventual bağlamına sağlam bir karşılık oluşturur.

Bu noktada, SMPL kullanan mimarilerde genellikle gerekli olan bir referans oluşturmak gerekli hale gelir – kanonik bir poz. Bu, genel olarak Da Vinci’nin ‘Vitruvian Man’ gibi, içeriği kabul edebilecek ve ardından deforme edebilecek bir sıfır-poz template temsil eder.

Bu deformasyonlar veya “normdan sapmalar”, insan hareketini temsil ederken, SMPL modeli, çıkarılan insan kimliğini oluşturan latent kodları korur ve bu da oluşan avatarın poz ve dokusu açısından doğru bir şekilde temsil edilmesini sağlar.

SMPL figüründe kanonik bir poz örneği. Kaynak: https://www.researchgate.net/figure/Layout-of-23-joints-in-the-SMPL-models_fig2_351179264

Entanglement (eğitim verilerinin, eğitim sınırları ve ilişkileri dışında uzatıldığında ne kadar esnek olabileceği) sorunuyla ilgili olarak, yazarlar şunları belirtirler*:

‘Görünümü pozlanmış video karelerinden tam olarak ayırmak için ideal bir çözüm, monoküler video’dan dinamik insan temsilini öğrenmek ve bunu pozlanmış uzaydan kanonik uzaya dönüştürmektir.

‘Verimliliği dikkate alarak, pozlanmış insan görüntüsünü standart A-pozunda kanonik sonuca dönüştüren önceden eğitilmiş bir insan yeniden pozlama modeli kullanarak basitleştirilmiş bir yöntem uyguluyoruz.

‘Sentezlenen kanonik görünüm görüntüsü, kimlik kodunu elde etmek için ID kodlayıcılarına beslenir.

‘Bu basit tasarım, kimlik ve hareket özniteliklerinin tam olarak ayrıştırılmasını sağlar.

‘Animate Anyone’i takip ederek, ID kodlayıcıları global ve yerel özellikler için sırasıyla bir CLIP görüntü kodlayıcı ve bir referans-ağ mimarisini içerir.’

Sahne ve örtme açısından, paylaşılan ve sabit bir Variational Autoencoder (VAE – bu durumda 2013 yayını temel alınarak) kullanılır ve sahne ve örtme öğelerini latent uzaya gömmek için kullanılır. Tutarsızlıklar, 2023 ProPainter projesinden bir inpainting yöntemiyle ele alınır.

Birleştirilip yeniden düzenlendikten sonra, video中的 arka plan ve hareketli insan avatarı için bir matte oluşturmak üzere video中的 her türlü örtme nesnesi kullanılabilir.

Bu ayrıştırılmış özellikler, daha sonra Stable Diffusion V1.5 mimarisine dayanan bir U-Net omurgasına beslenir. Tam sahne kodu, ana sistemin yerel latent gürültüsüne eklenir. İnsan bileşeni, sırasıyla self-attention ve cross-attention katmanları aracılığıyla entegre edilir.

Sonuç olarak, gürültüsüzleştirilmiş sonuç, VAE decoder aracılığıyla çıkarılır.

Veri ve Testler

Eğitim için araştırmacılar, 5.000 gerçek karakter videosu ve En3D sistemi tarafından oluşturulan 2.000 sentetik animasyondan oluşan HUD-7K adlı bir insan video veri kümesi oluşturdular. Gerçek videolar, MIMO mimarisindeki figura çıkarma prosedürlerinin non-semantik doğası nedeniyle herhangi bir anotasyona ihtiyaç duymadı. Sentetik veriler tamamen anotlandı.

Model, sekiz NVIDIA A100 GPU’sunda (makale bu GPU’ların 40GB mı yoksa 80GB VRAM mi olduğunu belirtmiyor), 50 iterasyon, 24 video karesi ve dörtlük bir toplu işleme boyutu ile eğitildi, ardından uygunluğa ulaşıldı.

Sistemin hareket modülü, AnimateDiff’in ağırlıkları üzerinde eğitildi. Eğitim sürecinde, VAE encoder/decoder ve CLIP görüntü kodlayıcı ağırlıkları donduruldu (temel modelin tam ince ayarının aksine, bu daha geniş bir etkiye sahip olacaktır).

MIMO, analojik sistemlerle karşılaştırılmadı, ancak araştırmacılar AMASS ve Mixamo‘dan alınan zorlu out-of-distribution hareket dizileriyle test etti. Bu hareketler, tırmanma, oynama ve dans etme hareketlerini içeriyordu.

Araştırmacılar ayrıca sistemi vahşi insan videolarıyla test etti. Her iki durumda da, makale “yüksek dayanıklılık” rapor eder.

Makale, sistemin etkinliğini gösteren çoklu statik görüntü sonuçları sunar, ancak MIMO’nun gerçek performansı, proje sayfasında ve bu makalenin sonunda bulunan YouTube videosunda sağlanan geniş video sonuçlarıyla en iyi şekilde değerlendirilir.

Yazarlar şöyle sonuçlandırır:

‘Deneysel sonuçlar, yöntemimizin esnek karakter, hareket ve sahne kontrolü sağlamakla kalmayıp, aynı zamanda keyfi karakterlere, yeni 3B hareketlere ve etkileşimli sahnelere ölçeklenebilirlik ve genellik sağladığını gösteriyor.

‘Ayrıca, 2B videoyu otomatik olarak hiyerarşik mekansal bileşenlere kodlayan ve 3B doğasını dikkate alan çözümümüzün, 3B farkında video sentezi için gelecekteki araştırmaları ilham verebileceğine inanıyoruz.

‘Ayrıca, çerçevemiz yalnızca karakter videoları oluşturmak için değil, aynı zamanda diğer kontrollü video sentezi görevlerine potansiyel olarak uyarlanabilir.’

Sonuç

Zamansal olarak tutarlı bir Stable Diffusion tabanlı avatar sistemine sahip olmak yenidir – özellikle de Gaussian Avatars’ın bu araştırma alanında yüksek bir konum elde ettiği için.

Sonuçlardaki stilize avatarlar etkili ve MIMO’nun ürettiği fotogerçekçilik düzeyi目前 Gaussian Splatting’in ürettiği seviyeye eşit olmasa da, bir Latent Diffusion Network (LDM)中的 zamanla tutarlı insanların oluşturulmasının çeşitli avantajları vardır.

* Yazarların inline alıntılarını hyperlinklere ve gerekli olduğunda dışlayıcı açıklamalı hyperlinklere dönüştürmem.

İlk olarak Çarşamba, 25 Eylül 2024 tarihinde yayınlandı

Related Topics:AnimateDiff MIMO Stable Diffusion temporal stability

Martin Anderson

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]

Unite.AI

Zamanda Uygun Yeni bir Sistem için Stable Diffusion Video Karakterleri

Yöntem

Veri ve Testler

Sonuç

You may like