Künstliche Intelligenz
Ein neues System für zeitlich konsistente Stable Diffusion Video-Charaktere

Eine neue Initiative der Alibaba Group bietet eine der besten Methoden, die ich gesehen habe, um vollständige menschliche Avatare aus einem Stable Diffusion-basierten Grundmodell zu generieren.
Titel MIMO (MIMicking with Object Interactions), verwendet das System eine Reihe von beliebten Technologien und Modulen, einschließlich CGI-basierten menschlichen Modellen und AnimateDiff, um zeitlich konsistente Charakterersatz in Videos zu ermöglichen – oder um einen Charakter mit einer benutzerdefinierten skelettalen Pose zu steuern.
Hier sehen wir Charaktere, die aus einer einzelnen Bildquelle interpoliert werden und durch eine vorgegebene Bewegung gesteuert werden:
[Klicken Sie auf das Video unten, um es abzuspielen]
Aus einer einzelnen Bildquelle werden drei verschiedene Charaktere durch eine 3D-Pose-Sequenz (weit links) mit dem MIMO-System gesteuert. Sehen Sie die Projektwebsite und das begleitende YouTube-Video (eingebettet am Ende dieses Artikels) für weitere Beispiele und eine höhere Auflösung. Quelle: https://menyifang.github.io/projects/MIMO/index.html
Generierte Charaktere, die auch aus Bildern in Videos und auf andere Weise stammen können, können in Echtzeit-Footage integriert werden.
MIMO bietet ein neues System, das drei separate Kodierungen generiert, jeweils für Charakter, Szene und Okklusion (d. h. Matting, wenn ein Objekt oder eine Person vor dem dargestellten Charakter vorbeigeht). Diese Kodierungen werden zur Inferenzzeit integriert.
[Klicken Sie auf das Video unten, um es abzuspielen]
MIMO kann die ursprünglichen Charaktere durch photorealistische oder stilisierte Charaktere ersetzen, die der Bewegung aus dem Zielvideo folgen. Sehen Sie die Projektwebsite und das begleitende YouTube-Video (eingebettet am Ende dieses Artikels) für weitere Beispiele und eine höhere Auflösung.
Das System wird über das Stable Diffusion V1.5-Modell trainiert, unter Verwendung eines benutzerdefinierten Datensatzes, der von den Forschern kuratiert wurde und zu gleichen Teilen aus realen und simulierten Videos besteht.
Das große Problem der diffusion-basierten Videos ist zeitliche Stabilität, bei der der Inhalt des Videos entweder flackert oder auf unerwünschte Weise “evolviert” für eine konsistente Charakterdarstellung.
MIMO verwendet stattdessen effektiv ein einzelnes Bild als Karte für konsistente Steuerung, die durch das interstitielle SMPL-CGI-Modell orchestriert und eingeschränkt werden kann.
Da die Quellenreferenz konsistent ist und das Grundmodell, über das das System trainiert wird, mit ausreichenden repräsentativen Bewegungsbeispielen verbessert wurde, liegen die Fähigkeiten des Systems für zeitlich konsistente Ausgaben weit über dem allgemeinen Standard für diffusion-basierte Avatare.
[Klicken Sie auf das Video unten, um es abzuspielen]
Weitere Beispiele für pose-gesteuerte MIMO-Charaktere. Sehen Sie die Projektwebsite und das begleitende YouTube-Video (eingebettet am Ende dieses Artikels) für weitere Beispiele und eine höhere Auflösung.
Es wird immer häufiger, dass einzelne Bilder als Quelle für effektive neuronale Darstellungen verwendet werden, entweder allein oder in einer multimodalen Weise, kombiniert mit Textprompts. Zum Beispiel kann das beliebte LivePortrait-Gesichts-Übertragungssystem auch sehr plausible Deepfakes aus einzelnen Gesichtsbildern generieren.
Die Forscher glauben, dass die in dem MIMO-System verwendeten Prinzipien auf andere und neue Arten von generativen Systemen und Rahmenwerken erweitert werden können.
Das neue Papier trägt den Titel MIMO: Controllable Character Video Synthesis with Spatial Decomposed Modeling und stammt von vier Forschern des Alibaba Group’s Institute for Intelligent Computing. Die Arbeit hat eine video-reiche Projektseite und ein begleitendes YouTube-Video, das auch am Ende dieses Artikels eingebettet ist.
Methode
MIMO erreicht automatische und unbeaufsichtigte Trennung der oben genannten drei räumlichen Komponenten in einer End-to-End-Architektur (d. h. alle Subprozesse sind in das System integriert und der Benutzer muss nur das Eingabematerial bereitstellen).

Das konzeptionelle Schema für MIMO. Quelle: https://arxiv.org/pdf/2409.16160
Objekte in Quellvideos werden von 2D in 3D übersetzt, zunächst unter Verwendung des monokularen Tiefenschätzers Depth Anything. Der menschliche Teil in jedem Frame wird mit Methoden extrahiert, die vom Tune-A-Video-Projekt adaptiert wurden.
Diese Funktionen werden dann in video-basierte Volumen-Facetten übersetzt, unter Verwendung der Segment Anything 2-Architektur von Facebook Research.
Die Szenen-Ebene selbst wird durch Entfernen von Objekten erlangt, die in den anderen beiden Ebenen erkannt werden, was effektiv eine rotoskopische Maske automatisch bereitstellt.
Für die Bewegung wird ein Satz von extrahierten latenten Codes für den menschlichen Teil verwendet, der an ein Standard-menschliches CGI-basiertes SMPL-Modell angebunden ist, dessen Bewegungen den Kontext für den gerenderten menschlichen Inhalt bereitstellen.
Eine 2D-Feature-Karte für den menschlichen Inhalt wird durch einen differenzierbaren Rasterizer erlangt, der von einer 2020-Initiative von NVIDIA abgeleitet ist. Durch Kombination der erhaltenen 3D-Daten aus SMPL mit den 2D-Daten, die durch die NVIDIA-Methode erhalten werden, haben die latenten Codes, die den “neuronalen Menschen” darstellen, eine feste Korrespondenz zu ihrem eventuellen Kontext.
An diesem Punkt ist es notwendig, eine Referenz zu etablieren, die in Architekturen, die SMPL verwenden, häufig benötigt wird – eine kanonische Pose. Dies ist im Großen und Ganzen ähnlich wie Da Vincis ‘Vitruvian Man’, da es ein Null-Pose-Template darstellt, das Inhalt annehmen und dann deformieren kann, wobei der (effektiv) texture-mapped Inhalt mitgenommen wird.
Diese Deformationen oder “Abweichungen von der Norm” stellen menschliche Bewegung dar, während das SMPL-Modell die latenten Codes aufrechterhält, die die menschliche Identität darstellen, die extrahiert wurde, und somit den resultierenden Avatar in Bezug auf Pose und Textur korrekt darstellt.

Ein Beispiel für eine kanonische Pose in einem SMPL-Modell. Quelle: https://www.researchgate.net/figure/Layout-of-23-joints-in-the-SMPL-models_fig2_351179264
In Bezug auf das Problem der Verflechtung (das Ausmaß, in dem trainierte Daten unflexibel werden, wenn man sie über ihre trainierten Grenzen und Assoziationen hinausstreckt), stellen die Autoren fest*:
‘Um die Erscheinung von posierten Video-Frames vollständig zu entflechten, ist eine ideale Lösung, die dynamische menschliche Darstellung aus dem monokularen Video zu lernen und sie vom posierten Raum in den kanonischen Raum zu transformieren.
‘Unter Berücksichtigung der Effizienz verwenden wir eine vereinfachte Methode, die das posierte menschliche Bild direkt in das kanonische Ergebnis im Standard-A-Pose mit einem vorgefertigten menschlichen Repose-Modell transformiert. Das synthetisierte kanonische Erscheinungsbild wird an ID-Codierer gesendet, um den Identitätscode zu erhalten.
‘Diese einfache Konstruktion ermöglicht eine vollständige Entflechtung von Identitäts- und Bewegungsattributen. In Anlehnung an Animate Anyone umfassen die ID-Codierer einen CLIP-Bildcodierer und eine Referenz-Netzarchitektur, um globale und lokale Funktionen zu codieren [jeweils].’
Für die Szenen- und Okklusionsaspekte wird ein gemeinsamer und fester Variational Autoencoder (VAE – in diesem Fall abgeleitet von einer 2013-Veröffentlichung) verwendet, um die Szenen- und Okklusions-Elemente in den latenten Raum zu codieren. Inkongruenzen werden durch eine Inpainting-Methode aus dem 2023-Projekt ProPainter gehandhabt.
Sobald diese Attribute zusammengefügt und retuschiert sind, werden sowohl der Hintergrund als auch alle okkludierenden Objekte im Video eine Maske für den sich bewegenden menschlichen Avatar bereitstellen.
Diese zerlegten Attribute werden dann in ein U-Net-Rückenmark basierend auf der Stable Diffusion V1.5-Architektur eingespeist. Der vollständige Szenen-Code wird mit dem nativen latenten Rauschen des Host-Systems verkettet. Der menschliche Teil wird durch Self-Attention– und Cross-Attention-Schichten integriert.
Dann wird das entrauschte Ergebnis durch den VAE-Decoder ausgegeben.
Daten und Tests
Für das Training erstellten die Forscher einen menschlichen Video-Datensatz mit dem Titel HUD-7K, der aus 5.000 realen Charakter-Videos und 2.000 synthetischen Animationen bestand, die durch das En3D-System erstellt wurden. Die realen Videos erforderten keine Annotation, aufgrund der nicht-semantischen Natur der Figurerkennungsverfahren in MIMOs Architektur. Die synthetischen Daten waren vollständig annotiert.
Das Modell wurde auf acht NVIDIA A100-GPUs (obwohl das Papier nicht spezifiziert, ob es sich um die 40GB- oder 80GB-VRAM-Modelle handelt) trainiert, für 50 Iterationen, unter Verwendung von 24 Video-Frames und einer Batch-Größe von vier, bis zur Konvergenz.
Der Bewegungs-Modul für das System wurde auf den Gewichten von AnimateDiff trainiert. Während des Trainingsprozesses wurden die Gewichte des VAE-Codierers/Decoders und des CLIP-Bildcodierers eingefroren (im Gegensatz zu einer vollständigen Feinabstimmung, die einen viel breiteren Effekt auf ein Grundmodell haben würde).
Obwohl MIMO nicht gegen ähnliche Systeme getestet wurde, testeten die Forscher es auf schwierigen out-of-distribution-Bewegungssequenzen, die aus AMASS und Mixamo stammten. Diese Bewegungen umfassten Klettern, Spielen und Tanzen.
Sie testeten das System auch auf menschlichen Videos in der freien Wildbahn. In beiden Fällen berichtet das Papier von “hoher Robustheit” für diese unbekannten 3D-Bewegungen aus verschiedenen Perspektiven.
Obwohl das Papier mehrere statische Bildergebnisse anbietet, die die Wirksamkeit des Systems demonstrieren, wird die wahre Leistung von MIMO am besten durch die umfangreichen Video-Ergebnisse beurteilt, die auf der Projektseite und im YouTube-Video bereitgestellt werden, das am Ende dieses Artikels eingebettet ist.






