Andersons Blickwinkel
Ein bemerkenswerter Fortschritt in der menschlichen KI-Video-Generierung

Hinweis: Die Projektseite für diese Arbeit enthält 33 automatisch abspielende High-Res-Videos mit einer Gesamtgröße von einer halben Gigabyte, die mein System beim Laden destabilisierten. Aus diesem Grund verlinke ich nicht direkt darauf. Leser können die URL im Abstract oder im PDF der Arbeit finden, wenn sie dies wünschen.
Eines der Hauptziele in der aktuellen Video-Synthese-Forschung ist die Generierung einer vollständigen KI-gesteuerten Video-Darstellung aus einem einzelnen Bild. In dieser Woche hat ein neues Papier von Bytedance Intelligent Creation das umfassendste System dieser Art vorgestellt, das in der Lage ist, vollständige und halb-körperliche Animationen zu erzeugen, die ausdrucksstarke Gesichtsdetails mit genauen großen Bewegungen kombinieren, während auch eine verbesserte Identitätskonsistenz erreicht wird – ein Bereich, in dem sogar führende kommerzielle Systeme oft Schwierigkeiten haben.
Im folgenden Beispiel sehen wir eine Darstellung, die von einem Schauspieler (oben links) und aus einem einzelnen Bild (oben rechts) gesteuert wird, das eine bemerkenswert flexible und geschickte Darstellung liefert, ohne die üblichen Probleme bei der Erstellung großer Bewegungen oder “Raten” über verdeckte Bereiche (d. h. Teile von Kleidung und Gesichtswinkeln, die inferiert oder erfunden werden müssen, weil sie in der einzigen Quellfoto nicht sichtbar sind):
AUDIO-INHALT. Klicken Sie zum Abspielen. Eine Darstellung entsteht aus zwei Quellen, einschließlich Lip-Sync, das normalerweise dem Bereich von dedizierten Hilfssystemen vorbehalten ist. Dies ist eine reduzierte Version von der Quellseite (siehe Hinweis am Anfang des Artikels – gilt für alle anderen eingebetteten Videos hier).
Obwohl wir einige verbleibende Herausforderungen hinsichtlich der Persistenz der Identität sehen, wenn jeder Clip fortschreitet, ist dies das erste System, das ich gesehen habe, das im Allgemeinen (wenn auch nicht immer) die ID über einen längeren Zeitraum ohne die Verwendung von LoRAs beibehält:
AUDIO-INHALT. Klicken Sie zum Abspielen. Weitere Beispiele aus dem DreamActor-Projekt.
Das neue System, das DreamActor genannt wird, verwendet ein dreiteiliges Hybrid-Steuerungssystem, das spezielle Aufmerksamkeit auf Gesichtsausdruck, Kopfdrehung und Kernskelett-Design legt, wodurch KI-gesteuerte Darstellungen ermöglicht werden, bei denen weder der Gesichts- noch der Körperaspekt auf Kosten des anderen leiden – eine seltene, möglicherweise unbekannte Fähigkeit unter ähnlichen Systemen.
Unten sehen wir eine dieser Facetten, Kopfdrehung, in Aktion. Der farbige Ball in der Ecke jedes Vorschaubildes rechts zeigt eine Art virtuelle Kugel, die die Kopf-Orientierung unabhängig von der Gesichtsbewegung und -ausdruck definiert, der hier von einem Schauspieler (unten links) gesteuert wird.
Klicken Sie zum Abspielen. Der farbige Ball, der hier visualisiert wird, stellt die Drehachse des Kopfes des Avatars dar, während der Ausdruck von einem separaten Modul gesteuert und von der Leistung eines Schauspielers informiert wird (hier unten links).
Eine der interessantesten Funktionen des Projekts, die nicht einmal ordnungsgemäß in den Tests des Papiers enthalten ist, ist seine Fähigkeit, Lip-Sync-Bewegungen direkt aus Audio abzuleiten – eine Fähigkeit, die ungewöhnlich gut funktioniert, auch ohne ein steuerndes Schauspieler-Video.
Die Forscher haben sich mit den besten etablierten Systemen in diesem Bereich auseinandergesetzt, einschließlich des viel gelobten Runway Act-One und LivePortrait, und berichten, dass DreamActor in der Lage war, bessere quantitative Ergebnisse zu erzielen.
Da Forscher ihre eigenen Kriterien festlegen können, sind quantitative Ergebnisse nicht unbedingt ein empirischer Standard; aber die begleitenden qualitativen Tests scheinen die Schlussfolgerungen der Autoren zu unterstützen.
Leider ist dieses System nicht für die öffentliche Veröffentlichung bestimmt, und der einzige Nutzen, den die Gemeinschaft aus dieser Arbeit ableiten kann, besteht darin, die in der Arbeit beschriebenen Methoden möglicherweise zu reproduzieren (wie es bei dem gleichfalls geschlossenen Google Dreambooth im Jahr 2022 der Fall war).
Das Papier besagt*:
‘Die Animation von menschlichen Bildern birgt mögliche soziale Risiken, wie z. B. die missbräuchliche Verwendung zur Erstellung von Fake-Videos. Die vorgeschlagene Technologie könnte verwendet werden, um Fake-Videos von Personen zu erstellen, aber bestehende Erkennungstools [Demamba, Dormant] können diese Fälschungen erkennen.
‘Um diese Risiken zu reduzieren, sind klare ethische Regeln und verantwortungsvolle Nutzungsrichtlinien erforderlich. Wir werden den Zugang zu unseren Kernmodellen und -codes streng beschränken, um Missbrauch zu verhindern.’
Natürlich sind ethische Überlegungen dieser Art aus kommerzieller Sicht günstig, da sie eine Rechtfertigung für API-only-Zugang zum Modell liefern, das dann monetarisiert werden kann. ByteDance hat dies bereits 2025 getan, indem es das viel gelobte OmniHuman auf der Dreamina-Website für bezahlte Credits verfügbar machte. Daher scheint es wahrscheinlich, dass DreamActor ein ähnliches Schicksal erleiden wird. Was noch zu sehen ist, ist, inwieweit seine Prinzipien, soweit sie im Papier erläutert werden, der Open-Source-Gemeinschaft helfen können.
Das neue Papier trägt den Titel DreamActor-M1: Holistische, ausdrucksstarke und robuste menschliche Bildanimation mit Hybrid-Steuerung und stammt von sechs Bytedance-Forschern.
Methode
Das DreamActor-System, das in der Arbeit vorgestellt wird, zielt darauf ab, menschliche Animationen aus einem Referenzbild und einem Steuer-Video zu generieren, indem es ein Diffusions-Transformer (DiT)-Framework verwendet, das für Latent-Raum (offensichtlich eine Art von Stable Diffusion, obwohl das Papier nur die Veröffentlichung von 2022 zitiert) angepasst wurde.
Anstatt auf externe Module zu vertrauen, um Referenz-Bedingungen zu handhaben, fusionieren die Autoren Erscheinungs- und Bewegungsmerkmale direkt im DiT-Backbone, wodurch eine Interaktion über Raum und Zeit durch Aufmerksamkeit ermöglicht wird:

Schema für das neue System: DreamActor codiert Pose, Gesichtsbewegung und Erscheinung in separate Latente, kombiniert sie mit verrauschten Video-Latenten, die von einem 3D-VAE erzeugt werden. Diese Signale werden innerhalb eines Diffusions-Transformers mit Selbst- und Kreuz-Aufmerksamkeit fusioniert, wobei die Gewichte über die Zweige hinweg geteilt werden. Das Modell wird durch Vergleich der entrauschten Ausgaben mit sauberen Video-Latenten überwacht. Quelle: https://arxiv.org/pdf/2504.01724
Um dies zu tun, verwendet das Modell einen vorge trainierten 3D-Variational-Autoencoder, um sowohl das Eingabe-Video als auch das Referenzbild zu codieren. Diese Latente werden patchifiziert, verkettet und in den DiT eingegeben, der sie gemeinsam verarbeitet.
Diese Architektur weicht von der gängigen Praxis ab, ein sekundäres Netzwerk für Referenz-Injektion zu verwenden, was der Ansatz für die einflussreichen Animate Anyone und Animate Anyone 2 Projekte war.
Stattdessen baut DreamActor die Fusion in das Hauptmodell selbst ein, wodurch die Konstruktion vereinfacht und der Informationsfluss zwischen Erscheinungs- und Bewegungshinweisen verbessert wird. Das Modell wird dann mithilfe von Flow-Matching trainiert, anstatt des Standard-Diffusionsziels (Flow-Matching trainiert Diffusionsmodelle, indem es direkt die Geschwindigkeitsfelder zwischen Daten und Rauschen vorhersagt, wodurch die Schätzung der Punktzahl entfällt).
Hybrid-Bewegungssteuerung
Die Hybrid-Bewegungssteuerungsmethode, die die neuronalen Renderings informiert, kombiniert Posetoken, die von 3D-Körperskeletten und Kopfkugeln abgeleitet werden; implizite Gesichtsrepräsentationen, die durch einen vorge trainierten Gesichts-Encoder extrahiert werden; und Referenz-Erscheinungstoken, die aus dem Quellbild sampelt werden.
Diese Elemente werden innerhalb des Diffusions-Transformers mithilfe von unterschiedlichen Aufmerksamkeitsmechanismen integriert, wodurch das System in der Lage ist, globale Bewegung, Gesichtsausdruck und visuelle Identität während der Generierungsphase zu koordinieren.
Für den ersten dieser Aspekte verwendet DreamActor anstatt von Gesichtslandmarken implizite Gesichtsrepräsentationen, um die Ausdrucksgenerierung zu steuern, was offensichtlich eine feinere Kontrolle über die Gesichtsdynamik ermöglicht, während die Identität und die Kopfpose vom Ausdruck dissoziiert werden.
Um diese Repräsentationen zu erstellen, detektiert und beschneidet die Pipeline zunächst die Gesichtsregion in jedem Frame des Steuer-Videos und vergrößert es auf 224×224. Die beschneideten Gesichter werden durch einen Gesichtsbewegungs-Encoder verarbeitet, der auf dem PD-FGC Datensatz vorge trainiert wurde, und dann durch eine MLP Schicht bedingt.

PD-FGC, das in DreamActor verwendet wird, generiert einen sprechenden Kopf aus einem Referenzbild mit dissoziierten Steuerungen für Lip-Sync (aus Audio), Kopfpose, Augenbewegung und Ausdruck (aus separaten Videos), wodurch eine präzise, unabhängige Manipulation jedes ermöglicht wird. Quelle: https://arxiv.org/pdf/2211.14506
Das Ergebnis ist eine Folge von Gesichtsbewegungstoken, die durch eine Kreuz-Aufmerksamkeit Schicht in den Diffusions-Transformer injiziert werden.
Das gleiche Framework unterstützt auch eine audio-gesteuerte Variante, bei der ein separates Encoder-Modell trainiert wird, das Sprach-Eingaben direkt in Gesichtsbewegungstoken umwandelt. Dies ermöglicht die Generierung von synchronisierten Gesichtsanimationen – einschließlich Lip-Bewegungen – ohne ein Steuer-Video.
AUDIO-INHALT. Klicken Sie zum Abspielen. Lip-Sync, der rein aus Audio abgeleitet wird, ohne ein Steuer-Video. Die einzige Charakter-Eingabe ist das statische Foto, das oben rechts zu sehen ist.
Zweitens wird, um die Kopfpose unabhängig vom Gesichtsausdruck zu steuern, ein 3D-Kopf-Kugel-Modell eingeführt (siehe Video, das früher in diesem Artikel eingebettet wurde), das die Gesichtsdynamik von der globalen Kopfbewegung dissoziiert, wodurch die Präzision und Flexibilität während der Animation verbessert werden.
Kopf-Kugeln werden durch die Extraktion von 3D-Gesichtsparametern – wie Rotation und Kamerapose – aus dem Steuer-Video mithilfe der FaceVerse Tracking-Methode erzeugt.

Schema für das FaceVerse-Projekt. Quelle: https://www.liuyebin.com/faceverse/faceverse.html
Diese Parameter werden verwendet, um eine Farb-Kugel zu rendern, die auf die 2D-Bild-Ebene projiziert wird, räumlich ausgerichtet mit dem Steuer-Kopf. Die Größe der Kugel entspricht der Referenz-Kopf-Größe, und ihre Farbe spiegelt die Kopf-Orientierung wider. Diese Abstraktion reduziert die Komplexität des Lernens von 3D-Kopf-Bewegungen, wodurch stilisierte oder übertriebene Kopf-Formen in Charakteren, die aus Animationen stammen, erhalten bleiben.

Visualisierung der Steuer-Kugel, die die Kopf-Orientierung beeinflusst.
Schließlich wird, um die vollständige Körper-Bewegung zu steuern, das System 3D-Körperskelette mit adaptiver Knochen-Längen-Normierung verwenden. Körper- und Hand-Parameter werden mithilfe von 4D-Humans und der hand-fokussierten HaMeR geschätzt, die beide auf dem SMPL-X Körper-Modell basieren.

SMPL-X wendet ein parametrisiertes Mesh über den gesamten Körper in einem Bild an, das mit der geschätzten Pose und dem Ausdruck übereinstimmt, um eine pose-orientierte Manipulation mithilfe des Mesh als volumetrische Anleitung zu ermöglichen. Quelle: https://arxiv.org/pdf/1904.05866
Aus diesen Ausgaben werden Schlüssel-Gelenke ausgewählt, in 2D projiziert und zu linienbasierten Skelett-Karten verbunden. Im Gegensatz zu Methoden wie Champ, die vollständige Körper-Meshes rendern, vermeidet dieser Ansatz die Aufdrängung von vordefinierten Form-Vorannahmen und ermutigt das Modell, Körper-Form und -Erscheinung direkt aus den Referenz-Bildern abzuleiten, wodurch die Voreingenommenheit gegenüber festen Körpertypen reduziert und die Verallgemeinerung über eine Reihe von Posen und Körperbau-Formen verbessert wird.
Während des Trainings werden die 3D-Körperskelette mit Kopf-Kugeln verkettet und durch einen Pose-Encoder verarbeitet, der Merkmale ausgibt, die dann mit verrauschten Video-Latenten kombiniert werden, um die Rausch-Tokens zu erzeugen, die der Diffusions-Transformer verwendet.
Bei der Inferenz berücksichtigt das System die skelettalen Unterschiede zwischen den Subjekten, indem es die Knochen-Längen normalisiert. Das SeedEdit vorge trainierte Bild-Bearbeitungs-Modell transformiert sowohl die Referenz- als auch die Steuer-Bilder in eine Standard-kanonische Konfiguration. RTMPose wird dann verwendet, um die skelettalen Proportionen zu extrahieren, die zur Anpassung des Steuer-Skeletts an die Anatomie des Referenz-Subjekts verwendet werden.

Überblick über die Inferenz-Pipeline. Pseudo-Referenzen können generiert werden, um Erscheinungs-Hinweise zu bereichern, während Hybrid-Steuer-Signale – implizite Gesichtsbewegung und explizite Pose aus Kopf-Kugeln und Körperskeletten – aus dem Steuer-Video extrahiert werden. Diese werden dann in ein DiT-Modell eingegeben, um animierte Ausgaben zu erzeugen, wobei die Gesichtsbewegung von der Körper-Pose dissoziiert wird, wodurch die Verwendung von Audio als Steuerung ermöglicht wird.
Erscheinungs-Steuerung
Um die Erscheinungs-Treue zu verbessern, insbesondere in verdeckten oder selten sichtbaren Bereichen, ergänzt das System das primäre Referenz-Bild mit Pseudo-Referenzen, die aus dem Eingabe-Video sampelt werden.
Klicken Sie zum Abspielen. Das System geht davon aus, dass die Notwendigkeit besteht, verdeckte Bereiche genau und konsistent zu rendern. Dies ist etwa so nah wie ich es in einem Projekt dieser Art an einer CGI-ähnlichen Bitmap-Textur-Technik gesehen habe.
Diese zusätzlichen Frames werden für Pose-Vielfalt mithilfe von RTMPose ausgewählt und mithilfe von CLIP-basierten Ähnlichkeitsmaßen gefiltert, um sicherzustellen, dass sie mit der Identität des Subjekts übereinstimmen.
Alle Referenz-Frames (primäre und Pseudo-Referenzen) werden durch den gleichen visuellen Encoder codiert und durch eine Selbst-Aufmerksamkeits-Mechanismus fusioniert, wodurch das Modell Zugang zu komplementären Erscheinungs-Hinweisen hat. Diese Einrichtung verbessert die Abdeckung von Details wie Profil-Ansichten oder Gliedmaßen-Texturen. Pseudo-Referenzen werden immer während des Trainings und optional während der Inferenz verwendet.
Training
DreamActor wurde in drei Stufen trainiert, um allmählich Komplexität einzuführen und Stabilität zu verbessern.
In der ersten Stufe wurden nur 3D-Körperskelette und 3D-Kopf-Kugeln als Steuer-Signale verwendet, wobei Gesichts-Representationen ausgeschlossen wurden. Dies ermöglichte es dem Basis-Video-Generierungs-Modell, das von MMDiT initialisiert wurde, sich an menschliche Animationen anzupassen, ohne von feinkörnigen Steuerungen überfordert zu werden.
In der zweiten Stufe wurden implizite Gesichts-Representationen hinzugefügt, aber alle anderen Parameter eingefroren. Nur der Gesichtsbewegungs-Encoder und die Gesichts-Aufmerksamkeits-Schichten wurden zu diesem Zeitpunkt trainiert, wodurch das Modell in der Lage war, ausdrucksstarke Details in Isolation zu lernen.
In der finalen Stufe wurden alle Parameter entfroren, um eine gemeinsame Optimierung über Erscheinung, Pose und Gesichtsdynamik zu ermöglichen.
Daten und Tests
Für die Testphase wird das Modell von einem vorge trainierten Bild-zu-Video-DiT-Checkpoint† initialisiert und in drei Stufen trainiert: 20.000 Schritte für jede der ersten beiden Stufen und 30.000 Schritte für die dritte.
Um die Verallgemeinerung über verschiedene Dauern und Auflösungen zu verbessern, wurden Video-Clips zufällig sampelt, mit Längen zwischen 25 und 121 Frames. Diese wurden dann auf 960x640px vergrößert, wobei das Seitenverhältnis erhalten blieb.
Das Training wurde auf acht (China-fokussierte) NVIDIA H20-GPUs durchgeführt, jedes mit 96GB VRAM, unter Verwendung des AdamW Optimierers mit einer (erträglichen hohen) Lernrate von 5e−6.
Bei der Inferenz enthielt jedes Video-Segment 73 Frames. Um die Konsistenz über Segmente hinweg zu erhalten, wurde das finale Latent eines Segments wiederverwendet als das anfängliche Latent für das nächste, was die Aufgabe als sequenzielle Bild-zu-Video-Generierung kontextualisiert.
Klassifizierungs-freie Steuerung wurde mit einem Gewicht von 2,5 für sowohl Referenz-Bilder als auch Bewegungs-Steuer-Signale angewendet.
Die Autoren konstruierten ein Trainings-Datensatz (keine Quellen werden im Papier genannt), das 500 Stunden Video aus verschiedenen Domänen umfasst, mit Beispielen von (unter anderem) Tanz, Sport, Film und öffentlichen Reden. Der Datensatz wurde so konzipiert, dass er ein breites Spektrum menschlicher Bewegungen und Ausdrucksformen abdeckt, mit einer gleichmäßigen Verteilung zwischen Voll- und Halb-Körper-Shots.
Um die Qualität der Gesichts-Synthese zu verbessern, wurde Nersemble in den Daten-Vorbereitungs-Prozess integriert.

Beispiele aus dem Nersemble-Datensatz, der zur Ergänzung der Daten für DreamActor verwendet wird. Quelle: https://www.youtube.com/watch?v=a-OAWqBzldU
Für die Bewertung verwendeten die Forscher ihren Datensatz auch als Benchmark, um die Verallgemeinerung über verschiedene Szenarien zu beurteilen.
Die Leistung des Modells wurde unter Verwendung von Standard-Metriken aus vorheriger Arbeit gemessen: Fréchet-Inception-Entfernung (FID); Strukturelle Ähnlichkeits-Index (SSIM); Gelernte perzeptuelle Bild-Patch-Ähnlichkeit (LPIPS); und Peak-Signal-zu-Rausch-Verhältnis (PSNR) für Frame-qualitative Qualität. Fréchet-Video-Entfernung (FVD) wurde für die Beurteilung der zeitlichen Kohärenz und der Gesamt-Video-Treue verwendet.
Die Autoren führten Experimente auf Körper-Animation und Porträt-Animation-Aufgaben durch, die alle ein einzelnes (Ziel-) Referenz-Bild verwendeten.
Für Körper-Animation wurde DreamActor-M1 mit Animate Anyone; Champ; MimicMotion, und DisPose verglichen.

Quantitative Vergleiche mit konkurrierenden Frameworks.
Obwohl das PDF ein statisches Bild als visuellen Vergleich bietet, kann eines der Videos von der Projekt-Website die Unterschiede deutlicher hervorheben:
AUDIO-INHALT. Klicken Sie zum Abspielen. Ein visueller Vergleich über die konkurrierenden Frameworks hinweg. Das Steuer-Video ist oben links zu sehen, und die Schlussfolgerung der Autoren, dass DreamActor die besten Ergebnisse liefert, scheint vernünftig.
Für Porträt-Animation-Tests wurde das Modell gegen LivePortrait; X-Portrait; SkyReels-A1; und Act-One bewertet.

Quantitative Vergleiche für Porträt-Animation.
Die Autoren bemerken, dass ihre Methode in quantitativen Tests siegt, und behaupten, dass sie auch qualitativ überlegen ist.
AUDIO-INHALT. Klicken Sie zum Abspielen. Beispiele für Porträt-Animation-Vergleiche.
Arguably das dritte und finale der Clips, die im Video oben gezeigt werden, zeigt eine weniger überzeugende Lip-Sync im Vergleich zu einigen der konkurrierenden Frameworks, obwohl die allgemeine Qualität bemerkenswert hoch ist.
Schlussfolgerung
Indem Bytedance die Notwendigkeit von Texturen antizipiert, die impliziert, aber nicht tatsächlich in dem einzigen Ziel-Bild vorhanden sind, das diese Rekonstruktionen antreibt, hat Bytedance eine der größten Herausforderungen bei der Diffusions-basierten Video-Generierung angegangen – konsistente, anhaltende Texturen. Der nächste logische Schritt nach der Vervollkommnung eines solchen Ansatzes wäre, irgendwie eine Referenz-Atlas aus dem initialen generierten Clip zu erstellen, der auf nachfolgende, unterschiedliche Generationen angewendet werden könnte, um die Erscheinung ohne LoRAs beizubehalten.
Obwohl ein solcher Ansatz im Grunde genommen immer noch eine externe Referenz wäre, ist dies nicht anders als Texture-Mapping in traditionellen CGI-Techniken, und die Qualität der Realistik und Plausibilität ist weit höher als die, die diese älteren Methoden erreichen können.
Das sagte, ist der beeindruckendste Aspekt von DreamActor das kombinierte dreiteilige Steuerungssystem, das die traditionelle Kluft zwischen gesichts- und körper-orientierter menschlicher Synthese auf eine geniale Weise überbrückt.
Es bleibt nur noch abzuwarten, ob einige dieser Kern-Prinzipien in zugänglicheren Angeboten genutzt werden können; wie es derzeit steht, scheint DreamActor dazu bestimmt, ein weiteres Synthese-als-Service-Angebot zu werden, das stark durch Einschränkungen bei der Nutzung und durch die Unpraktikabilität, umfassend mit einer kommerziellen Architektur zu experimentieren, eingeschränkt ist.
* Meine Ersetzung von Hyperlinks für die Autoren; inline-Zitate
† Wie bereits erwähnt, ist es nicht klar, welche Variante von Stable Diffusion in diesem Projekt verwendet wurde.
Erstveröffentlichung am Freitag, den 4. April 2025












