Andersons Blickwinkel
Ein bemerkenswerter Fortschritt in der von Menschen gesteuerten KI-Videoerzeugung

Hinweis: Die Projektseite für diese Arbeit enthält 33 Autoplay-Videos in hoher Auflösung, die insgesamt eine halbe Gigabyte umfassen und mein System beim Laden destabilisierten. Aus diesem Grund werde ich nicht direkt darauf verlinken. Leser können die URL in der Abstract- oder PDF-Datei der Arbeit finden, wenn sie dies wünschen.
Eines der Hauptziele der aktuellen Video-Synthese-Forschung ist die Erzeugung einer vollständigen KI-gesteuerten Video-Darstellung aus einem einzelnen Bild. In dieser Woche hat ein neues Papier von Bytedance Intelligent Creation ein möglicherweise umfassendstes System dieser Art vorgestellt, das in der Lage ist, Voll- und Halbkörper-Animationen zu erzeugen, die ausdrucksstarke Gesichtsdetails mit genauer großer Bewegung kombinieren und gleichzeitig eine verbesserte Identitätskonsistenz erreichen – ein Bereich, in dem sogar führende kommerzielle Systeme oft Schwierigkeiten haben.
Im folgenden Beispiel sehen wir eine Darstellung, die von einem Schauspieler (oben links) gesteuert wird und aus einem einzelnen Bild (oben rechts) abgeleitet wird, das eine bemerkenswert flexible und geschickte Darstellung bietet, ohne die üblichen Probleme bei der Erzeugung großer Bewegungen oder “Raten” über verdeckte Bereiche (d. h. Teile von Kleidung und Gesichtswinkeln, die wegen ihrer Unsichtbarkeit im einzigen Quellbild inferiert oder erfunden werden müssen):
AUDIO-INHALT. Klicken Sie, um abzuspielen. Eine Darstellung wird aus zwei Quellen geboren, einschließlich Lip-Sync, das normalerweise dem Bereich von dedizierten Nebensystemen vorbehalten ist. Dies ist eine reduzierte Version von der Quellseite (siehe Hinweis am Anfang des Artikels – gilt für alle anderen eingebetteten Videos hier).
Obwohl wir einige verbleibende Herausforderungen in Bezug auf die Persistenz der Identität sehen, wenn jeder Clip fortschreitet, ist dies das erste System, das ich gesehen habe, das im Allgemeinen (wenn auch nicht immer) die ID über einen längeren Zeitraum hinweg aufrechterhält, ohne die Verwendung von LoRAs:
AUDIO-INHALT. Klicken Sie, um abzuspielen. Weitere Beispiele aus dem DreamActor-Projekt.
Das neue System, das DreamActor genannt wird, verwendet ein dreiteiliges Hybrid-Steuerungssystem, das spezielle Aufmerksamkeit auf Gesichtsausdruck, Kopfdrehung und Kernskelett-Design legt, wodurch KI-gesteuerte Darstellungen ermöglicht werden, bei denen weder die Gesichts- noch die Körperseite zu Lasten der anderen leidet – eine seltene, möglicherweise unbekannte Fähigkeit unter ähnlichen Systemen.
Unten sehen wir eine dieser Facetten, Kopfdrehung, in Aktion. Der farbige Ball in der Ecke jedes Vorschaubildes auf der rechten Seite zeigt eine Art virtuellen Gimbal, der die Kopf-Orientierung unabhängig von Gesichtsbewegung und Ausdruck definiert, der hier von einem Schauspieler (unten links) gesteuert wird.
Klicken Sie, um abzuspielen. Der multicolore Ball, der hier visualisiert wird, stellt die Drehachse des Kopfes des Avatars dar, während der Ausdruck von einem separaten Modul gesteuert wird und von der Leistung eines Schauspielers (hier unten links) informiert wird.
Eine der interessantesten Funktionalitäten des Projekts, die nicht einmal ordnungsgemäß in den Tests des Papiers enthalten ist, ist seine Fähigkeit, Lip-Sync-Bewegungen direkt aus Audio abzuleiten – eine Fähigkeit, die ungewöhnlich gut funktioniert, sogar ohne ein steuerndes Schauspieler-Video.
Die Forscher haben sich mit den besten etablierten Systemen in diesem Bereich auseinandergesetzt, einschließlich des viel gelobten Runway Act-One und LivePortrait, und berichten, dass DreamActor bessere quantitative Ergebnisse erzielt hat.
Da Forscher ihre eigenen Kriterien festlegen können, sind quantitative Ergebnisse nicht unbedingt ein empirischer Standard; aber die begleitenden qualitativen Tests scheinen die Schlussfolgerungen der Autoren zu unterstützen.
Leider ist dieses System nicht für die öffentliche Veröffentlichung bestimmt, und der einzige Nutzen, den die Gemeinschaft aus dieser Arbeit ableiten kann, besteht möglicherweise darin, die in der Arbeit beschriebenen Methoden zu reproduzieren (wie es mit bemerkenswertem Erfolg für die gleichfalls nicht öffentlich zugängliche Google Dreambooth im Jahr 2022 geschehen ist).
Das Papier besagt*:
‘Die Animation von menschlichen Bildern birgt mögliche soziale Risiken, wie z. B. die missbräuchliche Verwendung, um gefälschte Videos zu erstellen. Die vorgeschlagene Technologie könnte verwendet werden, um gefälschte Videos von Personen zu erstellen, aber bestehende Erkennungstools [Demamba, Dormant] können diese Fälschungen erkennen.
‘Um diese Risiken zu reduzieren, sind klare ethische Regeln und verantwortungsvolle Nutzungsrichtlinien erforderlich. Wir werden den Zugriff auf unsere Kernmodelle und -codes streng einschränken, um Missbrauch zu verhindern.’
Natürlich sind ethische Überlegungen dieser Art aus kommerzieller Sicht günstig, da sie eine Rechtfertigung für API-only-Zugriff auf das Modell liefern, das dann monetarisiert werden kann. ByteDance hat dies bereits 2025 getan, indem es das viel gelobte OmniHuman auf der Dreamina-Website für bezahlte Gutschriften verfügbar gemacht hat. Daher scheint es, dass DreamActor möglicherweise ein noch stärkeres Produkt ist, und es bleibt abzuwarten, inwieweit seine Prinzipien, soweit sie im Papier erläutert werden, der Open-Source-Gemeinschaft helfen können.
Das neue Papier trägt den Titel DreamActor-M1: Holistische, ausdrucksstarke und robuste menschliche Bildanimation mit Hybrid-Steuerung und stammt von sechs Bytedance-Forschern.
Methode
Das DreamActor-System, das im Papier vorgeschlagen wird, zielt darauf ab, menschliche Animationen aus einem Referenzbild und einem Steuer-Video zu erzeugen, indem es ein Diffusions-Transformer (DiT)-Framework verwendet, das für latenten Raum (offenbar eine Art von Stable Diffusion, obwohl das Papier nur die 2022-Landmark-Veröffentlichung zitiert).
Statt auf externe Module zu vertrauen, um Referenzbedingungen zu handhaben, fusionieren die Autoren Erscheinungsbild- und Bewegungsmerkmale direkt im DiT-Backbone, wodurch eine Interaktion über Raum und Zeit durch Aufmerksamkeit ermöglicht wird:

Schema für das neue System: DreamActor kodiert Pose, Gesichtsbewegung und Erscheinungsbild in separate Latente, kombiniert sie mit verrauschten Video-Latenten, die von einem 3D-VAE erzeugt werden. Diese Signale werden innerhalb eines Diffusions-Transformers mithilfe von Selbst- und Kreuzaufmerksamkeit fusioniert, wobei die Gewichte über die Zweige hinweg geteilt werden. Das Modell wird durch Vergleich von entrauschten Ausgaben mit sauberen Video-Latenten überwacht. Quelle: https://arxiv.org/pdf/2504.01724
Um dies zu tun, verwendet das Modell einen vorge trainierten 3D-Variational-Autoencoder, um sowohl das Eingabe-Video als auch das Referenzbild zu kodieren. Diese Latente werden patchifiziert, verkettet und in den DiT eingegeben, der sie gemeinsam verarbeitet.
Diese Architektur weicht von der gängigen Praxis ab, ein sekundäres Netzwerk für Referenz-Injektion anzuhängen, was der Ansatz für die einflussreichen Animate Anyone– und Animate Anyone 2-Projekte war.
Stattdessen baut DreamActor die Fusion in das Hauptmodell selbst ein, wodurch die Konstruktion vereinfacht und der Informationsfluss zwischen Erscheinungsbild- und Bewegungshinweisen verbessert wird. Das Modell wird dann mithilfe von Fluss-Abgleich trainiert, anstatt des Standard-Diffusionsziels (Fluss-Abgleich trainiert Diffusionsmodelle, indem sie direkt Geschwindigkeitsfelder zwischen Daten und Rauschen vorhersagen, und überspringt Score-Schätzung).
Hybrid-Bewegungssteuerung
Die Hybrid-Bewegungssteuerungsmethode, die die neuronalen Renderings informiert, kombiniert Posetoken, die aus 3D-Körperskeletten und Kopfsphären abgeleitet werden; implizite Gesichtsrepräsentationen, die durch einen vorge trainierten Gesichts-Encoder extrahiert werden; und Referenz-Erscheinungsbild-Token, die aus dem Quellbild sampelt.
Diese Elemente werden innerhalb des Diffusions-Transformers mithilfe von unterschiedlichen Aufmerksamkeitsmechanismen integriert, wodurch das System in der Lage ist, globale Bewegung, Gesichtsausdruck und visuelle Identität während des Generierungsprozesses zu koordinieren.
Erstens verwendet DreamActor anstelle von Gesichtslandmarken implizite Gesichtsrepräsentationen, um die Ausdrucksgenerierung zu steuern, was offensichtlich eine feinere Kontrolle über die Gesichtsdynamik ermöglicht und Identität und Kopfpose von Ausdruck trennt.
Um diese Repräsentationen zu erstellen, detektiert die Pipeline zunächst die Gesichtsregion in jedem Frame des Steuer-Videos, vergrößert sie auf 224×224 und verarbeitet die zugeschnittenen Gesichter mithilfe eines Gesichts-Bewegungs-Encoders, der auf dem PD-FGC-Datensatz vorge trainiert wurde, und konditioniert sie dann durch eine MLP-Schicht.

PD-FGC, das in DreamActor verwendet wird, erzeugt einen sprechenden Kopf aus einem Referenzbild mit entkoppelter Steuerung von Lip-Sync (aus Audio), Kopfpose, Augenbewegung und Ausdruck (aus separaten Videos), wodurch eine präzise, unabhängige Manipulation jedes ermöglicht wird. Quelle: https://arxiv.org/pdf/2211.14506
Das Ergebnis ist eine Folge von Gesichtsbewegungstoken, die durch eine Kreuzaufmerksamkeitsschicht in den Diffusions-Transformer eingespeist werden.
Das gleiche Framework unterstützt auch eine audio-gesteuerte Variante, bei der ein separates Encoder-Modell trainiert wird, das Sprachinput direkt in Gesichtsbewegungstoken umwandelt. Dies ermöglicht die Erzeugung von synchronisierter Gesichtsanimation – einschließlich Lippenbewegungen – ohne ein Steuer-Video.
AUDIO-INHALT. Klicken Sie, um abzuspielen. Lip-Sync, der rein aus Audio abgeleitet wird, ohne ein Steuer-Video. Die einzige Charakter-Eingabe ist das statische Foto, das oben rechts zu sehen ist.
Zweitens führt das System eine 3D-Kopfsphären-Representation ein, um die Kopfpose unabhängig von Gesichtsausdruck zu steuern, was die Präzision und Flexibilität während der Animation verbessert.
Kopfsphären werden durch Extraktion von 3D-Gesichtsparametern wie Rotation und Kamerapose aus dem Steuer-Video mithilfe der FaceVerse-Nachverfolgungsmethode erzeugt.

Schema für das FaceVerse-Projekt. Quelle: https://www.liuyebin.com/faceverse/faceverse.html
Diese Parameter werden verwendet, um eine farbige Kugel zu rendern, die auf die 2D-Bildebene projiziert und räumlich mit dem Steuer-Kopf ausgerichtet ist. Die Größe der Kugel entspricht dem Referenz-Kopf, und ihre Farbe spiegelt die Orientierung des Kopfes wider. Diese Abstraktion reduziert die Komplexität des Lernens von 3D-Kopfbewegungen und hilft, stilisierte oder übertriebene Kopfformen in Figuren aus Animationen zu erhalten.

Visualisierung der Steuerkugel, die die Kopforientierung beeinflusst.
Schließlich verwendet das System 3D-Körperskelette mit adaptiver Knochenlängen-Normalisierung, um die vollständige Körperbewegung zu steuern. Körper- und Handparameter werden mithilfe von 4DHumans und der handorientierten HaMeR geschätzt, die beide auf dem SMPL-X-Körpermmodell basieren.

SMPL-X legt eine parametrische Masche über den gesamten Körper in einem Bild, ausgerichtet mit der geschätzten Pose und dem Ausdruck, um pose-orientierte Manipulation mithilfe der Masche als volumetrische Anleitung zu ermöglichen. Quelle: https://arxiv.org/pdf/1904.05866
Aus diesen Ausgaben werden Schlüsselgelenke ausgewählt, in 2D projiziert und zu linienbasierten Skelett-Karten verbunden. Im Gegensatz zu Methoden wie Champ, die vollständige Körpermaschen rendern, vermeidet dieser Ansatz die Aufdrängung von vordefinierten Form-Prioritäten und ermutigt das Modell, Körperform und Erscheinungsbild direkt aus den Referenzbildern abzuleiten, wodurch die Voreingenommenheit gegenüber festen Körpertypen reduziert und die Verallgemeinerung über eine Vielzahl von Posen und Körperbau verbessert wird.
Während des Trainings werden die 3D-Körperskelette mit Kopfsphären verkettet und durch einen Pose-Encoder verarbeitet, der Merkmale ausgibt, die dann mit verrauschten Video-Latenten kombiniert werden, um die Rausch-Token zu erzeugen, die der Diffusions-Transformer verwendet.
Bei der Inferenz berücksichtigt das System die skelettalen Unterschiede zwischen den Subjekten, indem es die Knochenlängen normalisiert. Das SeedEdit-Modell transformiert sowohl die Referenz- als auch die Steuer-Bilder in eine Standard-Kanonische Konfiguration. RTMPose wird dann verwendet, um die skelettalen Proportionen zu extrahieren, die zur Anpassung des Steuer-Skeletts an die Anatomie des Referenz-Subjekts verwendet werden.

Übersicht über die Inferenz-Pipeline. Pseudo-Referenzen können erzeugt werden, um Erscheinungsbild-Hinweise zu bereichern, während Hybrid-Steuerungssignale – implizite Gesichtsbewegung und explizite Pose aus Kopfsphären und Körperskeletten – aus dem Steuer-Video extrahiert und in ein DiT-Modell eingespeist werden, um animierte Ausgaben zu erzeugen, wobei die Gesichtsbewegung von der Körperpose entkoppelt wird, um die Verwendung von Audio als Steuerung zu ermöglichen.
Erscheinungsbild-Steuerung
Um die Erscheinungsbild-Treue zu verbessern, insbesondere in verdeckten oder selten sichtbaren Bereichen, ergänzt das System das primäre Referenzbild mit Pseudo-Referenzen, die aus dem Eingabe-Video sampelt.
Klicken Sie, um abzuspielen. Das System antizipiert die Notwendigkeit, verdeckte Bereiche genau und konsistent zu rendern. Dies ist etwa so nah, wie ich es in einem Projekt dieser Art an einer CGI-ähnlichen Bitmap-Textur-Ansatz gesehen habe.
Diese zusätzlichen Frames werden für Pose-Vielfalt mithilfe von RTMPose ausgewählt und mithilfe von CLIP-basierter Ähnlichkeit gefiltert, um sicherzustellen, dass sie mit der Identität des Subjekts konsistent bleiben.
Alle Referenzbilder (primäre und Pseudo-Referenzen) werden vom gleichen visuellen Encoder kodiert und durch einen Selbstaufmerksamkeitsmechanismus fusioniert, wodurch das Modell auf komplementäre Erscheinungsbild-Hinweise zugreifen kann. Diese Einrichtung verbessert die Abdeckung von Details wie Profilansichten oder Texturen von Gliedmaßen. Pseudo-Referenzen werden immer während des Trainings und optional während der Inferenz verwendet.
Training
DreamActor wurde in drei Stufen trainiert, um allmählich Komplexität einzuführen und Stabilität zu verbessern.
In der ersten Stufe wurden nur 3D-Körperskelette und 3D-Kopfsphären als Steuerungssignale verwendet, wobei Gesichtsrepräsentationen ausgeschlossen wurden. Dies ermöglichte es dem Basis-Video-Generierungsmodell, das von MMDiT initialisiert wurde, sich an menschliche Animationen ohne Überforderung durch feinkörnige Steuerungen anzupassen.
In der zweiten Stufe wurden implizite Gesichtsrepräsentationen hinzugefügt, aber alle anderen Parameter eingefroren. Nur der Gesichtsbewegungs-Encoder und die Gesichtsaufmerksamkeitsschichten wurden zu diesem Zeitpunkt trainiert, was es dem Modell ermöglichte, ausdrucksstarke Details in Isolation zu lernen.
In der finalen Stufe wurden alle Parameter entfroren, um eine gemeinsame Optimierung über Erscheinungsbild, Pose und Gesichtsdynamik zu ermöglichen.
Daten und Tests
Für die Testphase wird das Modell von einem vorge trainierten Bild-zu-Video-DiT-Checkpoint† initialisiert und in drei Stufen trainiert: 20.000 Schritte für jede der ersten beiden Stufen und 30.000 Schritte für die dritte.
Um die Verallgemeinerung über verschiedene Dauern und Auflösungen zu verbessern, wurden Video-Clips zufällig mit Längen zwischen 25 und 121 Frames sampelt. Diese wurden dann auf 960x640px vergrößert, wobei das Seitenverhältnis erhalten blieb.
Das Training wurde auf acht (China-fokussierte) NVIDIA H20-GPUs durchgeführt, von denen jeder 96 GB VRAM hatte, und verwendete den AdamW-Optimizer mit einer (tolerabel hohen) Lernrate von 5e−6.
Bei der Inferenz enthielt jedes Video-Segment 73 Frames. Um Konsistenz über Segmente hinweg zu gewährleisten, wurde das finale Latent von einem Segment wiederverwendet als anfängliches Latent für das nächste, was die Aufgabe als sequenzielle Bild-zu-Video-Generierung kontextualisiert.
Klassifikator-freie Steuerung wurde mit einem Gewicht von 2,5 für Referenzbilder und Bewegungssteuerungssignale angewendet.
Die Autoren konstruierten ein Trainings-Datensatz (keine Quellen werden im Papier genannt), der 500 Stunden Video aus verschiedenen Domänen umfasst, darunter Tanz, Sport, Film und öffentliche Reden. Der Datensatz wurde so konzipiert, dass er ein breites Spektrum menschlicher Bewegung und Ausdrucksformen abdeckt, mit einer gleichmäßigen Verteilung zwischen Voll- und Halbkörper-Shots.
Um die Qualität der Gesichtssynthese zu verbessern, wurde Nersemble in den Datenpräparationsprozess integriert.

Beispiele aus dem Nersemble-Datensatz, der zur Ergänzung der Daten für DreamActor verwendet wird. Quelle: https://www.youtube.com/watch?v=a-OAWqBzldU
Für die Bewertung verwendeten die Forscher ihren Datensatz auch als Benchmark, um die Verallgemeinerung über verschiedene Szenarien zu bewerten.
Die Leistung des Modells wurde mit Standardmetriken aus vorherigen Arbeiten gemessen: Fréchet-Inception-Distanz (FID); Struktureller Ähnlichkeitsindex (SSIM); Gelernte Wahrnehmungs-Ähnlichkeit von Bild-Patches (LPIPS); und Peak-Signal-Rausch-Verhältnis (PSNR) für Frame-qualität. Fréchet-Video-Distanz (FVD) wurde für die Bewertung der zeitlichen Kohärenz und der gesamten Video-Treue verwendet.
Die Autoren führten Experimente auf Körper- und Porträt-Animationen durch, die alle ein einzelnes (Ziel-)Referenzbild verwendeten.
Bei der Körper-Animation wurde DreamActor-M1 mit Animate Anyone; Champ; MimicMotion und DisPose verglichen.

Quantitative Vergleiche mit konkurrierenden Frameworks.
Obwohl die PDF eine statische Abbildung als visuellen Vergleich bietet, kann eines der Videos von der Projekt-Website die Unterschiede deutlicher hervorheben:
AUDIO-INHALT. Klicken Sie, um abzuspielen. Ein visueller Vergleich über die konkurrierenden Frameworks hinweg. Das Steuer-Video ist oben links zu sehen, und die Schlussfolgerung der Autoren, dass DreamActor die besten Ergebnisse liefert, scheint vernünftig.
Bei den Porträt-Animationstests wurde das Modell gegen LivePortrait; X-Portrait; SkyReels-A1 und Act-One bewertet.

Quantitative Vergleiche für Porträt-Animation.
Die Autoren betonen, dass ihre Methode in quantitativen Tests siegt und behaupten, dass sie auch qualitativ überlegen ist.
AUDIO-INHALT. Klicken Sie, um abzuspielen. Beispiele für Porträt-Animationen-Vergleiche.
Arguably das dritte und finale der oben gezeigten Clips zeigt eine weniger überzeugende Lip-Sync im Vergleich zu einigen der konkurrierenden Frameworks, obwohl die allgemeine Qualität bemerkenswert hoch ist.
Schlussfolgerung
Indem ByteDance die Notwendigkeit von Texturen berücksichtigt, die impliziert, aber nicht tatsächlich im einzigen Zielbild vorhanden sind, das diese Rekonstruktionen antreibt, hat es eine der größten Herausforderungen bei der diffusionsbasierten Videoerzeugung angegangen – konsistente, anhaltende Texturen. Der nächste logische Schritt nach der Perfektionierung eines solchen Ansatzes wäre, eine Art Referenz-Atlas aus dem initialen generierten Clip zu erstellen, der auf nachfolgende, unterschiedliche Generationen angewendet werden könnte, um das Erscheinungsbild ohne LoRAs beizubehalten.
Obwohl ein solcher Ansatz im Grunde genommen immer noch eine externe Referenz wäre, ist dies nicht anders als die Texture-Mapping in herkömmlichen CGI-Techniken, und die Qualität der Realistik und Plausibilität ist weit höher als die, die diese älteren Methoden erreichen können.
Das beeindruckendste an DreamActor ist jedoch das kombinierte dreiteilige Steuerungssystem, das die traditionelle Trennung zwischen gesichtsorientierter und körperorientierter menschlicher Synthese auf eine geniale Weise überbrückt.
Es bleibt abzuwarten, ob einige dieser Kernprinzipien in zugänglicheren Angeboten genutzt werden können; wie es derzeit aussieht, scheint DreamActor dazu bestimmt, ein weiteres Synthese-als-Service-Angebot zu werden, das stark durch Nutzungsbeschränkungen und die Unpraktikabilität, umfassend mit einer kommerziellen Architektur zu experimentieren, eingeschränkt ist.
* Meine Ersetzung von Hyperlinks für die Autoren; inline-Zitate
† Wie bereits erwähnt, ist es nicht klar, welche Variante von Stable Diffusion in diesem Projekt verwendet wurde.
Erstveröffentlichung am Freitag, dem 4. April 2025












