Connect with us

Ένα Σημαντικό Βήμα Προόδου στη Βίντεο Εchner με Ανθρώπινη Οδήγηση

Η γωνία του Anderson

Ένα Σημαντικό Βήμα Προόδου στη Βίντεο Εchner με Ανθρώπινη Οδήγηση

mm
Examples from the DreamActor project page.

Σημείωση: Η σελίδα του έργου για αυτή τη δουλειά περιλαμβάνει 33 αυτόματα αναπαράγοντας υψηλής ανάλυσης βίντεο που συνολικά φτάνουν τα μισά γιγαμπάιτ, τα οποία αποσταθεροποίησαν το σύστημά μου κατά τη φόρτωση. Για αυτόν το λόγο, δεν θα συνδέσω απευθείας σε αυτό. Οι αναγνώστες μπορούν να βρουν το URL στη σύνοψη του εγγράφου ή στο PDF εάν το επιθυμούν.

Ένα από τα основные αντικείμενα στην τρέχουσα έρευνα σύνθεσης βίντεο είναι η γεννήτρια μιας πλήρης απόδοση βίντεο με οδήγηση από一个人 από μια seule εικόνα. Αυτή την εβδομάδα, μια νέα εργασία από το Bytedance Intelligent Creation περιέγραψε τι μπορεί να είναι το πιο綜合 σύστημα αυτού του είδους μέχρι τώρα, ικανό να παράγει πλήρη και ημι-σώματα animations που συνδυάζουν εκφραστικά λεπτομέρειες προσώπου με ακριβή μεγάλης κλίμακας κίνηση, ενώ επίσης επιτυγχάνει βελτιωμένη συνεχή ταυτότητα – ένα πεδίο όπου ακόμη και οι ηγέτες εμπορικοί συστήματα συχνά αποτυγχάνουν.

Στο παρακάτω παράδειγμα, βλέπουμε μια απόδοση που οδηγείται από έναν ηθοποιό (πάνω αριστερά) και που προέρχεται από μια seule εικόνα (πάνω δεξιά), που παρέχει μια αξιοσημείωτα ευέλικτη και δεξιοτεχνική απόδοση, χωρίς κανένα από τα συνήθη προβλήματα γύρω από τη δημιουργία μεγάλων κινήσεων ή “μάντεψε” για κρυφές περιοχές (δηλαδή, μέρη ενδυμάτων και γωνίες προσώπου που πρέπει να υποθέσουν ή να εφευρεθούν επειδή δεν είναι ορατές στην seule πηγή φωτογραφία):

Περιεχόμενο ήχου. Κάντε κλικ για αναπαραγωγή. Μια απόδοση γεννιέται από δύο πηγές, συμπεριλαμβανομένης της lip-sync, η οποία είναι συνήθως η αποστολή αφιερωμένων βοηθητικών συστημάτων. Αυτό είναι μια μειωμένη έκδοση από την πηγή ιστοσελίδας (δείτε την σημείωση στην αρχή του άρθρου – ισχύει για όλα τα άλλα ενσωματωμένα βίντεο εδώ).

Αν και μπορούμε να δούμε κάποια υπολειπόμενα προκλήματα σχετικά με τη διατήρηση της ταυτότητας σε κάθε clip, αυτό είναι το πρώτο σύστημα που έχω δει που excels γενικά (αν και όχι πάντα) διατηρώντας ID για μια διατηρημένη περίοδο χωρίς τη χρήση LoRAs:

Περιεχόμενο ήχου. Κάντε κλικ για αναπαραγωγή. Περαιτέρω παραδείγματα από το έργο DreamActor.

Το νέο σύστημα, με τίτλο DreamActor, χρησιμοποιεί ένα τριμελή υβριδικό σύστημα ελέγχου που δίνει αφιερωμένη προσοχή στην έκφραση προσώπου, περιστροφή κεφαλής και βασικό σχεδιασμό σκελετού, επιτρέποντας ainsi AI-οδηγούμενες απόδοσης όπου ούτε η έκφραση προσώπου ούτε το σώμα υποφέρουν στο έξοδο του άλλου – μια σπάνια, αμφισβητούμενη ικανότητα μεταξύ παρόμοιων συστημάτων.

Κάτω από αυτό, βλέπουμε ένα από αυτά τα χαρακτηριστικά, περιστροφή κεφαλής, σε δράση. Η χρωματιστή μπάλα στη γωνία κάθε thumbnail προς τα δεξιά υποδεικνύει ένα είδος εικονικού gimbal που ορίζει την προσανατολισμό κεφαλής ανεξάρτητα από την κίνηση και την έκφραση προσώπου, η οποία εδώ οδηγείται από έναν ηθοποιό (κάτω αριστερά).

Κάντε κλικ για αναπαραγωγή. Η πολυχρωματική μπάλα που οπτικοποιείται εδώ αντιπροσωπεύει τον άξονα περιστροφής του κεφαλής του avatar, ενώ η έκφραση τροφοδοτείται από ένα ξεχωριστό module και ενημερώνεται από την απόδοση ενός ηθοποιού (φαινόμενο εδώ κάτω αριστερά).

Ένα από τα πιο ενδιαφέροντα χαρακτηριστικά του έργου, το οποίο δεν περιλαμβάνεται ακόμη σωστά στο έγγραφο, είναι η ικανότητά του να εξάγει κίνηση lip-sync απευθείας από ήχο – μια ικανότητα που λειτουργεί ασυνήθιστα καλά ακόμη και χωρίς οδηγούμενο βίντεο.

Οι ερευνητές έχουν αναλάβει τους καλύτερους incumbents σε αυτή τη διεκδίκηση, συμπεριλαμβανομένων των πολύ επαινεμένων Runway Act-One και LivePortrait, και αναφέρουν ότι το DreamActor ήταν σε θέση να επιτύχει καλύτερα ποσοτικά αποτελέσματα.

Από τότε που οι ερευνητές μπορούν να ορίσουν τα δικά τους κριτήρια, τα ποσοτικά αποτελέσματα δεν είναι απαραίτητα ένα εμπειρικό πρότυπο· αλλά οι συνοδευτικές ποιοτικές δοκιμές φαίνεται να υποστηρίζουν τις συμπεράσματα των συγγραφέων.

Δυστυχώς, αυτό το σύστημα δεν προορίζεται για δημόσια κυκλοφορία, και η μόνη αξία που η κοινότητα μπορεί να εξαγάγει από το έργο είναι η πιθανότητα αναπαραγωγής των μεθοδολογιών που περιγράφονται στο έγγραφο (όπως έγινε με αξιοσημείωτο αποτέλεσμα για το επίσης κλειστό Google Dreambooth το 2022).

Το έγγραφο αναφέρει*:

‘Η animation εικόνας ανθρώπου έχει πιθανές κοινωνικές рисκες, όπως η κακοποίηση για τη δημιουργία ψευδών βίντεο. Η προτεινόμενη τεχνολογία θα μπορούσε να χρησιμοποιηθεί για τη δημιουργία ψευδών βίντεο ανθρώπων, αλλά τα υπάρχοντα εργαλεία ανίχνευσης [Demamba, Dormant] μπορούν να αναγνωρίσουν αυτές τις ψευδείς.

‘Για να μειώσουμε αυτούς τους κινδύνους, είναι απαραίτητο να υπάρχουν σαφείς ηθικοί κανόνες και οδηγίες για την υπεύθυνη χρήση. Θα περιορίσουμε αυστηρά την πρόσβαση στα βασικά μοντέλα και κώδικες μας για να αποτρέψουμε τη κακοποίηση.’

Φυσικά, οι ηθικές σκέψεις αυτού του είδους είναι βολικές από εμπορική πλευρά, поскольку παρέχουν μια αιτιολόγηση για την πρόσβαση API-μόνο στο μοντέλο, το οποίο μπορεί να μονεταριστεί. Η ByteDance έχει ήδη κάνει αυτό μια φορά το 2025, με τη δημοσιοποίηση του πολύ επαινεμένου OmniHuman για πληρωμένα πιστωτικά στοιχεία στην ιστοσελίδα Dreamina. Έτσι,既然 το DreamActor είναι πιθανώς ένα ακόμη ισχυρότερο προϊόν, αυτό φαίνεται το πιθανό αποτέλεσμα. Τι μένει να δούμε είναι το βαθμό στο οποίο οι αρχές του, όσο είναι εξηγημένες στο έγγραφο, μπορούν να βοηθήσουν την ανοιχτή κοινότητα.

Το νέο έγγραφο έχει τον τίτλο DreamActor-M1: Ολιστική, Εκφραστική και Ρομποτική Animation Εικόνας Ανθρώπου με Υβριδική Οδήγηση, και προέρχεται από έξι ερευνητές του Bytedance.

Μέθοδος

Το σύστημα DreamActor που προτείνεται στο έγγραφο έχει ως στόχο να γεννήσει animation ανθρώπου από μια αναφορά εικόνας και ένα οδηγούμενο βίντεο, χρησιμοποιώντας ένα Diffusion Transformer (DiT) πλαίσιο προσαρμοσμένο για latent χώρο (παραφράζοντας κάποιο είδος Stable Diffusion, αν και το έγγραφο αναφέρει μόνο την εκδοση 2022).

Αντί να βασιστεί σε εξωτερικά modules για την οδήγηση αναφοράς, οι συγγραφείς συνδυάζουν άμεσα χαρακτηριστικά εμφάνισης και κίνησης μέσα στο DiT backbone, επιτρέποντας την αλληλεπίδραση μεταξύ χώρου και χρόνου μέσω προσοχής:

Σχήμα για το νέο σύστημα: DreamActor κωδικοποιεί στάση, κίνηση προσώπου και εμφάνιση σε ξεχωριστά latents, τα οποία συνδυάζονται με θορυβώδη βίντεο latents που παράγονται από ένα 3D VAE. Αυτά τα σήματα συνδυάζονται μέσα σε ένα Diffusion Transformer χρησιμοποιώντας self- και cross-προσοχή, με κοινά βάρη σε όλους τους κλάδους. Το μοντέλο εποπτεύεται συγκρίνοντας αποθορυβωμένα εξόδους με καθαρά βίντεο latents. Πηγή: https://arxiv.org/pdf/2504.01724

Σχήμα για το νέο σύστημα: DreamActor κωδικοποιεί στάση, κίνηση προσώπου και εμφάνιση σε ξεχωριστά latents, τα οποία συνδυάζονται με θορυβώδη βίντεο latents που παράγονται από ένα 3D VAE. Αυτά τα σήματα συνδυάζονται μέσα σε ένα Diffusion Transformer χρησιμοποιώντας self- και cross-προσοχή, με κοινά βάρη σε όλους τους κλάδους. Το μοντέλο εποπτεύεται συγκρίνοντας αποθορυβωμένα εξόδους με καθαρά βίντεο latents. Πηγή: https://arxiv.org/pdf/2504.01724

Για να το κάνουν αυτό, το μοντέλο χρησιμοποιεί ένα προ-εκπαιδευμένο 3D variational autoencoder για να κωδικοποιήσει τόσο την εισαγωγική βίντεο όσο και την αναφορά εικόνας. Αυτά τα latents patchified, συνδυάζονται και τροφοδοτούνται στο DiT, το οποίο τα επεξεργάζεται συνδυαστικά.

Αυτή η αρχιτεκτονική απομακρύνεται από την κοινή πρακτική της προσάρτησης ενός δευτερεύοντος δικτύου για έγχυση αναφοράς, η οποία ήταν η προσέγγιση για τα επιρροή Animate Anyone και Animate Anyone 2 projects.

Αντί αυτού, το DreamActor χτίζει την έγχυση μέσα στο κύριο μοντέλο, απλοποιώντας το σχέδιο ενώ ενισχύει τη ροή της πληροφορίας μεταξύ εμφάνισης και κίνησης.

Υβριδική Οδήγηση Κίνησης

Η μέθοδος Υβριδικής Οδήγησης Κίνησης που ενημερώνει τις νευρωνικές απόδοσης συνδυάζει tokens στάσης που προέρχονται από 3D σκελετούς σώματος και σφαίρες κεφαλής· ρητές αναπαραστάσεις προσώπου που εξάγονται από ένα προ-εκπαιδευμένο face encoder· και tokens εμφάνισης αναφοράς που δειγματίζονται από την πηγή εικόνας.

Αυτά τα στοιχεία συνδυάζονται μέσα στο Diffusion Transformer χρησιμοποιώντας ξεχωριστές μηχανισμούς προσοχής, επιτρέποντας στο σύστημα να συντονίσει την κίνηση, την έκφραση προσώπου και την οπτική ταυτότητα καθ’ όλη τη διάρκεια της διαδικασίας απόδοσης.

Για το πρώτο από αυτά, αντί να βασιστεί σε σημεία προσώπου, το DreamActor χρησιμοποιεί ρητές αναπαραστάσεις προσώπου για να οδηγήσει την απόδοση έκφρασης, φαινομενικά επιτρέποντας μια πιο λεπτή έλεγχο της δυναμικής προσώπου ενώ αποσπά την ταυτότητα και τη στάση κεφαλής από την έκφραση.

Για να δημιουργήσουν αυτές τις αναπαραστάσεις, η διαδικασία πρώτα ανιχνεύει και περικόπτει την περιοχή προσώπου σε κάθε καρέ της οδηγούμενης βίντεο, αναδιαμορφώνοντάς την σε 224×224. Τα περικομμένα πρόσωπα επεξεργάζονται από ένα face motion encoder προ-εκπαιδευμένο στο PD-FGC dataset, το οποίο στη συνέχεια συνθηκείται από ένα MLP στρώμα.

PD-FGC, που χρησιμοποιείται στο DreamActor, γεννάει ένα talking head από μια αναφορά εικόνας με αποσπάσμενη έλεγχο της lip-sync (από ήχο), κίνηση κεφαλής, κίνηση ματιών και έκφραση (από ξεχωριστά βίντεο), επιτρέποντας ακριβή, ανεξάρτητη χειραφέτηση του καθενός. Πηγή: https://arxiv.org/pdf/2211.14506

PD-FGC, που χρησιμοποιείται στο DreamActor, γεννάει ένα talking head από μια αναφορά εικόνας με αποσπάσμενη έλεγχο της lip-sync (από ήχο), κίνηση κεφαλής, κίνηση ματιών και έκφραση (από ξεχωριστά βίντεο), επιτρέποντας ακριβή, ανεξάρτητη χειραφέτηση του καθενός. Πηγή: https://arxiv.org/pdf/2211.14506

Το αποτέλεσμα είναι μια ακολουθία tokens κίνησης προσώπου, τα οποία εγχύονται στο Diffusion Transformer μέσω ενός cross-προσοχής στρώματος.

Το ίδιο πλαίσιο υποστηρίζει επίσης μια ήχου-οδηγούμενη παραλλαγή, στην οποία ένας ξεχωριστός κωδικοποιητής εκπαιδεύεται για να χαρτογραφήσει άμεσα την είσοδο ομιλίας σε tokens κίνησης προσώπου. Αυτό επιτρέπει τη γεννήτρια συγχρονισμένης animation προσώπου – συμπεριλαμβανομένων κινήσεων χειλιών – χωρίς οδηγούμενο βίντεο.

Περιεχόμενο ήχου. Κάντε κλικ για αναπαραγωγή. Lip-sync που προέρχεται αποκλειστικά από ήχο, χωρίς οδηγούμενο βίντεο. Η μόνη είσοδος χαρακτήρα είναι η στατική φωτογραφία που φαίνεται πάνω δεξιά.

Δεύτερον, για να ελέγξει την κίνηση κεφαλής ανεξάρτητα από την έκφραση προσώπου, το σύστημα εισάγει μια 3D σφαίρα κεφαλής (δείτε το βίντεο που είναι ενσωματωμένο νωρίτερα σε αυτό το άρθρο), η οποία αποσπά την δυναμική προσώπου από την κίνηση κεφαλής, βελτιώνοντας την ακρίβεια και την ευελιξία κατά τη διάρκεια της animation.

Οι σφαίρες κεφαλής γεννιούνται με την εξαγωγή 3D παραμέτρων προσώπου – όπως περιστροφή και κάμερα στάση – από την οδηγούμενη βίντεο χρησιμοποιώντας τη μέθοδο FaceVerse ανίχνευσης.

Σχήμα για το έργο FaceVerse. Πηγή: https://www.liuyebin.com/faceverse/faceverse.html

Σχήμα για το έργο FaceVerse. Πηγή: https://www.liuyebin.com/faceverse/faceverse.html

Αυτές οι παράμετροι χρησιμοποιούνται για να αποδώσουν μια χρωματική σφαίρα που προβλέπεται στην 2D εικόνα πλάνο, χωρικά ευθυγραμμισμένη με την οδηγούμενη κεφαλή. Το μέγεθος της σφαίρας ταιριάζει με την αναφορά κεφαλής, και το χρώμα της αντανακλά την προσανατολισμό της κεφαλής. Αυτή η αφαίρεση μειώνει την πολυπλοκότητα της μάθησης 3D κίνησης κεφαλής, βοηθώντας να διατηρηθούν στιλισμένες ή υπερβολικές σχήματα κεφαλής σε χαρακτήρες που προέρχονται από animation.

Οπτικοποίηση της σφαίρας ελέγχου που επηρεάζει την προσανατολισμό κεφαλής.

Οπτικοποίηση της σφαίρας ελέγχου που επηρεάζει την προσανατολισμό κεφαλής.

Τέλος, για να οδηγήσει την πλήρη κίνηση σώματος, το σύστημα χρησιμοποιεί 3D σκελετούς σώματος με προσαρμοστική ομαλοποίηση μήκους οστών. Παράμετροι σώματος και χεριών εκτιμώνται χρησιμοποιώντας 4DHumans και το hand-εστιασμένο HaMeR, και τα δύο λειτουργούν στο SMPL-X μοντέλο σώματος.

SMPL-X εφαρμόζει ένα παραμετρικό πλέγμα στο πλήρες σώμα σε μια εικόνα, ευθυγραμμισμένο με την εκτιμώμενη στάση και έκφραση για να επιτρέψει τη χειραφέτηση στάσης χρησιμοποιώντας το πλέγμα ως οδηγό όγκου. Πηγή: https://arxiv.org/pdf/1904.05866

SMPL-X εφαρμόζει ένα παραμετρικό πλέγμα στο πλήρες σώμα σε μια εικόνα, ευθυγραμμισμένο με την εκτιμώμενη στάση και έκφραση για να επιτρέψει τη χειραφέτηση στάσης χρησιμοποιώντας το πλέγμα ως οδηγό όγκου. Πηγή: https://arxiv.org/pdf/1904.05866

Από αυτά τα εξόδους, επιλέγονται κλειδιά αρθρώματα, προβάλλονται σε 2D και συνδέονται σε χάρτες σκελετών γραμμής. Αντιθέτως με μεθόδους όπως Champ, που αποδίδουν πλήρη πλέγματα σώματος, αυτή η προσέγγιση αποφεύγει την επιβολή προκαθορισμένων προτύπων σχήματος, και με την εξάρτηση αποκλειστικά στη σκελετική δομή, το μοντέλο ενθαρρύνεται να υποθέσει σχήμα και εμφάνιση σώματος απευθείας από τις αναφορά εικόνες, μειώνοντας την προκατάληψη προς σταθερά σώματα τύπους, και βελτιώνοντας την γενίκευση σε eine ποικιλία στάσεων και χτιστών.

Κατά τη διάρκεια της εκπαίδευσης, οι 3D σκελετοί σώματος συνδυάζονται με σφαίρες κεφαλής και περνούν через έναν κωδικοποιητή στάσης, ο οποίος εξόδους χαρακτηριστικά που στη συνέχεια συνδυάζονται με θορυβώδη βίντεο latents για να παράγουν τα noise tokens που χρησιμοποιούνται από το Diffusion Transformer.

Στην είσοδο, το σύστημα λαμβάνει υπόψη τις διαφορές σκελετών μεταξύ ανθρώπων με την ομαλοποίηση μήκους οστών. Το SeedEdit προ-εκπαιδευμένο μοντέλο επεξεργασίας εικόνας μετατρέπει και την αναφορά εικόνας και την οδηγούμενη εικόνα σε μια τυποποιημένη κανωνική διαμόρφωση. RTMPose χρησιμοποιείται στη συνέχεια για να εξαγάγει αναλογίες σκελετών, οι οποίες χρησιμοποιούνται για να điều chỉnh το οδηγούμενο σκελετό για να ταιριάζει με την ανατομία του αναφοράς υποκειμένου.

Επισκόπηση της διαδικασίας είσοδου. Ψευδο-αναφορές μπορεί να γεννηθούν για να εμπλουτίσουν τις εμφάνιση ερεθίσματα, ενώ υβριδικά σήματα ελέγχου – ρητή κίνηση προσώπου και σαφή στάση από σφαίρες κεφαλής και σκελετούς σώματος – εξάγονται από την οδηγούμενη βίντεο. Αυτά στη συνέχεια τροφοδοτούνται σε ένα DiT μοντέλο για να παράγουν animated εξόδους, με κίνηση προσώπου αποσπάμενη από στάση σώματος, επιτρέποντας τη χρήση ήχου ως οδηγού.

Επισκόπηση της διαδικασίας είσοδου. Ψευδο-αναφορές μπορεί να γεννηθούν για να εμπλουτίσουν τις εμφάνιση ερεθίσματα, ενώ υβριδικά σήματα ελέγχου – ρητή κίνηση προσώπου και σαφή στάση από σφαίρες κεφαλής και σκελετούς σώματος – εξάγονται από την οδηγούμενη βίντεο. Αυτά στη συνέχεια τροφοδοτούνται σε ένα DiT μοντέλο για να παράγουν animated εξόδους, με κίνηση προσώπου αποσπάμενη από στάση σώματος, επιτρέποντας τη χρήση ήχου ως οδηγού.

Οδηγία Εμφάνισης

Για να βελτιώσει την πιστότητα εμφάνισης, ιδιαίτερα σε κρυφές ή σπάνια ορατές περιοχές, το σύστημα συμπληρώνει την πρωταρχική αναφορά εικόνας με ψευδο-αναφορές που δειγματίζονται από την εισαγωγική βίντεο.

Κάντε κλικ για αναπαραγωγή. Το σύστημα προβλέπει την ανάγκη για ακριβή και συνεχή απόδοση κρυφών περιοχών. Αυτό είναι περίπου τόσο κοντά, σε ένα έργο αυτού του είδους, σε μια CGI-στυλ bitmap-κάλυψη.

Αυτά τα πρόσθετα καρέ επιλέγονται για ποικιλία στάσης χρησιμοποιώντας RTMPose, και φιλτράρονται χρησιμοποιώντας CLIP-βασισμένη ομοιότητα για να διασφαλιστεί ότι παραμένουν συνεπή με την ταυτότητα του υποκειμένου.

Όλες οι αναφορά εικόνες (πρωταρχικές και ψευδο-) κωδικοποιούνται από τον ίδιο οπτικό κωδικοποιητή και συνδυάζονται μέσω ενός μηχανισμού self-προσοχής, επιτρέποντας στο μοντέλο να έχει πρόσβαση σε συμπληρωματικά εμφάνιση ερεθίσματα. Αυτή η διάταξη βελτιώνει την κάλυψη λεπτομερειών όπως προφίλ ή υφές μελών.

Ψευδο-αναφορές χρησιμοποιούνται πάντα κατά την εκπαίδευση και προαιρετικά κατά την είσοδο.

Εκπαίδευση

Το DreamActor εκπαιδεύτηκε σε τρεις στάδια για να εισαγάγει σταδιακά πολυπλοκότητα και να βελτιώσει τη σταθερότητα.

Στο πρώτο στάδιο, χρησιμοποιήθηκαν μόνο 3D σκελετοί σώματος και 3D σφαίρες κεφαλής ως σήματα ελέγχου, εξαιρώντας τις αναπαραστάσεις προσώπου. Αυτό επέτρεψε στο βασικό μοντέλο βίντεο generation, αρχικοποιημένο από MMDiT, να προσαρμοστεί στην animation ανθρώπου χωρίς να παραβληθεί από λεπτομερείς ελέγχους.

Στο δεύτερο στάδιο, προστέθηκαν ρητές αναπαραστάσεις προσώπου, αλλά όλα τα άλλα παράμετροι πάγωσαν. Μόνο ο face motion encoder και οι στρώσεις face attention εκπαιδεύτηκαν σε αυτό το σημείο, επιτρέποντας στο μοντέλο να μάθει εκφραστικά λεπτομέρειες σε απομόνωση.

Στο τελικό στάδιο, όλα τα παράμετροι αφαιρέθηκαν για κοινή βελτιστοποίηση σε εμφάνιση, στάση και δυναμική προσώπου.

Δεδομένα και Δοκιμές

Για τη φάση δοκιμών, το μοντέλο αρχικοποιείται από ένα προ-εκπαιδευμένο σημείο εικόνας-βίντεο DiT και εκπαιδεύεται σε τρεις στάδια: 20,000 βήματα για κάθε ένα από τα δύο πρώτα στάδια και 30,000 βήματα για το τρίτο.

Για να βελτιώσει τη γενίκευση σε διαφορετικές διαρκείας και ανάλυση, βίντεο clips δειγματίζονται τυχαία με μήκη μεταξύ 25 και 121 καρέ. Αυτά στη συνέχεια αναδιαμορφώνονται σε 960x640px, διατηρώντας την αναλογία πλευρών.

Η εκπαίδευση πραγματοποιήθηκε σε οκτώ (China-εστιασμένα) NVIDIA H20 GPUs, κάθε一个 με 96GB VRAM, χρησιμοποιώντας τον AdamW βελτιστοποιητή με μια (ανεκτή υψηλή) ταχύτητα μάθησης 5e−6.

Στην είσοδο, κάθε βίντεο segment περιείχε 73 καρέ. Για να διατηρηθεί η συνεχή σε όλα τα segments, το τελικό latent από ένα segment επαναχρησιμοποιήθηκε ως το αρχικό latent για το επόμενο, το οποίο περιβάλλει την εργασία ως συνεχή image-to-video generation.

Classifier-free οδήγηση εφαρμόστηκε με ένα βάρος 2.5 και για αναφορά εικόνας και σήματα ελέγχου κίνησης.

Οι συγγραφείς κατασκεύασαν ένα σύνολο δεδομένων εκπαίδευσης (χωρίς πηγές που αναφέρονται στο έγγραφο) που αποτελείται από 500 ώρες βίντεο από διαφορετικά πεδία, που περιλαμβάνουν (μεταξύ άλλων) χορό, αθλητισμό, ταινίες και δημόσιες ομιλίες. Το σύνολο δεδομένων σχεδιάστηκε για να καταγράψει ένα ευρύ φάσμα ανθρώπινης κίνησης και έκφρασης, με μια ισορροπημένη κατανομή μεταξύ πλήρους και ημι-σώματος shots.

Για να βελτιώσει την ποιότητα σύνθεσης προσώπου, Nersemble ενσωματώθηκε στη διαδικασία προετοιμασίας δεδομένων.

Παραδείγματα από το dataset Nersemble, που χρησιμοποιούνται για να εμπλουτίσουν τα δεδομένα για το DreamActor. Πηγή: https://www.youtube.com/watch?v=a-OAWqBzldU

Παραδείγματα από το dataset Nersemble, που χρησιμοποιούνται για να εμπλουτίσουν τα δεδομένα για το DreamActor. Πηγή: https://www.youtube.com/watch?v=a-OAWqBzldU

Για την αξιολόγηση, οι ερευνητές χρησιμοποίησαν το σύνολο δεδομένων τους επίσης ως ένα benchmark για να αξιολογήσουν τη γενίκευση σε διάφορες σενάρια.

Η απόδοση του μοντέλου μετρήθηκε χρησιμοποιώντας τυπικά μέτρα από προηγούμενη εργασία: Fréchet Inception Distance (FID); Δείκτης Ομοιότητας Δομής (SSIM); Μαθημένη Περцепτούαλικη Ομοιότητα Patch (LPIPS); και Δείκτης Σήματος-Θορύβου (PSNR) για την ποιότητα καρέ. Fréchet Video Distance (FVD) χρησιμοποιήθηκε για την αξιολόγηση της χρονικής συνάφειας και της συνολικής πιστότητας βίντεο.

Οι συγγραφείς διεξήγαγαν πειράματα σε εργασίες animation σώματος και animation πορτρέτου, όλες χρησιμοποιώντας μια seule (στόχος) αναφορά εικόνας.

Για animation σώματος, το DreamActor-M1 συγκρίθηκε με Animate Anyone; Champ; MimicMotion, και DisPose.

Ποσοτικές συγκρίσεις με αντίπαλους πλαισίων.

Ποσοτικές συγκρίσεις με αντίπαλους πλαισίων.

Αν και το PDF παρέχει μια στατική εικόνα ως οπτική σύγκριση, ένα από τα βίντεο από την ιστοσελίδα του έργου μπορεί να υπογραμμίσει τις διαφορές πιο καθαρά:

Περιεχόμενο ήχου. Κάντε κλικ για αναπαραγωγή. Μια οπτική σύγκριση μεταξύ των αντίπαλων πλαισίων. Η οδηγούμενη βίντεο φαίνεται πάνω αριστερά, και το συμπέρασμα των συγγραφέων ότι το DreamActor παράγει τα καλύτερα αποτελέσματα φαίνεται εύλογο.

Για δοκιμές animation πορτρέτου, το μοντέλο αξιολογήθηκε με LivePortrait; X-Portrait; SkyReels-A1; και Act-One.

Ποσοτικές συγκρίσεις για animation πορτρέτου.

Ποσοτικές συγκρίσεις για animation πορτρέτου.

Οι συγγραφείς σημειώνουν ότι η μέθοδός τους κερδίζει σε ποσοτικές δοκιμές, και ισχυρίζονται ότι είναι επίσης ανώτερη ποιοτικά.

Περιεχόμενο ήχου. Κάντε κλικ για αναπαραγωγή. Παραδείγματα συγκρίσεων animation πορτρέτου.

Αξιολόγητα, το τρίτο και τελικό από τα clips που εμφανίζονται στο βίντεο πάνω φαίνεται μια λιγότερο πειστική lip-sync σε σύγκριση με κάποια από τα αντίπαλά πλάισια, αν και η γενική ποιότητα είναι αξιοσημείωτα υψηλή.

Συμπέρασμα

Προβλέποντας την ανάγκη για υφές που υπονοούνται αλλά δεν είναι πραγματικά παρόντες στην seule εικόνα που τροφοδοτεί αυτές τις αναπαραγωγές, η Bytedance έχει αντιμετωπίσει μια από τις μεγαλύτερες προκλήσεις που αντιμετωπίζουν τα diffusion-βασισμένα βίντεο generation – συνεπής, διατηρημένη υφή. Το επόμενο λογικό βήμα μετά την τελειοποίηση μιας τέτοιας προσέγγισης θα ήταν να δημιουργήσει ένα αναφορά атλάς από το αρχικό generado clip που θα μπορούσε να εφαρμοστεί σε μεταγενέστερες, διαφορετικές γεννήσεις, για να διατηρήσει την εμφάνιση χωρίς LoRAs.

Αν και μια τέτοια προσέγγιση θα ήταν ακόμη ένα εξωτερικό αναφορά, αυτό δεν διαφέρει από την κάλυψη υφής σε παραδοσιακές τεχνικές CGI, και η ποιότητα του ρεαλισμού και της πιστότητας είναι πολύ υψηλότερη από ότι μπορούν να επιτύχουν αυτές οι παλαιότερες μεθόδους.

Όπως αναφέρθηκε, το πιο εντυπωσιακό χαρακτηριστικό του DreamActor είναι το συνδυασμένο τριμελές σύστημα οδήγησης, το οποίο γεφυρώνει το παραδοσιακό χάσμα μεταξύ face-εστιασμένων και body-εστιασμένων ανθρώπινων συνθέσεων με ένα έξυπνο τρόπο.

Μόνο το που μένει να δούμε είναι αν κάποια από αυτά τα βασικά principia μπορούν να εκμεταλλευτούν σε πιο προσιτές προσφορές· όπως είναι τώρα, το DreamActor φαίνεται να είναι προορισμένο να γίνει ένα ακόμη synthesis-ως-υπηρεσία, σοβαρά δεσμευμένο από περιορισμούς χρήσης και από την ακαταλληλότητα της πειραματικής διεξαγωγής με μια εμπορική αρχιτεκτονική.

 

* Η αντικατάσταση μου των υπερσυνδέσμων για τους συγγραφείς· εσωτερικές αναφορές

Όπως αναφέρθηκε νωρίτερα, δεν είναι σαφές ποιο είδος Stable Diffusion χρησιμοποιήθηκε σε αυτό το έργο.

Πρώτη δημοσίευση Παρασκευή, 4 Απριλίου 2025

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]