Τεχνητή νοημοσύνη
MagicDance: Realistic Human Dance Video Generation

Η όραση υπολογιστών είναι ένας από τους πιο συζητημένους τομείς στον κλάδο της τεχνητής νοημοσύνης, χάρη στις πιθανές εφαρμογές του σε ένα ευρύ φάσμα εργασιών σε πραγματικό χρόνο. Τα τελευταία χρόνια, τα πλαίσια υπολογιστικής όρασης έχουν προχωρήσει γρήγορα, με τα σύγχρονα μοντέλα να είναι πλέον ικανά να αναλύουν χαρακτηριστικά προσώπου, αντικείμενα και πολλά άλλα σε σενάρια σε πραγματικό χρόνο. Παρά αυτές τις δυνατότητες, η μεταφορά ανθρώπινης κίνησης παραμένει μια τρομερή πρόκληση για τα μοντέλα υπολογιστικής όρασης. Αυτή η εργασία περιλαμβάνει την επαναστόχευση των κινήσεων του προσώπου και του σώματος από μια εικόνα ή ένα βίντεο πηγής σε μια εικόνα ή βίντεο-στόχο. Η μεταφορά ανθρώπινης κίνησης χρησιμοποιείται ευρέως σε μοντέλα υπολογιστικής όρασης για τη διαμόρφωση εικόνων ή βίντεο, την επεξεργασία περιεχομένου πολυμέσων, την ψηφιακή ανθρώπινη σύνθεση και ακόμη και τη δημιουργία δεδομένων για πλαίσια που βασίζονται στην αντίληψη.
Σε αυτό το άρθρο, εστιάζουμε στο MagicDance, ένα μοντέλο που βασίζεται στη διάχυση που έχει σχεδιαστεί για να φέρει επανάσταση στη μεταφορά ανθρώπινης κίνησης. Το πλαίσιο MagicDance στοχεύει συγκεκριμένα να μεταφέρει δισδιάστατες εκφράσεις και κινήσεις ανθρώπινου προσώπου σε προκλητικά βίντεο ανθρώπινου χορού. Ο στόχος του είναι να δημιουργήσει νέα χορευτικά βίντεο που βασίζονται σε ακολουθίες πόζας για συγκεκριμένες ταυτότητες στόχων, διατηρώντας παράλληλα την αρχική ταυτότητα. Το πλαίσιο MagicDance χρησιμοποιεί μια στρατηγική εκπαίδευσης δύο σταδίων, με επίκεντρο την απεμπλοκή της ανθρώπινης κίνησης και τους παράγοντες εμφάνισης όπως ο τόνος του δέρματος, οι εκφράσεις του προσώπου και τα ρούχα. Θα εμβαθύνουμε στο πλαίσιο MagicDance, εξερευνώντας την αρχιτεκτονική, τη λειτουργικότητα και τις επιδόσεις του σε σύγκριση με άλλα υπερσύγχρονα πλαίσια μεταφοράς ανθρώπινης κίνησης. Ας βουτήξουμε.
MagicDance: Realistic Human Motion Transfer
Όπως αναφέρθηκε προηγουμένως, η μεταφορά ανθρώπινης κίνησης είναι μια από τις πιο σύνθετες εργασίες όρασης υπολογιστή λόγω της απόλυτης πολυπλοκότητας που εμπλέκεται στη μεταφορά ανθρώπινων κινήσεων και εκφράσεων από την εικόνα ή το βίντεο πηγής στην εικόνα ή το βίντεο-στόχο. Παραδοσιακά, τα πλαίσια όρασης υπολογιστών έχουν επιτύχει μεταφορά ανθρώπινης κίνησης εκπαιδεύοντας ένα συγκεκριμένο μοντέλο παραγωγής που περιλαμβάνει GAN ή Γενετικά Διαφορικά Δίκτυα σε σύνολα δεδομένων-στόχων για εκφράσεις προσώπου και στάσεις σώματος. Αν και η εκπαίδευση και η χρήση μοντέλων παραγωγής αποφέρουν ικανοποιητικά αποτελέσματα σε ορισμένες περιπτώσεις, συνήθως υποφέρουν από δύο βασικούς περιορισμούς.
- Βασίζονται σε μεγάλο βαθμό σε ένα στοιχείο παραμόρφωσης εικόνας, με αποτέλεσμα συχνά να δυσκολεύονται να παρεμβάλουν μέρη του σώματος που δεν είναι ορατά στην εικόνα πηγής είτε λόγω αλλαγής προοπτικής είτε λόγω αυτο-αποκλεισμού.
- Δεν μπορούν να γενικεύσουν σε άλλες εικόνες που προέρχονται από εξωτερικές πηγές, γεγονός που περιορίζει τις εφαρμογές τους, ειδικά σε σενάρια σε πραγματικό χρόνο στη φύση.
Τα σύγχρονα μοντέλα διάχυσης έχουν επιδείξει εξαιρετικές δυνατότητες δημιουργίας εικόνων σε διαφορετικές συνθήκες, και τα μοντέλα διάχυσης είναι πλέον ικανά να παρουσιάζουν ισχυρά γραφικά σε μια σειρά εργασιών κατάντη, όπως η δημιουργία βίντεο και η ζωγραφική εικόνας, μαθαίνοντας από σύνολα δεδομένων εικόνας κλίμακας ιστού. Λόγω των δυνατοτήτων τους, τα μοντέλα διάχυσης μπορεί να είναι η ιδανική επιλογή για εργασίες μεταφοράς ανθρώπινης κίνησης. Αν και τα μοντέλα διάχυσης μπορούν να εφαρμοστούν για μεταφορά ανθρώπινης κίνησης, έχει κάποιους περιορισμούς είτε ως προς την ποιότητα του παραγόμενου περιεχομένου είτε ως προς τη διατήρηση της ταυτότητας ή υποφέρει από χρονικές ασυνέπειες ως αποτέλεσμα των ορίων σχεδιασμού μοντέλων και στρατηγικής εκπαίδευσης. Επιπλέον, τα μοντέλα που βασίζονται στη διάχυση δεν παρουσιάζουν σημαντικό πλεονέκτημα σε σχέση με πλαίσια GAN ως προς τη γενίκευση.
Για να ξεπεραστούν τα εμπόδια που αντιμετωπίζουν τα πλαίσια διάχυσης και βασισμένα στο GAN για εργασίες μεταφοράς ανθρώπινης κίνησης, οι προγραμματιστές εισήγαγαν το MagicDance, ένα νέο πλαίσιο που στοχεύει να εκμεταλλευτεί τις δυνατότητες των πλαισίων διάχυσης για μεταφορά ανθρώπινης κίνησης, επιδεικνύοντας ένα άνευ προηγουμένου επίπεδο διατήρησης ταυτότητας, ανώτερη οπτική ποιότητα. και γενίκευση τομέα. Στον πυρήνα του, η θεμελιώδης ιδέα του πλαισίου MagicDance είναι να χωρίσει το πρόβλημα σε δύο στάδια: έλεγχος εμφάνισης και έλεγχος κίνησης, δύο δυνατότητες που απαιτούνται από τα πλαίσια διάχυσης εικόνας για την παροχή ακριβών εξόδων μεταφοράς κίνησης.
Το παραπάνω σχήμα δίνει μια σύντομη επισκόπηση του πλαισίου MagicDance, και όπως φαίνεται, το πλαίσιο χρησιμοποιεί το Μοντέλο σταθερής διάχυσης, και αναπτύσσει επίσης δύο πρόσθετα στοιχεία: Μοντέλο ελέγχου εμφάνισης και Δίκτυο ελέγχου θέσης όπου το πρώτο παρέχει καθοδήγηση εμφάνισης στο μοντέλο SD από μια εικόνα αναφοράς μέσω της προσοχής, ενώ το δεύτερο παρέχει καθοδήγηση έκφρασης/πόζας στο μοντέλο διάχυσης από μια ρυθμισμένη εικόνα ή βίντεο. Το πλαίσιο χρησιμοποιεί επίσης μια στρατηγική εκπαίδευσης πολλαπλών σταδίων για την αποτελεσματική εκμάθηση αυτών των υποενοτήτων για να ξεμπερδέψει τον έλεγχο της πόζας και την εμφάνιση.
Συνοπτικά, το πλαίσιο MagicDance είναι α
- Καινοτόμο και αποτελεσματικό πλαίσιο που αποτελείται από έλεγχο πόζας χωρίς εμπλοκή της εμφάνισης και προπόνηση ελέγχου εμφάνισης.
- Το πλαίσιο MagicDance είναι σε θέση να παράγει ρεαλιστικές εκφράσεις του προσώπου και ανθρώπινη κίνηση υπό τον έλεγχο εισόδων κατάστασης στάσης και εικόνων ή βίντεο αναφοράς.
- Το πλαίσιο MagicDance στοχεύει στη δημιουργία ανθρώπινου περιεχομένου με συνέπεια στην εμφάνιση, εισάγοντας μια Μονάδα Προσοχής πολλαπλών Πηγών που προσφέρει ακριβή καθοδήγηση για το πλαίσιο Stable Diffusion UNet.
- Το πλαίσιο MagicDance μπορεί επίσης να χρησιμοποιηθεί ως βολική επέκταση ή πρόσθετο για το πλαίσιο Stable Diffusion και επίσης διασφαλίζει συμβατότητα με τα υπάρχοντα βάρη μοντέλων, καθώς δεν απαιτεί πρόσθετη ρύθμιση των παραμέτρων.
Επιπλέον, το πλαίσιο MagicDance παρουσιάζει εξαιρετικές δυνατότητες γενίκευσης τόσο για εμφάνιση όσο και για γενίκευση κίνησης.
- Γενίκευση εμφάνισης: Το πλαίσιο MagicDance επιδεικνύει ανώτερες δυνατότητες όταν πρόκειται για τη δημιουργία διαφορετικών εμφανίσεων.
- Γενίκευση κίνησης: Το πλαίσιο MagicDance έχει επίσης τη δυνατότητα να δημιουργήσει ένα ευρύ φάσμα κινήσεων.
MagicDance : Στόχοι και Αρχιτεκτονική
Για μια δεδομένη εικόνα αναφοράς είτε ενός πραγματικού ανθρώπου είτε μιας στυλιζαρισμένης εικόνας, ο πρωταρχικός στόχος του πλαισίου MagicDance είναι να δημιουργήσει μια εικόνα εξόδου ή ένα βίντεο εξόδου που εξαρτάται από την είσοδο και τις εισόδους πόζας {P, F} όπου το P αντιπροσωπεύει ανθρώπινη στάση ο σκελετός και το F αντιπροσωπεύει τα ορόσημα του προσώπου. Η παραγόμενη εικόνα ή βίντεο εξόδου θα πρέπει να μπορεί να διατηρήσει την εμφάνιση και την ταυτότητα των ανθρώπων που εμπλέκονται μαζί με το περιεχόμενο φόντου που υπάρχει στην εικόνα αναφοράς, διατηρώντας παράλληλα τη στάση και τις εκφράσεις που ορίζονται από τις εισόδους πόζας.
Αρχιτεκτονική
Κατά τη διάρκεια της προπόνησης, το πλαίσιο MagicDance εκπαιδεύεται ως εργασία ανακατασκευής καρέ για την ανακατασκευή της αλήθειας του εδάφους με την εικόνα αναφοράς και την είσοδο πόζας που προέρχεται από το ίδιο βίντεο αναφοράς. Κατά τη διάρκεια της δοκιμής για την επίτευξη μεταφοράς κίνησης, η είσοδος πόζας και η εικόνα αναφοράς προέρχονται από διαφορετικές πηγές.
Η συνολική αρχιτεκτονική του πλαισίου MagicDance μπορεί να χωριστεί σε τέσσερις κατηγορίες: Προκαταρκτικό στάδιο, Προεκπαίδευση Ελέγχου Εμφάνισης, Έλεγχος Πόσης με αποσύμπλεξη εμφάνισης και Μονάδα κίνησης.
Προκαταρκτικό Στάδιο
Τα μοντέλα λανθάνουσας διάχυσης ή LDM αντιπροσωπεύουν μοναδικά σχεδιασμένα μοντέλα διάχυσης που λειτουργούν εντός του λανθάνοντος χώρου που διευκολύνεται από τη χρήση ενός αυτόματου κωδικοποιητή και το πλαίσιο σταθερής διάχυσης είναι ένα αξιοσημείωτο παράδειγμα LDM που χρησιμοποιεί ένα Vector Quantized-Variational Αυτόματος Κωδικοποιητής και χρονική αρχιτεκτονική U-Net. Το μοντέλο Stable Diffusion χρησιμοποιεί έναν μετασχηματιστή που βασίζεται σε CLIP ως κωδικοποιητή κειμένου για την επεξεργασία των εισόδων κειμένου μετατρέποντας τις εισόδους κειμένου σε ενσωματώσεις. Η φάση εκπαίδευσης του πλαισίου Stable Diffusion εκθέτει το μοντέλο σε μια συνθήκη κειμένου και μια εικόνα εισόδου με τη διαδικασία που περιλαμβάνει την κωδικοποίηση της εικόνας σε μια λανθάνουσα αναπαράσταση και το υποβάλλει σε μια προκαθορισμένη ακολουθία βημάτων διάχυσης κατευθυνόμενη με μια μέθοδο Gauss. Η προκύπτουσα ακολουθία αποδίδει μια θορυβώδη λανθάνουσα αναπαράσταση που παρέχει μια τυπική κανονική κατανομή με κύριο στόχο μάθησης του πλαισίου Stable Diffusion να αποθορβώνει τις θορυβώδεις λανθάνουσες αναπαραστάσεις επαναληπτικά σε λανθάνουσες αναπαραστάσεις.
Προεκπαίδευση Ελέγχου Εμφάνισης
Ένα σημαντικό πρόβλημα με το αρχικό πλαίσιο ControlNet είναι η αδυναμία του να ελέγχει την εμφάνιση μεταξύ χωρικά μεταβαλλόμενων κινήσεων με συνέπεια, αν και τείνει να δημιουργεί εικόνες με πόζες που μοιάζουν πολύ με αυτές της εικόνας εισόδου, με τη συνολική εμφάνιση να επηρεάζεται κυρίως από εισροές κειμένου. Αν και αυτή η μέθοδος λειτουργεί, δεν είναι κατάλληλη για μεταφορά κίνησης που περιλαμβάνουν εργασίες όπου δεν είναι οι εισροές κειμένου αλλά η εικόνα αναφοράς που χρησιμεύει ως η κύρια πηγή για πληροφορίες εμφάνισης.
Η ενότητα Προεκπαίδευσης Ελέγχου Εμφάνισης στο πλαίσιο MagicDance έχει σχεδιαστεί ως βοηθητικός κλάδος για να παρέχει καθοδήγηση για τον έλεγχο της εμφάνισης σε μια προσέγγιση επίπεδο προς επίπεδο. Αντί να βασίζεται σε εισαγωγές κειμένου, η συνολική ενότητα εστιάζει στη μόχλευση των χαρακτηριστικών εμφάνισης από την εικόνα αναφοράς με στόχο να ενισχύσει την ικανότητα του πλαισίου να δημιουργεί με ακρίβεια τα χαρακτηριστικά εμφάνισης, ιδιαίτερα σε σενάρια που περιλαμβάνουν σύνθετη δυναμική κίνησης. Επιπλέον, μόνο το Μοντέλο Ελέγχου Εμφάνισης είναι εκπαιδεύσιμο κατά την προ-προπόνηση ελέγχου εμφάνισης.
Έλεγχος πόζας με αποσύμπλεξη εμφάνισης
Μια απλή λύση για τον έλεγχο της πόζας στην εικόνα εξόδου είναι να ενσωματώσετε το προεκπαιδευμένο μοντέλο ControlNet με το προεκπαιδευμένο μοντέλο ελέγχου εμφάνισης απευθείας χωρίς μικρορύθμιση. Ωστόσο, η ενσωμάτωση μπορεί να έχει ως αποτέλεσμα το πλαίσιο να δυσκολεύεται με έλεγχο πόζας ανεξάρτητο από την εμφάνιση που μπορεί να οδηγήσει σε ασυμφωνία μεταξύ των στάσεων εισόδου και των δημιουργούμενων στάσεων. Για την αντιμετώπιση αυτής της ασυμφωνίας, το πλαίσιο MagicDance προσαρμόζει το μοντέλο Pose ControlNet από κοινού με το προεκπαιδευμένο μοντέλο ελέγχου εμφάνισης.
Μονάδα κίνησης
Όταν εργάζονται μαζί, το Δίκτυο Ελέγχου Πόσης με αποσύμπλεξη εμφάνισης και το Μοντέλο Ελέγχου Εμφάνισης μπορούν να επιτύχουν ακριβή και αποτελεσματική μεταφορά εικόνας σε κίνηση, αν και μπορεί να οδηγήσει σε χρονική ασυνέπεια. Για να διασφαλιστεί η χρονική συνέπεια, το πλαίσιο ενσωματώνει μια πρόσθετη μονάδα κίνησης στην κύρια αρχιτεκτονική Stable Diffusion UNet.
MagicDance : Προ-προπόνηση και σύνολα δεδομένων
Για προεκπαίδευση, το πλαίσιο MagicDance χρησιμοποιεί ένα σύνολο δεδομένων TikTok που αποτελείται από περισσότερα από 350 βίντεο χορού ποικίλης διάρκειας μεταξύ 10 και 15 δευτερολέπτων, που απαθανατίζουν ένα άτομο να χορεύει με τα περισσότερα από αυτά τα βίντεο να περιέχουν το πρόσωπο και το πάνω μέρος του σώματος ο άνθρωπος. Το πλαίσιο MagicDance εξάγει κάθε μεμονωμένο βίντεο στα 30 FPS και εκτελεί το OpenPose σε κάθε καρέ ξεχωριστά για να συμπεράνει τον σκελετό της στάσης, τις στάσεις των χεριών και τα ορόσημα του προσώπου.
Για την προεκπαίδευση, το μοντέλο ελέγχου εμφάνισης είναι προεκπαιδευμένο με μέγεθος παρτίδας 64 σε 8 GPU NVIDIA A100 για 10 χιλιάδες βήματα με μέγεθος εικόνας 512 x 512, ακολουθούμενο από από κοινού βελτιστοποίηση των μοντέλων ελέγχου στάσης και ελέγχου εμφάνισης με μέγεθος παρτίδας 16 για 20 χιλιάδες βήματα. Κατά τη διάρκεια της προπόνησης, το πλαίσιο MagicDance δειγματοληπτεί τυχαία δύο καρέ ως στόχο και αναφορά αντίστοιχα με τις εικόνες να περικόπτονται στην ίδια θέση στο ίδιο ύψος. Κατά την αξιολόγηση, το μοντέλο περικόπτει την εικόνα κεντρικά αντί να την περικόψει τυχαία.
MagicDance : Αποτελέσματα
Τα πειραματικά αποτελέσματα που διεξήχθησαν στο πλαίσιο MagicDance παρουσιάζονται στην παρακάτω εικόνα και όπως φαίνεται, το πλαίσιο MagicDance ξεπερνά τα υπάρχοντα πλαίσια όπως το Disco και το DreamPose για μεταφορά ανθρώπινης κίνησης σε όλες τις μετρήσεις. Τα πλαίσια που αποτελούνται από ένα "*" μπροστά από το όνομά τους χρησιμοποιούν την εικόνα προορισμού απευθείας ως είσοδο και περιλαμβάνουν περισσότερες πληροφορίες σε σύγκριση με τα άλλα πλαίσια.
Είναι ενδιαφέρον να σημειωθεί ότι το πλαίσιο MagicDance επιτυγχάνει βαθμολογία Face-Cos 0.426, βελτίωση 156.62% σε σχέση με το πλαίσιο Disco και σχεδόν 400% αύξηση σε σύγκριση με το πλαίσιο DreamPose. Τα αποτελέσματα υποδεικνύουν την ισχυρή ικανότητα του πλαισίου MagicDance να διατηρεί πληροφορίες ταυτότητας και η ορατή ώθηση στην απόδοση υποδηλώνει την υπεροχή του πλαισίου MagicDance έναντι των υπαρχουσών μεθόδων αιχμής.
Τα παρακάτω σχήματα συγκρίνουν την ποιότητα της ανθρώπινης δημιουργίας βίντεο μεταξύ των πλαισίων MagicDance, Disco και TPS. Όπως μπορεί να παρατηρηθεί, τα αποτελέσματα που δημιουργούνται από τα πλαίσια GT, Disco και TPS πάσχουν από ασυνεπή ταυτότητα ανθρώπινης στάσης και εκφράσεις του προσώπου.
Επιπλέον, η ακόλουθη εικόνα δείχνει την οπτικοποίηση της έκφρασης του προσώπου και της μεταφοράς ανθρώπινης πόζας στο σύνολο δεδομένων TikTok με το πλαίσιο MagicDance να είναι σε θέση να δημιουργεί ρεαλιστικές και ζωντανές εκφράσεις και κινήσεις κάτω από διάφορα σημεία του προσώπου και εισόδους σκελετού πόζας διατηρώντας με ακρίβεια τις πληροφορίες ταυτότητας από την είσοδο αναφοράς εικόνα.
Αξίζει να σημειωθεί ότι το πλαίσιο MagicDance μπορεί να υπερηφανεύεται για εξαιρετικές δυνατότητες γενίκευσης σε εικόνες αναφοράς εκτός τομέα αόρατης πόζας και στυλ με εντυπωσιακή δυνατότητα ελέγχου της εμφάνισης ακόμη και χωρίς πρόσθετη ρύθμιση στον τομέα στόχο με τα αποτελέσματα να φαίνονται στην παρακάτω εικόνα .
Οι παρακάτω εικόνες δείχνουν τις δυνατότητες οπτικοποίησης του πλαισίου MagicDance όσον αφορά τη μεταφορά της έκφρασης του προσώπου και την ανθρώπινη κίνηση μηδενικής λήψης. Όπως μπορεί να φανεί, το πλαίσιο MagicDance γενικεύει τέλεια τις ανθρώπινες κινήσεις στην άγρια φύση.
MagicDance : Περιορισμοί
Το OpenPose είναι ένα ουσιαστικό συστατικό του πλαισίου MagicDance, καθώς διαδραματίζει κρίσιμο ρόλο για τον έλεγχο της πόζας, επηρεάζοντας σημαντικά την ποιότητα και τη χρονική συνέπεια των εικόνων που δημιουργούνται. Ωστόσο, το πλαίσιο MagicDance εξακολουθεί να θεωρεί ότι είναι λίγο δύσκολο να ανιχνεύει με ακρίβεια σημεία του προσώπου και να ποζάρει σκελετούς, ειδικά όταν τα αντικείμενα στις εικόνες είναι μερικώς ορατά ή παρουσιάζουν γρήγορη κίνηση. Αυτά τα ζητήματα μπορεί να οδηγήσουν σε τεχνουργήματα στην εικόνα που δημιουργείται.
Συμπέρασμα
Σε αυτό το άρθρο, μιλήσαμε για το MagicDance, ένα μοντέλο που βασίζεται στη διάχυση που στοχεύει να φέρει επανάσταση στη μεταφορά ανθρώπινης κίνησης. Το πλαίσιο MagicDance προσπαθεί να μεταφέρει δισδιάστατες εκφράσεις και κινήσεις ανθρώπινου προσώπου σε προκλητικά βίντεο ανθρώπινου χορού με συγκεκριμένο στόχο να δημιουργήσει νέα βίντεο ανθρώπινου χορού με γνώμονα τη σειρά πόζας για συγκεκριμένες ταυτότητες στόχων, διατηρώντας παράλληλα την ταυτότητα σταθερή. Το πλαίσιο MagicDance είναι μια στρατηγική εκπαίδευσης δύο σταδίων για την απεμπλοκή της ανθρώπινης κίνησης και την εμφάνιση όπως ο τόνος του δέρματος, οι εκφράσεις του προσώπου και τα ρούχα.
Το MagicDance είναι μια νέα προσέγγιση για τη διευκόλυνση της ρεαλιστικής παραγωγής ανθρώπινου βίντεο, ενσωματώνοντας τη μεταφορά της έκφρασης του προσώπου και της κίνησης, και επιτρέποντας τη συνοχή στη γενιά των άγριων κινουμένων σχεδίων χωρίς να χρειάζεται περαιτέρω βελτιστοποίηση που καταδεικνύει σημαντική πρόοδο σε σχέση με τις υπάρχουσες μεθόδους. Επιπλέον, το πλαίσιο MagicDance επιδεικνύει εξαιρετικές δυνατότητες γενίκευσης σε σύνθετες ακολουθίες κίνησης και ποικίλες ανθρώπινες ταυτότητες, καθιερώνοντας το πλαίσιο MagicDance ως τον κύριο δρομέα στον τομέα της μεταφοράς κίνησης με τη βοήθεια τεχνητής νοημοσύνης και της παραγωγής βίντεο.