Connect with us

MagicDance: Πραγματιστική Γεννήτρια Βίντεο Χορού Ανθρώπων

Τεχνητή νοημοσύνη

MagicDance: Πραγματιστική Γεννήτρια Βίντεο Χορού Ανθρώπων

mm
MagicDance: Realistic Human Dance Video Generation

Η οπτική αναγνώριση είναι ένα από τα πιο συζητημένα πεδία στη βιομηχανία του AI, χάρη στις潜τικές εφαρμογές του σε ένα ευρύ φάσμα πραγματικών εργασιών. Τα τελευταία χρόνια, τα πλαίσια της οπτικής αναγνώρισης έχουν προοδεύσει ταχύτατα, με τα σύγχρονα μοντέλα να είναι ικανά να αναλύουν χαρακτηριστικά προσώπου, αντικείμενα και πολλά άλλα σε πραγματικές συνθήκες.尽管 αυτές οι ικανότητες, η μεταφορά κίνησης ανθρώπων παραμένει ένα φόρμιδο πρόβλημα για τα μοντέλα της οπτικής αναγνώρισης. Αυτή η εργασία περιλαμβάνει την επανασκόπηση των κινήσεων προσώπου και σώματος από μια πηγή εικόνας ή βίντεο σε μια στόχο εικόνα ή βίντεο. Η μεταφορά κίνησης ανθρώπων χρησιμοποιείται ευρέως στα μοντέλα της οπτικής αναγνώρισης για την στυλιστική εικόνας ή βίντεο, την επεξεργασία πολυμεσικού περιεχομένου, τη σύνθεση ψηφιακού ανθρώπου και ακόμη και τη γεννήτρια δεδομένων για πλαίσια αντίληψης.

Σε αυτό το άρθρο, εστιάζουμε στο MagicDance, ένα μοντέλο που βασίζεται στη διάχυση και σχεδιάστηκε για να επαναφέρει τη μεταφορά κίνησης ανθρώπων. Το πλαίσιο του MagicDance έχει ως στόχο να μεταφέρει εκφράσεις προσώπου και κινήσεις σε βίντεο χορού ανθρώπων. Ο στόχος του είναι να γεννήσει νέες ακολουθίες χορού για συγκεκριμένες ταυτότητες στόχου ενώ διατηρεί την αρχική ταυτότητα. Το πλαίσιο του MagicDance χρησιμοποιεί μια στρατηγική εκπαίδευσης δύο σταδίων, εστιάζοντας στην αποσύνδεση κίνησης ανθρώπων και παράγοντες εμφάνισης όπως το χρώμα δέρματος, οι εκφράσεις προσώπου και τα ρούχα. Θα εμβαθύνουμε στο πλαίσιο του MagicDance, εξετάζοντας την αρχιτεκτονική, τη λειτουργικότητα και την απόδοση του σε σύγκριση με άλλα μοντέλα μεταφοράς κίνησης ανθρώπων.

MagicDance : Πραγματιστική Μεταφορά Κίνησης Ανθρώπων

Όπως αναφέρθηκε νωρίτερα, η μεταφορά κίνησης ανθρώπων είναι μια από τις πιο σύνθετες εργασίες της οπτικής αναγνώρισης λόγω της πολυπλοκότητας που εμπλέκεται στη μεταφορά κινήσεων και εκφράσεων από την πηγή εικόνας ή βίντεο στη στόχο εικόνα ή βίντεο. Παραδοσιακά, τα μοντέλα της οπτικής αναγνώρισης έχουν επιτύχει τη μεταφορά κίνησης ανθρώπων με την εκπαίδευση ενός γενετικού μοντέλου για συγκεκριμένες εργασίες, συμπεριλαμβανομένων των GAN ή Generative Adversarial Networks σε συνόλους δεδομένων για εκφράσεις προσώπου και στάσεις σώματος. Αν και η εκπαίδευση και η χρήση γενετικών μοντέλων παρέχουν ικανοποιητικά αποτελέσματα σε ορισμένες περιπτώσεις, συνήθως πάσχουν από δύο σημαντικές περιορισμοί.

  1. Εξαρτώνται nặng από einen компонент εικόνας ως αποτέλεσμα του οποίου συχνά πάσχουν να interpolate μέρη σώματος που δεν είναι ορατά στην πηγή εικόνας είτε λόγω αλλαγής προοπτικής είτε λόγω αυτο-κάλυψης.
  2. Δεν μπορούν να γενικεύσουν σε άλλες εικόνες που προέρχονται εξωτερικά, που περιορίζει τις εφαρμογές τους, ιδιαίτερα σε πραγματικές συνθήκες στο άγριο.

Τα σύγχρονα μοντέλα διάχυσης έχουν αποδείξει εξαιρετικές ικανότητες γεννήτριας εικόνας σε διάφορες συνθήκες, και τα μοντέλα διάχυσης είναι τώρα ικανά να παρουσιάσουν ισχυρά οπτικά σε eine σειρά από εργασίες, όπως η γεννήτρια βίντεο και η επεξεργασία εικόνας με την εκμάθηση από συνόλους δεδομένων εικόνας σε κλίμακα web. Λόγω των ικανοτήτων τους, τα μοντέλα διάχυσης μπορεί να είναι ένα ιδανικό επιλογή για εργασίες μεταφοράς κίνησης ανθρώπων. Αν και τα μοντέλα διάχυσης μπορούν να εφαρμοστούν για τη μεταφορά κίνησης ανθρώπων, έχουν ορισμένα περιορισμοί είτε σε σχέση με την ποιότητα του γεννημένου περιεχομένου, είτε σε σχέση με την διατήρηση ταυτότητας είτε σε σχέση με τη χρονική ασυνέπεια ως αποτέλεσμα του σχεδιασμού και της στρατηγικής εκπαίδευσης του μοντέλου. Επιπλέον, τα μοντέλα διάχυσης δεν παρέχουν σημαντικό πλεονέκτημα σε σχέση με τα πλαίσια GAN σε σχέση με τη γενικεύσιμη.

Για να υπερβούν τα εμπόδια που αντιμετωπίζουν τα μοντέλα διάχυσης και GAN στις εργασίες μεταφοράς κίνησης ανθρώπων, οι développers έχουν εισαγάγει το MagicDance, ένα καινούριο πλαίσιο που στοχεύει να εκμεταλλευτεί το δυναμικό των μοντέλων διάχυσης για τη μεταφορά κίνησης ανθρώπων, παρουσιάζοντας ένα άνευ προηγουμένου επίπεδο διατήρησης ταυτότητας, υπεροχή οπτικής ποιότητας και γενικεύσιμη domaine.

Η παραπάνω εικόνα δίνει μια σύντομη επισκόπηση του πλαισίου MagicDance, και όπως μπορεί να φανεί, το πλαίσιο χρησιμοποιεί το Stable Diffusion model, και επίσης αναπτύσσει δύο επιπλέον компоненты: Appearance Control Model και Pose ControlNet, όπου ο πρώτος παρέχει οδηγίες εμφάνισης στο μοντέλο SD από μια αναφορά εικόνας μέσω προσοχής, ενώ ο δεύτερος παρέχει οδηγίες έκφρασης/στάσης στο μοντέλο διάχυσης από μια συνθήκη εικόνας ή βίντεο. Το πλαίσιο επίσης χρησιμοποιεί μια στρατηγική εκπαίδευσης πολλαπλών σταδίων για να μάθει αυτά τα υπο-μοντέλα αποτελεσματικά για να αποσυνδέσει τον έλεγχο στάσης και εμφάνισης.

Συνοπτικά, το πλαίσιο MagicDance είναι ένα

  1. καινούριο και αποτελεσματικό πλαίσιο που αποτελείται από αποσυνδεμένο έλεγχο στάσης και εμφάνισης, και προ-εκπαίδευση εμφάνισης.
  2. Το πλαίσιο MagicDance είναι ικανό να γεννήσει πραγματιστικές εκφράσεις προσώπου και κινήσεις ανθρώπων υπό τον έλεγχο των εισόδων στάσης και αναφορά εικόνας ή βίντεο.
  3. Το πλαίσιο MagicDance στοχεύει να γεννήσει περιεχόμενο ανθρώπων που είναι συνεπές με την εμφάνιση, εισαγωγώντας einen Multi-Source Attention Module που παρέχει ακριβείς οδηγίες για το Stable Diffusion UNet πλαίσιο.
  4. Το πλαίσιο MagicDance μπορεί επίσης να χρησιμοποιηθεί ως eine βολική επέκταση ή προσθήκη για το Stable Diffusion πλαίσιο, και επίσης διασφαλίζει τη συμβατότητα με τα υπάρχοντα βάρη μοντέλου, καθώς δεν απαιτεί πρόσθετη εκπαίδευση των παραμέτρων.

Επιπλέον, το πλαίσιο MagicDance παρουσιάζει εξαιρετικές ικανότητες γενικεύσης για cả την εμφάνιση και την κίνηση.

  1. Εμφάνιση Γενικεύσης: Το πλαίσιο MagicDance παρουσιάζει υπεροχή ικανότητες όταν πρόκειται για τη γεννήτρια ποικιλίας εμφανίσεων.
  2. Κίνηση Γενικεύσης: Το πλαίσιο MagicDance έχει επίσης την ικανότητα να γεννήσει eine ευρεία ποικιλία κινήσεων.

MagicDance : Στόχοι και Αρχιτεκτονική

Για μια δεδομένη αναφορά εικόνας είτε ενός πραγματικού ανθρώπου είτε μιας στυλιστικής εικόνας, ο πρωταρχικός στόχος του πλαισίου MagicDance είναι να γεννήσει eine εξοδο εικόνας ή βίντεο που προϋποθέτει την εισόδιο και τις εισόδους στάσης {P, F} όπου P αντιπροσωπεύει το σκελετό στάσης ανθρώπων και F αντιπροσωπεύει τα χαρακτηριστικά προσώπου. Η γεννημένη εξοδο εικόνας ή βίντεο πρέπει να είναι ικανή να διατηρήσει την εμφάνιση και την ταυτότητα των ανθρώπων που εμπλέκονται, μαζί με το περιεχόμενο φόντου που υπάρχει στην αναφορά εικόνας, ενώ διατηρεί την στάση και τις εκφράσεις που ορίζονται από τις εισόδους στάσης.

Αρχιτεκτονική

Κατά τη διάρκεια της εκπαίδευσης, το πλαίσιο MagicDance εκπαιδεύεται ως eine εργασία ανακατασκευής πλαισίου για να ανακατασκευάσει την πραγματική αλήθεια με την αναφορά εικόνας και την εισόδιο στάσης που προέρχονται από το ίδιο αναφορά βίντεο. Κατά τη διάρκεια του τεστ για να επιτύχει τη μεταφορά κίνησης, η εισόδιο στάσης και η αναφορά εικόνας προέρχονται από διαφορετικές πηγές.

Η tổng αρχιτεκτονική του πλαισίου MagicDance μπορεί να χωριστεί σε τέσσερις κατηγορίες: Προκαταρκτικό στάδιο, Προ-εκπαίδευση Εμφάνισης, Αποσυνδεμένος Έλεγχος Στάσης και Μοντέλο Κίνησης.

Προκαταρκτικό Στάδιο

Τα μοντέλα διάχυσης Latent ή LDM αντιπροσωπεύουν μοναδικά σχεδιασμένα μοντέλα διάχυσης για να λειτουργήσουν στο χώρο Latent που διευκολύνεται από τη χρήση ενός autoencoder, και το Stable Diffusion πλαίσιο είναι ένα αξιοσημείωτο παράδειγμα LDM που χρησιμοποιεί einen Vector Quantized-Variational AutoEncoder και αρχιτεκτονική U-Net χρονικής. Το Stable Diffusion μοντέλο χρησιμοποιεί einen CLIP- आधαρмонικό μετασχηματισμό ως κωδικοποιητή κειμένου για να επεξεργαστεί κειμενικές εισόδους μετατρέποντας κειμενικές εισόδους σε ενσωματώσεις. Η φάση εκπαίδευσης του Stable Diffusion πλαισίου εκθέτει το μοντέλο σε μια συνθήκη κειμένου και μια εισόδιο εικόνας με τη διαδικασία που περιλαμβάνει την κωδικοποίηση της εικόνας σε μια.latent αναπαράσταση, και την υποβάλλει σε eine προκαθορισμένη ακολουθία βημάτων διάχυσης που κατευθύνεται από eine Gaussian μέθοδο. Η αποτελεσματική ακολουθία παράγει eine θορυβώδη.latent αναπαράσταση που παρέχει eine τυπική κανονική κατανομή με το πρωταρχικό στόχο μάθησης του Stable Diffusion πλαισίου να είναι η απο-θορύβωση των θορυβωδών.latent αναπαραστάσεων σε.latent αναπαραστάσεις.

Προ-εκπαίδευση Εμφάνισης

Ein σημαντικό πρόβλημα με το πρωτότυπο ControlNet πλαίσιο είναι η αδυναμία του να ελέγξει την εμφάνιση μεταξύ των χωρικά μεταβαλλόμενων κινήσεων συνεχώς, αν και τείνει να γεννήσει εικόνες με στάσεις που μοιάζουν με αυτές στην εισόδιο εικόνας με την tổng εμφάνιση που επηρεάζεται κυρίως από κειμενικές εισόδους. Αν και αυτή η μέθοδος λειτουργεί, δεν είναι κατάλληλη για εργασίες μεταφοράς κίνησης που εμπλέκουν εργασίες όπου δεν είναι οι κειμενικές εισόδους αλλά η αναφορά εικόνας που χρησιμεύει ως η πρωταρχική πηγή για πληροφορίες εμφάνισης.

Το μοντέλο Προ-εκπαίδευσης Εμφάνισης στο πλαίσιο MagicDance σχεδιάστηκε ως eine βοηθητική διακλάδωση για να παρέχει οδηγίες για τον έλεγχο εμφάνισης σε eine στρωματική προσέγγιση. Αντί να βασίζεται σε κειμενικές εισόδους, το tổng μοντέλο εστιάζει στην εκμετάλλευση των χαρακτηριστικών εμφάνισης από την αναφορά εικόνας με το στόχο να ενισχύσει την ικανότητα του πλαισίου να γεννήσει τα χαρακτηριστικά εμφάνισης ακριβώς, ιδιαίτερα σε σενάρια που εμπλέκουν σύνθετες δυναμικές κίνησης. Επιπλέον, είναι μόνο το Μοντέλο Ελέγχου Εμφάνισης που είναι εκπαιδεύσιμο κατά τη διάρκεια της προ-εκπαίδευσης εμφάνισης.

Αποσυνδεμένος Έλεγχος Στάσης

Eine ναΐβια λύση για τον έλεγχο στάσης στην εξοδο εικόνας είναι να ενσωματώσει το προ-εκπαιδευμένο ControlNet μοντέλο με το προ-εκπαιδευμένο Μοντέλο Ελέγχου Εμφάνισης απευθείας χωρίς εκπαίδευση. Ωστόσο, η ενσωμάτωση μπορεί να οδηγήσει το πλαίσιο να πάσχει με την ανεξάρτητη εμφάνιση ελέγχου στάσης που μπορεί να οδηγήσει σε eine διαφορά μεταξύ των εισόδων στάσης και των γεννημένων στάσεων. Για να αντιμετωπίσουμε αυτή τη διαφορά, το πλαίσιο MagicDance εκπαιδεύει το Μοντέλο Ελέγχου Στάσης μαζί με το προ-εκπαιδευμένο Μοντέλο Ελέγχου Εμφάνισης.

Μοντέλο Κίνησης

Όταν εργάζονται μαζί, το Αποσυνδεμένο Μοντέλο Ελέγχου Στάσης και το Μοντέλο Ελέγχου Εμφάνισης μπορούν να επιτύχουν ακριβή και αποτελεσματική μεταφορά εικόνας σε κίνηση, αν και μπορεί να οδηγήσει σε χρονική ασυνέπεια. Για να διασφαλίσουμε τη χρονική συνέπεια, το πλαίσιο ενσωματώνει ένα επιπλέον μοντέλο κίνησης στην αρχιτεκτονική του Stable Diffusion UNet.

MagicDance : Προ-εκπαίδευση και Συνόλους Δεδομένων

Για προ-εκπαίδευση, το πλαίσιο MagicDance χρησιμοποιεί ένα συνόλου δεδομένων TikTok που αποτελείται από πάνω από 350 βίντεο χορού ανθρώπων διάρκειας μεταξύ 10 και 15 δευτερολέπτων, που απαθανατίζουν ένα μόνο άτομο που χορεύει με την πλειοψηφία αυτών των βίντεο να περιέχουν το πρόσωπο και το άνω μέρος του σώματος. Το πλαίσιο MagicDance εξάγει κάθε βίντεο ξεχωριστά σε 30 FPS και τρέχει το OpenPose σε κάθε πλάνο για να επιτύχει τον σκελετό στάσης, τις στάσεις χεριών και τα χαρακτηριστικά προσώπου.

Για προ-εκπαίδευση, το μοντέλο ελέγχου εμφάνισης προ-εκπαιδεύεται με μια μέγεθος δείγματος 64 σε 8 NVIDIA A100 GPUs για 10 χιλιάδες βήματα με eine μέγεθος εικόνας 512 x 512, ακολουθούμενο από την κοινή εκπαίδευση του μοντέλου ελέγχου στάσης και του μοντέλου ελέγχου εμφάνισης με μια μέγεθος δείγματος 16 για 20 χιλιάδες βήματα. Κατά τη διάρκεια της εκπαίδευσης, το πλαίσιο MagicDance τυχαία δείγμα δύο πλαισίων ως στόχο και αναφορά αντίστοιχα με τις εικόνες πουcropped στην ίδια θέση με το ίδιο ύψος. Κατά τη διάρκεια της αξιολόγησης, το μοντέλοcropped την εικόνα κεντρικά αντί να τηνcropped τυχαία.

MagicDance : Αποτελέσματα

Τα πειραματικά αποτελέσματα που διεξήχθησαν στο πλαίσιο MagicDance παρουσιάζονται στην ακόλουθη εικόνα, και όπως μπορεί να φανεί, το πλαίσιο MagicDance υπερέχει των υφιστάμενων πλαισίων όπως Disco και DreamPose για τη μεταφορά κίνησης ανθρώπων σε όλα τα μετρικά. Τα πλαίσια που αποτελούνται από einen “*” μπροστά από το όνομά τους χρησιμοποιούν την εικόνα στόχου απευθείας ως εισόδιο, και περιλαμβάνουν περισσότερες πληροφορίες σε σύγκριση με τα άλλα πλαίσια.

Είναι ενδιαφέρον να σημειωθεί ότι το πλαίσιο MagicDance επιτύχει einen Face-Cos βαθμό 0,426, eine βελτίωση 156,62% σε σχέση με το πλαίσιο Disco, και σχεδόν 400% αύξηση σε σύγκριση με το πλαίσιο DreamPose. Τα αποτελέσματα δείχνουν τη ρομποτική ικανότητα του πλαισίου MagicDance να διατηρήσει πληροφορίες ταυτότητας, και η ορατή βελτίωση της απόδοσης δείχνει την υπεροχή του πλαισίου MagicDance σε σχέση με τα υφιστάμενα state-of-the-art μεθόδους.

Οι ακόλουθες εικόνες συγκρίνουν την ποιότητα της γεννήτριας βίντεο ανθρώπων μεταξύ του MagicDance, Disco, και TPS. Όπως μπορεί να φανεί, τα αποτελέσματα που παράγονται από τα GT, Disco, και TPS πλαίσια πάσχουν από ασυνέπεια στην ταυτότητα στάσης ανθρώπων και εκφράσεων προσώπου.

Επιπλέον, η ακόλουθη εικόνα δείχνει την οπτική της μεταφοράς έκφρασης προσώπου και στάσης ανθρώπων στο συνόλου δεδομένων TikTok με το πλαίσιο MagicDance να είναι ικανό να γεννήσει πραγματιστικές και ζωηρές εκφράσεις και κινήσεις υπό διαφορετικά χαρακτηριστικά προσώπου και στάσης, ενώ διατηρεί ακριβώς τις πληροφορίες ταυτότητας από την αναφορά εικόνας.

Είναι αξιοσημείωτο ότι το πλαίσιο MagicDance διαθέτει εξαιρετικές ικανότητες γενικεύσης σε εικόνες αναφοράς εκτός domaine με εντυπωσιακή εμφάνιση ελέγχου ακόμη και χωρίς πρόσθετη εκπαίδευση στο domaine στόχου με τα αποτελέσματα να παρουσιάζονται στην ακόλουθη εικόνα.

Οι ακόλουθες εικόνες δείχνουν τις οπτικές ικανότητες του πλαισίου MagicDance σε σχέση με τη μεταφορά έκφρασης προσώπου και την zero-shot κίνηση ανθρώπων. Όπως μπορεί να φανεί, το πλαίσιο MagicDance γενικεύει σε κινήσεις ανθρώπων στο άγριο.

MagicDance : Περιορισμοί

Το OpenPose είναι ένα βασικό компонент του πλαισίου MagicDance, καθώς παίζει ένα κρίσιμο ρόλο για τον έλεγχο στάσης, επηρεάζοντας σημαντικά την ποιότητα και τη χρονική συνέπεια των γεννημένων εικόνων. Ωστόσο, το πλαίσιο MagicDance vẫn βρίσκει有点 δύσκολο να ανιχνεύσει τα χαρακτηριστικά προσώπου και τον σκελετό στάσης ακριβώς, ιδιαίτερα όταν τα αντικείμενα στις εικόνες είναι μερικά ορατά ή δείχνουν ταχεία κίνηση. Αυτά τα προβλήματα μπορούν να οδηγήσουν σε ανωμαλίες στις γεννημένες εικόνες.

Συμπέρασμα

Σε αυτό το άρθρο, έχουμε μιλήσει για το MagicDance, ένα μοντέλο που βασίζεται στη διάχυση και στοχεύει να επαναφέρει τη μεταφορά κίνησης ανθρώπων. Το πλαίσιο MagicDance προσπαθεί να μεταφέρει εκφράσεις προσώπου και κινήσεις σε βίντεο χορού ανθρώπων με το συγκεκριμένο στόχο να γεννήσει νέες ακολουθίες χορού για συγκεκριμένες ταυτότητες στόχου, διατηρώντας την ταυτότητα σταθερή. Το πλαίσιο MagicDance είναι eine στρατηγική εκπαίδευσης δύο σταδίων για την αποσύνδεση κίνησης ανθρώπων και εμφάνισης, όπως το χρώμα δέρματος, οι εκφράσεις προσώπου και τα ρούχα.

Το MagicDance είναι eine καινούρια προσέγγιση για τη γεννήτρια πραγματιστικών βίντεο ανθρώπων, ενσωματώνοντας την μεταφορά έκφρασης προσώπου και κίνησης, και επιτρέποντας τη συνεχή γεννήτρια κίνησης στο άγριο χωρίς την ανάγκη για πρόσθετη εκπαίδευση, δείχνοντας σημαντική πρόοδο σε σχέση με τις υφιστάμενες μεθόδους. Επιπλέον, το πλαίσιο MagicDance παρουσιάζει εξαιρετικές ικανότητες γενικεύσης σε σύνθετες ακολουθίες κίνησης και ποικίλες ταυτότητες ανθρώπων, καθιστώντας το MagicDance πλαίσιο ως τον ηγέτη στον τομέα της AI-βοηθούμενης μεταφοράς κίνησης και γεννήτριας βίντεο.

Ένας μηχανικός επάγγελμα, ένας συγγραφέας με την καρδιά. Ο Kunal είναι ένας τεχνικός συγγραφέας με einen βαθύ έρωτα και κατανόηση του AI και ML, αφιερωμένος στο να απλοποιεί σύνθετες έννοιες σε αυτά τα πεδία μέσω των ελκυστικών και ενημερωτικών εγγράφων του.