στέλεχος DynamiCrafter: Κίνηση εικόνων ανοιχτού τομέα με Video Diffusion Priors - Unite.AI
Συνδεθείτε μαζί μας

Τεχνητή νοημοσύνη

DynamiCrafter: Κίνηση εικόνων ανοιχτού τομέα με προηγούμενα βίντεο διάχυσης

mm

Δημοσιευμένα

 on

DynamiCrafter: Κίνηση εικόνων ανοιχτού τομέα με προηγούμενα βίντεο διάχυσης

Οραματισμός υπολογιστών είναι ένα από τα πιο συναρπαστικά και καλά ερευνημένα πεδία στην κοινότητα της τεχνητής νοημοσύνης σήμερα, και παρά την ταχεία βελτίωση των μοντέλων υπολογιστικής όρασης, μια μακροχρόνια πρόκληση που εξακολουθεί να προβληματίζει τους προγραμματιστές είναι το animation εικόνας. Ακόμη και σήμερα, τα πλαίσια κινούμενων εικόνων αγωνίζονται να μετατρέψουν στατικές εικόνες στα αντίστοιχα βίντεο που εμφανίζουν φυσική δυναμική διατηρώντας παράλληλα την αρχική εμφάνιση των εικόνων. Παραδοσιακά, τα πλαίσια κινούμενων εικόνων εστιάζουν κυρίως στην κίνηση φυσικών σκηνών με κινήσεις που αφορούν συγκεκριμένες περιοχές, όπως ανθρώπινες τρίχες ή κινήσεις σώματος ή στοχαστική δυναμική όπως υγρά και σύννεφα. Αν και αυτή η προσέγγιση λειτουργεί σε κάποιο βαθμό, περιορίζει την εφαρμογή αυτών των πλαισίων κινούμενων εικόνων σε πιο γενικό οπτικό περιεχόμενο. 

Επιπλέον, οι συμβατικές προσεγγίσεις κινούμενων εικόνων επικεντρώνονται κυρίως στη σύνθεση ταλαντευόμενων και στοχαστικών κινήσεων ή στην προσαρμογή για συγκεκριμένες κατηγορίες αντικειμένων. Ωστόσο, ένα αξιοσημείωτο ελάττωμα με την προσέγγιση είναι οι ισχυρές παραδοχές που επιβάλλονται σε αυτές τις μεθόδους που τελικά περιορίζουν τη δυνατότητα εφαρμογής τους ειδικά σε γενικά σενάρια όπως η κίνηση εικόνων ανοιχτού τομέα. Κατά τη διάρκεια των τελευταίων ετών, Μοντέλα T2V ή Text to Video έχουν επιδείξει αξιοσημείωτη επιτυχία στη δημιουργία ζωντανών και διαφορετικών βίντεο με χρήση γραπτών προτροπών και αυτή η επίδειξη μοντέλων T2V αποτελεί τη βάση για το πλαίσιο DynamiCrafter. 

Το πλαίσιο DynamiCrafter είναι μια προσπάθεια να ξεπεραστούν οι τρέχοντες περιορισμοί των μοντέλων κινούμενων εικόνων και να επεκταθεί η δυνατότητα εφαρμογής τους σε γενικά σενάρια που περιλαμβάνουν εικόνες ανοιχτού κόσμου. Το πλαίσιο DynamiCrafter επιχειρεί να συνθέσει δυναμικό περιεχόμενο για εικόνες ανοιχτού τομέα, μετατρέποντάς τες σε κινούμενα βίντεο. Η βασική ιδέα πίσω από το DynamiCrafter είναι να ενσωματώσει την εικόνα ως καθοδήγηση στη διαδικασία δημιουργίας σε μια προσπάθεια να χρησιμοποιηθεί η κίνηση πριν από τα ήδη υπάρχοντα μοντέλα διάχυσης κειμένου σε βίντεο. Για μια δεδομένη εικόνα, το μοντέλο DynamiCrafter εφαρμόζει πρώτα έναν μετασχηματιστή ερωτήματος που προβάλλει την εικόνα σε έναν χώρο αναπαράστασης εμπλουτισμένου περιβάλλοντος ευθυγραμμισμένου με κείμενο, διευκολύνοντας το μοντέλο βίντεο να αφομοιώσει το περιεχόμενο της εικόνας με συμβατό τρόπο. Ωστόσο, το μοντέλο DynamiCrafter εξακολουθεί να παλεύει να διατηρήσει ορισμένες οπτικές λεπτομέρειες στα βίντεο που προκύπτουν, ένα πρόβλημα που το μοντέλο DynamiCrafter ξεπερνάει τροφοδοτώντας την πλήρη εικόνα στο μοντέλο διάχυσης συνενώνοντας την εικόνα με τους αρχικούς θορύβους, συμπληρώνοντας επομένως το μοντέλο με πιο ακριβή εικόνα πληροφορίες. 

Αυτό το άρθρο στοχεύει να καλύψει σε βάθος το πλαίσιο DynamiCrafter και διερευνούμε τον μηχανισμό, τη μεθοδολογία, την αρχιτεκτονική του πλαισίου μαζί με τη σύγκριση του με τα τελευταίας τεχνολογίας πλαίσια παραγωγής εικόνας και βίντεο. Ας ξεκινήσουμε λοιπόν. 

DynamiCrafter: Κινούμενα σχέδια εικόνων ανοιχτού τομέα

Η κινούμενη εικόνα μιας ακίνητης εικόνας προσφέρει συχνά μια ελκυστική οπτική εμπειρία για το κοινό, καθώς φαίνεται να ζωντανεύει τη στατική εικόνα. Με τα χρόνια, πολυάριθμα πλαίσια έχουν εξερευνήσει διάφορες μεθόδους δημιουργίας κινούμενων εικόνων. Τα αρχικά πλαίσια κινούμενων εικόνων εφάρμοσαν προσεγγίσεις βασισμένες σε φυσική προσομοίωση που επικεντρώθηκαν στην προσομοίωση της κίνησης συγκεκριμένων αντικειμένων. Ωστόσο, λόγω της ανεξάρτητης μοντελοποίησης κάθε κατηγορίας αντικειμένων, αυτές οι προσεγγίσεις δεν ήταν ούτε αποτελεσματικές ούτε είχαν δυνατότητα γενίκευσης. Για την αναπαραγωγή πιο ρεαλιστικών κινήσεων, προέκυψαν μέθοδοι βασισμένες σε αναφορές που μετέφεραν πληροφορίες κίνησης ή εμφάνισης από σήματα αναφοράς όπως βίντεο στη διαδικασία σύνθεσης. Αν και οι προσεγγίσεις που βασίζονται στην αναφορά απέδωσαν καλύτερα αποτελέσματα με καλύτερη χρονική συνοχή σε σύγκριση με προσεγγίσεις που βασίζονται στην προσομοίωση, χρειάζονταν πρόσθετη καθοδήγηση που περιόριζε τις πρακτικές εφαρμογές τους. 

Τα τελευταία χρόνια, η πλειονότητα των πλαισίων κινουμένων σχεδίων εστιάζεται κυρίως στην εμψύχωση φυσικών σκηνών με στοχαστικές, ειδικές για τον τομέα ή ταλαντευόμενες κινήσεις. Αν και η προσέγγιση που εφαρμόζεται από αυτά τα πλαίσια λειτουργεί σε κάποιο βαθμό, τα αποτελέσματα που παράγουν αυτά τα πλαίσια δεν είναι ικανοποιητικά, με σημαντικά περιθώρια βελτίωσης. Τα αξιοσημείωτα αποτελέσματα που επιτεύχθηκαν από τα μοντέλα δημιουργίας κειμένου σε βίντεο τα τελευταία χρόνια ενέπνευσαν τους προγραμματιστές του πλαισίου DynamiCrafter να αξιοποιήσουν τις ισχυρές δυνατότητες δημιουργίας των μοντέλων Text to Video για κινούμενα σχέδια εικόνων. 

Το βασικό θεμέλιο του πλαισίου DynamiCrafter είναι να ενσωματώσει μια υπό όρους εικόνα σε μια προσπάθεια να διέπει τη διαδικασία δημιουργίας βίντεο Μοντέλα διάχυσης κειμένου σε βίντεο. Ωστόσο, ο απώτερος στόχος της κινούμενης εικόνας εξακολουθεί να παραμένει μη τετριμμένος, καθώς η κινούμενη εικόνα απαιτεί τη διατήρηση των λεπτομερειών καθώς και την κατανόηση οπτικών πλαισίων που είναι απαραίτητα για τη δημιουργία δυναμικής. Ωστόσο, πολυτροπικά ελεγχόμενα μοντέλα διάχυσης βίντεο, όπως το VideoComposer, προσπάθησαν να ενεργοποιήσουν τη δημιουργία βίντεο με οπτική καθοδήγηση από μια εικόνα. Ωστόσο, αυτές οι προσεγγίσεις δεν είναι κατάλληλες για κινούμενη εικόνα, καθώς είτε οδηγούν σε απότομες χρονικές αλλαγές είτε σε χαμηλή οπτική συμμόρφωση με την εικόνα εισόδου λόγω των λιγότερο περιεκτικών μηχανισμών έγχυσης εικόνας. Για να αντιμετωπιστεί αυτό το εμπόδιο, το πλαίσιο DyaniCrafter προτείνει μια προσέγγιση έγχυσης διπλής ροής, που αποτελείται από οπτική καθοδήγηση λεπτομερειών και αναπαράσταση περιβάλλοντος ευθυγραμμισμένη με κείμενο. Η προσέγγιση έγχυσης διπλής ροής επιτρέπει στο πλαίσιο DynamiCrafter να διασφαλίζει ότι το μοντέλο διάχυσης βίντεο συνθέτει δυναμικό περιεχόμενο που διατηρείται με λεπτομέρειες με συμπληρωματικό τρόπο. 

Για μια δεδομένη εικόνα, το πλαίσιο DynamiCrafter προβάλλει πρώτα την εικόνα στον χώρο αναπαράστασης περιβάλλοντος ευθυγραμμισμένου με κείμενο χρησιμοποιώντας ένα ειδικά σχεδιασμένο δίκτυο εκμάθησης περιβάλλοντος. Για να είμαστε πιο συγκεκριμένοι, ο χώρος αναπαράστασης περιβάλλοντος αποτελείται από έναν μετασχηματιστή ερωτήματος με δυνατότητα εκμάθησης για την περαιτέρω προώθηση της προσαρμογής του στα μοντέλα διάχυσης και έναν προεκπαιδευμένο κωδικοποιητή εικόνας CLIP για την εξαγωγή χαρακτηριστικών εικόνων στοίχισης κειμένου. Στη συνέχεια, το μοντέλο χρησιμοποιεί τις δυνατότητες εμπλουτισμένου περιβάλλοντος χρησιμοποιώντας επίπεδα διασταυρούμενης προσοχής και το μοντέλο χρησιμοποιεί πύλη σύντηξης για να συνδυάσει αυτές τις λειτουργίες κειμένου με τα επίπεδα διασταυρούμενης προσοχής. Ωστόσο, αυτή η προσέγγιση ανταλλάσσει τις αναπαραστάσεις του μαθημένου πλαισίου με οπτικές λεπτομέρειες ευθυγραμμισμένες με κείμενο που διευκολύνουν τη σημασιολογική κατανόηση του περιβάλλοντος εικόνας επιτρέποντας τη σύνθεση λογικής και ζωντανής δυναμικής. Επιπλέον, σε μια προσπάθεια να συμπληρωθούν πρόσθετες οπτικές λεπτομέρειες, το πλαίσιο συνενώνει την πλήρη εικόνα με τον αρχικό θόρυβο στο μοντέλο διάχυσης. Ως αποτέλεσμα, η προσέγγιση διπλής έγχυσης που εφαρμόζεται από το πλαίσιο DynamiCrafter εγγυάται οπτική συμμόρφωση καθώς και εύλογο δυναμικό περιεχόμενο στην εικόνα εισόδου. 

Συνεχίζοντας, τα μοντέλα διάχυσης ή DM έχουν επιδείξει αξιοσημείωτη απόδοση και παραγωγική ικανότητα στη δημιουργία T2I ή Text to Image. Για να αναπαραχθεί η επιτυχία των μοντέλων T2I στη δημιουργία βίντεο, προτείνονται μοντέλα VDM ή Video Diffusion που χρησιμοποιούν μια χωροχρονική παραγοντοποιημένη αρχιτεκτονική U-New στο χώρο των pixel για τη μοντελοποίηση βίντεο χαμηλής ανάλυσης. Η μεταφορά των μαθημάτων των πλαισίων T2I σε πλαίσια T2V θα βοηθήσει στη μείωση του κόστους εκπαίδευσης. Παρόλο που τα μοντέλα VDM ή Video Diffusion έχουν τη δυνατότητα να δημιουργούν βίντεο υψηλής ποιότητας, δέχονται μόνο μηνύματα κειμένου ως τη μοναδική σημασιολογική καθοδήγηση που ενδέχεται να μην αντικατοπτρίζουν τις πραγματικές προθέσεις ενός χρήστη ή μπορεί να είναι ασαφείς. Ωστόσο, τα αποτελέσματα της πλειονότητας των μοντέλων VDM σπάνια προσκολλώνται στην εικόνα εισόδου και υποφέρουν από το πρόβλημα της μη ρεαλιστικής χρονικής διακύμανσης. Η προσέγγιση DynamiCrafter βασίζεται σε μοντέλα διάχυσης βίντεο που εξαρτώνται από κείμενο και αξιοποιούν την πλούσια δυναμική τους πριν για την κίνηση εικόνων ανοιχτού τομέα. Αυτό το κάνει ενσωματώνοντας προσαρμοσμένα σχέδια για καλύτερη σημασιολογική κατανόηση και συμμόρφωση με την εικόνα εισόδου. 

DynamiCrafter: Μέθοδος και Αρχιτεκτονική

Για μια δεδομένη ακίνητη εικόνα, το πλαίσιο DyanmiCrafter επιχειρεί να κινήσει το εικόνα σε βίντεο δηµιουργήστε ένα σύντοµο βίντεο κλιπ. Το βίντεο κλιπ κληρονομεί το οπτικό περιεχόμενο από την εικόνα και παρουσιάζει φυσική δυναμική. Ωστόσο, υπάρχει πιθανότητα η εικόνα να εμφανιστεί στην αυθαίρετη θέση της προκύπτουσας ακολουθίας πλαισίων. Η εμφάνιση μιας εικόνας σε μια αυθαίρετη τοποθεσία είναι ένα ειδικό είδος πρόκλησης που παρατηρείται σε εργασίες δημιουργίας βίντεο με ρύθμιση εικόνας με υψηλές απαιτήσεις οπτικής συμμόρφωσης. Το πλαίσιο DynamiCrafter ξεπερνά αυτή την πρόκληση χρησιμοποιώντας τις παραγωγικές προτεραιότητες των προεκπαιδευμένων μοντέλων διάχυσης βίντεο. 

Image Dynamics από το Video Diffusion Prior

Συνήθως, τα μοντέλα διάχυσης κειμένου σε βίντεο ανοιχτού τομέα είναι γνωστό ότι εμφανίζουν προσαρμογή δυναμικού οπτικού περιεχομένου σε περιγραφές κειμένου. Για να δημιουργήσετε κίνηση σε μια ακίνητη εικόνα με προηγούμενες εκδόσεις κειμένου σε βίντεο, τα πλαίσια θα πρέπει πρώτα να εισάγουν τις οπτικές πληροφορίες στη διαδικασία δημιουργίας βίντεο με ολοκληρωμένο τρόπο. Επιπλέον, για δυναμική σύνθεση, το μοντέλο T2V θα πρέπει να αφομοιώσει την εικόνα για την κατανόηση του περιβάλλοντος, ενώ θα πρέπει επίσης να μπορεί να διατηρήσει τις οπτικές λεπτομέρειες στα βίντεο που δημιουργούνται. 

Αναπαράσταση στοιχισμένου περιβάλλοντος κειμένου

Για να καθοδηγήσει τη δημιουργία βίντεο με το πλαίσιο εικόνας, το πλαίσιο DynamiCrafter επιχειρεί να προβάλει την εικόνα σε έναν ευθυγραμμισμένο χώρο ενσωμάτωσης που επιτρέπει στο μοντέλο βίντεο να χρησιμοποιεί τις πληροφορίες εικόνας με συμβατό τρόπο. Κατόπιν αυτού, το πλαίσιο DynamiCrafter χρησιμοποιεί τον κωδικοποιητή εικόνας για να εξαγάγει χαρακτηριστικά εικόνας από την εικόνα εισόδου, καθώς οι ενσωματώσεις κειμένου δημιουργούνται χρησιμοποιώντας έναν προεκπαιδευμένο κωδικοποιητή κειμένου CLIP. Τώρα, αν και τα καθολικά σημασιολογικά διακριτικά από τον κωδικοποιητή εικόνας CLIP είναι ευθυγραμμισμένα με τους λεζάντες της εικόνας, αντιπροσωπεύει κυρίως το οπτικό περιεχόμενο σε σημασιολογικό επίπεδο, αποτυγχάνοντας έτσι να καταγράψει την πλήρη έκταση της εικόνας. Το πλαίσιο DynamiCrafter υλοποιεί πλήρη οπτικά διακριτικά από το τελευταίο επίπεδο του κωδικοποιητή CLIP για την εξαγωγή πληρέστερων πληροφοριών, καθώς αυτά τα οπτικά διακριτικά επιδεικνύουν υψηλή πιστότητα σε εργασίες δημιουργίας εικόνων υπό όρους. Επιπλέον, το πλαίσιο χρησιμοποιεί ενσωματώσεις περιβάλλοντος και κειμένου για να αλληλεπιδράσει με τις ενδιάμεσες λειτουργίες του U-Net χρησιμοποιώντας τα διπλά επίπεδα διασταυρούμενης προσοχής. Ο σχεδιασμός αυτού του στοιχείου διευκολύνει την ικανότητα του μοντέλου να απορροφά τις συνθήκες της εικόνας με τρόπο που εξαρτάται από το επίπεδο. Επιπλέον, δεδομένου ότι τα ενδιάμεσα στρώματα της αρχιτεκτονικής U-Net συσχετίζονται περισσότερο με στάσεις ή σχήματα αντικειμένων, αναμένεται ότι τα χαρακτηριστικά της εικόνας θα επηρεάσουν την εμφάνιση των βίντεο κυρίως επειδή τα στρώματα δύο άκρων συνδέονται περισσότερο με την εμφάνιση. 

Οπτική καθοδήγηση λεπτομερειών

Το πλαίσιο DyanmiCrafter χρησιμοποιεί αναπαράσταση πλαισίου με πλούσια πληροφόρηση που επιτρέπει στο μοντέλο διάχυσης βίντεο στην αρχιτεκτονική του να παράγει βίντεο που μοιάζουν πολύ με την εικόνα εισόδου. Ωστόσο, όπως φαίνεται στην παρακάτω εικόνα, το περιεχόμενο που δημιουργείται ενδέχεται να εμφανίζει κάποιες αποκλίσεις λόγω της περιορισμένης ικανότητας του προεκπαιδευμένου κωδικοποιητή CLIP να διατηρεί πλήρως τις πληροφορίες εισόδου, καθώς έχει σχεδιαστεί για να ευθυγραμμίζει τη γλώσσα και τα οπτικά χαρακτηριστικά. 

Για τη βελτίωση της οπτικής συμμόρφωσης, το πλαίσιο DynamiCrafter προτείνει να παρέχει στο μοντέλο διάχυσης βίντεο πρόσθετες οπτικές λεπτομέρειες που εξάγονται από την εικόνα εισόδου. Για να επιτευχθεί αυτό, το μοντέλο DyanmiCrafter συνδυάζει την υπό όρους εικόνα με τον αρχικό θόρυβο ανά καρέ και τις τροφοδοτεί στο εξάρτημα αποθορυβοποίησης U-Net ως καθοδήγηση. 

Παράδειγμα Εκπαίδευσης

Το πλαίσιο DynamiCrafter ενσωματώνει την υπό όρους εικόνα μέσω δύο συμπληρωματικών ροών που παίζουν σημαντικό ρόλο στην καθοδήγηση λεπτομερειών και στον έλεγχο του περιβάλλοντος. Για να διευκολυνθεί το ίδιο, το μοντέλο DynamiCrafter χρησιμοποιεί μια εκπαιδευτική διαδικασία τριών βημάτων

  1. Στο πρώτο βήμα, το μοντέλο εκπαιδεύει το δίκτυο αναπαράστασης περιβάλλοντος εικόνας. 
  2. Στο δεύτερο βήμα, το μοντέλο προσαρμόζει το δίκτυο αναπαράστασης περιβάλλοντος εικόνας στο μοντέλο Κείμενο σε βίντεο. 
  3. Στο τρίτο και τελευταίο βήμα, το μοντέλο ρυθμίζει με ακρίβεια το δίκτυο αναπαράστασης περιβάλλοντος εικόνας από κοινού με το στοιχείο Visual Detail Guidance. 

Για να προσαρμόσετε τις πληροφορίες εικόνας για συμβατότητα με το μοντέλο Text-to-Video (T2V), το πλαίσιο DynamiCrafter προτείνει την ανάπτυξη ενός δικτύου αναπαράστασης περιβάλλοντος, P, σχεδιασμένο να καταγράφει οπτικές λεπτομέρειες ευθυγραμμισμένες με κείμενο από τη δεδομένη εικόνα. Αναγνωρίζοντας ότι το P απαιτεί πολλά βήματα βελτιστοποίησης για τη σύγκλιση, η προσέγγιση του πλαισίου περιλαμβάνει αρχικά την εκπαίδευσή του χρησιμοποιώντας ένα απλούστερο μοντέλο Text-to-Image (T2I). Αυτή η στρατηγική επιτρέπει στο δίκτυο αναπαράστασης περιβάλλοντος να επικεντρωθεί στην εκμάθηση του πλαισίου της εικόνας πριν το ενσωματώσει με το μοντέλο T2V μέσω κοινής εκπαίδευσης με το P και τα χωρικά επίπεδα, σε αντίθεση με τα χρονικά επίπεδα, του μοντέλου T2V. 

Για να διασφαλιστεί η συμβατότητα με το T2V, το πλαίσιο DyanmiCrafter συγχωνεύει την εικόνα εισόδου με το θόρυβο ανά καρέ, προχωρώντας στη βελτίωση των χωρικών επιπέδων τόσο του P όσο και του μοντέλου οπτικής διάκρισης (VDM). Αυτή η μέθοδος επιλέχθηκε για να διατηρήσει την ακεραιότητα των υφιστάμενων χρονικών γνώσεων του μοντέλου T2V χωρίς τις αρνητικές επιπτώσεις της πυκνής συγχώνευσης εικόνων, που θα μπορούσε να θέσει σε κίνδυνο την απόδοση και να αποκλίνει από τον πρωταρχικό μας στόχο. Επιπλέον, το πλαίσιο χρησιμοποιεί μια στρατηγική τυχαίας επιλογής ενός καρέ βίντεο ως συνθήκη εικόνας για την επίτευξη δύο στόχων: (i) να αποφύγει το δίκτυο να αναπτύξει ένα προβλέψιμο μοτίβο που συνδέει άμεσα τη συγχωνευμένη εικόνα με μια συγκεκριμένη θέση καρέ και (ii) να ενθαρρύνουν μια πιο προσαρμόσιμη αναπαράσταση του πλαισίου αποτρέποντας την παροχή υπερβολικά άκαμπτων πληροφοριών για οποιοδήποτε συγκεκριμένο πλαίσιο. 

DynamiCrafter: Πειράματα και αποτελέσματα

Το πλαίσιο DynamiCrafter εκπαιδεύει πρώτα το δίκτυο αναπαράστασης περιβάλλοντος και τα επίπεδα διασταυρούμενης προσοχής εικόνας στο Stable Diffusion. Το πλαίσιο αντικαθιστά στη συνέχεια το Σταθερή Διάχυση συστατικό με το VideoCrafter και βελτιστοποιεί περαιτέρω το δίκτυο αναπαράστασης περιβάλλοντος και τα χωρικά επίπεδα για προσαρμογή και με συνένωση εικόνων. Συμπερασματικά, το πλαίσιο υιοθετεί τον δειγματολήπτη DDIM με καθοδήγηση χωρίς ταξινομητή πολλαπλών συνθηκών. Επιπλέον, για να αξιολογηθεί η χρονική συνοχή και η ποιότητα των βίντεο που συντίθενται τόσο στον χρονικό όσο και στον χωρικό τομέα, το πλαίσιο αναφέρει FVD ή Frechet Video Distance, καθώς και KVD ή Kernel Video Distance, και αξιολογεί την απόδοση μηδενικής λήψης σε όλες τις μεθόδους των σημείων αναφοράς MSR-VTT και UCF-101. Για τη διερεύνηση της αντιληπτικής συμμόρφωσης μεταξύ των παραγόμενων αποτελεσμάτων και της εικόνας εισόδου, το πλαίσιο εισάγει τη συμμόρφωση PIC ή Perceptual Input Conformity και υιοθετεί τη μετρική αντιληπτικής απόστασης DreamSim ως συνάρτηση της απόστασης. 

Το παρακάτω σχήμα δείχνει την οπτική σύγκριση του παραγόμενου κινούμενου περιεχομένου με διαφορετικά στυλ και περιεχόμενο. 

Όπως μπορεί να παρατηρηθεί, μεταξύ όλων των διαφορετικών μεθόδων, το πλαίσιο DynamiCrafter τηρεί καλά την κατάσταση της εικόνας εισόδου και δημιουργεί χρονικά συνεκτικά βίντεο. Ο παρακάτω πίνακας περιέχει τα στατιστικά στοιχεία από μια μελέτη χρηστών με 49 συμμετέχοντες για το ποσοστό προτίμησης για τη χρονική συνοχή (TC) και την ποιότητα κίνησης (MC) μαζί με το ποσοστό επιλογής για οπτική συμμόρφωση με την εικόνα εισόδου. (IC). Όπως μπορεί να παρατηρηθεί, το πλαίσιο DynamiCrafter είναι σε θέση να ξεπεράσει τις υπάρχουσες μεθόδους με σημαντικό περιθώριο. 

Το παρακάτω σχήμα δείχνει τα αποτελέσματα που επιτεύχθηκαν χρησιμοποιώντας τη μέθοδο έγχυσης διπλής ροής και το πρότυπο εκπαίδευσης. 

Τελικές Σκέψεις

Σε αυτό το άρθρο, μιλήσαμε για το DynamiCrafter, μια προσπάθεια να ξεπεραστούν οι τρέχοντες περιορισμοί των μοντέλων κινούμενων εικόνων και να επεκταθεί η δυνατότητα εφαρμογής τους σε γενικά σενάρια που περιλαμβάνουν εικόνες ανοιχτού κόσμου. Το πλαίσιο DynamiCrafter επιχειρεί να συνθέσει δυναμικό περιεχόμενο για εικόνες ανοιχτού τομέα, μετατρέποντάς τες σε κινούμενα βίντεο. Η βασική ιδέα πίσω από το DynamiCrafter είναι να ενσωματώσει την εικόνα ως καθοδήγηση στη διαδικασία δημιουργίας σε μια προσπάθεια να χρησιμοποιηθεί η κίνηση πριν από τα ήδη υπάρχοντα μοντέλα διάχυσης κειμένου σε βίντεο. Για μια δεδομένη εικόνα, το μοντέλο DynamiCrafter εφαρμόζει πρώτα έναν μετασχηματιστή ερωτήματος που προβάλλει την εικόνα σε έναν χώρο αναπαράστασης εμπλουτισμένου περιβάλλοντος ευθυγραμμισμένου με κείμενο, διευκολύνοντας το μοντέλο βίντεο να αφομοιώσει το περιεχόμενο της εικόνας με συμβατό τρόπο. Ωστόσο, το μοντέλο DynamiCrafter εξακολουθεί να παλεύει να διατηρήσει ορισμένες οπτικές λεπτομέρειες στα βίντεο που προκύπτουν, ένα πρόβλημα που το μοντέλο DynamiCrafter ξεπερνάει τροφοδοτώντας την πλήρη εικόνα στο μοντέλο διάχυσης συνενώνοντας την εικόνα με τους αρχικούς θορύβους, συμπληρώνοντας επομένως το μοντέλο με πιο ακριβή εικόνα πληροφορίες. 

«Μηχανικός στο επάγγελμα, συγγραφέας από καρδιάς». Ο Kunal είναι ένας τεχνικός συγγραφέας με βαθιά αγάπη και κατανόηση της τεχνητής νοημοσύνης και της ML, αφοσιωμένος στην απλοποίηση σύνθετων εννοιών σε αυτούς τους τομείς μέσω της συναρπαστικής και ενημερωτικής τεκμηρίωσής του.