Τεχνητή νοημοσύνη

Η Microsoft Προτείνει το GODIVA, Ένα Πλαίσιο Μηχανικής Μάθησης για Μετατροπή Κειμένου σε Βίντεο

Published May 4, 2021

Updated April 5, 2026

Martin Anderson

Μια συνεργασία μεταξύ της Microsoft Research Asia και του Πανεπιστημίου Duke έχει δημιουργήσει ένα σύστημα μηχανικής μάθησης που μπορεί να δημιουργήσει βίντεο αποκλειστικά από μια προτροπή κειμένου, χωρίς τη χρήση Γενετικών Ανταγωνιστικών Δικτύων (GANs).

Το έργο έχει τον τίτλο GODIVA (Γενετικά Ανοικτά Βίντεο από Φυσικές Περιγραφές), και βασίζεται σε ορισμένες από τις προσεγγίσεις που χρησιμοποιούνται από το σύστημα σύνθεσης εικόνων DALL-E της OpenAI, αποκαλυφθεί νωρίτερα αυτό το έτος.

Πρώιμα αποτελέσματα από το GODIVA, με καρέ από βίντεο που δημιουργήθηκαν από δύο προτροπές. Τα δύο πρώτα παραδείγματα δημιουργήθηκαν από την προτροπή ‘Παίξτε γκολφ στο γκαζόν’, και το τρίτο από την προτροπή ‘Ένα παιχνίδι μπέιζμπολ παίζεται’. Πηγή: https://arxiv.org/pdf/2104.14806.pdf

Το GODIVA χρησιμοποιεί το μοντέλο Vector Quantised-Variational AutoEncoder (VQ-VAE) πρώτα εισαχθέν από ερευνητές του προγράμματος DeepMind της Google το 2018, και επίσης是一个 βασικό συστατικό στις μετασχηματιστικές ικανότητες του DALL-E.

[caption id="attachment_175335" align="alignnone" width="900"] Αρχιτεκτονική του μοντέλου VQ-VAE, με χώρο ενσωμάτωσης στη δεξιά πλευρά και κωδικοποιητή/αποκωδικοποιητή που μοιράζονται τον διαστατικό χώρο για να μειώσουν τις απώλειες κατά την ανακατασκευή. Πηγή: https://arxiv.org/pdf/1711.00937.pdf

Το VQ-VAE έχει χρησιμοποιηθεί σε πολλά έργα για γενετικά προβλεπόμενο βίντεο, όπου ο χρήστης παρέχει αρχικά ένα αριθμό καρέ και ζητά από το σύστημα να δημιουργήσει επιπλέον καρέ:

[caption id="attachment_175336" align="alignnone" width="800"] Προηγούμενο έργο: Το VQ-VAE υποθέτει καρέ από πολύ περιορισμένο αρχικό υλικό. Πηγή: Υλικό στο https://openreview.net/forum?id=bBDlTR5eDIX

Ωστόσο, οι συγγραφείς της νέας εργασίας ισχυρίζονται ότι το GODIVA αντιπροσωπεύει την πρώτη καθαρή εφαρμογή κειμένου-σε-βίντεο (T2V) που χρησιμοποιεί VQ-VAE αντί των πιο απροσδόκητων αποτελεσμάτων που έχουν ληφθεί από προηγούμενα έργα με GANs.

Σημεία Σπέρματος στο Κείμενο-Σε-Βίντεο

Αν και η υποβολή είναι λίγη σε λεπτομέρειες σχετικά με τα κριτήρια με τα οποία δημιουργούνται τα αρχικά καρέ, το GODIVA φαίνεται να καλεί εικόνες από το πουθενά πριν να τις επεκτείνει σε καρέ βίντεο χαμηλής ανάλυσης.

Μια στήλη αναπαράσταση του τριδιάστατου συστήματος προσοχής που τροφοδοτεί το GODIVA για εργασίες κειμένου-σε-εικόνα. Η αυτο-ανακατασκευή προβλέπεται μέσω τεσσάρων παραγόντων: εισαγόμενο κείμενο, σχετική τοποθέτηση με το προηγούμενο καρέ (παρόμοιο με το SPADE της NVIDIA και άλλες μεθόδους που βασίζονται ή εξελίσσονται πέρα από τις προσεγγίσεις Optical Flow), τα ίδια ряdy στο ίδιο καρέ, και τα ίδια στήλες στην ίδια στήλη.

Στην πραγματικότητα, η προέλευση προέρχεται από ετικέτες στα δεδομένα που χρησιμοποιούνται: το GODIVA προ-εκπαιδεύτηκε στο Howto100M dataset, που αποτελείται από 136 εκατομμύρια βίντεο με λεζάντες από το YouTube για 15 χρόνια, και που περιλαμβάνει 23.000 ετικετεμένες δραστηριότητες. Παρόλα αυτά, κάθε δυνατή δραστηριότητα είναι παρόντα σε πολύ μεγάλο αριθμό κλιπ, αυξάνοντας με γενίκευση (π.χ. ‘Πέτρες και ζώα’ έχει 3,5 εκατομμύρια κλιπ, ενώ ‘σκύλοι’ έχει 762.000 κλιπ), και έτσι υπάρχει ακόμη μια μεγάλη επιλογή πιθανών σημείων εκκίνησης.

Το μοντέλο αξιολογήθηκε στο dataset MSR Video to Text (MSR-VTT) της Microsoft. Ως περαιτέρω δοκιμές της αρχιτεκτονικής, το GODIVA εκπαιδεύτηκε από την αρχή στο Moving Mnist dataset και το Double Moving Mnist dataset, που προέρχονται από την αρχική βάση δεδομένων MNIST, μια συνεργασία μεταξύ της Microsoft, της Google και του Ινστιτούτου Μαθηματικών Επιστημών Courant στο NYU.

Αξιολόγηση Πλαισίων σε Συνεχής Συνθεση Βίντεο

Σε συνδυασμό με το IRC-GAN του Πανεπιστημίου Πεκίνου, το GODIVA προσθέτει τέσσερις επιπλέον στήλες ελέγχου στην αρχική μέθοδο MNIST, η οποία αξιολογούσε τα προηγούμενα και τα επόμενα καρέ με κίνηση πάνω-κάτω και μετά αριστερά-δεξιά. Το IRC-GAN και το GODIVA εξετάζουν επίσης τα καρέ με κίνηση αριστερά-δεξιά, δεξιά-αριστερά, πάνω-κάτω και κάτω-πάνω.

Επιπλέον γενετικά καρέ από το GODIVA.

Αξιολόγηση Ποιότητας Βίντεο και Πιστότητας στην Προτροπή

Για να κατανοήσουν πόσο καλά επιτύγχαναν η γενετική σύνθεση εικόνων, οι ερευνητές χρησιμοποίησαν δύο μετρικές: μια που βασίζεται στη συσχέτιση CLIP, και μια νέα μετρική Σχετικής Ανταπόκρισης (RM).

Το πλαίσιο CLIP της OpenAI είναι ικανό για μηδενική-πυροβολισμό αντιστοίχισης εικόνων σε κείμενο, καθώς και για διευκόλυνση της σύνθεσης εικόνων με την αναστροφή του μοντέλου. Οι ερευνητές διέλυσαν το σκορ CLIP με τη υπολογισμένη ομοιότητα μεταξύ της προτροπής κειμένου και του βίντεο αλήθειας για να φτάσουν σε ένα σκορ RM. Σε μια ξεχωριστή γύρο αξιολόγησης, η έξοδος αξιολογήθηκε από 200 άτομα και τα αποτελέσματα συγκρίθηκαν με τα προγραμματισμένα σκορ.

Τέλος, το GODIVA αξιολογήθηκε ενάντια σε δύο προηγούμενα πλαίσια, TFGAN και τη συνεργασία του 2017 μεταξύ του Duke/NEC, T2V.

Το TFGAN μπορεί να παράγει 128 τετραγωνικά εικονοστοιχεία σε σύγκριση με την έξοδο 64×64 που περιορίζει το GODIVA και το T2V στα παραπάνω παραδείγματα, αλλά οι ερευνητές σημειώνουν ότι το GODIVA παράγει πιο τολμηρά και πιο δεσμευμένα κινήματα, και θα παράγει αλλαγές σκηνής χωρίς να χρειάζεται να δοθεί μια συγκεκριμένη προτροπή, και δεν φοβάται να παράγει κλείσματα.

Σε μεταγενέστερες εκτελέσεις, το GODIVA παράγει επίσης έξοδο 128x128px, με αλλαγές στην οπτική γωνία:

Στο δικό του μετρικό RM, το GODIVA είναι σε θέση να επιτύχει σκορ που προσεγγίζουν το 100% όσον αφορά την αυθεντικότητα (ποιότητα βίντεο) και την πιστότητα (πόσο στενά το γενετικό περιεχόμενο αντιστοιχεί στην εισαγώμενη προτροπή).

Οι ερευνητές παραδέχονται, ωστόσο, ότι η ανάπτυξη μετρικών CLIP για βίντεο θα ήταν μια ευπρόσδεκτη προσθήκη σε这一 περιοχή της σύνθεσης εικόνων, поскольку θα παρείχε ένα επίπεδο πεδίο για την αξιολόγηση της ποιότητας των αποτελεσμάτων χωρίς να καταφεύγει στο over-fitting και την έλλειψη γενίκευσης που έχει αυξανθεί στην κριτική των ‘τυπικών’ προκλήσεων της όρασης υπολογιστή τα τελευταία δέκα χρόνια.

Σημειώνουν επίσης ότι η δημιουργία μεγαλύτερων βίντεο θα είναι μια λογιστική σκέψη στην περαιτέρω ανάπτυξη του συστήματος, поскольку μόνο 10 καρέ της έξοδου 64x64px απαιτούν 2560 οπτικά token, μια φουσκωμένη διαδικασία που πιθανότατα θα γίνει ακριβή και μη διαχειρίσιμη γρήγορα.

Martin Anderson

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]