Τεχνητή νοημοσύνη

Σταθερή διάχυση βίντεο: Μοντέλα λανθάνουσας διάχυσης βίντεο σε μεγάλα σύνολα δεδομένων

Ενημερώθηκε on Νοέμβριος 30, 2023

Παραγωγική τεχνητή νοημοσύνη αποτελεί κινητήριο δύναμη στην κοινότητα της τεχνητής νοημοσύνης εδώ και αρκετό καιρό και οι εξελίξεις στον τομέα της μοντελοποίησης γενετικής εικόνας, ειδικά με τη χρήση μοντέλων διάχυσης, έχουν βοηθήσει τα μοντέλα παραγωγής βίντεο να προοδεύσουν σημαντικά όχι μόνο στην έρευνα, αλλά και σε εφαρμογές του πραγματικού κόσμου. Συμβατικά, τα παραγωγικά μοντέλα βίντεο είτε εκπαιδεύονται από την αρχή είτε μερικώς ή πλήρως συντονίζονται από προεκπαιδευμένα μοντέλα εικόνας με επιπλέον χρονικά επίπεδα, σε ένα μείγμα συνόλων δεδομένων εικόνας και βίντεο.

Προχωρώντας τις εξελίξεις στα μοντέλα παραγωγής βίντεο, σε αυτό το άρθρο, θα μιλήσουμε για το Σταθερό μοντέλο διάχυσης βίντεο, ένα μοντέλο λανθάνουσας διάχυσης βίντεο ικανό να παράγει περιεχόμενο υψηλής ανάλυσης εικόνας σε βίντεο και από κείμενο σε βίντεο. Θα μιλήσουμε για το πώς τα μοντέλα λανθάνουσας διάχυσης που έχουν εκπαιδευτεί για τη σύνθεση εικόνων 2D έχουν βελτιώσει τις ικανότητες και την αποτελεσματικότητα των μοντέλων παραγωγής βίντεο προσθέτοντας χρονικά επίπεδα και ρυθμίζοντας τα μοντέλα σε μικρά σύνολα δεδομένων που αποτελούνται από βίντεο υψηλής ποιότητας. Θα κάνουμε μια βαθύτερη κατάδυση στην αρχιτεκτονική και τη λειτουργία του Σταθερού Μοντέλου Διάδοσης Βίντεο και θα αξιολογήσουμε την απόδοσή του σε διάφορες μετρήσεις και θα τα συγκρίνουμε με τα τρέχοντα πλαίσια τελευταίας τεχνολογίας για τη δημιουργία βίντεο. Ας ξεκινήσουμε λοιπόν.

Σταθερό μοντέλο διάχυσης βίντεο και παραγωγικά μοντέλα βίντεο: Εισαγωγή

Χάρη στις σχεδόν απεριόριστες δυνατότητές του, το Generative AI είναι το κύριο αντικείμενο έρευνας για τους επαγγελματίες τεχνητής νοημοσύνης και ML για αρκετό καιρό τώρα, και τα τελευταία χρόνια έχουν σημειωθεί ραγδαίες εξελίξεις τόσο όσον αφορά την αποτελεσματικότητα όσο και την απόδοση των μοντέλων δημιουργίας εικόνων. Τα διδάγματα από τα παραγωγικά μοντέλα εικόνων επέτρεψαν σε ερευνητές και προγραμματιστές να σημειώσουν πρόοδο στα μοντέλα παραγωγής βίντεο με αποτέλεσμα βελτιωμένη πρακτικότητα και εφαρμογές πραγματικού κόσμου. Ωστόσο, το μεγαλύτερο μέρος της έρευνας που προσπαθεί να βελτιώσει τις δυνατότητες των μοντέλων παραγωγής βίντεο εστιάζεται κυρίως στην ακριβή διάταξη των χρονικών και χωρικών επιπέδων, με λίγη προσοχή να δοθεί στη διερεύνηση της επίδρασης της επιλογής των σωστών δεδομένων στο αποτέλεσμα αυτών των παραγωγικών μοντέλων.

Χάρη στην πρόοδο που σημειώθηκε από τα παραγωγικά μοντέλα εικόνας, οι ερευνητές παρατήρησαν ότι ο αντίκτυπος της διανομής δεδομένων εκπαίδευσης στην απόδοση των μοντέλων παραγωγής είναι πράγματι σημαντικός και αδιαμφισβήτητος. Επιπλέον, οι ερευνητές παρατήρησαν επίσης ότι η προεκπαίδευση ενός μοντέλου δημιουργίας εικόνας σε ένα μεγάλο και ποικίλο σύνολο δεδομένων ακολουθούμενη από τη λεπτομέρειά του σε ένα μικρότερο σύνολο δεδομένων με καλύτερη ποιότητα συχνά οδηγεί σε σημαντική βελτίωση της απόδοσης. Παραδοσιακά, τα μοντέλα παραγωγής βίντεο υλοποιούν τις γνώσεις που λαμβάνονται από επιτυχημένα μοντέλα παραγωγής εικόνας και οι ερευνητές δεν έχουν ακόμη μελετήσει την επίδραση των δεδομένων και οι στρατηγικές εκπαίδευσης δεν έχουν ακόμη μελετηθεί. Το Stable Video Diffusion Model είναι μια προσπάθεια ενίσχυσης των ικανοτήτων των παραγωγικών μοντέλων βίντεο με την εξόρμηση σε αχαρτογράφητες περιοχές με ιδιαίτερη έμφαση στην επιλογή δεδομένων.

Τα πρόσφατα παραγωγικά μοντέλα βίντεο βασίζονται σε μοντέλα διάχυσης και σε προσεγγίσεις ρύθμισης κειμένου ή ρύθμισης εικόνας για τη σύνθεση πολλαπλών συνεπών καρέ βίντεο ή εικόνων. Τα μοντέλα διάχυσης είναι γνωστά για την ικανότητά τους να μαθαίνουν πώς να αφαιρούν σταδιακά ένα δείγμα από την κανονική διανομή εφαρμόζοντας μια επαναληπτική διαδικασία βελτίωσης, και έχουν παραδώσει επιθυμητά αποτελέσματα σε βίντεο υψηλής ανάλυσης και σύνθεση κειμένου σε εικόνα. Χρησιμοποιώντας την ίδια αρχή στον πυρήνα του, το Stable Video Diffusion Model εκπαιδεύει ένα μοντέλο λανθάνουσας διάχυσης βίντεο στο σύνολο δεδομένων βίντεο του μαζί με τη χρήση Generative Adversarial Networks ή GANs, ακόμη και μοντέλων αυτόματης παλινδρόμησης σε κάποιο βαθμό.

Το Stable Video Diffusion Model ακολουθεί μια μοναδική στρατηγική που δεν εφαρμόστηκε ποτέ από κανένα παραγωγικό μοντέλο βίντεο, καθώς βασίζεται σε λανθάνουσες γραμμές βάσης διάχυσης βίντεο με σταθερή αρχιτεκτονική και μια σταθερή στρατηγική εκπαίδευσης που ακολουθείται από την αξιολόγηση του αποτελέσματος της επιμέλειας των δεδομένων. Το Stable Video Diffusion Model στοχεύει να κάνει τις ακόλουθες συνεισφορές στον τομέα της παραγωγικής μοντελοποίησης βίντεο.

Παρουσίαση μιας συστηματικής και αποτελεσματικής ροής εργασιών επιμέλειας δεδομένων σε μια προσπάθεια να μετατραπεί μια μεγάλη συλλογή από μη επιμελημένα δείγματα βίντεο σε σύνολο δεδομένων υψηλής ποιότητας που στη συνέχεια χρησιμοποιείται από τα μοντέλα παραγωγής βίντεο.
Εκπαίδευση εικόνας τελευταίας τεχνολογίας σε βίντεο και κειμένου σε μοντέλα βίντεο που ξεπερνούν τα υπάρχοντα πλαίσια.
Διεξαγωγή πειραμάτων για συγκεκριμένο τομέα για την ανίχνευση της τρισδιάστατης κατανόησης και της ισχυρής προηγούμενης κίνησης του μοντέλου.

Τώρα, το Stable Video Diffusion Model εφαρμόζει τα διδάγματα από τα μοντέλα λανθάνουσας διάχυσης βίντεο και τις τεχνικές επιμέλειας δεδομένων στον πυρήνα της ίδρυσής του.

Λανθάνοντα μοντέλα διάχυσης βίντεο

Τα μοντέλα λανθάνουσας διάχυσης βίντεο ή τα Video-LDM ακολουθούν την προσέγγιση της εκπαίδευσης του πρωτεύοντος παραγωγικού μοντέλου σε έναν λανθάνοντα χώρο με μειωμένη υπολογιστική πολυπλοκότητα και τα περισσότερα Video-LDM εφαρμόζουν ένα εκ των προτέρων εκπαιδευμένο μοντέλο κειμένου σε εικόνα σε συνδυασμό με την προσθήκη χρονικών στρωμάτων ανάμειξης στην προεκπαίδευση αρχιτεκτονική. Ως αποτέλεσμα, τα περισσότερα μοντέλα λανθάνουσας διάχυσης βίντεο είτε εκπαιδεύουν μόνο χρονικά επίπεδα είτε παραλείπουν εντελώς τη διαδικασία εκπαίδευσης σε αντίθεση με το Μοντέλο Σταθερής Διάχυσης Βίντεο που ρυθμίζει με ακρίβεια ολόκληρο το πλαίσιο. Επιπλέον, για τη σύνθεση κειμένου σε δεδομένα βίντεο, το Stable Video Diffusion Model ρυθμίζεται απευθείας σε μια προτροπή κειμένου και τα αποτελέσματα υποδεικνύουν ότι το προκύπτον πλαίσιο μπορεί να συντονιστεί εύκολα σε μια σύνθεση πολλαπλών προβολών ή ένα μοντέλο εικόνας σε βίντεο.

Επιμέλεια Δεδομένων

Η Επιμέλεια Δεδομένων είναι ένα ουσιαστικό στοιχείο όχι μόνο του Μοντέλου Διάδοσης Σταθερού Βίντεο, αλλά και για τα μοντέλα παραγωγής στο σύνολό τους, επειδή είναι απαραίτητο να εκπαιδεύονται μεγάλα μοντέλα σε σύνολα δεδομένων μεγάλης κλίμακας για να ενισχύσουν την απόδοση σε διάφορες εργασίες, συμπεριλαμβανομένης της μοντελοποίησης γλώσσας ή της δημιουργίας διακριτικού κειμένου σε εικόνα , και πολλα ΑΚΟΜΑ. Η Επιμέλεια Δεδομένων έχει εφαρμοστεί με επιτυχία σε παραγωγικά μοντέλα εικόνων αξιοποιώντας τις δυνατότητες αποτελεσματικών αναπαραστάσεων γλώσσας-εικόνας, αν και τέτοιες συζητήσεις δεν έχουν επικεντρωθεί ποτέ στην ανάπτυξη μοντέλων δημιουργίας βίντεο. Υπάρχουν πολλά εμπόδια που αντιμετωπίζουν οι προγραμματιστές κατά την επιμέλεια δεδομένων για παραγωγικά μοντέλα βίντεο και για να αντιμετωπίσει αυτές τις προκλήσεις, το Stable Video Diffusion Model εφαρμόζει μια στρατηγική εκπαίδευσης τριών σταδίων, με αποτέλεσμα βελτιωμένα αποτελέσματα και σημαντική ώθηση στην απόδοση.

Επιμέλεια δεδομένων για σύνθεση βίντεο υψηλής ποιότητας

Όπως συζητήθηκε στην προηγούμενη ενότητα, το Stable Video Diffusion Model εφαρμόζει μια στρατηγική εκπαίδευσης τριών σταδίων, με αποτέλεσμα βελτιωμένα αποτελέσματα και σημαντική ώθηση στην απόδοση. Το στάδιο Ι είναι ένα προεκπαίδευση εικόνας στάδιο που χρησιμοποιεί ένα δισδιάστατο μοντέλο διάχυσης κειμένου σε εικόνα. Το στάδιο II είναι για προεκπαίδευση βίντεο στο οποίο το πλαίσιο εκπαιδεύεται σε μεγάλο όγκο δεδομένων βίντεο. Τέλος, έχουμε το Στάδιο III για τελειοποίηση βίντεο στο οποίο το μοντέλο έχει τελειοποιηθεί σε ένα μικρό υποσύνολο βίντεο υψηλής ποιότητας και υψηλής ανάλυσης.

Ωστόσο, πριν το Stable Video Diffusion Model εφαρμόσει αυτά τα τρία στάδια, είναι ζωτικής σημασίας η επεξεργασία και ο σχολιασμός των δεδομένων, καθώς χρησιμεύει ως βάση για το στάδιο II ή το στάδιο προεκπαίδευσης βίντεο και διαδραματίζει κρίσιμο ρόλο στη διασφάλιση της βέλτιστης απόδοσης. Για να διασφαλιστεί η μέγιστη απόδοση, το πλαίσιο εφαρμόζει πρώτα μια σωλήνωση ανίχνευσης κοπής σε καταρράκτη σε 3 μεταβαλλόμενα επίπεδα FPS ή καρέ ανά δευτερόλεπτο και η ανάγκη για αυτόν τον αγωγό καταδεικνύεται στην παρακάτω εικόνα.

Στη συνέχεια, το Stable Video Diffusion Model σχολιάζει κάθε βίντεο κλιπ χρησιμοποιώντας τρεις διαφορετικές μεθόδους συνθετικής υποτίτλων. Ο παρακάτω πίνακας συγκρίνει τα σύνολα δεδομένων που χρησιμοποιούνται στο Stable Diffusion Framework πριν και μετά τη διαδικασία φιλτραρίσματος.

Στάδιο Ι: Προεκπαίδευση εικόνας

Το πρώτο στάδιο στη διοχέτευση τριών σταδίων που εφαρμόζεται στο Stable Video Diffusion Model είναι η προ-εκπαίδευση εικόνας και για να επιτευχθεί αυτό, το αρχικό πλαίσιο Stable Video Diffusion Model βασίζεται σε ένα προεκπαιδευμένο μοντέλο διάχυσης εικόνας, δηλαδή το Σταθερή Διάχυση 2.1 μοντέλο που το εξοπλίζει με ισχυρότερες οπτικές αναπαραστάσεις.

Στάδιο II : Προεκπαίδευση βίντεο

Το δεύτερο στάδιο είναι το στάδιο Προεκπαίδευσης βίντεο και βασίζεται στα ευρήματα ότι η χρήση της επιμέλειας δεδομένων σε πολυτροπικά μοντέλα παραγωγής εικόνων οδηγεί συχνά σε καλύτερα αποτελέσματα και βελτιωμένη απόδοση μαζί με ισχυρή δημιουργία διακριτικής εικόνας. Ωστόσο, λόγω της έλλειψης παρόμοιων ισχυρών αναπαραστάσεων εκτός ραφιού για φιλτράρισμα ανεπιθύμητων δειγμάτων για μοντέλα παραγωγής βίντεο, το Μοντέλο Διάδοσης Σταθερού Βίντεο βασίζεται στις ανθρώπινες προτιμήσεις ως σήματα εισόδου για τη δημιουργία ενός κατάλληλου συνόλου δεδομένων που χρησιμοποιείται για την προεκπαίδευση του πλαισίου. Το παρακάτω σχήμα δείχνει τη θετική επίδραση της προεκπαίδευσης του πλαισίου σε ένα επιμελημένο σύνολο δεδομένων που βοηθά στην ενίσχυση της συνολικής απόδοσης για προεκπαίδευση βίντεο σε μικρότερα σύνολα δεδομένων.

Για να είμαστε πιο συγκεκριμένοι, το πλαίσιο χρησιμοποιεί διαφορετικές μεθόδους για την επιμέλεια υποσυνόλων Latent Video Diffusion και λαμβάνει υπόψη την κατάταξη των μοντέλων LVD που έχουν εκπαιδευτεί σε αυτά τα σύνολα δεδομένων. Επιπλέον, το πλαίσιο Stable Video Diffusion διαπιστώνει επίσης ότι η χρήση επιμελημένων συνόλων δεδομένων για την εκπαίδευση των πλαισίων βοηθά στην ενίσχυση της απόδοσης του πλαισίου και των μοντέλων διάχυσης γενικότερα. Επιπλέον, η στρατηγική επιμέλειας δεδομένων λειτουργεί επίσης σε μεγαλύτερα, πιο συναφή και εξαιρετικά πρακτικά σύνολα δεδομένων. Το παρακάτω σχήμα δείχνει τη θετική επίδραση της προεκπαίδευσης του πλαισίου σε ένα επιμελημένο σύνολο δεδομένων που βοηθά στην ενίσχυση της συνολικής απόδοσης για την προεκπαίδευση βίντεο σε μικρότερα σύνολα δεδομένων.

Στάδιο III: Υψηλής ποιότητας μικρορύθμιση

Μέχρι το στάδιο II, το πλαίσιο Stable Video Diffusion εστιάζει στη βελτίωση της απόδοσης πριν από την προεκπαίδευση βίντεο και στο τρίτο στάδιο, το πλαίσιο δίνει έμφαση στη βελτιστοποίηση ή περαιτέρω ενίσχυση της απόδοσης του πλαισίου μετά από λεπτομέρεια βίντεο υψηλής ποιότητας και πώς η μετάβαση από το Στάδιο ΙΙ στο Στάδιο ΙΙΙ επιτυγχάνεται στο πλαίσιο. Στο Στάδιο III, το πλαίσιο βασίζεται σε τεχνικές εκπαίδευσης που δανείστηκαν από μοντέλα διάχυσης λανθάνουσας εικόνας και αυξάνει την ανάλυση των παραδειγμάτων εκπαίδευσης. Για την ανάλυση της αποτελεσματικότητας αυτής της προσέγγισης, το πλαίσιο τη συγκρίνει με τρία πανομοιότυπα μοντέλα που διαφέρουν μόνο ως προς την αρχικοποίησή τους. Το πρώτο πανομοιότυπο μοντέλο έχει αρχικοποιήσει τα βάρη του και η διαδικασία εκπαίδευσης βίντεο παραλείπεται, ενώ τα υπόλοιπα δύο πανομοιότυπα μοντέλα αρχικοποιούνται με τα βάρη που έχουν δανειστεί από άλλα μοντέλα λανθάνοντος βίντεο.

Αποτελέσματα και Ευρήματα

Ήρθε η ώρα να ρίξουμε μια ματιά στο πώς λειτουργεί το πλαίσιο Stable Video Diffusion σε πραγματικές εργασίες και πώς συγκρίνεται με τα τρέχοντα πλαίσια τελευταίας τεχνολογίας. Το πλαίσιο Stable Video Diffusion χρησιμοποιεί πρώτα τη βέλτιστη προσέγγιση δεδομένων για την εκπαίδευση ενός βασικού μοντέλου και, στη συνέχεια, εκτελεί τελειοποίηση για τη δημιουργία πολλών μοντέλων τελευταίας τεχνολογίας, όπου κάθε μοντέλο εκτελεί μια συγκεκριμένη εργασία.

Η παραπάνω εικόνα αντιπροσωπεύει την εικόνα υψηλής ανάλυσης σε δείγματα βίντεο που δημιουργούνται από το πλαίσιο, ενώ η παρακάτω εικόνα δείχνει την ικανότητα του πλαισίου να δημιουργεί υψηλής ποιότητας κείμενο σε δείγματα βίντεο.

Προεκπαιδευμένη Βάση Μodel

Όπως αναφέρθηκε προηγουμένως, το μοντέλο Stable Video Diffusion βασίζεται στο πλαίσιο Stable Diffusion 2.1 και με βάση τα πρόσφατα ευρήματα, ήταν σημαντικό για τους προγραμματιστές να υιοθετήσουν το πρόγραμμα θορύβου και να αυξήσουν τον θόρυβο για να αποκτήσουν εικόνες με καλύτερη ανάλυση κατά την εκπαίδευση της διάχυσης εικόνων μοντέλα. Χάρη σε αυτήν την προσέγγιση, το βασικό μοντέλο Stable Video Diffusion μαθαίνει ισχυρές αναπαραστάσεις κίνησης και στη διαδικασία ξεπερνά τα βασικά μοντέλα για κείμενο σε δημιουργία βίντεο σε ρύθμιση μηδενικής λήψης και τα αποτελέσματα εμφανίζονται στον παρακάτω πίνακα.

Παρεμβολή πλαισίων και δημιουργία πολλαπλών προβολών

Το πλαίσιο Stable Video Diffusion συντονίζει το μοντέλο εικόνας σε βίντεο σε σύνολα δεδομένων πολλαπλών προβολών για να αποκτήσει πολλαπλές νέες προβολές ενός αντικειμένου και αυτό το μοντέλο είναι γνωστό ως SVD-MV ή Stable Video Diffusion- Multi View Model. Το αρχικό μοντέλο SVD ρυθμίζεται με ακρίβεια με τη βοήθεια δύο συνόλων δεδομένων με τρόπο που το πλαίσιο εισάγει μια ενιαία εικόνα και επιστρέφει μια ακολουθία εικόνων πολλαπλών προβολών ως έξοδο.

Όπως φαίνεται στις παρακάτω εικόνες, το πλαίσιο Stable Video Diffusion Multi View προσφέρει υψηλές επιδόσεις συγκρίσιμες με το υπερσύγχρονο πλαίσιο Scratch Multi View και τα αποτελέσματα είναι μια σαφής επίδειξη της ικανότητας του SVD-MV να εκμεταλλεύεται τις γνώσεις που αποκτήθηκαν από το αρχικό πλαίσιο SVD για δημιουργία εικόνων πολλαπλών προβολών. Επιπλέον, τα αποτελέσματα υποδεικνύουν επίσης ότι η εκτέλεση του μοντέλου για σχετικά μικρότερο αριθμό επαναλήψεων βοηθά στην παροχή βέλτιστων αποτελεσμάτων, όπως συμβαίνει με τα περισσότερα μοντέλα που έχουν βελτιωθεί από το πλαίσιο SVD.

Στο παραπάνω σχήμα, οι μετρήσεις υποδεικνύονται στην αριστερή πλευρά και, όπως φαίνεται, το πλαίσιο Stable Video Diffusion Multi View ξεπερνά το πλαίσιο Scratch-MV και SD2.1 Multi-View με ένα αξιοπρεπές περιθώριο. Η δεύτερη εικόνα δείχνει την επίδραση του αριθμού των επαναλήψεων εκπαίδευσης στη συνολική απόδοση του πλαισίου από την άποψη του Clip Score και τα πλαίσια SVD-MV παρέχουν βιώσιμα αποτελέσματα.

Τελικές Σκέψεις

Σε αυτό το άρθρο, έχουμε μιλήσει για το Stable Video Diffusion, ένα μοντέλο λανθάνουσας διάχυσης βίντεο ικανό να δημιουργεί υψηλής ανάλυσης, προηγμένης τεχνολογίας περιεχόμενο εικόνας σε βίντεο και από κείμενο σε βίντεο. Το Stable Video Diffusion Model ακολουθεί μια μοναδική στρατηγική που δεν εφαρμόστηκε ποτέ από κανένα παραγωγικό μοντέλο βίντεο, καθώς βασίζεται σε λανθάνουσες γραμμές βάσης διάχυσης βίντεο με σταθερή αρχιτεκτονική και μια σταθερή στρατηγική εκπαίδευσης που ακολουθείται από την αξιολόγηση του αποτελέσματος της επιμέλειας των δεδομένων.

Έχουμε μιλήσει για το πώς τα μοντέλα λανθάνουσας διάχυσης που έχουν εκπαιδευτεί για τη σύνθεση εικόνων 2D έχουν βελτιώσει τις ικανότητες και την αποτελεσματικότητα του παραγωγικά μοντέλα βίντεο προσθέτοντας χρονικά επίπεδα και βελτιστοποιώντας τα μοντέλα σε μικρά σύνολα δεδομένων που αποτελούνται από βίντεο υψηλής ποιότητας. Για τη συλλογή των προεκπαιδευτικών δεδομένων, το πλαίσιο διεξάγει μελέτη κλιμάκωσης και ακολουθεί συστηματικές πρακτικές συλλογής δεδομένων, και τελικά προτείνει μια μέθοδο για την επιμέλεια μεγάλου όγκου δεδομένων βίντεο και μετατρέπει τα θορυβώδη βίντεο σε δεδομένα εισόδου κατάλληλα για μοντέλα παραγωγής βίντεο.

Επιπλέον, το πλαίσιο Stable Video Diffusion χρησιμοποιεί τρία διαφορετικά στάδια εκπαίδευσης μοντέλων βίντεο που αναλύονται ανεξάρτητα για να αξιολογηθεί ο αντίκτυπός τους στην απόδοση του πλαισίου. Το πλαίσιο εξάγει τελικά μια αναπαράσταση βίντεο αρκετά ισχυρή ώστε να βελτιστοποιήσει τα μοντέλα για βέλτιστη σύνθεση βίντεο και τα αποτελέσματα είναι συγκρίσιμα με μοντέλα παραγωγής βίντεο τελευταίας τεχνολογίας που χρησιμοποιούνται ήδη.

Σχετικά θέματα:Σταθερή Διάχυση διάχυση βίντεο

Επόμενο

Το πρόβλημα του μαύρου κουτιού στο LLM: Προκλήσεις και αναδυόμενες λύσεις

Μην χάσετε

Zephyr: Direct Distillation of LLM Alignment

Kunal kejriwal

«Μηχανικός στο επάγγελμα, συγγραφέας από καρδιάς». Ο Kunal είναι ένας τεχνικός συγγραφέας με βαθιά αγάπη και κατανόηση της τεχνητής νοημοσύνης και της ML, αφοσιωμένος στην απλοποίηση σύνθετων εννοιών σε αυτούς τους τομείς μέσω της συναρπαστικής και ενημερωτικής τεκμηρίωσής του.

Unite.AI

Σταθερή διάχυση βίντεο: Μοντέλα λανθάνουσας διάχυσης βίντεο σε μεγάλα σύνολα δεδομένων

Τεχνητή νοημοσύνη

Σταθερή διάχυση βίντεο: Μοντέλα λανθάνουσας διάχυσης βίντεο σε μεγάλα σύνολα δεδομένων

Πίνακας περιεχομένων

Σταθερό μοντέλο διάχυσης βίντεο και παραγωγικά μοντέλα βίντεο: Εισαγωγή

Λανθάνοντα μοντέλα διάχυσης βίντεο

Επιμέλεια Δεδομένων