Τεχνητή νοημοσύνη

AnimateLCM: Επιταχύνων την Animation των Προσαρμοσμένων Μοντέλων Διάχυσης

mm
AnimateLCM: Accelerating the Animation of Personalized Diffusion Models and Adapters with Decoupled Consistency Learning

Τα τελευταία χρόνια, τα μοντέλα διάχυσης έχουν επιτύχει τεράστια επιτυχία και αναγνώριση για τις εργασίες γεννήσεων εικόνων και βίντεο. Τα μοντέλα διάχυσης βίντεο, ιδιαίτερα, έχουν λάβει σημαντική προσοχή λόγω της ικανότητάς τους να παράγουν βίντεο με υψηλή συνεκτικότητα καθώς και πιστότητα. Αυτά τα μοντέλα παράγουν υψηλής ποιότητας βίντεο χρησιμοποιώντας μια επαναλαμβανόμενη διαδικασία αποσύνδεσης θορύβου στη δομή τους που μετατρέπει постепенно θόρυβο Gaussian υψηλής διάστασης σε πραγματικά δεδομένα.

Το Stable Diffusion είναι ένα από τα πιο αντιπροσωπευτικά μοντέλα για εργασίες γεννήσεων εικόνων, βασισμένα σε ένα Variational AutoEncoder (VAE) για να χαρτογραφήσει μεταξύ της πραγματικής εικόνας και των υποδειγμάτων λατινικής χαρακτηριστικών. Αυτό επιτρέπει στο μοντέλο να μειώσει τους γεννητικούς κόστους, ενώ ο μηχανισμός διασταυρούμενης προσοχής στη δομή του διευκολύνει τη γεννήτρια εικόνων με συνθήκη κειμένου. Πρόσφατα, το πλαίσιο του Stable Diffusion έχει χτίσει τις βάσεις για plusieurs προσαρμογείς για να επιτύχει πιο καινοτόμες και αποτελεσματικές γεννήτριες εικόνων ή βίντεο. Ωστόσο, η επαναλαμβανόμενη γεννητική διαδικασία που χρησιμοποιείται από την πλειοψηφία των μοντέλων διάχυσης βίντεο καθιστά τη διαδικασία γεννήτριας εικόνων χρονοβόρα και σχετικά δαπανηρή, περιορίζοντας τις εφαρμογές της.

Σε αυτό το άρθρο, θα μιλήσουμε για το AnimateLCM, ένα προσωποποιημένο μοντέλο διάχυσης με προσαρμογείς που στοχεύει στην παραγωγή υψηλής πιστότητας βίντεο με ελάχιστα βήματα και υπολογιστικούς κόστους. Το πλαίσιο του AnimateLCM εμπνέεται από το Μοντέλο Συνέπειας, το οποίο επιταχύνει τη δειγματοληψία με ελάχιστα βήματα με τη διήθηση προ-εκπαιδευμένων μοντέλων διάχυσης εικόνων. Επιπλέον, η επιτυχημένη επέκταση του Μοντέλου Συνέπειας, το Μοντέλο Συνέπειας Λατινικής (LCM), διευκολύνει τη γεννήτρια εικόνων με συνθήκη. Αντί να διεξάγει τη μάθηση συνέπειας trực tiếp στο сыρό βίντεο dataset, το πλαίσιο του AnimateLCM προτείνει τη χρήση μιας στρατηγικής διήθησης συνέπειας αποσύνδεσης. Αυτή η στρατηγική αποσύνδεσης της διήθησης των προτεραιοτήτων γεννήτριας κίνησης και προτεραιοτήτων γεννήτριας εικόνων, επιτρέπει στο μοντέλο να βελτιώσει την οπτική ποιότητα του γεννημένου περιεχομένου και να βελτιώσει την αποδοτικότητα εκπαίδευσης ταυτόχρονα. Επιπλέον, το μοντέλο AnimateLCM προτείνει την εκπαίδευση προσαρμογεί από την αρχή ή την προσαρμογή υφιστάμενων προσαρμογεί στο διηθήμενο μοντέλο συνέπειας βίντεο. Αυτό διευκολύνει τη συνδυασμένη χρήση προσαρμογεί στην οικογένεια μοντέλων σταθερής διάχυσης για την επίτευξη διαφορετικών λειτουργιών χωρίς να βλάπτει την ταχύτητα δειγματοληψίας.

Αυτό το άρθρο στοχεύει να καλύψει το πλαίσιο του AnimateLCM σε βάθος. Εξερευνούμε τον μηχανισμό, τη μεθοδολογία και τη δομή του πλαισίου, μαζί με τη σύγκρισή του με τα μοντέλα γεννήτριας εικόνων και βίντεο της τελευταίας τεχνολογίας. Έτσι, ας ξεκινήσουμε.

AnimateLCM : Animation των Προσαρμοσμένων Μοντέλων Διάχυσης

Τα μοντέλα διάχυσης έχουν γίνει το πλαίσιο για τις εργασίες γεννήσεων εικόνων και βίντεο λόγω της αποδοτικότητάς τους και των ικανοτήτων τους στις γεννητικές εργασίες. Η πλειοψηφία των μοντέλων διάχυσης βασίζονται σε μια επαναλαμβανόμενη διαδικασία αποσύνδεσης θορύβου για τη γεννήτρια εικόνων που μετατρέπει постепенно θόρυβο Gaussian υψηλής διάστασης σε πραγματικά δεδομένα. Αν και η μέθοδος παρέχει κάπως ικανοποιητικά αποτελέσματα, η επαναλαμβανόμενη διαδικασία και ο αριθμός των επαναλαμβανόμενων δειγμάτων επιβραδύνει τη διαδικασία γεννήτριας και προσθέτει στους υπολογιστικούς απαιτήσεις των μοντέλων διάχυσης που είναι πολύ πιο αργές από άλλα γεννητικά πλαίσια όπως τα GAN ή τα Γεννητικά Ανταγωνιστικά Δίκτυα. Τα τελευταία χρόνια, τα Μοντέλα Συνέπειας ή CM έχουν προταθεί ως εναλλακτική λύση για τα επαναλαμβανόμενα μοντέλα διάχυσης για να επιταχύνουν τη διαδικασία γεννήτριας ενώ διατηρούν τις υπολογιστικές απαιτήσεις σταθερές.

… (the rest of the translation remains the same, following the exact structure and formatting of the original text)

Ένας μηχανικός επάγγελμα, ένας συγγραφέας με την καρδιά. Ο Kunal είναι ένας τεχνικός συγγραφέας με einen βαθύ έρωτα και κατανόηση του AI και ML, αφιερωμένος στο να απλοποιεί σύνθετες έννοιες σε αυτά τα πεδία μέσω των ελκυστικών και ενημερωτικών εγγράφων του.