Τεχνητή νοημοσύνη

Καθοδήγηση αυτοπροσοχής: Βελτίωση της ποιότητας δειγμάτων των μοντέλων διάχυσης

Ενημερώθηκε on Ιανουάριος 2, 2024

Καθοδήγηση αυτοπροσοχής: Βελτίωση της ποιότητας δειγμάτων των μοντέλων διάχυσης

Τα μοντέλα διάχυσης αφαίρεσης θορύβου είναι παραγωγικά πλαίσια τεχνητής νοημοσύνης που συνθέτουν εικόνες από το θόρυβο μέσω μιας επαναληπτικής διαδικασίας αποθορυβοποίησης. Φημίζονται για τις εξαιρετικές τους δυνατότητες δημιουργίας εικόνων και την ποικιλομορφία τους, που αποδίδεται σε μεγάλο βαθμό σε μεθόδους καθοδήγησης υπό όρους κειμένου ή κατηγορίας, συμπεριλαμβανομένης της καθοδήγησης με ταξινομητή και καθοδήγησης χωρίς ταξινομητή. Αυτά τα μοντέλα ήταν ιδιαίτερα επιτυχημένα στη δημιουργία διαφορετικών εικόνων υψηλής ποιότητας. Πρόσφατες μελέτες έχουν δείξει ότι οι τεχνικές καθοδήγησης όπως οι λεζάντες και οι ετικέτες τάξης διαδραματίζουν κρίσιμο ρόλο στη βελτίωση της ποιότητας των εικόνων που δημιουργούν αυτά τα μοντέλα.

Ωστόσο, τα μοντέλα διάχυσης και οι μέθοδοι καθοδήγησης αντιμετωπίζουν περιορισμούς υπό ορισμένες εξωτερικές συνθήκες. Η μέθοδος Classifier-Free Guidance (CFG), η οποία χρησιμοποιεί το label dropping, προσθέτει πολυπλοκότητα στη διαδικασία εκπαίδευσης, ενώ η μέθοδος Classifier Guidance (CG) απαιτεί πρόσθετη εκπαίδευση ταξινομητή. Και οι δύο μέθοδοι περιορίζονται κάπως από την εξάρτησή τους από εξωτερικές συνθήκες που κερδίζονται με κόπο, περιορίζοντας τις δυνατότητές τους και περιορίζοντας τις σε ρυθμίσεις υπό όρους.

Για την αντιμετώπιση αυτών των περιορισμών, οι προγραμματιστές έχουν διατυπώσει μια γενικότερη προσέγγιση για την καθοδήγηση διάχυσης, γνωστή ως καθοδήγηση αυτοπροσοχής (SAG). Αυτή η μέθοδος αξιοποιεί πληροφορίες από ενδιάμεσα δείγματα μοντέλων διάχυσης για τη δημιουργία εικόνων. Θα εξερευνήσουμε το SAG σε αυτό το άρθρο, συζητώντας τη λειτουργία, τη μεθοδολογία και τα αποτελέσματά του σε σύγκριση με τα τρέχοντα πλαίσια και αγωγούς τελευταίας τεχνολογίας.

Καθοδήγηση αυτοπροσοχής: Βελτίωση της ποιότητας δειγμάτων των μοντέλων διάχυσης

Τα μοντέλα διάχυσης αφαίρεσης θορύβου (DDM) έχουν κερδίσει δημοτικότητα για την ικανότητά τους να δημιουργούν εικόνες από θόρυβο μέσω μιας επαναληπτικής διαδικασίας αποθορυβοποίησης. Η ικανότητα σύνθεσης εικόνας αυτών των μοντέλων οφείλεται σε μεγάλο βαθμό στις χρησιμοποιούμενες μεθόδους καθοδήγησης διάχυσης. Παρά τα δυνατά τους σημεία, τα μοντέλα διάχυσης και οι μέθοδοι που βασίζονται στην καθοδήγηση αντιμετωπίζουν προκλήσεις όπως η πρόσθετη πολυπλοκότητα και το αυξημένο υπολογιστικό κόστος.

Για να ξεπεραστούν οι τρέχοντες περιορισμοί, οι προγραμματιστές έχουν εισαγάγει τη μέθοδο Self-Attention Guidance, μια πιο γενική διατύπωση καθοδήγησης διάχυσης που δεν βασίζεται στις εξωτερικές πληροφορίες από την καθοδήγηση διάχυσης, διευκολύνοντας έτσι μια προσέγγιση χωρίς συνθήκες και ευέλικτη καθοδήγηση πλαίσια διάχυσης. Η προσέγγιση που επιλέχθηκε από το Self-Attention Guidance βοηθά τελικά στην ενίσχυση της δυνατότητας εφαρμογής των παραδοσιακών μεθόδων καθοδήγησης διάχυσης σε περιπτώσεις με ή χωρίς εξωτερικές απαιτήσεις.

Η καθοδήγηση αυτοπροσοχής βασίζεται στην απλή αρχή της γενικευμένης διατύπωσης και στην υπόθεση ότι οι εσωτερικές πληροφορίες που περιέχονται σε ενδιάμεσα δείγματα μπορούν επίσης να χρησιμεύσουν ως καθοδήγηση. Βάσει αυτής της αρχής, η μέθοδος SAG εισάγει αρχικά την Καθοδήγηση Blur, μια απλή και απλή λύση για τη βελτίωση της ποιότητας του δείγματος. Η καθοδήγηση Blur στοχεύει στην εκμετάλλευση των καλοήθων ιδιοτήτων του Gaussian blur για την αφαίρεση λεπτομερειών λεπτής κλίμακας φυσικά καθοδηγώντας τα ενδιάμεσα δείγματα χρησιμοποιώντας τις πληροφορίες που έχουν εξαλειφθεί ως αποτέλεσμα του Gaussian blur. Αν και η μέθοδος καθοδήγησης Blur ενισχύει την ποιότητα του δείγματος με μια μέτρια κλίμακα καθοδήγησης, αποτυγχάνει να αναπαράγει τα αποτελέσματα σε μεγάλη κλίμακα καθοδήγησης, καθώς συχνά εισάγει δομική ασάφεια σε ολόκληρες περιοχές. Ως αποτέλεσμα, η μέθοδος καθοδήγησης Blur δυσκολεύεται να ευθυγραμμίσει την αρχική είσοδο με την πρόβλεψη της υποβαθμισμένης εισόδου. Για να ενισχύσει τη σταθερότητα και την αποτελεσματικότητα της μεθόδου καθοδήγησης Blur σε μεγαλύτερη κλίμακα καθοδήγησης, το Self-Attention Guidance επιχειρεί να εκμεταλλευτεί τον μηχανισμό αυτοπροσοχής των μοντέλων διάχυσης, καθώς τα σύγχρονα μοντέλα διάχυσης περιέχουν ήδη έναν μηχανισμό αυτοπροσοχής στην αρχιτεκτονική τους.

Με την παραδοχή ότι η αυτοπροσοχή είναι απαραίτητη για τη λήψη σημαντικών πληροφοριών στον πυρήνα της, η μέθοδος Self-Attention Guidance χρησιμοποιεί χάρτες αυτοπροσοχής των μοντέλων διάχυσης για να θολώσει αντίθετα τις περιοχές που περιέχουν σημαντικές πληροφορίες και στη διαδικασία καθοδηγεί την μοντέλα διάχυσης με τις απαιτούμενες υπολειπόμενες πληροφορίες. Στη συνέχεια, η μέθοδος αξιοποιεί τους χάρτες προσοχής κατά τη διάρκεια της αντίστροφης διαδικασίας των μοντέλων διάχυσης, για να ενισχύσει την ποιότητα των εικόνων και χρησιμοποιεί αυτορυθμισμό για να μειώσει τα τεχνουργήματα χωρίς να απαιτείται πρόσθετη εκπαίδευση ή εξωτερικές πληροφορίες.

Για να το συνοψίσουμε, η μέθοδος καθοδήγησης αυτοπροσοχής

Είναι μια νέα προσέγγιση που χρησιμοποιεί εσωτερικούς χάρτες αυτοπροσοχής των πλαισίων διάχυσης για να βελτιώσει την ποιότητα της παραγόμενης εικόνας δείγματος χωρίς να απαιτείται πρόσθετη εκπαίδευση ή να βασίζεται σε εξωτερικές συνθήκες.
Η μέθοδος SAG επιχειρεί να γενικεύσει τις μεθόδους καθοδήγησης υπό όρους σε μια μέθοδο χωρίς συνθήκες που μπορεί να ενσωματωθεί με οποιοδήποτε μοντέλο διάχυσης χωρίς να απαιτεί πρόσθετους πόρους ή εξωτερικές συνθήκες, ενισχύοντας έτσι την εφαρμογή πλαισίων που βασίζονται σε καθοδήγηση.
Η μέθοδος SAG επιχειρεί επίσης να επιδείξει τις ορθογώνιες ικανότητές της σε υπάρχουσες μεθόδους και πλαίσια υπό όρους, διευκολύνοντας έτσι την ενίσχυση της απόδοσης διευκολύνοντας την ευέλικτη ενσωμάτωση με άλλες μεθόδους και μοντέλα.

Συνεχίζοντας, η μέθοδος Self-Attention Guidance μαθαίνει από τα ευρήματα των σχετικών πλαισίων, συμπεριλαμβανομένων των μοντέλων διάχυσης αποθάρρυνσης, της καθοδήγησης δειγματοληψίας, των μεθόδων αυτοπροσοχής της Γενετικής AI και των Εσωτερικών Αναπαραστάσεων των Μοντέλων Διάχυσης. Ωστόσο, στον πυρήνα της, η μέθοδος Self-Attention Guidance υλοποιεί τα διδάγματα από DDPM ή Denoising Diffusion Probabilistic Models, Classifier Guidance, Classifier Guidance και Self-Attention in Diffusion frames. Θα μιλήσουμε για αυτά σε βάθος στην επόμενη ενότητα.

Καθοδήγηση αυτοπροσοχής : Προκαταρκτικά, Μεθοδολογία και Αρχιτεκτονική

Πιθανοτικό μοντέλο διάχυσης αποθορύφωσης ή DDPM

DDPM ή Πιθανολογικό Μοντέλο Διάχυσης Αποθορύφωσης είναι ένα μοντέλο που χρησιμοποιεί μια επαναληπτική διαδικασία εκκαθάρισης θορύβου για να ανακτήσει μια εικόνα από λευκό θόρυβο. Παραδοσιακά, ένα μοντέλο DDPM λαμβάνει μια εικόνα εισόδου και ένα πρόγραμμα διακύμανσης σε ένα χρονικό βήμα για να αποκτήσει την εικόνα χρησιμοποιώντας μια διαδικασία προς τα εμπρός γνωστή ως Markovian process.

Καθοδήγηση χωρίς ταξινομητή και ταξινομητή με εφαρμογή GAN

Το GAN ή τα Generative Adversarial Networks διαθέτουν μοναδική εμπορική ποικιλομορφία για πιστότητα, και για να φέρει αυτή την ικανότητα των πλαισίων GAN σε μοντέλα διάχυσης, το πλαίσιο καθοδήγησης Self-Attention Guidance προτείνει τη χρήση μιας μεθόδου καθοδήγησης ταξινομητή που χρησιμοποιεί έναν πρόσθετο ταξινομητή. Αντίθετα, μια μέθοδος καθοδήγησης χωρίς ταξινομητή μπορεί επίσης να εφαρμοστεί χωρίς τη χρήση πρόσθετου ταξινομητή για την επίτευξη των ίδιων αποτελεσμάτων. Αν και η μέθοδος παρέχει τα επιθυμητά αποτελέσματα, εξακολουθεί να μην είναι υπολογιστικά βιώσιμη καθώς απαιτεί πρόσθετες ετικέτες και επίσης περιορίζει το πλαίσιο σε μοντέλα διάχυσης υπό όρους που απαιτούν πρόσθετες συνθήκες όπως ένα κείμενο ή μια τάξη μαζί με πρόσθετες λεπτομέρειες εκπαίδευσης που προσθέτουν στην πολυπλοκότητα του το μοντέλο.

Γενικευμένη καθοδήγηση διάχυσης

Παρόλο που οι μέθοδοι Καθοδήγησης Classifier και Classifier-free παρέχουν τα επιθυμητά αποτελέσματα και βοηθούν στη δημιουργία υπό όρους σε μοντέλα διάχυσης, εξαρτώνται από πρόσθετες εισόδους. Για οποιοδήποτε δεδομένο χρονικό βήμα, η είσοδος για ένα μοντέλο διάχυσης περιλαμβάνει μια γενικευμένη συνθήκη και ένα διαταραγμένο δείγμα χωρίς τη γενικευμένη συνθήκη. Επιπλέον, η γενικευμένη συνθήκη περιλαμβάνει εσωτερικές πληροφορίες μέσα στο διαταραγμένο δείγμα ή μια εξωτερική κατάσταση, ή ακόμα και τα δύο. Η προκύπτουσα καθοδήγηση διατυπώνεται με τη χρήση ενός φανταστικού παλινδρομητή με την υπόθεση ότι μπορεί να προβλέψει τη γενικευμένη κατάσταση.

Βελτίωση της ποιότητας εικόνας με χρήση Χαρτών Αυτοπροσοχής

Η γενικευμένη καθοδήγηση διάχυσης υποδηλώνει ότι είναι εφικτό να παρέχεται καθοδήγηση στην αντίστροφη διαδικασία των μοντέλων διάχυσης εξάγοντας σημαντικές πληροφορίες στη γενικευμένη κατάσταση που περιέχεται στο διαταραγμένο δείγμα. Με βάση το ίδιο, η μέθοδος Self-Attention Guidance συλλαμβάνει αποτελεσματικά τις σημαντικές πληροφορίες για αντίστροφες διεργασίες, περιορίζοντας ταυτόχρονα τους κινδύνους που προκύπτουν ως αποτέλεσμα ζητημάτων εκτός διανομής σε προεκπαιδευμένα μοντέλα διάχυσης.

Καθοδήγηση θαμπώματος

Η καθοδήγηση θολώματος στο Self-Attention Guidance βασίζεται στο Gaussian Blur, μια μέθοδο γραμμικού φιλτραρίσματος στην οποία το σήμα εισόδου συμπλέκεται με ένα φίλτρο Gauss για να δημιουργήσει μια έξοδο. Με την αύξηση της τυπικής απόκλισης, το Gaussian Blur μειώνει τις λεπτομέρειες λεπτής κλίμακας στα σήματα εισόδου και οδηγεί σε τοπικά δυσδιάκριτα σήματα εισόδου εξομαλύνοντάς τα προς τη σταθερά. Επιπλέον, τα πειράματα έχουν δείξει μια ανισορροπία πληροφοριών μεταξύ του σήματος εισόδου και του σήματος εξόδου Gaussian blur όπου το σήμα εξόδου περιέχει περισσότερες πληροφορίες λεπτής κλίμακας.

Με βάση αυτή τη μάθηση, το πλαίσιο καθοδήγησης Self-Attention Guidance εισάγει την καθοδήγηση Blur, μια τεχνική που αποκλείει σκόπιμα τις πληροφορίες από ενδιάμεσες ανακατασκευές κατά τη διαδικασία διάχυσης και, αντί αυτού, χρησιμοποιεί αυτές τις πληροφορίες για να καθοδηγήσει τις προβλέψεις του προς την αύξηση της συνάφειας των εικόνων με το πληροφορίες εισαγωγής. Η καθοδήγηση θαμπώματος ουσιαστικά προκαλεί την αρχική πρόβλεψη να αποκλίνει περισσότερο από την πρόβλεψη θολής εισόδου. Επιπλέον, η καλοήθης ιδιότητα στο Gaussian blur εμποδίζει τα σήματα εξόδου να αποκλίνουν σημαντικά από το αρχικό σήμα με μέτρια απόκλιση. Με απλά λόγια, το θάμπωμα εμφανίζεται στις εικόνες φυσικά, γεγονός που καθιστά το Gaussian blur μια πιο κατάλληλη μέθοδο για εφαρμογή σε προεκπαιδευμένα μοντέλα διάχυσης.

Στη διοχέτευση Self-Attention Guidance, το σήμα εισόδου θολώνεται πρώτα χρησιμοποιώντας ένα φίλτρο Gauss και στη συνέχεια διαχέεται με πρόσθετο θόρυβο για την παραγωγή του σήματος εξόδου. Με αυτόν τον τρόπο, ο αγωγός SAG μετριάζει την παρενέργεια του προκύπτοντος θολώματος που μειώνει τον Gaussian θόρυβο και κάνει την καθοδήγηση να βασίζεται στο περιεχόμενο αντί να εξαρτάται από τον τυχαίο θόρυβο. Αν και η καθοδήγηση θολώματος παρέχει ικανοποιητικά αποτελέσματα σε πλαίσια με μέτρια κλίμακα καθοδήγησης, αποτυγχάνει να αναπαράγει τα αποτελέσματα σε υπάρχοντα μοντέλα με μεγάλη κλίμακα καθοδήγησης, καθώς είναι επιρρεπής να παράγει αποτελέσματα με θόρυβο, όπως φαίνεται στην παρακάτω εικόνα.

Αυτά τα αποτελέσματα μπορεί να είναι αποτέλεσμα της δομικής ασάφειας που εισάγεται στο πλαίσιο από την καθολική θολούρα που δυσκολεύει τον αγωγό SAG να ευθυγραμμίσει τις προβλέψεις της αρχικής εισόδου με την υποβαθμισμένη είσοδο, με αποτέλεσμα θορυβώδεις εξόδους.

Μηχανισμός Αυτοπροσοχής

Όπως αναφέρθηκε προηγουμένως, τα μοντέλα διάχυσης έχουν συνήθως ένα στοιχείο αυτο-προσοχής εντός της κατασκευής και είναι ένα από τα πιο βασικά στοιχεία σε ένα πλαίσιο μοντέλων διάχυσης. Ο μηχανισμός Self-Attention εφαρμόζεται στον πυρήνα των μοντέλων διάχυσης και επιτρέπει στο μοντέλο να δίνει προσοχή στα κύρια μέρη της εισόδου κατά τη διαδικασία παραγωγής, όπως φαίνεται στην παρακάτω εικόνα με μάσκες υψηλής συχνότητας στην επάνω σειρά, και μάσκες αυτοπροσοχής στην κάτω σειρά των εικόνων που δημιουργήθηκαν τελικά.

Η προτεινόμενη μέθοδος καθοδήγησης αυτοπροσοχής βασίζεται στην ίδια αρχή και αξιοποιεί τις δυνατότητες των χαρτών αυτοπροσοχής σε μοντέλα διάχυσης. Συνολικά, η μέθοδος Self-Attention Guidance θολώνει τα αυτοεπιτηρούμενα patches στο σήμα εισόδου ή με απλά λόγια, αποκρύπτει τις πληροφορίες των patches που παρακολουθούνται από τα μοντέλα διάχυσης. Επιπλέον, τα σήματα εξόδου στο Self-Attention Guidance περιέχουν ανέπαφες περιοχές των σημάτων εισόδου, πράγμα που σημαίνει ότι δεν οδηγεί σε δομική ασάφεια των εισόδων και επιλύει το πρόβλημα του καθολικού θολώματος. Στη συνέχεια, ο αγωγός λαμβάνει τους συγκεντρωτικούς χάρτες αυτοπροσοχής πραγματοποιώντας GAP ή Global Average Pooling για να συγκεντρωθούν χάρτες αυτοπροσοχής στη διάσταση και δειγματοληπτικά τον πλησιέστερο γείτονα για να ταιριάζει με την ανάλυση του σήματος εισόδου.

Καθοδήγηση Αυτοπροσοχής: Πειράματα και Αποτελέσματα

Για να αξιολογηθεί η απόδοσή του, γίνεται δειγματοληψία του αγωγού Self-Attention Guidance χρησιμοποιώντας 8 GPU Nvidia GeForce RTX 3090 και βασίζεται σε προεκπαιδευμένα IDDPM, ADM και Σταθερά πλαίσια διάχυσης.

Γενιά άνευ όρων με καθοδήγηση αυτοπροσοχής

Για τη μέτρηση της αποτελεσματικότητας του αγωγού SAG σε μοντέλα άνευ όρων και για την επίδειξη της ιδιότητας χωρίς όρους που δεν διαθέτει η Classifier Guidance και η προσέγγιση Classifier Free Guidance, ο αγωγός SAG λειτουργεί σε άνευ όρων προεκπαιδευμένα πλαίσια σε 50 χιλιάδες δείγματα.

Όπως μπορεί να παρατηρηθεί, η υλοποίηση του αγωγού SAG βελτιώνει τις μετρήσεις FID, sFID και IS της άνευ όρων εισαγωγής ενώ ταυτόχρονα μειώνει την τιμή ανάκλησης. Επιπλέον, οι ποιοτικές βελτιώσεις ως αποτέλεσμα της υλοποίησης του αγωγού SAG είναι εμφανείς στις παρακάτω εικόνες όπου οι εικόνες στο επάνω μέρος είναι αποτελέσματα από πλαίσια ADM και Stable Diffusion ενώ οι εικόνες στο κάτω μέρος είναι αποτελέσματα από τα πλαίσια ADM και Stable Diffusion με Αγωγός SAG.

Παραγωγή υπό όρους με SAG

Η ενσωμάτωση του αγωγού SAG σε υπάρχοντα πλαίσια προσφέρει εξαιρετικά αποτελέσματα στην παραγωγή χωρίς όρους και ο αγωγός SAG είναι ικανός για αγνωστικισμό συνθηκών που επιτρέπει στον αγωγό SAG να εφαρμοστεί και για παραγωγή υπό όρους.

Σταθερή Διάχυση με Καθοδήγηση Αυτοπροσοχής

Παρόλο που το αρχικό πλαίσιο Stable Diffusion δημιουργεί εικόνες υψηλής ποιότητας, η ενσωμάτωση του πλαισίου Stable Diffusion με τη γραμμή καθοδήγησης Self-Attention Guidance μπορεί να βελτιώσει δραστικά τα αποτελέσματα. Για να αξιολογήσουν την επίδρασή του, οι προγραμματιστές χρησιμοποιούν κενές προτροπές για Σταθερή Διάχυση με τυχαία αρχή για κάθε ζεύγος εικόνων και χρησιμοποιούν ανθρώπινη αξιολόγηση σε 500 ζεύγη εικόνων με και χωρίς καθοδήγηση αυτοπροσοχής. Τα αποτελέσματα φαίνονται στην παρακάτω εικόνα.

Επιπλέον, η υλοποίηση του SAG μπορεί να βελτιώσει τις δυνατότητες του πλαισίου Stable Diffusion καθώς η σύντηξη της Καθοδήγησης χωρίς Classifier με την καθοδήγηση Self-Attention μπορεί να διευρύνει το φάσμα των μοντέλων Stable Diffusion σε σύνθεση κειμένου σε εικόνα. Επιπλέον, οι εικόνες που δημιουργούνται από το μοντέλο Stable Diffusion με καθοδήγηση Self-Attention είναι υψηλότερης ποιότητας με λιγότερα τεχνουργήματα χάρη στο αποτέλεσμα αυτό-κλιματισμού του αγωγού SAG όπως φαίνεται στην παρακάτω εικόνα.

Τρέχοντες περιορισμοί

Παρόλο που η υλοποίηση του αγωγού Self-Attention Guidance μπορεί να βελτιώσει σημαντικά την ποιότητα των δημιουργούμενων εικόνων, έχει ορισμένους περιορισμούς.

Ένας από τους σημαντικότερους περιορισμούς είναι η ορθογωνία με Classifier-Guidance και Classifier-Free Guidance. Όπως φαίνεται στην παρακάτω εικόνα, η υλοποίηση του SAG βελτιώνει τη βαθμολογία FID και τη βαθμολογία πρόβλεψης, πράγμα που σημαίνει ότι ο αγωγός SAG περιέχει ένα ορθογώνιο στοιχείο που μπορεί να χρησιμοποιηθεί με παραδοσιακές μεθόδους καθοδήγησης ταυτόχρονα.

Ωστόσο, εξακολουθεί να απαιτεί τα μοντέλα διάχυσης να εκπαιδεύονται με συγκεκριμένο τρόπο που αυξάνει την πολυπλοκότητα καθώς και το υπολογιστικό κόστος.

Επιπλέον, η εφαρμογή του Self-Attention Guidance δεν αυξάνει τη μνήμη ή την κατανάλωση χρόνου, ένδειξη ότι τα γενικά έξοδα που προκύπτουν από λειτουργίες όπως η κάλυψη και το θάμπωμα στο SAG είναι αμελητέα. Ωστόσο, εξακολουθεί να προσθέτει στο υπολογιστικό κόστος καθώς περιλαμβάνει ένα πρόσθετο βήμα σε σύγκριση με προσεγγίσεις χωρίς καθοδήγηση.

Τελικές Σκέψεις

Σε αυτό το άρθρο, μιλήσαμε για την καθοδήγηση αυτοπροσοχής, μια νέα και γενική διατύπωση μεθόδου καθοδήγησης που χρησιμοποιεί εσωτερικές πληροφορίες που είναι διαθέσιμες στα μοντέλα διάχυσης για τη δημιουργία εικόνων υψηλής ποιότητας. Η καθοδήγηση αυτοπροσοχής βασίζεται στην απλή αρχή της γενικευμένης διατύπωσης και στην υπόθεση ότι οι εσωτερικές πληροφορίες που περιέχονται σε ενδιάμεσα δείγματα μπορούν επίσης να χρησιμεύσουν ως καθοδήγηση. Η διοχέτευση καθοδήγησης Self-Attention Guidance είναι μια προσέγγιση χωρίς συνθήκες και εκπαίδευση που μπορεί να εφαρμοστεί σε διάφορα μοντέλα διάχυσης και χρησιμοποιεί αυτόνομη ρύθμιση για τη μείωση των τεχνουργημάτων στις δημιουργούμενες εικόνες και ενισχύει τη συνολική ποιότητα.

Σχετικά θέματα:Αποκατάσταση μοντέλα διάχυσης

Επόμενο

Τι είναι η Augmented Generation ανάκτησης;

Μην χάσετε

Κοινωνικός αντίκτυπος του Generative AI: Οφέλη και απειλές

Kunal kejriwal

«Μηχανικός στο επάγγελμα, συγγραφέας από καρδιάς». Ο Kunal είναι ένας τεχνικός συγγραφέας με βαθιά αγάπη και κατανόηση της τεχνητής νοημοσύνης και της ML, αφοσιωμένος στην απλοποίηση σύνθετων εννοιών σε αυτούς τους τομείς μέσω της συναρπαστικής και ενημερωτικής τεκμηρίωσής του.

Unite.AI

Καθοδήγηση αυτοπροσοχής: Βελτίωση της ποιότητας δειγμάτων των μοντέλων διάχυσης

Τεχνητή νοημοσύνη

Καθοδήγηση αυτοπροσοχής: Βελτίωση της ποιότητας δειγμάτων των μοντέλων διάχυσης

Πίνακας περιεχομένων

Καθοδήγηση αυτοπροσοχής: Βελτίωση της ποιότητας δειγμάτων των μοντέλων διάχυσης

Καθοδήγηση αυτοπροσοχής : Προκαταρκτικά, Μεθοδολογία και Αρχιτεκτονική

Πιθανοτικό μοντέλο διάχυσης αποθορύφωσης ή DDPM