στέλεχος Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction - Unite.AI
Συνδεθείτε μαζί μας

Τεχνητή νοημοσύνη

Οπτική Αυτοπαλινδρομική Μοντελοποίηση: Κλιμακούμενη Δημιουργία Εικόνων μέσω Πρόβλεψης Επόμενης Κλίμακας

mm

Δημοσιευμένα

 on

Οπτική Αυτοπαλινδρομική Μοντελοποίηση: Κλιμακούμενη Δημιουργία Εικόνων μέσω Πρόβλεψης Επόμενης Κλίμακας

Η έλευση των μοντέλων GPT, μαζί με άλλα μοντέλα αυτοπαλίνδρομων ή μεγάλων γλωσσών AR ξεδιπλώθηκε μια νέα εποχή στον τομέα της μηχανικής μάθησης και της τεχνητής νοημοσύνης. Τα GPT και τα αυτοπαλινδρομικά μοντέλα παρουσιάζουν συχνά γενική νοημοσύνη και ευελιξία που θεωρούνται ένα σημαντικό βήμα προς τη γενική τεχνητή νοημοσύνη ή AGI, παρά το γεγονός ότι έχουν ορισμένα προβλήματα όπως οι παραισθήσεις. Ωστόσο, το αινιγματικό πρόβλημα με αυτά τα μεγάλα μοντέλα είναι μια αυτοεποπτευόμενη στρατηγική μάθησης που επιτρέπει στο μοντέλο να προβλέψει το επόμενο διακριτικό σε μια σειρά, μια απλή αλλά αποτελεσματική στρατηγική. Πρόσφατες εργασίες κατέδειξαν την επιτυχία αυτών των μεγάλων αυτοπαλινδρομικών μοντέλων, τονίζοντας τη γενίκευση και την επεκτασιμότητα τους. Η επεκτασιμότητα είναι ένα τυπικό παράδειγμα των υπαρχόντων νόμων κλιμάκωσης που επιτρέπει στους ερευνητές να προβλέψουν την απόδοση του μεγάλου μοντέλου από την απόδοση μικρότερων μοντέλων, με αποτέλεσμα την καλύτερη κατανομή των πόρων. Από την άλλη πλευρά, η γενίκευση συχνά αποδεικνύεται από στρατηγικές μάθησης όπως η εκμάθηση μηδενικής βολής, μίας βολής και μάθησης με λίγες λήψεις, υπογραμμίζοντας την ικανότητα των μοντέλων χωρίς επίβλεψη αλλά εκπαιδευμένα να προσαρμόζονται σε διαφορετικές και αόρατες εργασίες. Μαζί, η γενίκευση και η επεκτασιμότητα αποκαλύπτουν τη δυνατότητα των αυτοπαλινδρομικών μοντέλων να μάθουν από έναν τεράστιο όγκο δεδομένων χωρίς ετικέτα. 

Με βάση το ίδιο, σε αυτό το άρθρο, θα μιλήσουμε για το Visual AutoRegressive ή το πλαίσιο VAR, ένα μοτίβο νέας γενιάς που επαναπροσδιορίζει την αυτοπαλινδρομική μάθηση σε εικόνες ως "πρόβλεψη επόμενης ανάλυσης" ή "πρόβλεψη επόμενης κλίμακας". . Αν και απλή, η προσέγγιση είναι αποτελεσματική και επιτρέπει στους αυτοπαλινδρομικούς μετασχηματιστές να μαθαίνουν καλύτερα τις οπτικές κατανομές και να βελτιώνουν τη γενίκευση. Επιπλέον, τα μοντέλα Visual AutoRegressive επιτρέπουν στα αυτοπαλινδρομικά μοντέλα τύπου GPT να ξεπεράσουν τις μεταφορές διάχυσης στη δημιουργία εικόνων για πρώτη φορά. Τα πειράματα υποδεικνύουν επίσης ότι το πλαίσιο VAR βελτιώνει σημαντικά τις αυτοπαλινδρομικές γραμμές βάσης και ξεπερνά τις επιδόσεις του μετασχηματιστή διάχυσης ή του πλαισίου DiT σε πολλαπλές διαστάσεις, συμπεριλαμβανομένης της απόδοσης δεδομένων, της ποιότητας εικόνας, της επεκτασιμότητας και της ταχύτητας συμπερασμάτων. Περαιτέρω, η κλιμάκωση των μοντέλων Visual AutoRegressive επιδεικνύει νόμους κλιμάκωσης νόμου ισχύος παρόμοιους με αυτούς που παρατηρούνται με μεγάλα γλωσσικά μοντέλα και επίσης εμφανίζει την ικανότητα γενίκευσης μηδενικής βολής σε εργασίες μεταγενέστερης ροής, συμπεριλαμβανομένων της επεξεργασίας, της εσωτερικής ζωγραφικής και της εξωτερικής ζωγραφικής. 

Αυτό το άρθρο στοχεύει να καλύψει το πλαίσιο Visual AutoRegressive σε βάθος και διερευνούμε τον μηχανισμό, τη μεθοδολογία, την αρχιτεκτονική του πλαισίου μαζί με τη σύγκρισή του με τα τελευταίας τεχνολογίας πλαίσια. Θα μιλήσουμε επίσης για το πώς το πλαίσιο Visual AutoRegressive επιδεικνύει δύο σημαντικές ιδιότητες των LLM: τους νόμους κλιμάκωσης και τη γενίκευση μηδενικής λήψης. Ας ξεκινήσουμε λοιπόν.

Visual AutoRegressive Modeling: Scaling Image Generation

Ένα κοινό μοτίβο μεταξύ των πρόσφατων μεγάλων γλωσσικών μοντέλων είναι η εφαρμογή μιας αυτοεποπτευόμενης στρατηγικής μάθησης, μιας απλής αλλά αποτελεσματικής προσέγγισης που προβλέπει το επόμενο διακριτικό στη σειρά. Χάρη στην προσέγγιση, τα αυτοπαλινδρομικά και μεγάλα γλωσσικά μοντέλα σήμερα έχουν επιδείξει αξιοσημείωτη επεκτασιμότητα καθώς και γενίκευση, ιδιότητες που αποκαλύπτουν τη δυνατότητα των αυτοπαλινδρομικών μοντέλων να μαθαίνουν από μια μεγάλη δεξαμενή δεδομένων χωρίς ετικέτα, συνοψίζοντας επομένως την ουσία της Γενικής Τεχνητής Νοημοσύνης. Επιπλέον, ερευνητές στον τομέα της όρασης υπολογιστών εργάζονται παράλληλα για την ανάπτυξη μεγάλων αυτοπαλινδρομικών ή παγκόσμιων μοντέλων με στόχο να ταιριάζουν ή να ξεπερνούν την εντυπωσιακή επεκτασιμότητα και γενίκευσή τους, με μοντέλα όπως το DALL-E και το VQGAN να επιδεικνύουν ήδη τις δυνατότητες των αυτοπαλινδρομικών μοντέλων στο πεδίο. της δημιουργίας εικόνας. Αυτά τα μοντέλα συχνά εφαρμόζουν ένα οπτικό tokenizer που αναπαριστά ή προσεγγίζει συνεχείς εικόνες σε ένα πλέγμα 2D διακριτικών, που στη συνέχεια ισοπεδώνονται σε μια ακολουθία 1D για αυτοπαλινδρομική μάθηση, αντικατοπτρίζοντας έτσι τη διαδικασία διαδοχικής μοντελοποίησης γλώσσας. 

Ωστόσο, οι ερευνητές δεν έχουν ακόμη εξερευνήσει τους νόμους κλιμάκωσης αυτών των μοντέλων, και αυτό που είναι πιο απογοητευτικό είναι το γεγονός ότι η απόδοση αυτών των μοντέλων συχνά υπολείπεται των μοντέλων διάχυσης με σημαντικό περιθώριο, όπως φαίνεται στην παρακάτω εικόνα. Το κενό στην απόδοση δείχνει ότι σε σύγκριση με μεγάλα γλωσσικά μοντέλα, οι δυνατότητες των αυτοπαλινδρομικών μοντέλων στην όραση υπολογιστή είναι ανεξερεύνητες. 

Από τη μια πλευρά, τα παραδοσιακά αυτοπαλινδρομικά μοντέλα απαιτούν μια καθορισμένη σειρά δεδομένων, ενώ από την άλλη, το μοντέλο Visual AutoRegressive ή VAR επανεξετάζει τον τρόπο παραγγελίας μιας εικόνας και αυτό είναι που διακρίνει το VAR από τις υπάρχουσες μεθόδους AR. Συνήθως, οι άνθρωποι δημιουργούν ή αντιλαμβάνονται μια εικόνα με ιεραρχικό τρόπο, αποτυπώνοντας την παγκόσμια δομή που ακολουθείται από τις τοπικές λεπτομέρειες, μια προσέγγιση πολλαπλής κλίμακας, χονδροειδής έως λεπτή που υποδηλώνει μια σειρά για την εικόνα φυσικά. Επιπλέον, αντλώντας έμπνευση από σχέδια πολλαπλών κλιμάκων, το πλαίσιο VAR ορίζει την αυτοπαλινδρομική μάθηση για εικόνες ως πρόβλεψη επόμενης κλίμακας σε αντίθεση με τις συμβατικές προσεγγίσεις που ορίζουν τη μάθηση ως την επόμενη συμβολική πρόβλεψη. Η προσέγγιση που εφαρμόζεται από το πλαίσιο VAR απογειώνεται με την κωδικοποίηση μιας εικόνας σε χάρτες διακριτικών πολλαπλής κλίμακας. Στη συνέχεια, το πλαίσιο ξεκινά την αυτοπαλινδρομική διαδικασία από τον χάρτη διακριτικού 1×1 και επεκτείνεται σταδιακά σε ανάλυση. Σε κάθε βήμα, ο μετασχηματιστής προβλέπει τον επόμενο χάρτη διακριτικού υψηλότερης ανάλυσης που εξαρτάται από όλα τα προηγούμενα, μια μεθοδολογία που το πλαίσιο VAR αναφέρεται ως μοντελοποίηση VAR. 

Το πλαίσιο VAR επιχειρεί να αξιοποιήσει την αρχιτεκτονική του μετασχηματιστή του GPT-2 για οπτική αυτοπαλινδρομική μάθηση και τα αποτελέσματα είναι εμφανή στο σημείο αναφοράς ImageNet όπου το μοντέλο VAR βελτιώνει σημαντικά τη βασική γραμμή AR του, επιτυγχάνοντας FID 1.80 και βαθμολογία έναρξης 356 κατά μήκος με 20 φορές βελτίωση στην ταχύτητα συμπερασμάτων. Το πιο ενδιαφέρον είναι ότι το πλαίσιο VAR καταφέρνει να ξεπεράσει την απόδοση του πλαισίου DiT ή Diffusion Transformer όσον αφορά τις βαθμολογίες FID & IS, την επεκτασιμότητα, την ταχύτητα εξαγωγής συμπερασμάτων και την αποδοτικότητα δεδομένων. Επιπλέον, το μοντέλο Visual AutoRegressive παρουσιάζει ισχυρούς νόμους κλιμάκωσης παρόμοιους με αυτούς που παρατηρούνται σε μεγάλα γλωσσικά μοντέλα. 

Συνοψίζοντας, το πλαίσιο VAR επιχειρεί να κάνει τις ακόλουθες συνεισφορές. 

  1. Προτείνει ένα νέο οπτικό πλαίσιο παραγωγής που χρησιμοποιεί μια αυτοπαλινδρομική προσέγγιση πολλαπλής κλίμακας με πρόβλεψη επόμενης κλίμακας, σε αντίθεση με την παραδοσιακή πρόβλεψη επόμενου συμβολικού, με αποτέλεσμα το σχεδιασμό του αυτοπαλινδρομικού αλγόριθμου για εργασίες όρασης υπολογιστή. 
  2. Προσπαθεί να επικυρώσει τους νόμους κλιμάκωσης για αυτοπαλινδρομικά μοντέλα μαζί με το δυναμικό μηδενικής γενίκευσης που μιμείται τις ελκυστικές ιδιότητες των LLM. 
  3. Προσφέρει μια σημαντική ανακάλυψη στην απόδοση οπτικών αυτοπαλινδρομικών μοντέλων, επιτρέποντας στα αυτοπαλινδρομικά πλαίσια τύπου GPT να ξεπεράσουν τα υπάρχοντα μοντέλα διάχυσης σε εργασίες σύνθεσης εικόνας για πρώτη φορά. 

Επιπλέον, είναι επίσης ζωτικής σημασίας να συζητηθούν οι υπάρχοντες νόμοι κλιμάκωσης νόμου ισχύος που περιγράφουν μαθηματικά τη σχέση μεταξύ των μεγεθών δεδομένων, των παραμέτρων του μοντέλου, των βελτιώσεων απόδοσης και των υπολογιστικών πόρων των μοντέλων μηχανικής μάθησης. Πρώτον, αυτοί οι νόμοι κλιμάκωσης του νόμου ισχύος διευκολύνουν την εφαρμογή της απόδοσης ενός μεγαλύτερου μοντέλου κλιμακώνοντας το μέγεθος του μοντέλου, το υπολογιστικό κόστος και το μέγεθος δεδομένων, εξοικονομώντας περιττό κόστος και κατανέμοντας τον προϋπολογισμό εκπαίδευσης παρέχοντας αρχές. Δεύτερον, οι νόμοι κλιμάκωσης έχουν δείξει μια σταθερή και μη κορεσμένη αύξηση στην απόδοση. Προχωρώντας με τις αρχές των νόμων κλιμάκωσης στα μοντέλα νευρωνικών γλωσσών, πολλά LLM ενσωματώνουν την αρχή ότι η αύξηση της κλίμακας των μοντέλων τείνει να αποφέρει βελτιωμένα αποτελέσματα απόδοσης. Η γενίκευση μηδενικής βολής από την άλλη πλευρά αναφέρεται στην ικανότητα ενός μοντέλου, ιδιαίτερα ενός LLM που εκτελεί εργασίες στις οποίες δεν έχει εκπαιδευτεί ρητά. Στον τομέα της όρασης υπολογιστών, το ενδιαφέρον για την οικοδόμηση μαθησιακών ικανοτήτων μηδενικής λήψης και εντός πλαισίου μοντέλων θεμελίωσης. 

Τα μοντέλα γλώσσας βασίζονται σε αλγόριθμους WordPiece ή σε προσέγγιση κωδικοποίησης ζεύγους Byte για τη δημιουργία διακριτικών κειμένου. Τα μοντέλα οπτικής παραγωγής που βασίζονται σε μοντέλα γλώσσας βασίζονται επίσης σε μεγάλο βαθμό στην κωδικοποίηση εικόνων 2D σε ακολουθίες διακριτικών 1D. Τα πρώτα έργα όπως το VQVAE απέδειξαν την ικανότητα να αναπαριστούν εικόνες ως διακριτά διακριτικά με μέτρια ποιότητα ανακατασκευής. Ο διάδοχος του VQVAE, το πλαίσιο VQGAN ενσωμάτωσε αντιληπτικές και αντίθετες απώλειες για τη βελτίωση της πιστότητας εικόνας και επίσης χρησιμοποίησε έναν μετασχηματιστή μόνο για αποκωδικοποιητή για τη δημιουργία διακριτικών εικόνων με τυπικό αυτοπαλινδρομικό τρόπο σάρωσης ράστερ. Τα μοντέλα διάχυσης, από την άλλη πλευρά, θεωρούνται από καιρό ως οι πρωτοπόροι για εργασίες οπτικής σύνθεσης, δεδομένου ότι η ποικιλομορφία τους και η ανώτερη ποιότητα παραγωγής τους. Η πρόοδος των μοντέλων διάχυσης έχει επικεντρωθεί στη βελτίωση των τεχνικών δειγματοληψίας, στις αρχιτεκτονικές βελτιώσεις και στην ταχύτερη δειγματοληψία. Τα μοντέλα λανθάνουσας διάχυσης εφαρμόζουν διάχυση στον λανθάνοντα χώρο που βελτιώνει την αποτελεσματικότητα της προπόνησης και τα συμπεράσματα. Τα μοντέλα Diffusion Transformer αντικαθιστούν την παραδοσιακή αρχιτεκτονική U-Net με μια αρχιτεκτονική που βασίζεται σε μετασχηματιστή και έχει αναπτυχθεί σε πρόσφατα μοντέλα σύνθεσης εικόνας ή βίντεο όπως το SORA και Σταθερή Διάχυση

Visual AutoRegressive: Μεθοδολογία και Αρχιτεκτονική

Στον πυρήνα του, το πλαίσιο VAR έχει δύο διακριτά στάδια εκπαίδευσης. Στο πρώτο στάδιο, ένας κβαντισμένος αυτόματος κωδικοποιητής πολλαπλής κλίμακας ή VQVAE κωδικοποιεί μια εικόνα σε χάρτες διακριτικών και η απώλεια ανακατασκευής ένωσης εφαρμόζεται για εκπαιδευτικούς σκοπούς. Στο παραπάνω σχήμα, η ενσωμάτωση είναι μια λέξη που χρησιμοποιείται για τον ορισμό της μετατροπής διακριτών διακριτικών σε διανύσματα συνεχούς ενσωμάτωσης. Στο δεύτερο στάδιο, ο μετασχηματιστής στο μοντέλο VAR εκπαιδεύεται είτε ελαχιστοποιώντας την απώλεια διασταυρούμενης εντροπίας είτε μεγιστοποιώντας την πιθανότητα χρησιμοποιώντας την προσέγγιση πρόβλεψης επόμενης κλίμακας. Στη συνέχεια, το εκπαιδευμένο VQVAE παράγει τη συμβολική αλήθεια γείωσης του χάρτη για το πλαίσιο VAR. 

Autoregressive Modeling μέσω Next-Token Prediction

Για μια δεδομένη ακολουθία διακριτών διακριτικών, όπου κάθε διακριτικό είναι ένας ακέραιος από ένα λεξιλόγιο μεγέθους V, το αυτοπαλινδρομικό μοντέλο επόμενου διακριτικού προτείνει ότι η πιθανότητα παρατήρησης του τρέχοντος διακριτικού εξαρτάται μόνο από το πρόθεμά του. Υποθέτοντας ότι η εξάρτηση διακριτικού μονής κατεύθυνσης επιτρέπει στο πλαίσιο VAR να αποσυνθέτει τις πιθανότητες ακολουθίας στο γινόμενο των πιθανοτήτων υπό όρους. Η εκπαίδευση ενός αυτοπαλινδρομικού μοντέλου περιλαμβάνει τη βελτιστοποίηση του μοντέλου σε ένα σύνολο δεδομένων και αυτή η διαδικασία βελτιστοποίησης είναι γνωστή ως επόμενη συμβολική πρόβλεψηκαι επιτρέπει στο εκπαιδευμένο μοντέλο να δημιουργεί νέες ακολουθίες. Επιπλέον, οι εικόνες είναι δισδιάστατα συνεχή σήματα με κληρονομικότητα και η εφαρμογή της προσέγγισης αυτοπαλίνδρομης μοντελοποίησης σε εικόνες μέσω της διαδικασίας βελτιστοποίησης πρόβλεψης επόμενου συμβολικού έχει μερικές προϋποθέσεις. Πρώτον, η εικόνα πρέπει να γίνει διακριτική σε πολλά διακριτά διακριτικά. Συνήθως, ένας κβαντισμένος αυτόματος κωδικοποιητής υλοποιείται για τη μετατροπή του χάρτη χαρακτηριστικών εικόνας σε διακριτά διακριτικά. Δεύτερον, πρέπει να οριστεί μια 2D σειρά των διακριτικών για μοντελοποίηση μονής κατεύθυνσης. 

Τα διακριτικά εικόνας σε διακριτά διακριτικά είναι διατεταγμένα σε ένα πλέγμα 2D και σε αντίθεση με τις προτάσεις φυσικής γλώσσας που έχουν εγγενώς μια σειρά από αριστερά προς τα δεξιά, η σειρά των διακριτικών εικόνων πρέπει να ορίζεται ρητά για μονοκατευθυντική αυτοπαλινδρομική μάθηση. Προηγούμενες αυτοπαλινδρομικές προσεγγίσεις ισοπέδωσαν το 2D πλέγμα των διακριτών διακριτικών σε μια ακολουθία 1D χρησιμοποιώντας μεθόδους όπως η σάρωση ράστερ, η καμπύλη z ή η σπειροειδής σειρά. Μόλις ισοπεδώθηκαν τα διακριτά διακριτικά, τα μοντέλα AR εξήγαγαν ένα σύνολο ακολουθιών από το σύνολο δεδομένων και στη συνέχεια εκπαίδευσαν ένα αυτοπαλινδρομικό μοντέλο για να μεγιστοποιήσουν την πιθανότητα στο γινόμενο των πιθανοτήτων Τ υπό όρους χρησιμοποιώντας πρόβλεψη επόμενου διακριτικού. 

Visual-AutoRegressive Modeling μέσω Next-Scale Prediction

Το πλαίσιο VAR επαναπροσδιορίζει την αυτοπαλινδρομική μοντελοποίηση σε εικόνες μεταβαίνοντας από την πρόβλεψη επόμενης κλίμακας στην προσέγγιση πρόβλεψης επόμενης κλίμακας, μια διαδικασία σύμφωνα με την οποία αντί να είναι ένα μοναδικό διακριτικό, η μονάδα αυτοπαλίνδρομης είναι ένας ολόκληρος χάρτης διακριτικών. Το μοντέλο αρχικά κβαντοποιεί τον χάρτη χαρακτηριστικών σε χάρτες διακριτικών πολλαπλής κλίμακας, ο καθένας με υψηλότερη ανάλυση από τον προηγούμενο, και κορυφώνεται με την αντιστοίχιση της ανάλυσης των αρχικών χαρτών χαρακτηριστικών. Επιπλέον, το πλαίσιο VAR αναπτύσσει έναν νέο κωδικοποιητή κβαντοποίησης πολλαπλής κλίμακας για την κωδικοποίηση μιας εικόνας σε διακριτούς χάρτες διακριτικών πολλαπλής κλίμακας, απαραίτητους για την εκμάθηση VAR. Το πλαίσιο VAR χρησιμοποιεί την ίδια αρχιτεκτονική με το VQGAN, αλλά με ένα τροποποιημένο επίπεδο κβαντοποίησης πολλαπλής κλίμακας, με τους αλγόριθμους που παρουσιάζονται στην παρακάτω εικόνα. 

Visual AutoRegressive: Αποτελέσματα και Πειράματα

Το πλαίσιο VAR χρησιμοποιεί την αρχιτεκτονική βανίλια VQVAE με ένα σχήμα κβαντοποίησης πολλαπλών κλιμάκων με επιπλέον συνέλιξη K και χρησιμοποιεί ένα κοινό βιβλίο κωδικών για όλες τις κλίμακες και ένα λανθάνον αμυδρό όριο 32. Η κύρια εστίαση βρίσκεται στον αλγόριθμο VAR, λόγω του οποίου ο σχεδιασμός της αρχιτεκτονικής του μοντέλου διατηρείται απλό αλλά αποτελεσματικό. Το πλαίσιο υιοθετεί την αρχιτεκτονική ενός τυπικού μετασχηματιστή μόνο για αποκωδικοποιητή, παρόμοιο με αυτούς που εφαρμόζονται στα μοντέλα GPT-2, με τη μόνη τροποποίηση να είναι η αντικατάσταση της παραδοσιακής κανονικοποίησης στρώματος με την προσαρμοστική κανονικοποίηση ή το AdaLN. Για τη σύνθεση υπό όρους κλάσεων, το πλαίσιο VAR υλοποιεί τις ενσωματώσεις κλάσεων ως αρχικό διακριτικό, καθώς και την κατάσταση του επιπέδου προσαρμοστικής κανονικοποίησης. 

Αποτελέσματα δημιουργίας εικόνας τελευταίας τεχνολογίας

Όταν γίνεται σύζευξη με υπάρχοντα πλαίσια παραγωγής, συμπεριλαμβανομένων GAN ή Generative Adversarial Networks, μοντέλα μάσκας πρόβλεψης τύπου BERT, μοντέλα διάχυσης και αυτοπαλινδρομικά μοντέλα τύπου GPT, το πλαίσιο Visual AutoRegressive εμφανίζει πολλά υποσχόμενα αποτελέσματα που συνοψίζονται στον παρακάτω πίνακα. 

Όπως μπορεί να παρατηρηθεί, το πλαίσιο Visual AutoRegressive δεν είναι μόνο ικανό να πετύχει τις καλύτερες βαθμολογίες FID και IS, αλλά δείχνει επίσης αξιοσημείωτη ταχύτητα δημιουργίας εικόνας, συγκρίσιμη με τα τελευταίας τεχνολογίας μοντέλα. Επιπλέον, το πλαίσιο VAR διατηρεί επίσης ικανοποιητικές βαθμολογίες ακρίβειας και ανάκλησης, γεγονός που επιβεβαιώνει τη σημασιολογική του συνέπεια. Αλλά η πραγματική έκπληξη είναι η αξιοσημείωτη απόδοση που παρέχει το πλαίσιο VAR σε παραδοσιακές εργασίες δυνατοτήτων AR, καθιστώντας το το πρώτο μοντέλο αυτοπαλίνδρομης απόδοσης που ξεπέρασε ένα μοντέλο μετασχηματιστή διάχυσης, όπως φαίνεται στον παρακάτω πίνακα. 

Αποτέλεσμα γενίκευσης εργασιών Zero-Shot

Για εργασίες εντός και εκτός ζωγραφικής, ο δάσκαλος του πλαισίου VAR εξαναγκάζει τα εδαφικά διακριτικά αλήθειας έξω από τη μάσκα και αφήνει το μοντέλο να δημιουργήσει μόνο τα διακριτικά μέσα στη μάσκα, χωρίς να εισάγονται πληροφορίες για την ετικέτα τάξης στο μοντέλο. Τα αποτελέσματα φαίνονται στην παρακάτω εικόνα και όπως φαίνεται, το μοντέλο VAR επιτυγχάνει αποδεκτά αποτελέσματα σε εργασίες κατάντη χωρίς συντονισμό παραμέτρων ή τροποποίηση της αρχιτεκτονικής δικτύου, αποδεικνύοντας τη δυνατότητα γενίκευσης του πλαισίου VAR. 

Τελικές Σκέψεις

Σε αυτό το άρθρο, μιλήσαμε για ένα νέο οπτικό πλαίσιο δημιουργίας που ονομάζεται Visual AutoRegressive Modeling (VAR) που 1) αντιμετωπίζει θεωρητικά ορισμένα ζητήματα που είναι εγγενή στα τυπικά μοντέλα αυτόματης παλινδρόμησης εικόνας (AR) και 2) κάνει τα μοντέλα AR που βασίζονται σε γλωσσικά μοντέλα να ξεπερνούν πρώτα ισχυρά μοντέλα διάχυσης όσον αφορά την ποιότητα της εικόνας, την ποικιλομορφία, την απόδοση δεδομένων και την ταχύτητα συμπερασμάτων. Από τη μια πλευρά, τα παραδοσιακά αυτοπαλινδρομικά μοντέλα απαιτούν μια καθορισμένη σειρά δεδομένων, ενώ από την άλλη, το μοντέλο Visual AutoRegressive ή VAR επανεξετάζει τον τρόπο παραγγελίας μιας εικόνας και αυτό είναι που διακρίνει το VAR από τις υπάρχουσες μεθόδους AR. Κατά την κλιμάκωση του VAR σε 2 δισεκατομμύρια παραμέτρους, οι προγραμματιστές του πλαισίου VAR παρατήρησαν μια σαφή σχέση ισχύος-νόμου μεταξύ της απόδοσης δοκιμής και των παραμέτρων του μοντέλου ή του υπολογισμού εκπαίδευσης, με συντελεστές Pearson κοντά στο -0.998, υποδεικνύοντας ένα ισχυρό πλαίσιο για την πρόβλεψη απόδοσης. Αυτοί οι νόμοι κλιμάκωσης και η δυνατότητα γενίκευσης εργασιών μηδενικής βολής, ως χαρακτηριστικά των LLM, έχουν πλέον επαληθευτεί αρχικά στα μοντέλα μας μετασχηματιστών VAR. 

«Μηχανικός στο επάγγελμα, συγγραφέας από καρδιάς». Ο Kunal είναι ένας τεχνικός συγγραφέας με βαθιά αγάπη και κατανόηση της τεχνητής νοημοσύνης και της ML, αφοσιωμένος στην απλοποίηση σύνθετων εννοιών σε αυτούς τους τομείς μέσω της συναρπαστικής και ενημερωτικής τεκμηρίωσής του.