Μοντέλα και πλατφόρμες AI

MambaOut: Είναι πραγματικά απαραίτητο το Mamba για την Όραση;

Δημοσιεύτηκε 24 Μαΐου 2024

Ενημερώθηκε 21 Μαΐου 2026

Kunal Kejriwal

Στις σύγχρονες πλατφόρμες μηχανικής μάθησης και τεχνητής νοημοσύνης, οι μετασχηματισμοί είναι ένας από τους πιο ευρέως χρησιμοποιούμενους συνιστώσες σε διάφορους τομείς, συμπεριλαμβανομένων των σειρών GPT και BERT στη φυσική επεξεργασία γλώσσας και των Vision Transformers στις υπολογιστικές εργασίες όρασης. Αν και η συμπερίληψη μετασχηματιστών στη δομή του μοντέλου δίνει σημαντική βελτίωση στην απόδοση του μοντέλου, το模块 προσοχής στους Μετασχηματιστές κλιμακώνεται με το μήκος της ακολουθίας τετραγωνικά, οδηγώντας σε υψηλές υπολογιστικές προκλήσεις. Με τα χρόνια, διάφορα μοντέλα έχουν εξερευνήσει διάφορες στρατηγικές για την αντιμετώπιση των υπολογιστικών προκλήσεων, συμπεριλαμβανομένων μεθόδων όπως η κερνελισμός, η συμπίεση της ιστορικής μνήμης, η περιορισμός του εύρους του token mixing και οι προσεγγίσεις χαμηλού βαθμού. Πρόσφατα, τα Recurrent Neural Networks όπως οι μεθόδους Mamba και RWKV έχουν συγκεντρώσει σημαντική προσοχή λόγω των υποσχόμενων αποτελεσμάτων τους σε μεγάλες γλωσσικές μοντέλα.

Το Mamba, μια οικογένεια μοντέλων, έχει μια αρχιτεκτονική με ένα Recurrent Neural Network σαν token mixer ενός μοντέλου κράτους χώρου που εισήχθη πρόσφατα για την αντιμετώπιση της τετραγωνικής复雑ότητας των μηχανισμών προσοχής και εφαρμόστηκε σε εργασίες όρασης στη συνέχεια. Οι ερευνητές έχουν ήδη εξερευνήσει τρόπους για την ενσωμάτωση του Mamba και του SSM ή του Μοντέλου Χώρου Κράτους σε εργασίες αναγνώρισης οπτικής, και το Vision Mamba που ενσωματώνει το Mamba για την ανάπτυξη ισοτροπικών μοντέλων όρασης παρόμοιων με τους Vision Transformers είναι ένα εξαιρετικό παράδειγμα αυτού. Από την άλλη πλευρά, το LocalMamba ενσωματώνει τοπικές επαγωγικές προκαταλήψεις για την ενίσχυση των οπτικών μοντέλων Mamba, και το πλαίσιο VMamba χρησιμοποιεί το βασικό μοντέλο Mamba για την κατασκευή ιεραρχικών μοντέλων παρόμοιων με τα ResNet και AlexNet. Ωστόσο, είναι πραγματικά απαραίτητο το πλαίσιο Mamba για εργασίες αναγνώρισης οπτικής; Η ερώτηση προκύπτει επειδή η απόδοση της οικογένειας μοντέλων Mamba για εργασίες όρασης έχει sido underwhelming μέχρι τώρα σε σύγκριση με παραδοσιακές μεθόδους προσοχής και συνελικτικών μοντέλων.

Το MambaOut προσπαθεί να απαντήσει εάν το Mamba είναι ιδανικά κατάλληλο για εργασίες με αυτο-αναγωγικές και μακρο-ακολουθιακές ιδιότητες. Το πλαίσιο MambaOut υποθέτει ότι το Mamba δεν είναι απαραίτητο για εργασίες όρασης既然 η ταξινόμηση εικόνων δεν συμμορφώνεται ούτε με μακρο-ακολουθιακές ούτε με αυτο-αναγωγικές ιδιότητες. Αν και οι εργασίες ανίχνευσης και τμηματοποίησης δεν είναι επίσης αυτο-αναγωγικές, εμφανίζουν μακρο-ακολουθιακές ιδιότητες, οδηγώντας το πλαίσιο MambaOut να υποθέσει την πιθανότητα του Mamba για αυτές τις εργασίες. Το πλαίσιο MambaOut κατασκευάζεται με τη στοίβαξη των μπλοκ Mamba πάνω σε άλλα ενώ αφαιρεί το μοντέλο χώρου κράτους, τον πυρήνα token mixer. Τα πειραματικά αποτελέσματα υποστηρίζουν την υπόθεση που τέθηκε από το πλαίσιο MambaOut,既然 είναι σε θέση να υπερβεί όλα τα οπτικά μοντέλα Mamba στο πλαίσιο ταξινόμησης εικόνων ImageNet, υποδεικνύοντας ότι το Mamba δεν είναι απαραίτητο για εργασίες όρασης. Από την άλλη πλευρά, για εργασίες ανίχνευσης και τμηματοποίησης, το πλαίσιο MambaOut δεν είναι σε θέση να αναπαράγει την απόδοση που προσφέρεται από το κράτος-of-the-art μοντέλο Mamba, αποδεικνύοντας την πιθανότητα της οικογένειας μοντέλων Mamba για μακρο-ακολουθιακές οπτικές εργασίες.

Αυτό το άρθρο έχει ως στόχο να καλύψει το πλαίσιο MambaOut σε βάθος, και εξερευνούμε τον μηχανισμό, τη μεθοδολογία, την αρχιτεκτονική του πλαισίου μαζί με την σύγκρισή του με τα κράτος-of-the-art πλαισιά. Έτσι, ας ξεκινήσουμε.

MambaOut: Είναι πραγματικά απαραίτητο το Mamba για την Όραση;

Με την πρόοδο των εφαρμογών μηχανικής μάθησης και των ικανοτήτων, οι Μετασχηματισμοί έχουν αναδυθεί ως το mainstream πλάτος για eine σειρά εργασιών, ενεργοποιώντας εξέχοντα μοντέλα, συμπεριλαμβανομένων των Vision Transformers, σειρών GPT, BERT και quelques άλλων. Ωστόσο, ο token mixer του μετασχηματιστή incurs μια τετραγωνική复雑ότητα σε σχέση με το μήκος της ακολουθίας, και θέτει σημαντικές προκλήσεις για μεγαλύτερες ακολουθίες. Για την αντιμετώπιση αυτού του ζητήματος, έχουν εισαχθεί διάφοροι token mixers με γραμμική复雑ότητα σε σχέση με το μήκος του token, όπως Linformer, Longformer, Performer, Dynamic Convolution και Big Bird. Ωστόσο, στις τελευταίες φορές, τα Recurrent Neural Networks σαν μοντέλα είναι στην πρώτη γραμμή λόγω της ικανότητάς τους για παράλληλη εκπαίδευση και την αποτελεσματική απόδοση σε μεγαλύτερες ακολουθίες. Κατευθυνόμενοι από τα εξαιρετικά αποτελέσματα που προσφέρονται από τα RNN-σαν μοντέλα, οι ερευνητές προσπαθούν να εισαγάγουν και να χρησιμοποιήσουν την οικογένεια μοντέλων Mamba σε εργασίες αναγνώρισης οπτικής,既然 ο token mixer των μοντέλων Mamba είναι το δομημένο μοντέλο χώρου κράτους υπό το πνεύμα των Recurrent Neural Networks. Ωστόσο, τα πειραματικά αποτελέσματα υποδεικνύουν ότι τα πλαισιά με βάση το μοντέλο χώρου κράτους για όραση执行 underwhelmingly σε πραγματικές εργασίες όρασης σε σύγκριση με τις μεθόδους προσοχής και τα κράτος-of-the-art συνελικτικά μοντέλα.

Το MambaOut είναι μια προσπάθεια να διερευνήσει τη φύση της οικογένειας μοντέλων Mamba, και συνοψίζει ότι το Mamba είναι κατάλληλο για εργασίες που είναι είτε αυτο-αναγωγικές είτε με μακρο-ακολουθιακές ιδιότητες. Ωστόσο, η πλειοψηφία των εργασιών όρασης δεν εμφανίζει καμία από αυτές τις ιδιότητες, και με βάση κάποιες πειραματικές αποτελέσματα, το MambaOut προτείνει τις ακόλουθες δύο υποθέσεις. Πρώτον, το μοντέλο χώρου κράτους δεν είναι απαραίτητο για την ταξινόμηση εικόνων,既然 η ταξινόμηση εικόνων δεν συμμορφώνεται ούτε με μακρο-ακολουθιακές ούτε με αυτο-αναγωγικές ιδιότητες. Δεύτερον, τα μοντέλα χώρου κράτους μπορεί να είναι υποθετικά ωφέλιμα για την τμηματοποίηση και την ανίχνευση αντικειμένων,既然 αυτά τα μοντέλα ακολουθούν τις μακρο-ακολουθιακές ιδιότητες, αν και δεν είναι αυτο-αναγωγικά. Τα πειραματικά αποτελέσματα που διεξήχθησαν για την ανάλυση του Recurrent Neural Network σαν μηχανισμού του μοντέλου χώρου κράτους καταλήγουν στο συμπέρασμα ότι το πλαίσιο Mamba είναι κατάλληλο για εργασίες με αυτο-αναγωγικές ή μακρο-ακολουθιακές ιδιότητες, και δεν είναι απαραίτητο για εργασίες ταξινόμησης εικόνων. Ερχόμενοι στο πλαίσιο MambaOut, είναι μια σειρά μοντέλων Mamba με βάση τα Gated Convolutional Neural Network μπλοκ χωρίς το μοντέλο χώρου κράτους, και τα πειραματικά αποτελέσματα υποδεικνύουν ότι το πλαίσιο MambaOut είναι σε θέση να υπερβεί τα μοντέλα Mamba σε εργασίες ταξινόμησης εικόνων, αλλά δεν είναι σε θέση να αναπαράγει την απόδοση σε εργασίες ανίχνευσης και τμηματοποίησης.

Για ποιες εργασίες είναι κατάλληλο το Mamba;

Ο token mixer του πλαισίου Mamba είναι ένας επιλεκτικός μηχανισμός μοντέλου χώρου κράτους που ορίζει τέσσερις εισαγωγικές παραμέτρους. Η αναδρομική ιδιότητα του πλαισίου διακρίνει τα RNN-σαν μοντέλα χώρου κράτους από την προσοχή. Η κρυφή κατάσταση μπορεί να θεωρηθεί ως μια μνήμη σταθερού μεγέθους που αποθηκεύει ιστορικές πληροφορίες. Το σταθερό μέγεθος σημαίνει ότι η μνήμη είναι απώλεια, αλλά επίσης εξασφαλίζει ότι η υπολογιστική复雑ότητα της ενσωμάτωσης της μνήμης με την τρέχουσα είσοδο παραμένει σταθερή. Αντίθετα, οι στρώσεις προσοχής αποθηκεύουν όλα τα κλειδιά και τις τιμές από προηγούμενα token, και επεκτείνουν με την προσθήκη του κλειδιού και της τιμής του τρέχοντος token με κάθε νέα είσοδο, και αυτή η μνήμη είναι απώλεια, θεωρητικά. Ωστόσο, το μέγεθος της μνήμης αυξάνεται καθώς περισσότερα token εισάγονται, αυξάνοντας την复雑ότητα της ενσωμάτωσης της μνήμης με την τρέχουσα είσοδο. Η διαφορά μεταξύ των μηχανισμών μνήμης μεταξύ προσοχής και RNN-σαν μοντέλων εικονογραφείται στον ακόλουθο πίνακα.

既然 η μνήμη του μοντέλου χώρου κράτους είναι εγγενώς απώλεια, δεν φτάνει την απώλεια της προσοχής, και ως αποτέλεσμα, τα μοντέλα Mamba δεν μπορούν να δείξουν την δύναμή τους στην αντιμετώπιση σύντομων ακολουθιών, μια περιοχή όπου ο μηχανισμός προσοχής εκτελεί καλά με ευκολία. Ωστόσο, σε σενάρια που εμπλέκουν μακρο-ακολουθίες, η προσοχή αποτυγχάνει λόγω της τετραγωνικής复雑ότητας. Σε αυτή την περίπτωση, το πλαίσιο Mamba εμφανίζει την αποτελεσματικότητά του στην ενσωμάτωση της μνήμης με την τρέχουσα είσοδο, και είναι σε θέση να αντιμετωπίσει μακρο-ακολουθίες ομαλά, υποδεικνύοντας ότι η οικογένεια μοντέλων Mamba είναι κατάλληλη για την επεξεργασία μακρο-ακολουθιών.

Είναι επίσης αξιοσημείωτο ότι, από τη μια πλευρά, η αναδρομική φύση του μοντέλου χώρου κράτους επιτρέπει στα μοντέλα Mamba να αντιμετωπίσουν αποτελεσματικά μακρο-ακολουθίες, εισάγει μια ορισμένη περιορισμό, καθώς μπορεί να έχει πρόσβαση μόνο σε πληροφορίες από το τρέχον και τα προηγούμενα βήματα, και αυτός ο τύπος token mixing ονομάζεται αιτιακό mode, και εικονογραφείται στον ακόλουθο πίνακα. Λόγω της αιτιακής φύσης, αυτή η μέθοδος είναι κατάλληλη για εργασίες αυτο-αναγωγικής γεννήσεως.

Η πλήρως ορατή mode είναι κατάλληλη για την κατανόηση εργασιών όπου το μοντέλο μπορεί να έχει πρόσβαση σε όλες τις εισόδους同時. Επιπλέον, η προσοχή είναι σε πλήρως ορατή mode από προεπιλογή, και μπορεί να μετατραπεί σε αιτιακή mode εύκολα εφαρμόζοντας αιτιακές μάσκες στις χάρτες προσοχής, και τα RNN-σαν μοντέλα λειτουργούν εγγενώς σε αιτιακή mode λόγω των αναδρομικών ιδιοτήτων τους. Για να συνοψίσουμε τα πράγματα, το πλαίσιο Mamba είναι κατάλληλο για εργασίες που εμπλέκουν μακρο-ακολουθίες ή εργασίες που απαιτούν αιτιακό token mixing mode.

Εργασίες Αναγνώρισης Οπτικής, Αιτιακό Token Mixing Code, και Πολύ Μεγάλες Ακολουθίες

Όπως συζητήθηκε νωρίτερα, η πλήρως ορατή mode του token mixing επιτρέπει απελευθερωμένη εμβέλεια του mixing, ενώ η αιτιακή mode περιορίζει το τρέχον token να έχει πρόσβαση μόνο στις πληροφορίες από τα προηγούμενα token. Επιπλέον, η αναγνώριση οπτικής κατηγοριοποιείται ως μια εργασία κατανόησης όπου το μοντέλο μπορεί να δει όλη την εικόνα同時, και αυτό εξαφανίζει την ανάγκη για περιορισμούς στο token mixing, και η επιβολή επιπλέον περιορισμών στο token mixing μπορεί να μειώσει την απόδοση του μοντέλου πιθανώς. Γενικά, η πλήρως ορατή mode είναι κατάλληλη για εργασίες κατανόησης, ενώ η αιτιακή mode είναι κατάλληλη για αυτο-αναγωγικές εργασίες. Επιπλέον, αυτή η αξίωση υποστηρίζεται από το γεγονός ότι τα μοντέλα BeRT και ViT χρησιμοποιούνται περισσότερο για εργασίες κατανόησης από τα μοντέλα GPT.

Πειραματική Επιβεβαίωση και Αποτελέσματα

Το επόμενο βήμα είναι να επιβεβαιώσει τις υποθέσεις που προτείνονται από το πλαίσιο MambaOut πειραματικά. Όπως φαίνεται στον ακόλουθο πίνακα, το μπλοκ Mamba βασίζεται στο Gated Convolutional Neural Network μπλοκ, και η μετα-αρχιτεκτονική των μπλοκ Mamba και Gated CNN μπορεί να θεωρηθεί ως μια απλοποιημένη ενσωμάτωση του token mixer του πλαισίου MetaFormer, και ενός MLP.

Το μπλοκ Mamba επεκτείνει το Gated Convolutional Neural Network με ένα επιπλέον Μοντέλο Χώρου Κράτους, και η παρουσία του Μοντέλου Χώρου Κράτους είναι αυτό που διακρίνει τα Gated CNN και τα μπλοκ Mamba. Επιπλέον, για να βελτιώσει την πρακτική ταχύτητα, το πλαίσιο MambaOut διεξάγει μόνο depthwise convolution σε μερικά κανάλια, και όπως φαίνεται στον ακόλουθο αλγόριθμο, η υλοποίηση του Gated CNN μπλοκ είναι απλή, αλλά αποτελεσματική και εύκολη.

Εργασία Ταξινόμησης Εικόνων

Το ImageNet χρησιμεύει ως το benchmark για εργασίες ταξινόμησης εικόνων,既然 αποτελείται από πάνω από χίλιες κοινές κατηγορίες, πάνω από 1,3 εκατομμύρια εικόνες εκπαίδευσης, και πάνω από 50.000 εικόνες επαλήθευσης. Η 데이터 augmentation που χρησιμοποιείται για το πείραμα αποτελείται από τυχαία resized crop, Mixup, color jitter, Random Erasing, CutMix, και Rand Augment. Ο ακόλουθος πίνακας συνοψίζει την απόδοση της οικογένειας μοντέλων Mamba, του μοντέλου MambaOut, και άλλων μεθόδων προσοχής και συνελικτικών μοντέλων στο dataset ImageNet. Όπως φαίνεται, το πλαίσιο MambaOut χωρίς το μοντέλο χώρου κράτους υπερβεί τα οπτικά μοντέλα Mamba με SSM σταθερά σε όλα τα μεγέθη μοντέλων.

Για παράδειγμα, το μοντέλο MambaOut-Small επιστρέφει ένα score top-1 ακρίβειας πάνω από 84%, 0,4% υψηλότερο από τον κοντινότερο ανταγωνιστή Mamba. Αυτό το αποτέλεσμα υποστηρίζει ισχυρά την πρώτη υπόθεση ότι ισχυρίζεται ότι η εισαγωγή ενός μοντέλου χώρου κράτους για εργασίες ταξινόμησης εικόνων δεν είναι απαραίτητο.

Εργασίες Ανίχνευσης Αντικειμένων και Τμηματοποίησης

Το COCO χρησιμεύει ως το benchmark για εργασίες ανίχνευσης αντικειμένων και τμηματοποίησης. Αν και το πλαίσιο MambaOut είναι σε θέση να υπερβεί την απόδοση κάποιων οπτικών μοντέλων Mamba, δεν είναι ακόμη σε θέση να αναπαράγει την απόδοση που προσφέρεται από τα κράτος-of-the-art οπτικά μοντέλα Mamba, συμπεριλαμβανομένων των LocalVMamba και VMamba. Η διαφορά στην απόδοση του MambaOut ενάντια στα κράτος-of-the-art οπτικά μοντέλα υπογραμμίζει τα οφέλη της ενσωμάτωσης της οικογένειας μοντέλων Mamba σε μακρο-ακολουθιακές οπτικές εργασίες. Ωστόσο, είναι αξιοσημείωτο ότι μια σημαντική απόσταση απόδοσης εξακολουθεί να υπάρχει μεταξύ των κράτος-of-the-art συνελικτικών-προσοχής-υβριδικών μοντέλων και των οπτικών μοντέλων Mamba.

Τελικές Σκέψεις

Η οικογένεια μοντέλων Mamba φαίνεται να είναι κατάλληλη για εργασίες που εμπλέκουν αυτο-αναγωγικές και μακρο-ακολουθιακές ιδιότητες. Το πλαίσιο MambaOut υποθέτει ότι το Mamba δεν είναι απαραίτητο για εργασίες όρασης,既然 η ταξινόμηση εικόνων δεν συμμορφώνεται ούτε με μακρο-ακολουθιακές ούτε με αυτο-αναγωγικές ιδιότητες. Αν και οι εργασίες ανίχνευσης και τμηματοποίησης δεν είναι επίσης αυτο-αναγωγικές, εμφανίζουν μακρο-ακολουθιακές ιδιότητες, οδηγώντας το πλαίσιο MambaOut να υποθέσει την πιθανότητα του Mamba για αυτές τις εργασίες. Το πλαίσιο MambaOut κατασκευάζεται με τη στοίβαξη των μπλοκ Mamba πάνω σε άλλα ενώ αφαιρεί το μοντέλο χώρου κράτους, τον πυρήνα token mixer. Τα πειραματικά αποτελέσματα υποστηρίζουν την υπόθεση που τέθηκε από το πλαίσιο MambaOut,既然 είναι σε θέση να υπερβεί όλα τα οπτικά μοντέλα Mamba στο πλαίσιο ταξινόμησης εικόνων ImageNet, υποδεικνύοντας ότι το Mamba δεν είναι απαραίτητο για εργασίες όρασης. Από την άλλη πλευρά, για εργασίες ανίχνευσης και τμηματοποίησης, το πλαίσιο MambaOut δεν είναι σε θέση να αναπαράγει την απόδοση που προσφέρεται από το κράτος-of-the-art μοντέλο Mamba, αποδεικνύοντας την πιθανότητα της οικογένειας μοντέλων Mamba για μακρο-ακολουθιακές οπτικές εργασίες.

Kunal Kejriwal

Ένας μηχανικός επάγγελμα, ένας συγγραφέας με την καρδιά. Ο Kunal είναι ένας τεχνικός συγγραφέας με einen βαθύ έρωτα και κατανόηση του AI και ML, αφιερωμένος στο να απλοποιεί σύνθετες έννοιες σε αυτά τα πεδία μέσω των ελκυστικών και ενημερωτικών εγγράφων του.