Τεχνητή νοημοσύνη
MambaOut: Χρειάζεται πραγματικά το Mamba για την Όραση;
Στα σύγχρονα πλαίσια μηχανικής μάθησης και τεχνητής νοημοσύνης, οι μετασχηματιστές είναι ένας από τους πιο ευρέως χρησιμοποιούμενους компонέντες σε διάφορους τομείς, συμπεριλαμβανομένων των σειρών GPT και BERT στη Φυσική Γλώσσα και των Μετασχηματιστών Όρασης στις υπολογιστικές εργασίες όρασης. Αν και η ενσωμάτωση μετασχηματιστών στη δομή του μοντέλου δίνει σημαντική ώθηση στις επιδόσεις του μοντέλου, το模块 προσοχής στους Μετασχηματίστες αυξάνεται τετραγωνικά με το μήκος της ακολουθίας, οδηγώντας σε υψηλές υπολογιστικές προκλήσεις. Με τα χρόνια, διάφορα μοντέλα έχουν εξερευνήσει διάφορες στρατηγικές για την αντιμετώπιση των υπολογιστικών προκλήσεων, συμπεριλαμβανομένων μεθόδων όπως η κερνελποίηση, η συμπίεση της ιστορικής μνήμης, η περιορισμός του εύρους του token mixing και οι προσεγγίσεις χαμηλού βαθμού. Πρόσφατα, τα Recurrent Neural Networks όπως οι μέθοδοι Mamba και RWKV έχουν συγκεντρώσει σημαντική προσοχή λόγω των υποσχόμενων αποτελεσμάτων τους σε μεγάλες γλώσσες.
Η Mamba, μια οικογένεια μοντέλων έχει μια αρχιτεκτονική με ένα Recurrent Neural Network seperti token mixer ενός μοντέλου χώρου καταστάσεων που εισήχθη πρόσφατα για να giải quyết τη квадρατική πολυπλοκότητα των μηχανισμών προσοχής και εφαρμόστηκε σε εργασίες όρασης στη συνέχεια. Οι ερευνητές έχουν ήδη εξερευνήσει τρόπους για να ενσωματώσουν την Mamba και το SSM ή το Μοντέλο Χώρου Καταστάσεων σε εργασίες αναγνώρισης οπτικής, και η Vision Mamba που ενσωματώνει την Mamba για την ανάπτυξη ισοτροπικών μοντέλων όρασης παρόμοιων με τους Μετασχηματίστες Όρασης είναι ένα εξαιρετικό παράδειγμα του. Από την άλλη πλευρά, η LocalMamba ενσωματώνει τοπικές επαγωγικές προκαταλήψεις για την ενίσχυση των μοντέλων οπτικής Mamba, και το πλαίσιο VMamba χρησιμοποιεί το βασικό μοντέλο Mamba για την κατασκευή ιεραρχικών μοντέλων παρόμοιων με τα ResNet και AlexNet. Ωστόσο, είναι πραγματικά απαραίτητο το πλαίσιο Mamba για εργασίες контекstuálního αναγνώρισης; Η ερώτηση προκύπτει επειδή οι επιδόσεις της οικογένειας μοντέλων Mamba για εργασίες όρασης έχουν sido underwhelming μέχρι τώρα σε σύγκριση με παραδοσιακές μεθόδους προσοχής και convolutional μοντέλα.
Το MambaOut προσπαθεί να απαντήσει εάν η Mamba είναι ιδανικά κατάλληλη για εργασίες με αυτο-αναγωγικές και μακράς ακολουθίας χαρακτηριστικά. Το πλαίσιο MambaOut υποθέτει ότι η Mamba δεν είναι απαραίτητη για εργασίες όρασης既然 η ταξινόμηση εικόνων δεν συμμορφώνεται ούτε με αυτο-αναγωγικά ούτε με μακράς ακολουθίας χαρακτηριστικά. Αν και οι εργασίες ανίχνευσης και τμηματοποίησης δεν είναι επίσης αυτο-αναγωγικές, εμφανίζουν μακράς ακολουθίας χαρακτηριστικά, οδηγώντας το πλαίσιο MambaOut να υποθέσει την πιθανότητα της Mamba για αυτές τις εργασίες. Το πλαίσιο MambaOut κατασκευάζεται με την στοίβαξη των μπλοκ Mamba πάνω από το άλλο ενώ αφαιρεί το μοντέλο χώρου καταστάσεων, τον πυρήνα token mixer. Τα πειραματικά αποτελέσματα υποστηρίζουν την υπόθεση που τέθηκε από το πλαίσιο MambaOut既然 είναι σε θέση να υπερβεί όλα τα οπτικά μοντέλα Mamba στο πλαίσιο ταξινόμησης εικόνων ImageNet, υποδεικνύοντας ότι η Mamba δεν είναι απαραίτητη για εργασίες όρασης. Από την άλλη πλευρά, για εργασίες ανίχνευσης και τμηματοποίησης, το πλαίσιο MambaOut δεν είναι σε θέση να αναπαράγει τις επιδόσεις που προσφέρονται από το state of the art μοντέλο Mamba, υποδεικνύοντας την πιθανότητα της οικογένειας μοντέλων Mamba για μακράς ακολουθίας οπτικές εργασίες.
… (the rest of the content remains the same, following the exact structure and formatting as the original)












