Τεχνητή νοημοσύνη

EfficientViT: Μνήμη Efficient Οπτικός Μετασχηματιστής για Υψηλής Ανάλυσης Υπολογιστική Όραση

Published September 26, 2023

Updated April 28, 2026

Kunal Kejriwal

Λόγω της υψηλής ικανότητας του μοντέλου, τα μοντέλα Vision Transformer έχουν απολαύσει μια μεγάλη επιτυχία τις τελευταίες φορές. Παρά την απόδοσή τους, τα μοντέλα οπτικών μετασχηματιστών έχουν ένα μεγάλο ελάττωμα: η εξαιρετική υπολογιστική τους ικανότητα συνοδεύεται από υψηλό υπολογιστικό κόστος, και είναι ο λόγος για τον οποίο οι οπτικοί μετασχηματιστές δεν είναι η πρώτη επιλογή για εφαρμογές σε πραγματικό χρόνο. Για να αντιμετωπίσουν αυτό το ζήτημα, μια ομάδα αναπτυξιακών launched EfficientViT, μια οικογένεια ταχύτατων οπτικών μετασχηματιστών.

Όταν εργάστηκαν στο EfficientViT, οι αναπτυξιακοί παρατήρησαν ότι η ταχύτητα των τρεχόντων μοντέλων μετασχηματιστών συχνά περιορίζεται από ανεφάρμοστες λειτουργίες μνήμης, ιδιαίτερα τις στοιχειομελείς συναρτήσεις και την αναδιαμόρφωση τανυστών στο MHSA ή στο Δίκτυο Αυτοπροσοχής Πολυκέφαλου. Για να αντιμετωπίσουν αυτές τις ανεφάρμοστες λειτουργίες μνήμης, οι αναπτυξιακοί του EfficientViT έχουν εργαστεί σε ένα νέο δομικό στοιχείο χρησιμοποιώντας ένα σάντουιτς διάταξη, δηλαδή το μοντέλο EfficientViT χρησιμοποιεί ένα單ο memory-bound Δίκτυο Αυτοπροσοχής Πολυκέφαλου μεταξύ των αποτελεσματικών στρωμάτων FFN που βοηθούν στην βελτίωση της αποδοτικότητας μνήμης και επίσης στην ενίσχυση της συνολικής επικοινωνίας канάλι. Επιπλέον, το μοντέλο ανακαλύπτει ότι οι χάρτες προσοχής συχνά έχουν υψηλή ομοιότητα μεταξύ των κεφαλών που οδηγεί σε υπολογιστική υπεραπόδοση. Για να αντιμετωπίσουν το ζήτημα της υπεραπόδοσης, το μοντέλο EfficientViT παρουσιάζει ένα каскάντ group attention module που τροφοδοτεί τις κεφαλές προσοχής με διαφορετικά τμήματα του πλήρους χαρακτηριστικού. Η μέθοδος όχι μόνο βοηθά στην εξοικονόμηση υπολογιστικών κοστών, αλλά cũng βελτιώνει την ποικιλία προσοχής του μοντέλου.

Περιεκτικές πειραματικές μετρήσεις που thựcθηκαν στο μοντέλο EfficientViT σε διάφορες σενάρια δείχνουν ότι το EfficientViT υπερτερεί των υφιστάμενων αποτελεσματικών μοντέλων για υπολογιστική όραση ενώ επιτυγχάνει μια καλή συμφωνία μεταξύ ακρίβειας και ταχύτητας. Έτσι, ας πάρουμε μια πιο sâuτή εικόνα και εξερευνήσουμε το μοντέλο EfficientViT σε немного περισσότερο βάθος.

Εισαγωγή στα Vision Transformers και EfficientViT

Οι οπτικοί μετασχηματιστές παραμένουν ένα από τα πιο δημοφιλή πλαίσια στη βιομηχανία υπολογιστικής όρασης επειδή προσφέρουν υπεροχή απόδοση και υψηλή υπολογιστική ικανότητα. Ωστόσο, με την συνεχώς βελτιωμένη ακρίβεια και απόδοση των μοντέλων οπτικών μετασχηματιστών, τα λειτουργικά κόστη και η υπολογιστική επιβάρυνση αυξάνονται επίσης. Για παράδειγμα, τα τρέχοντα μοντέλα που είναι γνωστά για την παροχή state-of-the-art απόδοσης σε συνόλους δεδομένων ImageNet όπως SwinV2 και V-MoE χρησιμοποιούν 3B και 14.7B παραμέτρους αντίστοιχα. Το μέγεθος αυτών των μοντέλων σε συνδυασμό με τα υπολογιστικά κόστη και τις απαιτήσεις τα καθιστούν πρακτικά ακατάλληλα για συσκευές και εφαρμογές σε πραγματικό χρόνο.

Το μοντέλο EfficientNet στοχεύει να εξερευνήσει πώς να αυξήσει την απόδοση των μοντέλων οπτικών μετασχηματιστών και να βρει τις αρχές που εμπλέκονται πίσω από τη σχεδίαση αποτελεσματικών και αποτελεσματικών αρχιτεκτονικών μετασχηματιστών. Το μοντέλο EfficientViT βασίζεται σε υφιστάμενα πλαίσια οπτικών μετασχηματιστών όπως Swim και DeiT και αναλύει τρεις απαραίτητες παράμετρους που επηρεάζουν ταχύτητες παρέμβασης μοντέλων, συμπεριλαμβανομένων της υπολογιστικής υπεραπόδοσης, της πρόσβασης μνήμης και της χρήσης παραμέτρων. Επιπλέον, το μοντέλο παρατηρεί ότι η ταχύτητα των μοντέλων οπτικών μετασχηματιστών είναι περιορισμένη από τη μνήμη, που σημαίνει ότι η πλήρης αξιοποίηση της υπολογιστικής ισχύος σε CPU/GPU είναι περιορισμένη ή εμποδίζεται από την καθυστέρηση πρόσβασης μνήμης, που έχει αρνητική επίδραση στη ταχύτητα εκτέλεσης των μετασχηματιστών. Οι στοιχειομελείς συναρτήσεις και η αναδιαμόρφωση τανυστών στο MHSA ή στο Δίκτυο Αυτοπροσοχής Πολυκέφαλου είναι οι πιο ανεφάρμοστες λειτουργίες μνήμης. Το μοντέλο παρατηρεί επίσης ότι η βελτιστοποίηση του λόγου μεταξύ FFN (δίκτυο προώθησης) και MHSA μπορεί να βοηθήσει σημαντικά στη μείωση του χρόνου πρόσβασης μνήμης χωρίς να επηρεάσει την απόδοση. Ωστόσο, το μοντέλο παρατηρεί επίσης κάποια υπεραπόδοση στις χάρτες προσοχής ως αποτέλεσμα της τάσης των κεφαλών προσοχής να μάθουν παρόμοιες γραμμικές προβολές.

… (the rest of the content remains the same, following the exact same structure and formatting as the original text)

Kunal Kejriwal

Ένας μηχανικός επάγγελμα, ένας συγγραφέας με την καρδιά. Ο Kunal είναι ένας τεχνικός συγγραφέας με einen βαθύ έρωτα και κατανόηση του AI και ML, αφιερωμένος στο να απλοποιεί σύνθετες έννοιες σε αυτά τα πεδία μέσω των ελκυστικών και ενημερωτικών εγγράφων του.

Unite.AI

EfficientViT: Μνήμη Efficient Οπτικός Μετασχηματιστής για Υψηλής Ανάλυσης Υπολογιστική Όραση

Εισαγωγή στα Vision Transformers και EfficientViT

You may like