Τεχνητή νοημοσύνη

YOLOv9: Ένα Μείζον Βήμα στην Ανίχνευση Αντικειμένων σε Εchtzeit

Δημοσιεύτηκε 5 Μαρτίου 2024

Ενημερώθηκε 22 Μαΐου 2026

Aayush Mittal Mittal

Ανίχνευση αντικειμένων έχει δει ταχεία πρόοδο τα τελευταία χρόνια χάρη σε αλγόριθμους βαθιάς μάθησης όπως το YOLO (You Only Look Once). Η τελευταία έκδοση, YOLOv9, φέρνει σημαντικές βελτιώσεις στην ακρίβεια, την αποδοτικότητα και την εφαρμοσιμότητα σε σχέση με τις προηγούμενες εκδόσεις. Σε αυτό το άρθρο, θα εμβαθύνουμε στις καινοτομίες που κάνουν το YOLOv9 ένα νέο state-of-the-art για την ανίχνευση αντικειμένων σε εchtzeit.

Μια Γρήγορη Εισαγωγή στην Ανίχνευση Αντικειμένων

Πριν από το τι καινούριο υπάρχει στο YOLOv9, ας δούμε σύντομα πώς λειτουργεί η ανίχνευση αντικειμένων. Ο στόχος της ανίχνευσης αντικειμένων είναι να αναγνωρίσει και να τοποθετήσει αντικείμενα μέσα σε μια εικόνα, όπως αυτοκίνητα, άτομα ή ζώα. Đây είναι μια κρίσιμη ικανότητα για εφαρμογές όπως αυτοκίνητα χωρίς οδηγό, συστήματα επιτήρησης και αναζήτηση εικόνων.

Ο ανιχνευτής λαμβάνει μια εικόνα ως είσοδο και εξοδεύει ορθογώνιους πλαισίους γύρω από τα ανιχνευμένα αντικείμενα, каждый με μια συνδεδεμένη ετικέτα κλάσης. Δημοφιλείς συνόλους δεδομένων όπως το MS COCO παρέχουν χιλιάδες ετικετεμένες εικόνες για την εκπαίδευση και την αξιολόγηση των μοντέλων.

Υπάρχουν δύο основные προσεγγίσεις για την ανίχνευση αντικειμένων:

Διφασικοί ανιχνευτές όπως το Faster R-CNN πρώτα δημιουργούν προτάσεις περιοχών,然后 ταξινομούν και βελτιώνουν τα όρια κάθε περιοχής. Τείνουν να είναι πιο ακριβείς αλλά πιο αργοί.
Μονοφασικοί ανιχνευτές όπως το YOLO εφαρμόζουν ένα μοντέλο απευθείας στην εικόνα σε μια seule διαδρομή. Ανταλλάσσουν κάποια ακρίβεια για πολύ γρήγορους χρόνους inference.

Το YOLO πρωτοπόρησε στην μονοφασική προσέγγιση. Ας δούμε πώς έχει εξελιχθεί σε πολλές εκδόσεις για να βελτιώσει την ακρίβεια και την αποδοτικότητα.

Επανεξέταση των Προηγούμενων Εκδόσεων του YOLO

Η οικογένεια μοντέλων YOLO (You Only Look Once) ήταν στην πρώτη γραμμή της ταχείας ανίχνευσης αντικειμένων από την αρχική έκδοση που δημοσιεύθηκε το 2016. Εδώ είναι μια σύντομη επισκόπηση του πώς το YOLO έχει εξελιχθεί σε πολλές ι터άσεις:

YOLOv1 πρότεινε ένα ενοποιημένο μοντέλο για την πρόβλεψη ορθογώνιων πλαισίων και πιθανοτήτων κλάσεων απευθείας από πλήρεις εικόνες σε μια seule διαδρομή. Αυτό το έκανε εξαιρετικά γρήγορο σε σύγκριση με τα προηγούμενα δίφασικα μοντέλα.
YOLOv2 βελτίωσε το αρχικό με τη χρήση της ομαδοποίησης για καλύτερη σταθερότητα, την ancorά των πλαισίων σε διάφορες κλίμακες και αναλογίες για την ανίχνευση πολλαπλών μεγεθών, και eine ποικιλία άλλων βελτιώσεων.
YOLOv3 πρόσθεσε einen νέο εξαγωγέα χαρακτηριστικών που ονομάζεται Darknet-53 με περισσότερες στρώσεις και συντομεύσεις μεταξύ τους, βελτιώνοντας περαιτέρω την ακρίβεια.
YOLOv4 συνδύασε ιδέες από άλλα μοντέλα ανίχνευσης αντικειμένων και μοντέλα τμηματοποίησης για να ωθήσει την ακρίβεια ακόμη υψηλότερα ενώ διατηρούσε τη γρήγορη inference.
YOLOv5 ξαναέγραψε το YOLOv4 σε PyTorch και πρόσθεσε einen νέο εξαγωγέα χαρακτηριστικών που ονομάζεται CSPDarknet μαζί με beberapa άλλες βελτιώσεις.
YOLOv6 συνέχισε να βελτιώνει την αρχιτεκτονική και τη διαδικασία εκπαίδευσης, με μοντέλα που προ-εκπαιδεύτηκαν σε μεγάλες εξωτερικές βάσεις δεδομένων για να αυξήσουν περαιτέρω την απόδοση.

Έτσι, σε σύνοψη, οι προηγούμενες εκδόσεις του YOLO πέτυχαν υψηλότερη ακρίβεια μέσω βελτιώσεων στην αρχιτεκτονική του μοντέλου, τις τεχνικές εκπαίδευσης και την προ-εκπαίδευση. Αλλά καθώς τα μοντέλα γίνονται μεγαλύτερα και πιο σύνθετα, η ταχύτητα και η αποδοτικότητα αρχίζουν να υποφέρουν.

Η Ανάγκη για Καλύτερη Αποδοτικότητα

Πολλές εφαρμογές απαιτούν την ανίχνευση αντικειμένων να τρέχει σε εchtzeit σε συσκευές με περιορισμένες υπολογιστικές πόρους. Όσο τα μοντέλα γίνονται μεγαλύτερα και πιο υπολογιστικά εντατικά, γίνονται ακατάλληλα για ανάπτυξη.

Για παράδειγμα, ένα αυτοκίνητο χωρίς οδηγό χρειάζεται να ανιχνεύει αντικείμενα σε υψηλούς ρυθμούς καρέ χρησιμοποιώντας επεξεργαστές μέσα στο όχημα. Μια κάμερα ασφαλείας χρειάζεται να τρέξει ανίχνευση αντικειμένων στο βίντεο feed της μέσα στην ίδια ενσωματωμένη аппаратυρα. Τα κινητά τηλέφωνα και άλλες καταναλωτικές συσκευές έχουν πολύ στενές περιορισμοί ισχύος και θερμότητας.

Οι πρόσφατες εκδόσεις του YOLO επιτύγχαναν υψηλή ακρίβεια με μεγάλο αριθμό παραμέτρων και πολλαπλασιασμούς-προσθέσεις (FLOPs). Αλλά αυτό έρχεται με το κόστος της ταχύτητας, του μεγέθους και της ενεργειακής αποδοτικότητας.

Για παράδειγμα, το YOLOv5-L απαιτεί πάνω από 100 δισεκατομμύρια FLOPs για να επεξεργαστεί μια seule εικόνα 1280×1280. Αυτό είναι πολύ αργό για πολλές εφαρμογές σε εchtzeit. Η τάση των μεγαλύτερων μοντέλων αυξάνει επίσης τον κίνδυνο υπερ-προσαρμογής και δυσκολεύει την γενίκευση.

Έτσι, για να επεκτείνουμε την εφαρμοσιμότητα της ανίχνευσης αντικειμένων, χρειαζόμαστε τρόπους για να βελτιώσουμε την αποδοτικότητα – να πετύχουμε καλύτερη ακρίβεια με λιγότερες παραμέτρους και υπολογισμούς. Ας δούμε τις τεχνικές που χρησιμοποιούνται στο YOLOv9 για να αντιμετωπίσουν αυτή την πρόκληση.

YOLOv9 – Καλύτερη Ακρίβεια με Λιγότερες Πόροι

Οι ερευνητές πίσω από το YOLOv9 επικεντρώθηκαν στην βελτίωση της αποδοτικότητας για να επιτύχουν απόδοση σε εchtzeit σε ένα ευρύτερο φάσμα συσκευών. Εισήγαγαν δύο κλειδιά καινοτομίες:

Μια νέα αρχιτεκτονική μοντέλου που ονομάζεται Γενική Αποδοτική Αρχιτεκτονική Σύνδεσης Στρωμάτων (GELAN) που μεγιστοποιεί την ακρίβεια ενώ ελαχιστοποιεί τις παραμέτρους και τους υπολογισμούς.
Μια τεχνική εκπαίδευσης που ονομάζεται Προγραμματιζόμενη Πληροφορία Gradient (PGI) που παρέχει πιο αξιόπιστες πληροφορίες gradient, ιδιαίτερα για μικρότερα μοντέλα.

Ας δούμε πώς κάθε μια από αυτές τις προόδους βοηθά στην βελτίωση της αποδοτικότητας.

Περισσότερη Αποδοτική Αρχιτεκτονική με GELAN

Η αρχιτεκτονική του μοντέλου είναι κρίσιμη για την ισορροπία της ακρίβειας έναντι της ταχύτητας και της χρήσης πόρων κατά την inference. Το νευρωνικό δίκτυο χρειάζεται αρκετό βάθος και πλάτος για να συλλάβει τις σχετικές λειτουργίες από τις εισοδοτικές εικόνες. Αλλά πολύ περισσότερες στρώσεις ή φίλτρα οδηγούν σε αργά και φουσκωμένα μοντέλα.

Οι συγγραφείς σχεδίασαν το GELAN ειδικά για να εξορύξει την μέγιστη ακρίβεια από την μικρότερη δυνατή αρχιτεκτονική.

Το GELAN χρησιμοποιεί δύο основные δομικά στοιχεία που στοιχίζονται μαζί:

Αποδοτικά Μπλοκ Σύνδεσης Στρωμάτων – Αυτά συλλέγουν μετασχηματισμούς σε διάφορες διακλαδώσεις του δικτύου για να συλλάβουν λειτουργίες πολλαπλών κλιμάκων αποτελεσματικά.
Υπολογιστικά Μπλοκ – Τα μπλοκ CSPNet βοηθούν στην προώθηση της πληροφορίας через τις στρώσεις. Κάθε μπλοκ μπορεί να αντικατασταθεί με βάση τις υπολογιστικές περιορισμοί.

Βελτιώνοντας και συνδυάζοντας αυτά τα μπλοκ, το GELAN φτάνει σε ένα ιδανικό σημείο μεταξύ απόδοσης, παραμέτρων και ταχύτητας. Η ίδια modulaire αρχιτεκτονική μπορεί να κλιμακωθεί πάνω ή κάτω σε διαφορετικά μεγέθη μοντέλων και hardware.

Πειράματα έδειξαν ότι το GELAN ταιριάζει περισσότερη απόδοση σε μικρότερα μοντέλα σε σχέση με τις προηγούμενες αρχιτεκτονικές YOLO. Για παράδειγμα, το GELAN-Small με 7 εκατομμύρια παραμέτρους ξεπέρασε το YOLOv7-Nano με 11 εκατομμύρια παραμέτρους. Και το GELAN-Medium με 20 εκατομμύρια παραμέτρους παρουσίασε παρόμοια απόδοση με τα μοντέλα YOLOv7 μεσαίου μεγέθους που απαιτούν 35-40 εκατομμύρια παραμέτρους.

Έτσι, σχεδιάζοντας μια παραμετροποιημένη αρχιτεκτονική που είναι ειδικά βελτιστοποιημένη για αποδοτικότητα, το GELAN επιτρέπει στα μοντέλα να τρέχουν γρηγορότερα και σε πιο περιορισμένες συσκευές. Αργότερα θα δούμε πώς το PGI τους βοηθά να εκπαιδευτούν καλύτερα.

Καλύτερη Εκπαίδευση με Προγραμματιζόμενη Πληροφορία Gradient (PGI)

Η εκπαίδευση του μοντέλου είναι εξίσου σημαντική για να μεγιστοποιήσει την ακρίβεια με περιορισμένους πόρους. Οι συγγραφείς του YOLOv9 αναγνώρισαν προβλήματα στην εκπαίδευση μικρότερων μοντέλων που οφείλονταν σε αξιόπιστες πληροφορίες gradient.

Γραδιέντες καθορίζουν πόσο θα ενημερωθούν τα βάρη του μοντέλου κατά την εκπαίδευση. Θορυβώδεις ή παραπλανητικές γραδιέντες οδηγούν σε κακή σύγκλιση. Αυτό το πρόβλημα γίνεται πιο προβληματικό για μικρότερα δίκτυα.

Η τεχνική της βαθιάς επιτήρησης αντιμετωπίζει αυτό εισάγοντας πρόσθετες πλευρικές διακλαδώσεις με απώλειες για να παρέχει καλύτερη σήμα γραδιέντη через το δίκτυο. Αλλά αυτή η τεχνική συχνά καταρρέει και προκαλεί απόκλιση για μικρότερα ελαφριά μοντέλα.

YOLOv9: Μάθηση Τι Θέλεις να Μάθεις Χρησιμοποιώντας Προγραμματιζόμενη Πληροφορία Gradient https://arxiv.org/abs/2402.13616

Για να ξεπεραστούν αυτά τα περιορισμένα, το YOLOv9 εισάγει την Προγραμματιζόμενη Πληροφορία Gradient (PGI). Η PGI έχει δύο основные συνιστώσες:

Βοηθητικές αναστρέψιμες διακλαδώσεις – Αυτές παρέχουν καθαρότερες γραδιέντες διατηρώντας αναστρέψιμες συνδέσεις προς την είσοδο χρησιμοποιώντας μπλοκ όπως τα RevCols.
Πολυεπίπεδη ολοκλήρωση γραδιέντη – Αυτή η σύντηξη μπλοκ συλλέγει γραδιέντες από όλες τις διακλαδώσεις πριν τα αναπαράγει στο κύριο μοντέλο. Αυτό αποτρέπει την απόκλιση μεταξύ διακλαδώσεων.

Βελτιώνοντας τις γραδιέντες, η PGI βελτιώνει την σύγκλιση και την αποδοτικότητα της εκπαίδευσης σε όλα τα μεγέθη μοντέλων:

Πειράματα έδειξαν ότι η PGI βελτίωσε την ακρίβεια σε όλα τα μεγέθη μοντέλων, ιδιαίτερα στα μικρότερα. Για παράδειγμα, αυξήθηκε την απόδοση του YOLOv9-Small κατά 0.1-0.4% σε σχέση με το GELAN-Small. Οι κέρδη ήταν ακόμη πιο σημαντικά για μεγαλύτερα μοντέλα όπως το YOLOv9-E στο 55.6% mAP.

Έτσι, η PGI επιτρέπει στα μικρότερα, αποδοτικά μοντέλα να εκπαιδευτούν σε υψηλότερα επίπεδα ακρίβειας που προηγουμένως ήταν δυνατά μόνο με υπερ-παραμετροποιημένα μοντέλα.

YOLOv9 Θέτει Νέο State-of-the-Art για Αποδοτικότητα

Συνδυάζοντας τις αρχιτεκτονικές προόδους του GELAN με τις βελτιώσεις της εκπαίδευσης από την PGI, το YOLOv9 επιτυγχάνει ανεπρεπέστατη αποδοτικότητα και απόδοση:

Σε σύγκριση με τις προηγούμενες εκδόσεις του YOLO, το YOLOv9 επιτύγχαίνει καλύτερη ακρίβεια με 10-15% λιγότερες παραμέτρους και 25% λιγότερους υπολογισμούς. Αυτό φέρνει σημαντικές βελτιώσεις στην ταχύτητα και την ικανότητα σε όλα τα μεγέθη μοντέλων.
Το YOLOv9 ξεπερνά άλλα μοντέλα ανίχνευσης αντικειμένων σε εchtzeit όπως το YOLO-MS και το RT-DETR σε όρους αποδοτικότητας παραμέτρων και FLOPs. Απαιτεί πολύ λιγότερους πόρους για να φτάσει σε ένα δεδομένο επίπεδο απόδοσης.
Τα μικρότερα μοντέλα YOLOv9甚至 ξεπερνούν μεγαλύτερα προ-εκπαιδευμένα μοντέλα όπως το RT-DETR-X.尽管 χρησιμοποιούν 36% λιγότερες παραμέτρους, το YOLOv9-E επιτυγχάνει 55.6% AP μέσω πιο αποδοτικών αρχιτεκτονικών.

Έτσι, αντιμετωπίζοντας την αποδοτικότητα σε επίπεδο αρχιτεκτονικής και εκπαίδευσης, το YOLOv9 θέτει ένα νέο state-of-the-art για την μεγιστοποίηση της απόδοσης μέσα σε περιορισμένους πόρους.

GELAN – Βελτιστοποιημένη Αρχιτεκτονική για Αποδοτικότητα

Το YOLOv9 εισάγει μια νέα αρχιτεκτονική που ονομάζεται Γενική Αποδοτική Αρχιτεκτονική Σύνδεσης Στρωμάτων (GELAN) που μεγιστοποιεί την ακρίβεια εντός eines ελάχιστου προϋπολογισμού παραμέτρων. Κτίζει πάνω στις προηγούμενες εκδόσεις του YOLO αλλά βελτιστοποιεί τα διάφορα компоненты ειδικά για αποδοτικότητα.

YOLOv9: Μάθηση Τι Θέλεις να Μάθεις Χρησιμοποιώντας Προγραμματιζόμενη Πληροφορία Gradient
https://arxiv.org/abs/2402.13616

Ιστορικό για το CSPNet και το ELAN

Πρόσφατες εκδόσεις του YOLO από την έκδοση 5 και μετά έχουν χρησιμοποιήσει πλάτη βασισμένα στο Cross-Stage Partial Network (CSPNet) για βελτιωμένη αποδοτικότητα. Το CSPNet επιτρέπει την συσσώρευση χαρτών χαρακτηριστικών σε παράλληλες διακλαδώσεις του δικτύου ενώ προστίθεται ελάχιστη υπερβολική υπολογιστική επιβάρυνση:

Αυτό είναι πιο αποδοτικό από το να στοιβάζονται στρώσεις σειριακά, που συχνά οδηγεί σε περιττή υπολογιστική και υπερ-παραμετροποίηση.

Το YOLOv7 αναβάθμισε το CSPNet στο Efficient Layer Aggregation Network (ELAN), που απλοποίησε τη δομή του μπλοκ:

Το ELAN αφαιρέσε τις συντομεύσεις μεταξύ των στρωμάτων υπέρ μιας κόμβου συσσώρευσης στην έξοδο. Αυτό βελτίωσε περαιτέρω την αποδοτικότητα παραμέτρων και FLOPs.

Γενίκευση του ELAN για Ευέλικτη Αποδοτικότητα

Οι συγγραφείς γενίκευσαν το ELAN ακόμη περισσότερο για να δημιουργήσουν το GELAN, το πλάτος που χρησιμοποιείται στο YOLOv9. Το GELAN έκανε κρίσιμες τροποποιήσεις για να βελτιώσει την ευελιξία και την αποδοτικότητα:

Ανταλλάξιμα υπολογιστικά μπλοκ – Το προηγούμενο ELAN είχε σταθερές στρώσεις畳. Το GELAN επιτρέπει την αντικατάσταση οποιασδήποτε υπολογιστικής μονάδας όπως ResNets ή CSPNet, παρέχοντας περισσότερες αρχιτεκτονικές επιλογές.
Βαθιά παραμετροποίηση – Ξεχωριστά βάθη για την κύρια διακλάδωση έναντι της διακλάδωσης συσσώρευσης απλοποιεί τη ρύθμιση της χρήσης πόρων.
Σταθερή απόδοση σε διαφορετικές διαμορφώσεις – Το GELAN διατηρεί την ακρίβεια με διαφορετικά είδη μπλοκ και βάθη, επιτρέποντας ευέλικτη κλιμάκωση.

Αυτές οι αλλαγές κάνουν το GELAN μια ισχυρή αλλά ρυθμιζόμενη αρχιτεκτονική για την μεγιστοποίηση της αποδοτικότητας:

Σε πειράματα, τα μοντέλα GELAN υπερέβησαν συνεχώς τις προηγούμενες αρχιτεκτονικές YOLO σε ακρίβεια ανά παραμέτρω:

Το GELAN-Small με 7 εκατομμύρια παραμέτρους ξεπέρασε το YOLOv7-Nano με 11 εκατομμύρια παραμέτρους
Το GELAN-Medium ισοδύναμε με τα βαρύτερα μοντέλα YOLOv7 μεσαίου μεγέθους

Έτσι, το GELAN παρέχει ένα βελτιστοποιημένο πλάτος για να κλιμακωθεί το YOLO σε διαφορετικά στόχους αποδοτικότητας. Αργότερα θα δούμε πώς το PGI τους βοηθά να εκπαιδευτούν καλύτερα.

PGI – Βελτιωμένη Εκπαίδευση για Όλα τα Μεγέθη Μοντέλων

Ενώ οι αρχιτεκτονικές επιλογές επηρεάζουν την αποδοτικότητα κατά την inference, η διαδικασία εκπαίδευσης επίσης επηρεάζει τη χρήση πόρων του μοντέλου. Το YOLOv9 χρησιμοποιεί μια νέα τεχνική που ονομάζεται Προγραμματιζόμενη Πληροφορία Gradient (PGI) για να βελτιώσει την εκπαίδευση σε διαφορετικά μεγέθη και πολυπλοκότητες μοντέλων.

Το Πρόβλημα των Αξιόπιστων Γραδιέντων

Κατά την εκπαίδευση, μια συνάρτηση απώλειας συγκρίνει τις εξοδούς του μοντέλου με τις πραγματικές ετικέτες και υπολογίζει einen γραδιέντα σφάλματος για να ενημερώσει τις παραμέτρους. Θορυβώδεις ή παραπλανητικές γραδιέντες οδηγούν σε κακή σύγκλιση και αποδοτικότητα.

Πολύ βαθιά δίκτυα εντείνουν αυτό το πρόβλημα μέσω του μποτλενεκ – οι γραδιέντες από τα βαθιά στρώματα είναι διεφθαρμένοι από χαμένες ή συμπιεσμένες σημασίες.

Η βαθιά επιτήρηση βοηθά με την εισαγωγή βοηθητικών πλευρικών διακλαδώσεων με απώλειες για να παρέχει καθαρότερες γραδιέντες. Αλλά συχνά καταρρέει για μικρότερα μοντέλα, προκαλώντας inference και απόκλιση μεταξύ των διαφορετικών διακλαδώσεων.

Έτσι, χρειαζόμαστε έναν τρόπο για να παρέχουμε αξιόπιστες γραδιέντες που δουλεύουν σε όλα τα μεγέθη μοντέλων, ιδιαίτερα στα μικρότερα.

Εισαγωγή της Προγραμματιζόμενης Πληροφορίας Gradient (PGI)

Για να αντιμετωπίσουμε τις αξιόπιστες γραδιέντες, το YOLOv9 προτείνει την Προγραμματιζόμενη Πληροφορία Gradient (PGI). Η PGI έχει δύο основные συνιστώσες που σχεδιάστηκαν για να βελτιώσουν την ποιότητα των γραδιέντων:

1. Βοηθητικές αναστρέψιμες διακλαδώσεις

Πρόσθετες διακλαδώσεις παρέχουν αναστρέψιμες συνδέσεις πίσω στην είσοδο χρησιμοποιώντας μπλοκ όπως τα RevCols. Αυτό διατηρεί καθαρές γραδιέντες αποφεύγοντας το μποτλενεκ.

2. Πολυεπίπεδη ολοκλήρωση γραδιέντη

Ένα μπλοκ σύντηξης συλλέγει γραδιέντες από όλες τις διακλαδώσεις πριν τα αναπαράγει στο κύριο μοντέλο. Αυτό αποτρέπει την απόκλιση μεταξύ διακλαδώσεων.

Ελαφριά μοντέλα ωφελούνται από βαθιά επιτήρηση που δεν μπορούσαν να χρησιμοποιήσουν πριν.
Μεγαλύτερα μοντέλα λαμβάνουν καθαρότερες γραδιέντες που επιτρέπουν καλύτερη γενίκευση.

Πειράματα έδειξαν ότι η PGI αυξήθηκε την ακρίβεια για μικρά και μεγάλα μοντέλα YOLOv9 σε σχέση με το GELAN:

+0.1-0.4% AP για το YOLOv9-Small
+0.5-0.6% AP για μεγαλύτερα μοντέλα YOLOv9

Έτσι, η PGI με προγραμματιζόμενες γραδιέντες επιτρέπει στα μοντέλα να εκπαιδευτούν πιο αποδοτικά.

YOLOv9 Θέτει Νέο State-of-the-Art για Ακρίβεια

Συνδυάζοντας τις αρχιτεκτονικές βελτιώσεις του GELAN και τις βελτιώσεις της εκπαίδευσης από την PGI, το YOLOv9 επιτυγχάνει νέο state-of-the-art για την ανίχνευση αντικειμένων σε εchtzeit.

Πειράματα στο σύνολο δεδομένων COCO δείχνουν ότι το YOLOv9 ξεπερνά τις προηγούμενες εκδόσεις του YOLO, καθώς και άλλα μοντέλα ανίχνευσης αντικειμένων σε εchtzeit όπως το YOLO-MS, σε ακρίβεια και αποδοτικότητα:

Ορισμένα κρίσιμα σημεία:

Το YOLOv9-Small ξεπερνά το YOLO-MS-Small με 10% λιγότερες παραμέτρους και υπολογισμούς
Το YOLOv9-Medium ισοδύναμε με τα βαρύτερα μοντέλα YOLOv7 χρησιμοποιώντας λιγότερους από τους μισούς πόρους
Το YOLOv9-Large ξεπερνά το YOLOv8-X με 15% λιγότερες παραμέτρους και 25% λιγότερους FLOPs

Εξαιρετικά, τα μικρότερα μοντέλα YOLOv9 ακόμη και ξεπερνούν βαρύτερα μοντέλα από άλλους ανιχνευτές που χρησιμοποιούν προ-εκπαίδευση όπως το RT-DETR-X.尽管 χρησιμοποιούν 4 φορές λιγότερες παραμέτρους, το YOLOv9-E ξεπερνά το RT-DETR-X σε ακρίβεια.

Αυτά τα αποτελέσματα δείχνουν την υπεροχή της αποδοτικότητας του YOLOv9. Οι βελτιώσεις επιτρέπουν την ανίχνευση αντικειμένων υψηλής ακρίβειας σε περισσότερες πραγματικές εφαρμογές.

Κύριες Συμπεράσματα για τις Αναβαθμίσεις του YOLOv9

Ας θυμηθούμε κάποιες από τις κρίσιμες αναβαθμίσεις και καινοτομίες που επιτρέπουν την απόδοση state-of-the-art του YOLOv9:

Βελτιστοποιημένη αρχιτεκτονική GELAN – Βελτιώνει την αποδοτικότητα παραμέτρων μέσω ευέλικτων μπλοκ σύνδεσης. Επιτρέπει την κλιμάκωση μοντέλων για διαφορετικούς στόχους.
Προγραμματιζόμενη πληροφορία gradient – Παρέχει αξιόπιστες γραδιέντες μέσω αναστρέψιμων συνδέσεων και σύντηξης. Βελτιώνει την εκπαίδευση σε όλα τα μεγέθη μοντέλων.
Μεγαλύτερη ακρίβεια με λιγότερους πόρους – Μειώνει τις παραμέτρους και τους υπολογισμούς κατά 10-15% σε σχέση με το YOLOv8 με καλύτερη ακρίβεια. Επιτρέπει πιο αποδοτική inference.
Υπεροχή αποτελεσμάτων σε όλα τα μεγέθη μοντέλων – Θέτει νέο state-of-the-art για ελαφριά, μεσαία και μεγάλα μοντέλα. Ξεπερνά προ-εκπαιδευμένα μοντέλα.
Επεκταση της εφαρμοσιμότητας – Η υψηλότερη αποδοτικότητα επεκτείνει τις εφαρμογές σε πραγματικές περιπτώσεις, όπως την ανίχνευση αντικειμένων σε εchtzeit σε συσκευές περιφερειακής αξιολόγησης.

Βελτιώνοντας την ακρίβεια, την αποδοτικότητα και την εφαρμοσιμότητα, το YOLOv9 προωθεί την ανίχνευση αντικειμένων για να καλύψει διάφορες πραγματικές ανάγκες. Οι αναβαθμίσεις παρέχουν μια ισχυρή βάση για μελλοντικές καινοτομίες σε αυτή την κρίσιμη ικανότητα της οπτικής ανίχνευσης.

Aayush Mittal, Mittal

Έχω περάσει τα τελευταία πέντε χρόνια βυθισμένος στον συναρπαστικό κόσμο της Μηχανικής Μάθησης και του Βαθιάς Μάθησης. Η δέσμευσή μου και η εξειδίκευσή μου με οδήγησαν να συμβάλλω σε πάνω από 50 διαφορετικά projects μηχανικής λογισμικού, με ιδιαίτερη έμφαση στο AI/ML. Η συνεχής περιέργειά μου με έχει οδηγήσει επίσης προς την Επεξεργασία Φυσικής Γλώσσας, ένα πεδίο που είμαι πρόθυμος να εξερευνήσω περαιτέρω.