στέλεχος YOLOv9: Ένα άλμα στην ανίχνευση αντικειμένων σε πραγματικό χρόνο - Unite.AI
Συνδεθείτε μαζί μας

Τεχνητή νοημοσύνη

YOLOv9: Ένα άλμα στην ανίχνευση αντικειμένων σε πραγματικό χρόνο

mm

Δημοσιευμένα

 on

Ανίχνευση αντικειμένων έχει γνωρίσει ταχεία πρόοδο τα τελευταία χρόνια χάρη σε βαθιά μάθηση αλγόριθμοι όπως ο YOLO (You Only Look Once). Η τελευταία επανάληψη, YOLOv9, επιφέρει σημαντικές βελτιώσεις στην ακρίβεια, την αποτελεσματικότητα και την εφαρμογή σε σχέση με τις προηγούμενες εκδόσεις. Σε αυτήν την ανάρτηση, θα βουτήξουμε στις καινοτομίες που κάνουν το YOLOv9 ένα νέο state-of-the-art για την ανίχνευση αντικειμένων σε πραγματικό χρόνο.

Ένα Quick Primer για την ανίχνευση αντικειμένων

Πριν ξεκινήσουμε τα νέα με το YOLOv9, ας δούμε εν συντομία πώς λειτουργεί η ανίχνευση αντικειμένων. Ο στόχος της ανίχνευσης αντικειμένων είναι ο εντοπισμός και ο εντοπισμός αντικειμένων μέσα σε μια εικόνα, όπως αυτοκίνητα, άνθρωποι ή ζώα. Είναι μια βασική δυνατότητα για εφαρμογές όπως αυτοοδηγούμενα αυτοκίνητα, συστήματα επιτήρησης και αναζήτηση εικόνων.

Ο ανιχνευτής λαμβάνει μια εικόνα ως είσοδο και εξάγει πλαίσια οριοθέτησης γύρω από ανιχνευμένα αντικείμενα, το καθένα με μια σχετική ετικέτα κλάσης. Δημοφιλή σύνολα δεδομένων όπως το MS COCO παρέχουν χιλιάδες ετικέτες εικόνων για την εκπαίδευση και την αξιολόγηση αυτών των μοντέλων.

Υπάρχουν δύο κύριες προσεγγίσεις για την ανίχνευση αντικειμένων:

  • Ανιχνευτές δύο σταδίων όπως το Faster R-CNN, δημιουργεί πρώτα προτάσεις περιοχών και στη συνέχεια ταξινομεί και βελτιώνει τα όρια κάθε περιοχής. Τείνουν να είναι πιο ακριβείς αλλά πιο αργοί.
  • Μονοβάθμιοι ανιχνευτές όπως το YOLO εφαρμόστε ένα μοντέλο απευθείας πάνω από την εικόνα με ένα μόνο πέρασμα. Ανταλλάσσουν κάποια ακρίβεια με πολύ γρήγορους χρόνους συμπερασμάτων.

Η YOLO πρωτοστάτησε στην προσέγγιση ενός σταδίου. Ας δούμε πώς έχει εξελιχθεί σε πολλές εκδόσεις για να βελτιώσει την ακρίβεια και την αποτελεσματικότητα.

Ανασκόπηση των προηγούμενων εκδόσεων YOLO

Η οικογένεια μοντέλων YOLO (You Only Look Once) βρίσκεται στην πρώτη γραμμή της γρήγορης ανίχνευσης αντικειμένων από τη δημοσίευση της αρχικής έκδοσης το 2016. Ακολουθεί μια γρήγορη επισκόπηση του τρόπου με τον οποίο το YOLO έχει προχωρήσει σε πολλαπλές επαναλήψεις:

  • YOLOv1 πρότεινε ένα ενοποιημένο μοντέλο για την πρόβλεψη οριοθετημένων πλαισίων και πιθανοτήτων κλάσης απευθείας από πλήρεις εικόνες σε ένα μόνο πέρασμα. Αυτό το έκανε εξαιρετικά γρήγορο σε σύγκριση με τα προηγούμενα μοντέλα δύο σταδίων.
  • YOLOv2 βελτιώθηκε σε σχέση με το πρωτότυπο χρησιμοποιώντας κανονικοποίηση παρτίδας για καλύτερη σταθερότητα, αγκύρωση κουτιών σε διάφορες κλίμακες και αναλογίες διαστάσεων για τον εντοπισμό πολλαπλών μεγεθών και μια ποικιλία άλλων βελτιστοποιήσεων.
  • YOLOv3 πρόσθεσε έναν νέο εξαγωγέα χαρακτηριστικών που ονομάζεται Darknet-53 με περισσότερα επίπεδα και συντομεύσεις μεταξύ τους, βελτιώνοντας περαιτέρω την ακρίβεια.
  • YOLOv4 συνδύασε ιδέες από άλλους ανιχνευτές αντικειμένων και μοντέλα τμηματοποίησης για να ωθήσει την ακρίβεια ακόμα πιο ψηλά, διατηρώντας παράλληλα γρήγορη εξαγωγή συμπερασμάτων.
  • YOLOv5 επανέγραψε πλήρως το YOLOv4 στο PyTorch και πρόσθεσε μια νέα βάση εξαγωγής χαρακτηριστικών που ονομάζεται CSPDarknet μαζί με πολλές άλλες βελτιώσεις.
  • YOLOv6 συνέχισε να βελτιστοποιεί την αρχιτεκτονική και τη διαδικασία εκπαίδευσης, με μοντέλα προεκπαιδευμένα σε μεγάλα εξωτερικά σύνολα δεδομένων για περαιτέρω ενίσχυση της απόδοσης.

Συνοψίζοντας, λοιπόν, οι προηγούμενες εκδόσεις του YOLO πέτυχαν μεγαλύτερη ακρίβεια μέσω βελτιώσεων στην αρχιτεκτονική μοντέλων, στις τεχνικές εκπαίδευσης και στην προεκπαίδευση. Αλλά καθώς τα μοντέλα γίνονται μεγαλύτερα και πιο περίπλοκα, η ταχύτητα και η αποτελεσματικότητα αρχίζουν να υποβαθμίζονται.

Η ανάγκη για καλύτερη αποτελεσματικότητα

Πολλές εφαρμογές απαιτούν ανίχνευση αντικειμένων για να εκτελούνται σε πραγματικό χρόνο σε συσκευές με περιορισμένους υπολογιστικούς πόρους. Καθώς τα μοντέλα γίνονται μεγαλύτερα και πιο εντατικά υπολογιστικά, η ανάπτυξη τους καθίσταται μη πρακτική.

Για παράδειγμα, ένα αυτοοδηγούμενο αυτοκίνητο πρέπει να ανιχνεύει αντικείμενα με υψηλούς ρυθμούς καρέ χρησιμοποιώντας επεξεργαστές μέσα στο όχημα. Μια κάμερα ασφαλείας πρέπει να εκτελεί την ανίχνευση αντικειμένων στη ροή βίντεο μέσα στο δικό της ενσωματωμένο υλικό. Τα τηλέφωνα και άλλες καταναλωτικές συσκευές έχουν πολύ αυστηρούς περιορισμούς ισχύος και θερμότητας.

Οι πρόσφατες εκδόσεις YOLO έχουν υψηλή ακρίβεια με μεγάλους αριθμούς παραμέτρων και λειτουργίες πολλαπλασιασμού-προσθήκης (FLOPs). Αλλά αυτό έχει το κόστος της ταχύτητας, του μεγέθους και της απόδοσης ισχύος.

Για παράδειγμα, το YOLOv5-L απαιτεί πάνω από 100 δισεκατομμύρια FLOP για την επεξεργασία μιας εικόνας 1280×1280. Αυτό είναι πολύ αργό για πολλές περιπτώσεις χρήσης σε πραγματικό χρόνο. Η τάση των ολοένα και μεγαλύτερων μοντέλων αυξάνει επίσης τον κίνδυνο υπερβολικής τοποθέτησης και καθιστά πιο δύσκολη τη γενίκευση.

Έτσι, για να επεκτείνουμε τη δυνατότητα εφαρμογής της ανίχνευσης αντικειμένων, χρειαζόμαστε τρόπους για να βελτιώσουμε την αποτελεσματικότητα - να έχουμε καλύτερη ακρίβεια με λιγότερες παραμέτρους και υπολογισμούς. Ας δούμε τις τεχνικές που χρησιμοποιούνται στο YOLOv9 για την αντιμετώπιση αυτής της πρόκλησης.

YOLOv9 – Καλύτερη ακρίβεια με λιγότερους πόρους

Οι ερευνητές πίσω από το YOLOv9 εστίασαν στη βελτίωση της αποτελεσματικότητας προκειμένου να επιτύχουν απόδοση σε πραγματικό χρόνο σε ένα ευρύτερο φάσμα συσκευών. Εισήγαγαν δύο βασικές καινοτομίες:

  1. Ένα νέο μοντέλο αρχιτεκτονικής που ονομάζεται Γενικό Αποτελεσματικό Δίκτυο Συνάθροισης Επιπέδων (GELAN) που μεγιστοποιεί την ακρίβεια ενώ ελαχιστοποιεί τις παραμέτρους και τα FLOP.
  2. Μια τεχνική εκπαίδευσης που ονομάζεται Προγραμματιζόμενες πληροφορίες κλίσης (PGI) που παρέχει πιο αξιόπιστες κλίσεις μάθησης, ειδικά για μικρότερα μοντέλα.

Ας δούμε πώς καθεμία από αυτές τις εξελίξεις συμβάλλει στη βελτίωση της αποτελεσματικότητας.

Πιο αποτελεσματική αρχιτεκτονική με το GELAN

Η ίδια η αρχιτεκτονική του μοντέλου είναι κρίσιμη για την εξισορρόπηση της ακρίβειας έναντι της ταχύτητας και της χρήσης πόρων κατά την εξαγωγή συμπερασμάτων. Το νευρωνικό δίκτυο χρειάζεται αρκετό βάθος και πλάτος για να καταγράψει σχετικά χαρακτηριστικά από τις εικόνες εισόδου. Αλλά πάρα πολλά στρώματα ή φίλτρα οδηγούν σε αργά και φουσκωμένα μοντέλα.

Οι συγγραφείς σχεδίασαν το GELAN ειδικά για να αποσπάσουν τη μέγιστη ακρίβεια από τη μικρότερη δυνατή αρχιτεκτονική.

Το GELAN χρησιμοποιεί δύο κύρια δομικά στοιχεία στοιβαγμένα μεταξύ τους:

  • Αποτελεσματικά Μπλοκ Συσσωμάτωσης Επιπέδων – Αυτοί οι αθροιστικοί μετασχηματισμοί σε πολλαπλούς κλάδους δικτύου για να συλλάβουν αποτελεσματικά χαρακτηριστικά πολλαπλής κλίμακας.
  • Υπολογιστικά Μπλοκ – Τα μπλοκ CSPNet βοηθούν στη διάδοση πληροφοριών στα επίπεδα. Οποιοδήποτε μπλοκ μπορεί να αντικατασταθεί με βάση υπολογιστικούς περιορισμούς.

Εξισορροπώντας προσεκτικά και συνδυάζοντας αυτά τα μπλοκ, το GELAN φτάνει σε ένα γλυκό σημείο μεταξύ απόδοσης, παραμέτρων και ταχύτητας. Η ίδια αρθρωτή αρχιτεκτονική μπορεί να αυξηθεί ή να μειωθεί σε διαφορετικά μεγέθη μοντέλων και υλικού.

Τα πειράματα έδειξαν ότι το GELAN ταιριάζει με περισσότερες επιδόσεις σε μικρότερα μοντέλα σε σύγκριση με προηγούμενες αρχιτεκτονικές YOLO. Για παράδειγμα, το GELAN-Small με 7M παραμέτρους ξεπέρασε την παράμετρο 11M YOLOv7-Nano. Και το GELAN-Medium με παραμέτρους 20M που εκτελούνται ισάξια με τα μεσαία μοντέλα YOLOv7 που απαιτούν παραμέτρους 35-40M.

Έτσι, σχεδιάζοντας μια παραμετροποιημένη αρχιτεκτονική ειδικά βελτιστοποιημένη για αποτελεσματικότητα, το GELAN επιτρέπει στα μοντέλα να εκτελούνται ταχύτερα και σε συσκευές με περισσότερους περιορισμένους πόρους. Στη συνέχεια θα δούμε πώς η ΠΓΕ τους βοηθά να εκπαιδεύονται καλύτερα.

Καλύτερη εκπαίδευση με πληροφορίες προγραμματιζόμενης κλίσης (PGI)

Η εκπαίδευση μοντέλου είναι εξίσου σημαντική για τη μεγιστοποίηση της ακρίβειας με περιορισμένους πόρους. Οι συγγραφείς του YOLOv9 εντόπισαν προβλήματα κατά την εκπαίδευση μικρότερων μοντέλων που προκαλούνται από αναξιόπιστες πληροφορίες διαβάθμισης.

Διαβαθμίσεις προσδιορίστε πόσο ενημερώνονται τα βάρη ενός μοντέλου κατά τη διάρκεια της προπόνησης. Οι θορυβώδεις ή παραπλανητικές κλίσεις οδηγούν σε κακή σύγκλιση. Αυτό το ζήτημα γίνεται πιο έντονο για μικρότερα δίκτυα.

Η τεχνική του βαθιά εποπτεία αντιμετωπίζει αυτό με την εισαγωγή πρόσθετων πλευρικών διακλαδώσεων με απώλειες για τη διάδοση καλύτερου σήματος ντεγκραντέ μέσω του δικτύου. Αλλά τείνει να χαλάσει και να προκαλέσει απόκλιση για μικρότερα ελαφριά μοντέλα.

YOLOv9: Μαθαίνοντας τι θέλετε να μάθετε χρησιμοποιώντας πληροφορίες προγραμματιζόμενης κλίσης

YOLOv9: Μαθαίνοντας τι θέλετε να μάθετε χρησιμοποιώντας πληροφορίες προγραμματιζόμενης κλίσης https://arxiv.org/abs/2402.13616

Για να ξεπεραστεί αυτός ο περιορισμός, το YOLOv9 εισάγει Προγραμματιζόμενες πληροφορίες κλίσης (PGI). Η ΠΓΕ έχει δύο βασικά στοιχεία:

  • Βοηθητικά αναστρέψιμα κλαδιά – Αυτά παρέχουν καθαρότερες κλίσεις διατηρώντας αναστρέψιμες συνδέσεις στην είσοδο χρησιμοποιώντας μπλοκ όπως το RevCols.
  • Ενσωμάτωση κλίσης πολλαπλών επιπέδων – Αυτό αποφεύγει την απόκλιση από παρεμβολές διαφορετικών πλευρικών κλάδων. Συνδυάζει κλίσεις από όλους τους κλάδους πριν ανατροφοδοτήσει το κύριο μοντέλο.

Με τη δημιουργία πιο αξιόπιστων κλίσεων, το PGI βοηθά τα μικρότερα μοντέλα να εκπαιδεύονται εξίσου αποτελεσματικά με τα μεγαλύτερα:

Τα πειράματα έδειξαν βελτιωμένη ακρίβεια PGI σε όλα τα μεγέθη μοντέλων, ειδικά σε μικρότερες διαμορφώσεις. Για παράδειγμα, αύξησε τις βαθμολογίες AP του YOLOv9-Small κατά 0.1-0.4% σε σχέση με το βασικό GELAN-Small. Τα κέρδη ήταν ακόμη πιο σημαντικά για βαθύτερα μοντέλα όπως το YOLOv9-E στο 55.6% mAP.

Έτσι, το PGI επιτρέπει σε μικρότερα, αποδοτικά μοντέλα να εκπαιδεύονται σε υψηλότερα επίπεδα ακρίβειας που προηγουμένως ήταν εφικτά μόνο με υπερπαραμετροποιημένα μοντέλα.

Το YOLOv9 θέτει νέα τελευταίας τεχνολογίας για αποτελεσματικότητα

Συνδυάζοντας τις αρχιτεκτονικές προόδους του GELAN με τις εκπαιδευτικές βελτιώσεις από την ΠΓΕ, το YOLOv9 επιτυγχάνει πρωτοφανή αποτελεσματικότητα και απόδοση:

  • Σε σύγκριση με προηγούμενες εκδόσεις YOLO, το YOLOv9 αποκτά καλύτερη ακρίβεια με 10-15% λιγότερες παραμέτρους και 25% λιγότερους υπολογισμούς. Αυτό επιφέρει σημαντικές βελτιώσεις στην ταχύτητα και την ικανότητα σε όλα τα μεγέθη μοντέλων.
  • Το YOLOv9 ξεπερνά τους άλλους ανιχνευτές σε πραγματικό χρόνο όπως το YOLO-MS και το RT-DETR όσον αφορά απόδοση παραμέτρων και FLOP. Απαιτεί πολύ λιγότερους πόρους για να φτάσει σε ένα δεδομένο επίπεδο απόδοσης.
  • Τα μικρότερα μοντέλα YOLOv9 ξεπερνούν ακόμη και τα μεγαλύτερα προεκπαιδευμένα μοντέλα όπως το RT-DETR-X. Παρά τη χρήση 36% λιγότερες παραμέτρους, το YOLOv9-E επιτυγχάνει καλύτερα 55.6% ΑΠ μέσα από πιο αποτελεσματικές αρχιτεκτονικές.

Έτσι, αντιμετωπίζοντας την αποτελεσματικότητα σε επίπεδα αρχιτεκτονικής και εκπαίδευσης, το YOLOv9 θέτει μια νέα τελευταία λέξη της τεχνολογίας για τη μεγιστοποίηση της απόδοσης σε περιορισμένους πόρους.

GELAN – Βελτιστοποιημένη Αρχιτεκτονική για Αποδοτικότητα

Το YOLOv9 εισάγει μια νέα αρχιτεκτονική που ονομάζεται General Efficient Layer Aggregation Network (GELAN) που μεγιστοποιεί την ακρίβεια εντός ενός ελάχιστου προϋπολογισμού παραμέτρων. Βασίζεται πάνω σε προηγούμενα μοντέλα YOLO, αλλά βελτιστοποιεί τα διάφορα εξαρτήματα ειδικά για αποτελεσματικότητα.

https://arxiv.org/abs/2402.13616

YOLOv9: Μαθαίνοντας τι θέλετε να μάθετε χρησιμοποιώντας πληροφορίες προγραμματιζόμενης κλίσης
https://arxiv.org/abs/2402.13616

Ιστορικό για το CSPNet και το ELAN

Οι πρόσφατες εκδόσεις YOLO από το v5 έχουν χρησιμοποιήσει ραχοκοκαλιά που βασίζονται στο μερικό δίκτυο Cross-Stage (CSPNet) για βελτιωμένη απόδοση. Το CSPNet επιτρέπει τη συγκέντρωση χαρτών χαρακτηριστικών σε παράλληλους κλάδους δικτύου, ενώ προσθέτει ελάχιστη επιβάρυνση:

Αυτό είναι πιο αποτελεσματικό από την απλή στοίβαξη στρωμάτων σειριακά, κάτι που συχνά οδηγεί σε περιττούς υπολογισμούς και υπερπαραμετροποίηση.

Το YOLOv7 αναβάθμισε το CSPNet σε Efficient Layer Aggregation Network (ELAN), το οποίο απλοποίησε τη δομή του μπλοκ:

Το ELAN αφαίρεσε τις συνδέσεις συντομεύσεων μεταξύ των επιπέδων προς όφελος ενός κόμβου συνάθροισης στην έξοδο. Αυτό βελτίωσε περαιτέρω την παράμετρο και την απόδοση των FLOP.

Γενικεύοντας το ELAN για ευέλικτη απόδοση

Οι συγγραφείς γενίκευσαν το ELAN ακόμη περισσότερο για να δημιουργήσουν ΓΕΛΑΝ, η ραχοκοκαλιά που χρησιμοποιείται στο YOLOv9. Η GELAN έκανε βασικές τροποποιήσεις για τη βελτίωση της ευελιξίας και της αποτελεσματικότητας:

  • Εναλλάξιμα υπολογιστικά μπλοκ – Το προηγούμενο ELAN είχε σταθερά συνελικτικά στρώματα. Το GELAN επιτρέπει την αντικατάσταση οποιουδήποτε υπολογιστικού μπλοκ όπως το ResNets ή το CSPNet, παρέχοντας περισσότερες αρχιτεκτονικές επιλογές.
  • Παραμετροποίηση κατά βάθος – Τα ξεχωριστά βάθη μπλοκ για την κύρια διακλάδωση έναντι της διακλάδωσης συσσωρευτή απλοποιεί τη χρήση πόρων με ακρίβεια.
  • Σταθερή απόδοση σε όλες τις διαμορφώσεις – Το GELAN διατηρεί την ακρίβεια με διαφορετικούς τύπους μπλοκ και βάθη, επιτρέποντας ευέλικτη κλιμάκωση.

Αυτές οι αλλαγές καθιστούν το GELAN ισχυρό αλλά διαμορφώσιμο κορμό για μεγιστοποίηση της απόδοσης:

Σε πειράματα, τα μοντέλα GELAN ξεπερνούσαν σταθερά τις προηγούμενες αρχιτεκτονικές YOLO σε ακρίβεια ανά παράμετρο:

  • Το GELAN-Small με παραμέτρους 7M κέρδισε τις παραμέτρους 7M του YOLOv11-Nano
  • Τα GELAN-Medium ταιριάστηκαν με βαρύτερα μεσαία μοντέλα YOLOv7

Έτσι, το GELAN παρέχει μια βελτιστοποιημένη βάση για την κλιμάκωση του YOLO σε διαφορετικούς στόχους απόδοσης. Στη συνέχεια θα δούμε πώς η ΠΓΕ τους βοηθά να εκπαιδεύονται καλύτερα.

ΠΓΕ – Βελτιωμένη Εκπαίδευση για Όλα τα Μεγέθη Μοντέλων

Ενώ οι επιλογές αρχιτεκτονικής επηρεάζουν την αποδοτικότητα στο χρόνο συμπερασμάτων, η διαδικασία εκπαίδευσης επηρεάζει επίσης τη χρήση πόρων του μοντέλου. Το YOLOv9 χρησιμοποιεί μια νέα τεχνική που ονομάζεται Programmable Gradient Information (PGI) για να βελτιώσει την εκπαίδευση σε διαφορετικά μεγέθη και πολυπλοκότητες μοντέλων.

Το πρόβλημα των αναξιόπιστων κλίσεων

Κατά τη διάρκεια της εκπαίδευσης, μια συνάρτηση απώλειας συγκρίνει τις εξόδους του μοντέλου με τις ετικέτες αλήθειας γείωσης και υπολογίζει μια διαβάθμιση σφάλματος για να ενημερώσει τις παραμέτρους. Θορυβώδεις ή παραπλανητικές κλίσεις οδηγούν σε κακή σύγκλιση και αποτελεσματικότητα.

Τα πολύ βαθιά δίκτυα το επιδεινώνουν αυτό μέσω του συμφόρηση πληροφοριών – οι κλίσεις από τα βαθιά στρώματα αλλοιώνονται από χαμένα ή συμπιεσμένα σήματα.

Βαθιά εποπτεία βοηθά με την εισαγωγή βοηθητικών πλευρικών διακλαδώσεων με απώλειες για την παροχή καθαρότερων κλίσεων. Αλλά συχνά χαλάει για μικρότερα μοντέλα, προκαλώντας παρεμβολές και αποκλίσεις μεταξύ διαφορετικών κλάδων.

Χρειαζόμαστε λοιπόν έναν τρόπο να παρέχουμε αξιόπιστες διαβαθμίσεις που να λειτουργούν σε όλα τα μεγέθη μοντέλων, ειδικά σε μικρότερα.

Παρουσίαση των Προγραμματιζόμενων Πληροφοριών Κλίσης (ΠΓΕ)

Για την αντιμετώπιση αναξιόπιστων κλίσεων, το YOLOv9 προτείνει Προγραμματιζόμενες πληροφορίες κλίσης (PGI). Η ΠΓΕ έχει δύο βασικά στοιχεία που έχουν σχεδιαστεί για τη βελτίωση της ποιότητας της κλίσης:

1. Βοηθητικά αναστρέψιμα κλαδιά

Παρέχονται επιπλέον υποκαταστήματα αναστρέψιμες συνδέσεις πίσω στην είσοδο χρησιμοποιώντας μπλοκ όπως το RevCols. Αυτό διατηρεί καθαρές κλίσεις αποφεύγοντας το σημείο συμφόρησης πληροφοριών.

2. Ενσωμάτωση κλίσης πολλαπλών επιπέδων

Ένα μπλοκ σύντηξης συγκεντρώνει κλίσεις από όλους τους κλάδους πριν ανατροφοδοτήσει το κύριο μοντέλο. Αυτό αποτρέπει την απόκλιση μεταξύ των κλάδων.

Με τη δημιουργία πιο αξιόπιστων κλίσεων, το PGI βελτιώνει τη σύγκλιση και την αποτελεσματικότητα της εκπαίδευσης σε όλα τα μεγέθη μοντέλων:

  • Ελαφριά μοντέλα επωφελούνται από τη βαθιά εποπτεία που δεν μπορούσαν να χρησιμοποιήσουν πριν
  • Μεγαλύτερα μοντέλα λάβετε καθαρότερες κλίσεις που επιτρέπουν καλύτερη γενίκευση

Τα πειράματα έδειξαν ενισχυμένη ακρίβεια PGI για μικρές και μεγάλες διαμορφώσεις YOLOv9 σε σχέση με τη βασική γραμμή GELAN:

  • +0.1-0.4% AP για YOLOv9-Small
  • +0.5-0.6% AP για μεγαλύτερα μοντέλα YOLOv9

Έτσι, οι προγραμματιζόμενες κλίσεις της PGI επιτρέπουν σε μεγάλα και μικρά μοντέλα να εκπαιδεύονται πιο αποτελεσματικά.

Το YOLOv9 θέτει νέα ακρίβεια αιχμής

Συνδυάζοντας αρχιτεκτονικές βελτιώσεις από το GELAN και βελτιώσεις εκπαίδευσης από την ΠΓΕ, το YOLOv9 επιτυγχάνει νέα αποτελέσματα αιχμής για ανίχνευση αντικειμένων σε πραγματικό χρόνο.

Πειράματα στο σύνολο δεδομένων COCO δείχνουν ότι το YOLOv9 ξεπερνά τις προηγούμενες εκδόσεις YOLO, καθώς και άλλους ανιχνευτές σε πραγματικό χρόνο όπως το YOLO-MS, σε ακρίβεια και αποτελεσματικότητα:

Μερικά βασικά σημεία:

  • Το YOLOv9-Small υπερβαίνει το YOLO-MS-Small με 10% λιγότερες παραμέτρους και υπολογισμούς
  • Το YOLOv9-Medium ταιριάζει με βαρύτερα μοντέλα YOLOv7 χρησιμοποιώντας λιγότερους από τους μισούς πόρους
  • Το YOLOv9-Large ξεπερνά το YOLOv8-X με 15% λιγότερες παραμέτρους και 25% λιγότερα FLOP

Είναι αξιοσημείωτο ότι τα μικρότερα μοντέλα YOLOv9 ξεπερνούν ακόμη και τα βαρύτερα μοντέλα από άλλους ανιχνευτές που χρησιμοποιούν προ-εκπαίδευση όπως το RT-DETR-X. Παρά τις 4 φορές λιγότερες παραμέτρους, το YOLOv9-E ξεπερνά σε ακρίβεια το RT-DETR-X.

Αυτά τα αποτελέσματα καταδεικνύουν την ανώτερη απόδοση του YOLOv9. Οι βελτιώσεις επιτρέπουν την ανίχνευση αντικειμένων υψηλής ακρίβειας σε περισσότερες περιπτώσεις χρήσης πραγματικού κόσμου.

Βασικά στοιχεία για τις αναβαθμίσεις YOLOv9

Ας ανακεφαλαιώσουμε γρήγορα μερικές από τις βασικές αναβαθμίσεις και καινοτομίες που επιτρέπουν τη νέα υπερσύγχρονη απόδοση του YOLOv9:

  • Βελτιστοποιημένη αρχιτεκτονική GELAN – Βελτιώνει την απόδοση των παραμέτρων μέσω ευέλικτων μπλοκ συνάθροισης. Επιτρέπει την κλιμάκωση μοντέλων για διαφορετικούς στόχους.
  • Προγραμματιζόμενες πληροφορίες κλίσης – Παρέχει αξιόπιστες κλίσεις μέσω αναστρέψιμων συνδέσεων και σύντηξης. Βελτιώνει την εκπαίδευση σε μεγέθη μοντέλων.
  • Μεγαλύτερη ακρίβεια με λιγότερους πόρους – Μειώνει τις παραμέτρους και τους υπολογισμούς κατά 10-15% σε σχέση με το YOLOv8 με καλύτερη ακρίβεια. Επιτρέπει πιο αποτελεσματικά συμπεράσματα.
  • Ανώτερα αποτελέσματα σε μεγέθη μοντέλων – Ορίζει νέα τελευταίας τεχνολογίας για ελαφριές, μεσαίες και μεγάλες διαμορφώσεις μοντέλων. Ξεπερνά τα πολύ προεκπαιδευμένα μοντέλα.
  • Διευρυμένη δυνατότητα εφαρμογής – Η υψηλότερη απόδοση διευρύνει τις βιώσιμες περιπτώσεις χρήσης, όπως η ανίχνευση σε πραγματικό χρόνο σε συσκευές άκρων.

Αντιμετωπίζοντας άμεσα την ακρίβεια, την αποτελεσματικότητα και τη δυνατότητα εφαρμογής, το YOLOv9 προωθεί την ανίχνευση αντικειμένων για να καλύψει διαφορετικές ανάγκες του πραγματικού κόσμου. Οι αναβαθμίσεις παρέχουν μια ισχυρή βάση για μελλοντική καινοτομία σε αυτήν την κρίσιμη δυνατότητα υπολογιστικής όρασης.

Έχω περάσει τα τελευταία πέντε χρόνια βυθίζοντας τον εαυτό μου στον συναρπαστικό κόσμο της Μηχανικής Μάθησης και της Βαθιάς Μάθησης. Το πάθος και η εξειδίκευσή μου με οδήγησαν να συνεισφέρω σε περισσότερα από 50 διαφορετικά έργα μηχανικής λογισμικού, με ιδιαίτερη έμφαση στην AI/ML. Η συνεχής περιέργειά μου με έχει τραβήξει επίσης προς την Επεξεργασία Φυσικής Γλώσσας, έναν τομέα που ανυπομονώ να εξερευνήσω περαιτέρω.