Τεχνητή νοημοσύνη 101

Πώς Λειτουργεί η Ταξινόμηση Εικόνων;

Δημοσιεύτηκε 5 Σεπτεμβρίου 2020

Ενημερώθηκε 25 Μαΐου 2026

Daniel Nelson

Πώς μπορεί το τηλέφωνό σας να καθορίσει τι είναι ένα αντικείμενο απλώς拍ιάνοντας μια φωτογραφία; Πώς οι ιστότοποι κοινωνικών μέσων автомατικά ετικετώνουν άτομα σε φωτογραφίες; Αυτό επιτυγχάνεται μέσω της αναγνώρισης και ταξινόμησης εικόνων που βασίζεται σε τεχνητή νοημοσύνη.

Η αναγνώριση και ταξινόμηση εικόνων είναι αυτό που επιτρέπει πολλές από τις πιο εντυπωσιακές επιτεύξεις της τεχνητής νοημοσύνης. Ωστόσο, πώς τα υπολογιστικά συστήματα μαθαίνουν να ανιχνεύουν και να ταξινομούν εικόνες; Σε αυτό το άρθρο, θα καλύψουμε τις γενικές μεθόδους που χρησιμοποιούν τα υπολογιστικά συστήματα για να ερμηνεύσουν και να ανιχνεύσουν εικόνες και στη συνέχεια θα εξετάσουμε μερικές από τις πιο δημοφιλείς μεθόδους ταξινόμησης εικόνων.

Ταξινόμηση σε Επίπεδο Πικσέλ vs. Αντικειμενο-Βάση Ταξινόμηση

Οι τεχνικές ταξινόμησης εικόνων μπορούν κυρίως να διαιρεθούν σε δύο διαφορετικές κατηγορίες: ταξινόμηση σε επίπεδο πικσέλ και αντικειμενο-βάση ταξινόμηση.

Τα πικσέλ είναι οι βασικές μονάδες μιας εικόνας, και η ανάλυση των πικσέλ είναι ο πρωταρχικός τρόπος με τον οποίο πραγματοποιείται η ταξινόμηση εικόνων. Ωστόσο, οι αλγόριθμοι ταξινόμησης μπορούν είτε να χρησιμοποιούν μόνο τις φασματικές πληροφορίες μέσα σε 개별 πικσέλ για να ταξινομήσουν μια εικόνα είτε να εξετάσουν χωρικές πληροφορίες (πικσέλ που βρίσκονται κοντά) μαζί με τις φασματικές πληροφορίες. Οι μεθόδοι ταξινόμησης σε επίπεδο πικσέλ χρησιμοποιούν μόνο φασματικές πληροφορίες (η ένταση ενός πικσέλ), ενώ οι μεθόδοι αντικειμενο-βάσης ταξινόμησης λαμβάνουν υπόψη και τις φασματικές πληροφορίες των πικσέλ και τις χωρικές πληροφορίες.

Υπάρχουν διάφορες τεχνικές ταξινόμησης που χρησιμοποιούνται για την ταξινόμηση σε επίπεδο πικσέλ. Αυτές περιλαμβάνουν την ελάχιστη απόσταση προς το μέσο, τη μέγιστη πιθανότητα και την ελάχιστη απόσταση Mahalanobis. Αυτές οι μεθόδους απαιτούν να είναι γνωστές οι μέσοι και οι διακύμανσεις των κατηγοριών και όλες λειτουργούν εξετάζοντας την «απόσταση» μεταξύ των μέσων των κατηγοριών και των στόχων πικσέλ.

Οι μεθόδους ταξινόμησης σε επίπεδο πικσέλ περιορίζονται από το γεγονός ότι δεν μπορούν να χρησιμοποιήσουν πληροφορίες από άλλα κοντινά πικσέλ. Αντίθετα, οι μεθόδους αντικειμενο-βάσης ταξινόμησης μπορούν να περιλαμβάνουν άλλα πικσέλ και επομένως χρησιμοποιούν επίσης χωρικές πληροφορίες για να ταξινομήσουν αντικείμενα. Σημειώστε ότι «αντικείμενο» αναφέρεται απλώς σε συνεχείς περιοχές πικσέλ και όχι στο εάν υπάρχει στόχο αντικείμενο μέσα σε αυτήν την περιοχή πικσέλ.

Προεπεξεργασία Δεδομένων Εικόνας για Ανίχνευση Αντικειμένων

Τα πιο πρόσφατα και αξιόπιστα συστήματα ταξινόμησης εικόνων χρησιμοποιούν κυρίως σχήματα ταξινόμησης σε επίπεδο αντικειμένου, και για αυτές τις προσεγγίσεις τα δεδομένα εικόνας πρέπει να προεπεξεργαστούν με συγκεκριμένους τρόπους. Τα αντικείμενα/περιοχές πρέπει να επιλεγούν και να προεπεξεργαστούν.

Πριν μια εικόνα και τα αντικείμενα/περιοχές μέσα σε αυτήν την εικόνα μπορούν να ταξινομηθούν, τα δεδομένα που αποτελούν αυτήν την εικόνα πρέπει να ερμηνευτούν από τον υπολογιστή. Οι εικόνες πρέπει να προεπεξεργαστούν και να προετοιμαστούν για εισαγωγή στον αλγόριθμο ταξινόμησης, και αυτό γίνεται μέσω της ανίχνευσης αντικειμένων. Αυτό είναι ένα κρίσιμο μέρος της προετοιμασίας των δεδομένων και της προετοιμασίας των εικόνων για την εκπαίδευση του ταξινομητή μηχανικής μάθησης.

Η ανίχνευση αντικειμένων πραγματοποιείται με διάφορες μεθόδους και τεχνικές. Για να αρχίσετε, το εάν υπάρχουν πολλά αντικείμενα ενδιαφέροντος ή ένα μόνο αντικείμενο ενδιαφέροντος επηρεάζει τον τρόπο με τον οποίο πραγματοποιείται η προεπεξεργασία της εικόνας. Εάν υπάρχει μόνο ένα αντικείμενο ενδιαφέροντος, η εικόνα υποβάλλεται σε τοπική αναζήτηση. Τα πικσέλ που αποτελούν την εικόνα έχουν αριθμητικές τιμές που ερμηνεύονται από τον υπολογιστή και χρησιμοποιούνται για να εμφανίσουν τα σωστά χρώματα και απόχρωση. Ένα αντικείμενο που ονομάζεται οριοθέτηση ορίων σχεδιάζεται γύρω από το αντικείμενο ενδιαφέροντος, το οποίο βοηθά τον υπολογιστή να γνωρίζει ποιο μέρος της εικόνας είναι σημαντικό και ποιες τιμές πικσέλ ορίζουν το αντικείμενο. Εάν υπάρχουν πολλά αντικείμενα ενδιαφέροντος στην εικόνα, μια τεχνική που ονομάζεται ανίχνευση αντικειμένων χρησιμοποιείται για να εφαρμόσει αυτά τα οριοθέτηση ορίων σε όλα τα αντικείμενα μέσα στην εικόνα.

Φωτογραφία: Adrian Rosebrock μέσω Wikimedia Commons, CC BY SA 4.0 (https://commons.wikimedia.org/wiki/File:Intersection_over_Union_-_object_detection_bounding_boxes.jpg)

Μια άλλη μέθοδος προεπεξεργασίας είναι η τομείς εικόνας. Η τομείς εικόνας λειτουργεί με τη διαίρεση της ολόκληρης εικόνας σε τομείς με βάση παρόμοια χαρακτηριστικά. Διάφορες περιοχές της εικόνας θα έχουν παρόμοιες τιμές πικσέλ σε σύγκριση με άλλες περιοχές της εικόνας, οπότε αυτά τα πικσέλ ομαδοποιούνται μαζί σε μάσκες εικόνας που αντιστοιχούν στο σχήμα και τα όρια των σχετικών αντικειμένων μέσα στην εικόνα. Η τομείς εικόνας βοηθά τον υπολογιστή να απομονώσει τα χαρακτηριστικά της εικόνας που θα βοηθήσουν στην ταξινόμηση ενός αντικειμένου, πολύ σαν τα οριοθέτηση ορίων, αλλά παρέχουν πιο ακριβείς, σε επίπεδο πικσέλ, ετικέτες.

Μετά την ολοκλήρωση της ανίχνευσης αντικειμένων ή της τομείς εικόνας, εφαρμόζονται ετικέτες στις περιοχές ενδιαφέροντος. Αυτές οι ετικέτες παρέχονται, μαζί με τις τιμές των πικσέλ που αποτελούν το αντικείμενο, στους αλγόριθμους μηχανικής μάθησης που θα μάθουν τα μοτίβα που συνδέονται με τις διαφορετικές ετικέτες.

Αλγόριθμοι Μηχανικής Μάθησης

Μόλις τα δεδομένα έχουν προετοιμαστεί και ετικετωθεί, τα δεδομένα εισάγονται σε έναν αλγόριθμο μηχανικής μάθησης, ο οποίος εκπαιδεύεται με τα δεδομένα. Θα καλύψουμε κάποιους από τους πιο κοινούς τύπους αλγορίθμων μηχανικής μάθησης ταξινόμησης εικόνων παρακάτω.

K-Nearest Neighbors

Ο K-Nearest Neighbors είναι ένας αλγόριθμος ταξινόμησης που εξετάζει τα πιο κοντινά παραδείγματα εκπαίδευσης και κοιτάζει τις ετικέτες τους για να καθορίσει την πιο πιθανή ετικέτα για ένα δοθέν παράδειγμα δοκιμής. Όταν πρόκειται για ταξινόμηση εικόνων χρησιμοποιώντας KNN, οι διανυσματικοί φορείς και οι ετικέτες των εικόνων εκπαίδευσης αποθηκεύονται και μόνο ο διανυσματικός φορέας εισάγεται στον αλγόριθμο κατά τη δοκιμή. Οι διανυσματικοί φορείς εκπαίδευσης και δοκιμής συγκρίνονται μεταξύ τους για ομοιότητα.

Οι αλγόριθμοι ταξινόμησης KNN είναι εξαιρετικά απλοί και αντιμετωπίζουν πολλές κατηγορίες πολύ εύκολα. Ωστόσο, το KNN υπολογίζει την ομοιότητα με βάση όλα τα χαρακτηριστικά ισότιμα. Αυτό σημαίνει ότι μπορεί να είναι ευάλωτο σε λανθασμένη ταξινόμηση όταν παρέχεται με εικόνες όπου μόνο ένα υποσύνολο των χαρακτηριστικών είναι σημαντικό για την ταξινόμηση της εικόνας.

Μηχανές Υποστηρικτών Διαστημάτων

Οι Μηχανές Υποστηρικτών Διαστημάτων είναι μια μέθοδος ταξινόμησης που τοποθετεί σημεία στο χώρο και στη συνέχεια σχεδιάζει διαχωριστικές γραμμές μεταξύ των σημείων, τοποθετώντας αντικείμενα σε διαφορετικές κατηγορίες ανάλογα με ποια πλευρά του διαχωριστικού επιπέδου βρίσκονται τα σημεία. Οι Μηχανές Υποστηρικτών Διαστημάτων είναι ικανές να thực施ουν μη γραμμική ταξινόμηση μέσω της χρήσης μιας τεχνικής που ονομάζεται κόλπο πυρήνα. Ενώ οι ταξινομητές SVM είναι συχνά πολύ ακριβείς, μια σημαντική ελαττώματα των ταξινομητών SVM είναι ότι έχουν την τάση να περιορίζονται και από το μέγεθος και την ταχύτητα, με την ταχύτητα να υποφέρει καθώς το μέγεθος αυξάνεται.

Πολυστρωματικοί Περцепτρονες (Νευρωνικά Δίκτυα)

Οι πολυστρωματικοί περцепτρονες, επίσης γνωστοί ως μοντέλα νευρωνικών δικτύων, είναι αλγόριθμοι μηχανικής μάθησης που εμπνέονται από τον ανθρώπινο εγκέφαλο. Οι πολυστρωματικοί περцепτρονες αποτελούνται από διάφορα στρώματα που συνδέονται μεταξύ τους, πολύ σαν τα νευρικά κύτταρα στο ανθρώπινο εγκέφαλο να συνδέονται μεταξύ τους. Τα νευρωνικά δίκτυα κάνουν υποθέσεις σχετικά με τον τρόπο που τα χαρακτηριστικά εισόδου σχετίζονται με τις κατηγορίες των δεδομένων και αυτές οι υποθέσεις điều chỉnhονται κατά τη διάρκεια της εκπαίδευσης. Απλά μοντέλα νευρωνικών δικτύων όπως ο πολυστρωματικός περцепτρονας είναι ικανά να μάθουν μη γραμμικές σχέσεις, και ως αποτέλεσμα, μπορούν να είναι πολύ πιο ακριβείς από άλλα μοντέλα. Ωστόσο, τα μοντέλα MLP υποφέρουν από ορισμένα αξιοσημείωτα προβλήματα όπως η παρουσία μη κομφεων loss συναρτήσεων.

Αλγόριθμοι Βαθιάς Μάθησης (CNNs)

Φωτογραφία: APhex34 μέσω Wikimedia Commons, CC BY SA 4.0 (https://commons.wikimedia.org/wiki/File:Typical_cnn.png)

Ο πιο συχνά χρησιμοποιούμενος αλγόριθμος ταξινόμησης εικόνων στις τελευταίες φορές είναι το Νευρωνικό Δίκτυο Σύγκλισης (CNNs). Τα CNNs είναι εξατομικευμένες εκδόσεις των νευρωνικών δικτύων που συνδυάζουν τα πολυστρωματικά νευρωνικά δίκτυα με ειδικούς στρώματα που είναι ικανά να εξάγουν τα πιο σημαντικά χαρακτηριστικά για την ταξινόμηση ενός αντικειμένου. Τα CNNs μπορούν να ανακαλύψουν, να παράγουν και να μάθουν αυτόματα χαρακτηριστικά εικόνων. Αυτό μειώνει σημαντικά την ανάγκη για χειροκίνητη ετικέτωση και διαίρεση εικόνων για την προετοιμασία τους για αλγόριθμους μηχανικής μάθησης. Επίσης, έχουν το πλεονέκτημα έναντι των δικτύων MLP ότι μπορούν να αντιμετωπίσουν μη κομφεων loss συναρτήσεις.

Τα Νευρωνικά Δίκτυα Σύγκλισης ονομάζονται così επειδή δημιουργούν «σύγκλιση». Τα CNNs λειτουργούν παίρνοντας ένα φίλτρο και το κινώντας πάνω από μια εικόνα. Μπορείτε να το σκεφτείτε ως το να κοιτάτε τμήματα ενός τοπίου μέσω ενός κινητού παραθύρου, επικεντρωμένα μόνο στα χαρακτηριστικά που είναι ορατά μέσα από το παράθυρο σε οποιαδήποτε στιγμή. Το φίλτρο περιέχει αριθμητικές τιμές που πολλαπλασιάζονται με τις τιμές των πικσέλ τους ιδίων. Το αποτέλεσμα είναι ένα νέο πλαίσιο, ή πίνακας, γεμάτο αριθμούς που αντιπροσωπεύουν την αρχική εικόνα. Αυτή η διαδικασία επαναλαμβάνεται για έναν επιλεγμένο αριθμό φίλτρων και στη συνέχεια τα πλαίσια ενώνονται σε μια νέα εικόνα που είναι ελαφρώς μικρότερη και λιγότερο σύνθετη από την αρχική εικόνα. Μια τεχνική που ονομάζεται πούλινγκ χρησιμοποιείται για να επιλέξει μόνο τις πιο σημαντικές τιμές μέσα στην εικόνα, και ο στόχος είναι για τα στρώματα σύγκλισης να εξάγουν τελικά τα πιο σημαντικά μέρη της εικόνας που θα βοηθήσουν το νευρωνικό δίκτυο να αναγνωρίσει τα αντικείμενα στην εικόνα.

Τα Νευρωνικά Δίκτυα Σύγκλισης αποτελούνται από δύο διαφορετικά μέρη. Τα στρώματα σύγκλισης είναι αυτά που εξάγουν τα χαρακτηριστικά της εικόνας και τα μετατρέπουν σε μορφή που τα στρώματα νευρωνικού δικτύου μπορούν να ερμηνεύσουν και να μάθουν από αυτά. Τα πρώιμα στρώματα σύγκλισης είναι υπεύθυνα για την εξαγωγή των πιο βασικών στοιχείων της εικόνας, όπως απλές γραμμές και όρια. Τα μεσαία στρώματα σύγκλισης αρχίζουν να εξάγουν πιο σύνθετα σχήματα, όπως απλές καμπύλες και γωνίες. Τα μεταγενέστερα, βαθύτερα στρώματα σύγκλισης εξάγουν τα υψηλού επιπέδου χαρακτηριστικά της εικόνας, τα οποία είναι αυτά που εισάγονται στο τμήμα νευρωνικού δικτύου του CNN, και είναι αυτά που μαθαίνει ο ταξινομητής.

Daniel Nelson

Blogger και προγραμματιστής με ειδικότητες στα Machine Learning και Deep Learning θέματα. Ο Daniel ελπίζει να βοηθήσει τους άλλους να χρησιμοποιήσουν τη δύναμη του AI για κοινωνικό καλό.