στέλεχος Πώς λειτουργεί η ταξινόμηση εικόνων; - Unite.AI
Συνδεθείτε μαζί μας
Masterclass AI:

AI 101

Πώς λειτουργεί η ταξινόμηση εικόνων;

mm
Ενημερώθηκε on

Πώς μπορεί το τηλέφωνό σας να προσδιορίσει τι είναι ένα αντικείμενο απλώς τραβώντας του μια φωτογραφία; Πώς οι ιστότοποι κοινωνικής δικτύωσης προσθέτουν αυτόματα ετικέτες σε άτομα στις φωτογραφίες; Αυτό επιτυγχάνεται μέσω της αναγνώρισης και ταξινόμησης εικόνων με τεχνητή νοημοσύνη.

Η αναγνώριση και η ταξινόμηση των εικόνων είναι αυτό που επιτρέπει πολλά από τα πιο εντυπωσιακά επιτεύγματα της τεχνητής νοημοσύνης. Ωστόσο, πώς μαθαίνουν οι υπολογιστές να ανιχνεύουν και να ταξινομούν εικόνες; Σε αυτό το άρθρο, θα καλύψουμε τις γενικές μεθόδους που χρησιμοποιούν οι υπολογιστές για την ερμηνεία και τον εντοπισμό εικόνων και, στη συνέχεια, θα ρίξουμε μια ματιά σε μερικές από τις πιο δημοφιλείς μεθόδους ταξινόμησης αυτών των εικόνων.

Ταξινόμηση σε επίπεδο εικονοστοιχείων έναντι αντικειμένου

Οι τεχνικές ταξινόμησης εικόνων μπορούν κυρίως να χωριστούν σε δύο διαφορετικές κατηγορίες: ταξινόμηση βάσει εικονοστοιχείων και ταξινόμηση βάσει αντικειμένων.

Τα εικονοστοιχεία είναι οι βασικές μονάδες μιας εικόνας και η ανάλυση των εικονοστοιχείων είναι ο κύριος τρόπος με τον οποίο γίνεται η ταξινόμηση της εικόνας. Ωστόσο, οι αλγόριθμοι ταξινόμησης μπορούν είτε να χρησιμοποιήσουν μόνο τις φασματικές πληροφορίες μέσα σε μεμονωμένα εικονοστοιχεία για να ταξινομήσουν μια εικόνα είτε να εξετάσουν χωρικές πληροφορίες (κοντινά εικονοστοιχεία) μαζί με τις φασματικές πληροφορίες. Οι μέθοδοι ταξινόμησης που βασίζονται σε εικονοστοιχεία χρησιμοποιούν μόνο φασματικές πληροφορίες (την ένταση ενός εικονοστοιχείου), ενώ οι μέθοδοι ταξινόμησης βάσει αντικειμένων λαμβάνουν υπόψη τόσο τις φασματικές πληροφορίες των εικονοστοιχείων όσο και τις χωρικές πληροφορίες.

Υπάρχουν διαφορετικές τεχνικές ταξινόμησης που χρησιμοποιούνται για ταξινόμηση βάσει εικονοστοιχείων. Αυτές περιλαμβάνουν την ελάχιστη απόσταση έως τη μέση, τη μέγιστη πιθανότητα και την ελάχιστη απόσταση Mahalanobis. Αυτές οι μέθοδοι απαιτούν να είναι γνωστές οι μέσοι όροι και οι αποκλίσεις των κλάσεων και όλες λειτουργούν εξετάζοντας την «απόσταση» μεταξύ των μέσων της κατηγορίας και των εικονοστοιχείων-στόχων.

Οι μέθοδοι ταξινόμησης που βασίζονται σε εικονοστοιχεία περιορίζονται από το γεγονός ότι δεν μπορούν να χρησιμοποιήσουν πληροφορίες από άλλα κοντινά εικονοστοιχεία. Αντίθετα, οι μέθοδοι ταξινόμησης βάσει αντικειμένων μπορούν να περιλαμβάνουν άλλα εικονοστοιχεία και επομένως χρησιμοποιούν επίσης χωρικές πληροφορίες για την ταξινόμηση στοιχείων. Σημειώστε ότι το "αντικείμενο" αναφέρεται απλώς σε συνεχόμενες περιοχές των εικονοστοιχείων και όχι στο αν υπάρχει ή όχι ένα αντικείμενο στόχος σε αυτήν την περιοχή των pixel.

Προεπεξεργασία δεδομένων εικόνας για ανίχνευση αντικειμένων

Τα πιο πρόσφατα και αξιόπιστα συστήματα ταξινόμησης εικόνων χρησιμοποιούν κυρίως σχήματα ταξινόμησης σε επίπεδο αντικειμένου και για αυτές τις προσεγγίσεις τα δεδομένα εικόνας πρέπει να προετοιμάζονται με συγκεκριμένους τρόπους. Τα αντικείμενα/περιοχές πρέπει να επιλεγούν και να υποβληθούν σε προεπεξεργασία.

Προτού μια εικόνα, και τα αντικείμενα/περιοχές μέσα σε αυτήν την εικόνα, μπορούν να ταξινομηθούν, τα δεδομένα που αποτελούν αυτήν την εικόνα πρέπει να ερμηνευθούν από τον υπολογιστή. Οι εικόνες πρέπει να υποστούν προεπεξεργασία και να προετοιμαστούν για εισαγωγή στον αλγόριθμο ταξινόμησης, και αυτό γίνεται μέσω της ανίχνευσης αντικειμένων. Αυτό είναι ένα κρίσιμο μέρος της προετοιμασίας των δεδομένων και της προετοιμασίας των εικόνων για την εκπαίδευση του ταξινομητή μηχανικής εκμάθησης.

Η ανίχνευση αντικειμένων γίνεται με μια ποικιλία μεθόδων και τεχνικών. Αρχικά, το εάν υπάρχουν πολλά αντικείμενα ενδιαφέροντος ή ένα μεμονωμένο αντικείμενο ενδιαφέροντος επηρεάζει τον τρόπο με τον οποίο γίνεται η προεπεξεργασία της εικόνας. Εάν υπάρχει μόνο ένα αντικείμενο ενδιαφέροντος, η εικόνα υφίσταται εντοπισμό εικόνας. Τα εικονοστοιχεία που αποτελούν την εικόνα έχουν αριθμητικές τιμές που ερμηνεύονται από τον υπολογιστή και χρησιμοποιούνται για την εμφάνιση των κατάλληλων χρωμάτων και αποχρώσεων. Ένα αντικείμενο γνωστό ως πλαίσιο οριοθέτησης σχεδιάζεται γύρω από το αντικείμενο ενδιαφέροντος, το οποίο βοηθά τον υπολογιστή να γνωρίζει ποιο μέρος της εικόνας είναι σημαντικό και ποιες τιμές pixel καθορίζουν το αντικείμενο. Εάν υπάρχουν πολλά αντικείμενα ενδιαφέροντος στην εικόνα, χρησιμοποιείται μια τεχνική που ονομάζεται ανίχνευση αντικειμένων για την εφαρμογή αυτών των οριοθετημένων πλαισίων σε όλα τα αντικείμενα μέσα στην εικόνα.

Φωτογραφία: Adrian Rosebrock μέσω Wikimedia Commons, CC BY SA 4.0 (https://commons.wikimedia.org/wiki/File:Intersection_over_Union_-_object_detection_bounding_boxes.jpg)

Μια άλλη μέθοδος προεπεξεργασίας είναι η κατάτμηση εικόνας. Η τμηματοποίηση εικόνας λειτουργεί διαιρώντας ολόκληρη την εικόνα σε τμήματα με βάση παρόμοια χαρακτηριστικά. Διαφορετικές περιοχές της εικόνας θα έχουν παρόμοιες τιμές εικονοστοιχείων σε σύγκριση με άλλες περιοχές της εικόνας, επομένως αυτά τα εικονοστοιχεία ομαδοποιούνται σε μάσκες εικόνας που αντιστοιχούν στο σχήμα και τα όρια των σχετικών αντικειμένων μέσα στην εικόνα. Η τμηματοποίηση εικόνας βοηθά τον υπολογιστή να απομονώσει τα χαρακτηριστικά της εικόνας που θα τον βοηθήσουν να ταξινομήσει ένα αντικείμενο, όπως κάνουν τα πλαίσια οριοθέτησης, αλλά παρέχουν πολύ πιο ακριβείς ετικέτες σε επίπεδο pixel.

Αφού ολοκληρωθεί η ανίχνευση αντικειμένων ή η τμηματοποίηση εικόνας, οι ετικέτες εφαρμόζονται στις εν λόγω περιοχές. Αυτές οι ετικέτες τροφοδοτούνται, μαζί με τις τιμές των pixel που αποτελούν το αντικείμενο, στους αλγόριθμους μηχανικής εκμάθησης που θα μάθουν μοτίβα που σχετίζονται με τις διαφορετικές ετικέτες.

Αλγόριθμοι Μηχανικής Μάθησης

Μόλις προετοιμαστούν και επισημανθούν τα δεδομένα, τα δεδομένα τροφοδοτούνται σε έναν αλγόριθμο μηχανικής μάθησης, ο οποίος εκπαιδεύεται στα δεδομένα. Θα καλύψουμε μερικά από τα πιο κοινά είδη μηχανικής εκμάθησης αλγόριθμοι ταξινόμησης εικόνων παρακάτω.

K-Κοντινότεροι γείτονες

Το K-Nearest Neighbors είναι ένας αλγόριθμος ταξινόμησης που εξετάζει τα πλησιέστερα παραδείγματα εκπαίδευσης και εξετάζει τις ετικέτες τους για να εξακριβώσει την πιο πιθανή ετικέτα για ένα δεδομένο παράδειγμα δοκιμής. Όταν πρόκειται για ταξινόμηση εικόνων με χρήση KNN, τα διανύσματα χαρακτηριστικών και οι ετικέτες των εικόνων εκπαίδευσης αποθηκεύονται και μόνο το διάνυσμα χαρακτηριστικών περνά στον αλγόριθμο κατά τη διάρκεια της δοκιμής. Στη συνέχεια, τα διανύσματα χαρακτηριστικών εκπαίδευσης και δοκιμής συγκρίνονται μεταξύ τους για ομοιότητα.

Οι αλγόριθμοι ταξινόμησης που βασίζονται στο KNN είναι εξαιρετικά απλοί και αντιμετωπίζουν πολλές κλάσεις αρκετά εύκολα. Ωστόσο, το KNN υπολογίζει την ομοιότητα με βάση όλα τα χαρακτηριστικά εξίσου. Αυτό σημαίνει ότι μπορεί να είναι επιρρεπής σε εσφαλμένη ταξινόμηση όταν παρέχεται με εικόνες όπου μόνο ένα υποσύνολο χαρακτηριστικών είναι σημαντικό για την ταξινόμηση της εικόνας.

Υποστηρικτικές μηχανές υποστήριξης

Οι Μηχανές Διανυσμάτων Υποστήριξης είναι μια μέθοδος ταξινόμησης που τοποθετεί σημεία στο χώρο και στη συνέχεια σχεδιάζει διαχωριστικές γραμμές μεταξύ των σημείων, τοποθετώντας αντικείμενα σε διαφορετικές κατηγορίες ανάλογα με την πλευρά του διαχωριστικού επιπέδου στην οποία πέφτουν τα σημεία. Οι Μηχανές Διανυσμάτων Υποστήριξης είναι ικανές να κάνουν μη γραμμική ταξινόμηση μέσω της χρήσης μιας τεχνικής γνωστής ως κόλπο του πυρήνα. Ενώ οι ταξινομητές SVM είναι συχνά πολύ ακριβείς, ένα σημαντικό μειονέκτημα των ταξινομητών SVM είναι ότι τείνουν να περιορίζονται τόσο από το μέγεθος όσο και από την ταχύτητα, με την ταχύτητα να υποφέρει καθώς αυξάνεται το μέγεθος.

Πολυστρωματικά Perceptrons (Νευρωνικά Δίκτυα)

Τα πολυστρωματικά perceptrons, που ονομάζονται επίσης μοντέλα νευρωνικών δικτύων, είναι αλγόριθμοι μηχανικής μάθησης εμπνευσμένοι από τον ανθρώπινο εγκέφαλο. Τα πολυστρωματικά perceptrons αποτελούνται από διάφορα στρώματα που είναι ενωμένα μεταξύ τους, όπως οι νευρώνες στον ανθρώπινο εγκέφαλο συνδέονται μεταξύ τους. Τα νευρωνικά δίκτυα κάνουν υποθέσεις σχετικά με το πώς τα χαρακτηριστικά εισόδου σχετίζονται με τις κλάσεις των δεδομένων και αυτές οι υποθέσεις προσαρμόζονται κατά τη διάρκεια της εκπαίδευσης. Τα απλά μοντέλα νευρωνικών δικτύων όπως το πολυστρωματικό perceptron είναι ικανά να μαθαίνουν μη γραμμικές σχέσεις και ως αποτέλεσμα μπορούν να είναι πολύ πιο ακριβή από άλλα μοντέλα. Ωστόσο, τα μοντέλα MLP υποφέρουν από ορισμένα αξιοσημείωτα προβλήματα όπως η παρουσία μη κυρτών συναρτήσεων απώλειας.

Αλγόριθμοι βαθιάς μάθησης (CNN)

Φωτογραφία: APhex34 μέσω Wikimedia Commons, CC BY SA 4.0 (https://commons.wikimedia.org/wiki/File:Typical_cnn.png)

Ο πιο συχνά χρησιμοποιούμενος αλγόριθμος ταξινόμησης εικόνων τα τελευταία χρόνια είναι το Συνελικτικό Νευρωνικό Δίκτυο (CNN). Τα CNN είναι προσαρμοσμένες εκδόσεις νευρωνικών δικτύων που συνδυάζουν τα πολυεπίπεδα νευρωνικά δίκτυα με εξειδικευμένα επίπεδα που είναι ικανά να εξάγουν τα πιο σημαντικά και σχετικά χαρακτηριστικά για την ταξινόμηση ενός αντικειμένου. Τα CNN μπορούν αυτόματα να ανακαλύπτουν, να δημιουργούν και να μαθαίνουν χαρακτηριστικά εικόνων. Αυτό μειώνει σημαντικά την ανάγκη χειροκίνητης επισήμανσης και τμηματοποίησης εικόνων για την προετοιμασία τους για αλγόριθμους μηχανικής εκμάθησης. Έχουν επίσης ένα πλεονέκτημα έναντι των δικτύων MLP επειδή μπορούν να αντιμετωπίσουν μη κυρτές συναρτήσεις απώλειας.

Τα συνελικτικά νευρωνικά δίκτυα παίρνουν το όνομά τους από το γεγονός ότι δημιουργούν «συνελίξεις». Τα CNN λειτουργούν παίρνοντας ένα φίλτρο και σύροντάς το πάνω από μια εικόνα. Μπορείτε να το σκεφτείτε αυτό ως προβολή τμημάτων ενός τοπίου μέσω ενός κινούμενου παραθύρου, εστιάζοντας μόνο στα χαρακτηριστικά που είναι ορατά από το παράθυρο ανά πάσα στιγμή. Το φίλτρο περιέχει αριθμητικές τιμές που πολλαπλασιάζονται με τις τιμές των ίδιων των pixel. Το αποτέλεσμα είναι ένα νέο πλαίσιο, ή μήτρα, γεμάτο αριθμούς που αντιπροσωπεύουν την αρχική εικόνα. Αυτή η διαδικασία επαναλαμβάνεται για έναν επιλεγμένο αριθμό φίλτρων και στη συνέχεια τα καρέ ενώνονται σε μια νέα εικόνα που είναι ελαφρώς μικρότερη και λιγότερο περίπλοκη από την αρχική εικόνα. Μια τεχνική που ονομάζεται ομαδοποίηση χρησιμοποιείται για την επιλογή μόνο των πιο σημαντικών τιμών μέσα στην εικόνα και ο στόχος είναι τα συνελικτικά στρώματα να εξαγάγουν τελικά μόνο τα πιο σημαντικά μέρη της εικόνας που θα βοηθήσουν το νευρωνικό δίκτυο να αναγνωρίσει τα αντικείμενα στην εικόνα.

Συγκεντρωτικά νευρωνικά δίκτυα αποτελούνται από δύο διαφορετικά μέρη. Τα συνελικτικά επίπεδα είναι αυτά που εξάγουν τα χαρακτηριστικά της εικόνας και τα μετατρέπουν σε μια μορφή από την οποία τα στρώματα του νευρικού δικτύου μπορούν να ερμηνεύσουν και να μάθουν. Τα πρώτα συνελικτικά στρώματα είναι υπεύθυνα για την εξαγωγή των πιο βασικών στοιχείων της εικόνας, όπως απλές γραμμές και όρια. Τα μεσαία συνελικτικά στρώματα αρχίζουν να αποτυπώνουν πιο περίπλοκα σχήματα, όπως απλές καμπύλες και γωνίες. Τα μεταγενέστερα, βαθύτερα συνελικτικά στρώματα εξάγουν τα χαρακτηριστικά υψηλού επιπέδου της εικόνας, τα οποία είναι αυτά που περνούν στο τμήμα νευρωνικού δικτύου του CNN, και είναι αυτά που μαθαίνει ο ταξινομητής.

Blogger και προγραμματιστής με ειδικότητες στο Μηχανική μάθηση και Βαθιά μάθηση Θέματα. Ο Daniel ελπίζει να βοηθήσει άλλους να χρησιμοποιήσουν τη δύναμη της τεχνητής νοημοσύνης για κοινωνικό καλό.