AI 101

Τι είναι το Computer Vision;

Ενημερώθηκε on Ιούλιος 21, 2023

Τι είναι το Computer Vision;

Οι αλγόριθμοι υπολογιστικής όρασης είναι ένα από τα πιο μετασχηματιστικά και ισχυρά συστήματα τεχνητής νοημοσύνης στον κόσμο αυτή τη στιγμή. Συστήματα όρασης υπολογιστή δείτε χρήση σε αυτόνομα οχήματα, πλοήγηση ρομπότ, συστήματα αναγνώρισης προσώπου και άλλα. Ωστόσο, τι είναι ακριβώς οι αλγόριθμοι υπολογιστικής όρασης; Πώς λειτουργούν; Για να απαντήσουμε σε αυτές τις ερωτήσεις, θα βουτήξουμε βαθιά στη θεωρία πίσω από την όραση υπολογιστή, τους αλγόριθμους όρασης υπολογιστών και τις εφαρμογές για συστήματα όρασης υπολογιστών.

Πώς λειτουργούν τα συστήματα Computer Vision;

Προκειμένου να κατανοήσουμε πλήρως τον τρόπο λειτουργίας των συστημάτων υπολογιστικής όρασης, ας αφιερώσουμε πρώτα λίγο χρόνο για να συζητήσουμε πώς οι άνθρωποι αναγνωρίζουν τα αντικείμενα. Η καλύτερη εξήγηση που έχει η νευροψυχολογία για το πώς αναγνωρίζουμε τα αντικείμενα είναι ένα μοντέλο που περιγράφει την αρχική φάση του αναγνώριση αντικειμένου ως ένα όπου τα βασικά συστατικά των αντικειμένων, όπως η μορφή, το χρώμα και το βάθος ερμηνεύονται πρώτα από τον εγκέφαλο. Τα σήματα από το μάτι που εισέρχονται στον εγκέφαλο αναλύονται για να τραβήξουν πρώτα τις άκρες ενός αντικειμένου και αυτές οι άκρες ενώνονται μεταξύ τους σε μια πιο περίπλοκη αναπαράσταση που ολοκληρώνει τη μορφή του αντικειμένου.

Τα συστήματα υπολογιστικής όρασης λειτουργούν πολύ παρόμοια με το ανθρώπινο οπτικό σύστημα, διακρίνοντας πρώτα τις άκρες ενός αντικειμένου και στη συνέχεια ενώνοντας αυτές τις άκρες μεταξύ τους στη μορφή του αντικειμένου. Η μεγάλη διαφορά είναι ότι επειδή οι υπολογιστές ερμηνεύουν τις εικόνες ως αριθμούς, ένα σύστημα όρασης υπολογιστή χρειάζεται κάποιο τρόπο για να ερμηνεύσει τα μεμονωμένα pixel που αποτελούν την εικόνα. Το σύστημα όρασης υπολογιστή θα εκχωρήσει τιμές στα εικονοστοιχεία της εικόνας και εξετάζοντας τη διαφορά τιμών μεταξύ μιας περιοχής εικονοστοιχείων και μιας άλλης περιοχής εικονοστοιχείων, ο υπολογιστής μπορεί να διακρίνει τις άκρες. Για παράδειγμα, εάν η εν λόγω εικόνα είναι σε κλίμακα του γκρι, τότε οι τιμές θα κυμαίνονται από μαύρο (που αντιπροσωπεύεται από 0) έως λευκό (αντιπροσωπεύεται από 255). Μια ξαφνική αλλαγή στο εύρος τιμών των pixel το ένα κοντά στο άλλο θα υποδηλώνει μια άκρη.

Αυτή η βασική αρχή της σύγκρισης τιμών pixel μπορεί επίσης να γίνει με έγχρωμες εικόνες, με τον υπολογιστή να συγκρίνει τις διαφορές μεταξύ των διαφορετικών καναλιών χρώματος RGB. Γνωρίστε λοιπόν ότι γνωρίζουμε πώς ένα σύστημα όρασης υπολογιστή εξετάζει τις τιμές των pixel για να ερμηνεύσει μια εικόνα, ας ρίξουμε μια ματιά στην αρχιτεκτονική ενός συστήματος όρασης υπολογιστή.

Συγκροτήματα Νευρωνικά Δίκτυα (CNN)

Ο κύριος τύπος τεχνητής νοημοσύνης που χρησιμοποιείται σε εργασίες όρασης υπολογιστή είναι ένας βασίζεται σε συνελικτικά νευρωνικά δίκτυα. Τι είναι ακριβώς η συνέλιξη;

Οι συνέλιξεις είναι μαθηματικές διαδικασίες που χρησιμοποιεί το δίκτυο για να καθορίσει τη διαφορά στις τιμές μεταξύ των pixel. Εάν οραματίζεστε ένα πλέγμα τιμών pixel, απεικονίστε ένα μικρότερο πλέγμα να μετακινείται πάνω από αυτό το κύριο πλέγμα. Οι τιμές κάτω από το δεύτερο πλέγμα αναλύονται από το δίκτυο, επομένως το δίκτυο εξετάζει μόνο μια χούφτα pixel τη φορά. Αυτό ονομάζεται συχνά τεχνική "συρόμενα παράθυρα". Οι τιμές που αναλύονται από το συρόμενο παράθυρο συνοψίζονται από το δίκτυο, γεγονός που συμβάλλει στη μείωση της πολυπλοκότητας της εικόνας και διευκολύνει το δίκτυο να εξάγει μοτίβα.

Τα συνελικτικά νευρωνικά δίκτυα είναι χωρίζεται σε δύο διαφορετικές ενότητες, το συνελικτικό τμήμα και το πλήρως συνδεδεμένο τμήμα. Τα συνελικτικά στρώματα του δικτύου είναι οι εξαγωγείς χαρακτηριστικών, των οποίων η δουλειά είναι να αναλύουν τα pixel μέσα στην εικόνα και να σχηματίζουν αναπαραστάσεις τους από τις οποίες τα πυκνά συνδεδεμένα στρώματα του νευρωνικού δικτύου μπορούν να μάθουν μοτίβα. Τα συνελικτικά επίπεδα ξεκινούν απλώς εξετάζοντας τα εικονοστοιχεία και εξάγοντας τα χαρακτηριστικά χαμηλού επιπέδου της εικόνας όπως άκρες. Αργότερα συνελικτικά στρώματα ενώνουν τις άκρες μεταξύ τους σε πιο περίπλοκα σχήματα. Μέχρι το τέλος, το δίκτυο ελπίζουμε ότι θα έχει μια αναπαράσταση των άκρων και των λεπτομερειών της εικόνας που μπορεί να περάσει στα πλήρως συνδεδεμένα επίπεδα.

Σχολιασμός εικόνας

Ενώ ένα συνελικτικό νευρωνικό δίκτυο μπορεί να εξάγει μοτίβα από εικόνες από μόνο του, η ακρίβεια του συστήματος όρασης υπολογιστή μπορεί να βελτιωθεί σημαντικά με τον σχολιασμό των εικόνων. Σχολιασμός εικόνας είναι η διαδικασία προσθήκης μεταδεδομένων στην εικόνα που βοηθά τον ταξινομητή να ανιχνεύσει σημαντικά αντικείμενα στην εικόνα. Η χρήση σχολιασμού εικόνας είναι σημαντική κάθε φορά που τα συστήματα υπολογιστικής όρασης πρέπει να είναι υψηλής ακρίβειας, όπως κατά τον έλεγχο ενός αυτόνομου οχήματος ή ρομπότ.

Υπάρχουν διάφοροι τρόποι με τους οποίους οι εικόνες μπορούν να σχολιαστούν για τη βελτίωση της απόδοσης ενός ταξινομητή όρασης υπολογιστή. Ο σχολιασμός εικόνας γίνεται συχνά με οριοθετημένα πλαίσια, ένα πλαίσιο που περιβάλλει τις άκρες του αντικειμένου στόχου και λέει στον υπολογιστή να εστιάσει την προσοχή του μέσα στο πλαίσιο. Η σημασιολογική τμηματοποίηση είναι ένας άλλος τύπος σχολιασμού εικόνας, ο οποίος λειτουργεί με την ανάθεση μιας κλάσης εικόνας σε κάθε εικονοστοιχείο μιας εικόνας. Με άλλα λόγια, κάθε εικονοστοιχείο που θα μπορούσε να θεωρηθεί «γρασίδι» ή «δέντρα» θα επισημαίνεται ότι ανήκει σε αυτές τις κατηγορίες. Η τεχνική παρέχει ακρίβεια σε επίπεδο pixel, αλλά η δημιουργία σχολιασμών σημασιολογικής τμηματοποίησης είναι πιο περίπλοκη και χρονοβόρα από τη δημιουργία απλών πλαισίων οριοθέτησης. Υπάρχουν επίσης και άλλες μέθοδοι σχολιασμού, όπως γραμμές και σημεία.

Επόμενο

Τι είναι το Confusion Matrix;

Μην χάσετε

Τι είναι τα νευρωνικά δίκτυα;

Ντάνιελ Νέλσον

Blogger και προγραμματιστής με ειδικότητες στο Μηχανική μάθηση και Βαθιά μάθηση Θέματα. Ο Daniel ελπίζει να βοηθήσει άλλους να χρησιμοποιήσουν τη δύναμη της τεχνητής νοημοσύνης για κοινωνικό καλό.