- Ορολογία (Α έως Δ)
- Έλεγχος ικανότητας AI
- AI Ops
- Λεύκωμα
- Απόδοση περιουσιακών στοιχείων
- Αυτόματος κωδικοποιητής
- Ο πίσω πολλαπλασιασμός
- Θεώρημα Bayes
- Big Data
- Chatbot: Ένας οδηγός για αρχάριους
- Υπολογιστική σκέψη
- Computer Vision
- Πίνακας σύγχυσης
- Συγκεντρωτικά νευρωνικά δίκτυα
- Κυβερνασφάλεια
- Ύφασμα δεδομένων
- Αφήγηση δεδομένων
- Επιστήμη δεδομένων
- Αποθήκευση δεδομένων
- Δέντρο απόφασης
- Deepfakes
- Βαθιά μάθηση
- Εκμάθηση βαθιάς ενίσχυσης
- αναπτύσσει
- DevSecOps
- Μοντέλα Διάχυσης
- Ψηφιακή Twin
- Μείωση διαστάσεων
- Ορολογία (Ε έως Κ)
- Edge AI
- Συγκίνηση AI
- Εκμάθηση συνόλου
- Ηθική Hacking
- ETL
- Επεξήγηση AI
- Ομοσπονδιακή μάθηση
- FinOps
- Παραγωγική τεχνητή νοημοσύνη
- Δημιουργικό αντιπολιτευτικό δίκτυο
- Γεννητικό εναντίον Διακριτικού
- Ενίσχυση κλίσης
- Κάθοδος κλίσης
- Εκμάθηση λίγων βολών
- Ταξινόμηση εικόνας
- Λειτουργίες πληροφορικής (ITOps)
- Αυτοματισμός Συμβάντων
- Μηχανική επιρροής
- Ομαδοποίηση K-Means
- K-Κοντινότεροι γείτονες
- Ορολογία (L έως Q)
- Ορολογία (R έως Z)
- Μάθηση Ενίσχυσης
- Υπεύθυνη τεχνητή νοημοσύνη
- RLHF
- Αυτοματοποίηση ρομποτικών διαδικασιών
- Δομημένο vs Μη δομημένο
- Ανάλυση συναισθημάτων
- Εποπτευόμενος vs Χωρίς επίβλεψη
- Υποστηρικτικές μηχανές υποστήριξης
- Συνθετικά δεδομένα
- Συνθετικά Μέσα
- Ταξινόμηση κειμένου
- TinyML
- Μεταφορά μάθησης
- Μετασχηματιστές Νευρωνικά Δίκτυα
- Δοκιμή Turing
- Αναζήτηση ομοιότητας φορέα
AI 101
Τι είναι το Computer Vision;
Πίνακας περιεχομένων
Τι είναι το Computer Vision;
Οι αλγόριθμοι υπολογιστικής όρασης είναι ένα από τα πιο μετασχηματιστικά και ισχυρά συστήματα τεχνητής νοημοσύνης στον κόσμο αυτή τη στιγμή. Συστήματα όρασης υπολογιστή δείτε χρήση σε αυτόνομα οχήματα, πλοήγηση ρομπότ, συστήματα αναγνώρισης προσώπου και άλλα. Ωστόσο, τι είναι ακριβώς οι αλγόριθμοι υπολογιστικής όρασης; Πώς λειτουργούν; Για να απαντήσουμε σε αυτές τις ερωτήσεις, θα βουτήξουμε βαθιά στη θεωρία πίσω από την όραση υπολογιστή, τους αλγόριθμους όρασης υπολογιστών και τις εφαρμογές για συστήματα όρασης υπολογιστών.
Πώς λειτουργούν τα συστήματα Computer Vision;
Προκειμένου να κατανοήσουμε πλήρως τον τρόπο λειτουργίας των συστημάτων υπολογιστικής όρασης, ας αφιερώσουμε πρώτα λίγο χρόνο για να συζητήσουμε πώς οι άνθρωποι αναγνωρίζουν τα αντικείμενα. Η καλύτερη εξήγηση που έχει η νευροψυχολογία για το πώς αναγνωρίζουμε τα αντικείμενα είναι ένα μοντέλο που περιγράφει την αρχική φάση του αναγνώριση αντικειμένου ως ένα όπου τα βασικά συστατικά των αντικειμένων, όπως η μορφή, το χρώμα και το βάθος ερμηνεύονται πρώτα από τον εγκέφαλο. Τα σήματα από το μάτι που εισέρχονται στον εγκέφαλο αναλύονται για να τραβήξουν πρώτα τις άκρες ενός αντικειμένου και αυτές οι άκρες ενώνονται μεταξύ τους σε μια πιο περίπλοκη αναπαράσταση που ολοκληρώνει τη μορφή του αντικειμένου.
Τα συστήματα υπολογιστικής όρασης λειτουργούν πολύ παρόμοια με το ανθρώπινο οπτικό σύστημα, διακρίνοντας πρώτα τις άκρες ενός αντικειμένου και στη συνέχεια ενώνοντας αυτές τις άκρες μεταξύ τους στη μορφή του αντικειμένου. Η μεγάλη διαφορά είναι ότι επειδή οι υπολογιστές ερμηνεύουν τις εικόνες ως αριθμούς, ένα σύστημα όρασης υπολογιστή χρειάζεται κάποιο τρόπο για να ερμηνεύσει τα μεμονωμένα pixel που αποτελούν την εικόνα. Το σύστημα όρασης υπολογιστή θα εκχωρήσει τιμές στα εικονοστοιχεία της εικόνας και εξετάζοντας τη διαφορά τιμών μεταξύ μιας περιοχής εικονοστοιχείων και μιας άλλης περιοχής εικονοστοιχείων, ο υπολογιστής μπορεί να διακρίνει τις άκρες. Για παράδειγμα, εάν η εν λόγω εικόνα είναι σε κλίμακα του γκρι, τότε οι τιμές θα κυμαίνονται από μαύρο (που αντιπροσωπεύεται από 0) έως λευκό (αντιπροσωπεύεται από 255). Μια ξαφνική αλλαγή στο εύρος τιμών των pixel το ένα κοντά στο άλλο θα υποδηλώνει μια άκρη.
Αυτή η βασική αρχή της σύγκρισης τιμών pixel μπορεί επίσης να γίνει με έγχρωμες εικόνες, με τον υπολογιστή να συγκρίνει τις διαφορές μεταξύ των διαφορετικών καναλιών χρώματος RGB. Γνωρίστε λοιπόν ότι γνωρίζουμε πώς ένα σύστημα όρασης υπολογιστή εξετάζει τις τιμές των pixel για να ερμηνεύσει μια εικόνα, ας ρίξουμε μια ματιά στην αρχιτεκτονική ενός συστήματος όρασης υπολογιστή.
Συγκροτήματα Νευρωνικά Δίκτυα (CNN)
Ο κύριος τύπος τεχνητής νοημοσύνης που χρησιμοποιείται σε εργασίες όρασης υπολογιστή είναι ένας βασίζεται σε συνελικτικά νευρωνικά δίκτυα. Τι είναι ακριβώς η συνέλιξη;
Οι συνέλιξεις είναι μαθηματικές διαδικασίες που χρησιμοποιεί το δίκτυο για να καθορίσει τη διαφορά στις τιμές μεταξύ των pixel. Εάν οραματίζεστε ένα πλέγμα τιμών pixel, απεικονίστε ένα μικρότερο πλέγμα να μετακινείται πάνω από αυτό το κύριο πλέγμα. Οι τιμές κάτω από το δεύτερο πλέγμα αναλύονται από το δίκτυο, επομένως το δίκτυο εξετάζει μόνο μια χούφτα pixel τη φορά. Αυτό ονομάζεται συχνά τεχνική "συρόμενα παράθυρα". Οι τιμές που αναλύονται από το συρόμενο παράθυρο συνοψίζονται από το δίκτυο, γεγονός που συμβάλλει στη μείωση της πολυπλοκότητας της εικόνας και διευκολύνει το δίκτυο να εξάγει μοτίβα.
Τα συνελικτικά νευρωνικά δίκτυα είναι χωρίζεται σε δύο διαφορετικές ενότητες, το συνελικτικό τμήμα και το πλήρως συνδεδεμένο τμήμα. Τα συνελικτικά στρώματα του δικτύου είναι οι εξαγωγείς χαρακτηριστικών, των οποίων η δουλειά είναι να αναλύουν τα pixel μέσα στην εικόνα και να σχηματίζουν αναπαραστάσεις τους από τις οποίες τα πυκνά συνδεδεμένα στρώματα του νευρωνικού δικτύου μπορούν να μάθουν μοτίβα. Τα συνελικτικά επίπεδα ξεκινούν απλώς εξετάζοντας τα εικονοστοιχεία και εξάγοντας τα χαρακτηριστικά χαμηλού επιπέδου της εικόνας όπως άκρες. Αργότερα συνελικτικά στρώματα ενώνουν τις άκρες μεταξύ τους σε πιο περίπλοκα σχήματα. Μέχρι το τέλος, το δίκτυο ελπίζουμε ότι θα έχει μια αναπαράσταση των άκρων και των λεπτομερειών της εικόνας που μπορεί να περάσει στα πλήρως συνδεδεμένα επίπεδα.
Σχολιασμός εικόνας
Ενώ ένα συνελικτικό νευρωνικό δίκτυο μπορεί να εξάγει μοτίβα από εικόνες από μόνο του, η ακρίβεια του συστήματος όρασης υπολογιστή μπορεί να βελτιωθεί σημαντικά με τον σχολιασμό των εικόνων. Σχολιασμός εικόνας είναι η διαδικασία προσθήκης μεταδεδομένων στην εικόνα που βοηθά τον ταξινομητή να ανιχνεύσει σημαντικά αντικείμενα στην εικόνα. Η χρήση σχολιασμού εικόνας είναι σημαντική κάθε φορά που τα συστήματα υπολογιστικής όρασης πρέπει να είναι υψηλής ακρίβειας, όπως κατά τον έλεγχο ενός αυτόνομου οχήματος ή ρομπότ.
Υπάρχουν διάφοροι τρόποι με τους οποίους οι εικόνες μπορούν να σχολιαστούν για τη βελτίωση της απόδοσης ενός ταξινομητή όρασης υπολογιστή. Ο σχολιασμός εικόνας γίνεται συχνά με οριοθετημένα πλαίσια, ένα πλαίσιο που περιβάλλει τις άκρες του αντικειμένου στόχου και λέει στον υπολογιστή να εστιάσει την προσοχή του μέσα στο πλαίσιο. Η σημασιολογική τμηματοποίηση είναι ένας άλλος τύπος σχολιασμού εικόνας, ο οποίος λειτουργεί με την ανάθεση μιας κλάσης εικόνας σε κάθε εικονοστοιχείο μιας εικόνας. Με άλλα λόγια, κάθε εικονοστοιχείο που θα μπορούσε να θεωρηθεί «γρασίδι» ή «δέντρα» θα επισημαίνεται ότι ανήκει σε αυτές τις κατηγορίες. Η τεχνική παρέχει ακρίβεια σε επίπεδο pixel, αλλά η δημιουργία σχολιασμών σημασιολογικής τμηματοποίησης είναι πιο περίπλοκη και χρονοβόρα από τη δημιουργία απλών πλαισίων οριοθέτησης. Υπάρχουν επίσης και άλλες μέθοδοι σχολιασμού, όπως γραμμές και σημεία.
Blogger και προγραμματιστής με ειδικότητες στο Μηχανική μάθηση και Βαθιά μάθηση Θέματα. Ο Daniel ελπίζει να βοηθήσει άλλους να χρησιμοποιήσουν τη δύναμη της τεχνητής νοημοσύνης για κοινωνικό καλό.
Μπορεί να σου αρέσει
Instant-Style: Style-Preservation στη δημιουργία κειμένου σε εικόνα
Άρλινγκτον, Βιρτζίνια: Αναδύεται ως νέα δύναμη στην καινοτομία AI
POKELLMON: A Human-Parity Agent for Pokemon Battles with LLMs
Οπτική Αυτοπαλινδρομική Μοντελοποίηση: Κλιμακούμενη Δημιουργία Εικόνων μέσω Πρόβλεψης Επόμενης Κλίμακας
InstructIR: Υψηλής ποιότητας αποκατάσταση εικόνας ακολουθώντας τις οδηγίες του ανθρώπου
DynamiCrafter: Κίνηση εικόνων ανοιχτού τομέα με προηγούμενα βίντεο διάχυσης