Τεχνητή νοημοσύνη

Νέα τεχνική βοηθά το AI να αναγνωρίζει τρισδιάστατα αντικείμενα

Ενημερώθηκε on Δεκέμβριος 9, 2022

Εικόνα: NC State University

Μια νέα τεχνική που αναπτύχθηκε από ερευνητές στο North Carolina State University βελτιώνει την ικανότητα των προγραμμάτων τεχνητής νοημοσύνης (AI) να αναγνωρίζουν τρισδιάστατα αντικείμενα. Ονομάζεται MonoCon, η τεχνική βοηθά επίσης την τεχνητή νοημοσύνη να μάθει πώς σχετίζονται τα τρισδιάστατα αντικείμενα μεταξύ τους στο διάστημα χρησιμοποιώντας εικόνες 3D.

Το MonoCon θα μπορούσε ενδεχομένως να έχει ένα ευρύ φάσμα εφαρμογών, συμπεριλαμβανομένης της παροχής βοήθειας σε αυτόνομα οχήματα στην πλοήγηση σε άλλα οχήματα χρησιμοποιώντας εικόνες 2D που λαμβάνονται από μια ενσωματωμένη κάμερα. Θα μπορούσε επίσης να παίξει ρόλο στην κατασκευή και τη ρομποτική.

Ο Tianfu Wu είναι ο αντίστοιχος συγγραφέας του ερευνητική εργασία και επίκουρος καθηγητής ηλεκτρολογίας και μηχανικής υπολογιστών στο North Carolina State University.

«Ζούμε σε έναν τρισδιάστατο κόσμο, αλλά όταν τραβάτε μια φωτογραφία, καταγράφει αυτόν τον κόσμο σε μια 3D εικόνα», λέει ο Wu.

«Τα προγράμματα AI λαμβάνουν οπτική είσοδο από κάμερες. Επομένως, εάν θέλουμε η τεχνητή νοημοσύνη να αλληλεπιδρά με τον κόσμο, πρέπει να διασφαλίσουμε ότι είναι σε θέση να ερμηνεύσει τι μπορούν να της πουν οι εικόνες 2D για τον τρισδιάστατο χώρο. Σε αυτήν την έρευνα, εστιάζουμε σε ένα μέρος αυτής της πρόκλησης: πώς μπορούμε να κάνουμε την τεχνητή νοημοσύνη να αναγνωρίζει με ακρίβεια τρισδιάστατα αντικείμενα — όπως ανθρώπους ή αυτοκίνητα — σε εικόνες 3D και να τοποθετεί αυτά τα αντικείμενα στο διάστημα», συνεχίζει ο Wu.

Αυτόνομα οχήματα

Τα αυτόνομα οχήματα συχνά βασίζονται στο lidar για την πλοήγηση στον τρισδιάστατο χώρο. Το Lidar, το οποίο χρησιμοποιεί λέιζερ για τη μέτρηση της απόστασης, είναι ακριβό, πράγμα που σημαίνει ότι τα αυτόνομα συστήματα δεν περιλαμβάνουν πολύ πλεονασμό. Η τοποθέτηση δεκάδων αισθητήρων lidar σε ένα αυτοκίνητο μαζικής παραγωγής χωρίς οδηγό θα ήταν απίστευτα ακριβό.

«Αλλά εάν ένα αυτόνομο όχημα μπορούσε να χρησιμοποιήσει οπτικές εισόδους για να πλοηγηθεί στο διάστημα, θα μπορούσατε να δημιουργήσετε πλεονασμό», λέει ο Wu. «Επειδή οι κάμερες είναι σημαντικά λιγότερο δαπανηρές από το lidar, θα ήταν οικονομικά εφικτό να συμπεριληφθούν πρόσθετες κάμερες — δημιουργώντας πλεονασμό στο σύστημα και καθιστώντας το ασφαλέστερο και πιο ανθεκτικό.

«Αυτή είναι μια πρακτική εφαρμογή. Ωστόσο, είμαστε επίσης ενθουσιασμένοι με τη θεμελιώδη πρόοδο αυτής της εργασίας: ότι είναι δυνατή η λήψη τρισδιάστατων δεδομένων από 3D αντικείμενα.»

Εκπαίδευση του AI

Το MonoCon μπορεί να αναγνωρίσει τρισδιάστατα αντικείμενα σε 3D εικόνες πριν τα τοποθετήσει σε ένα «οριοθετημένο πλαίσιο», το οποίο λέει στο AI τις εξωτερικές άκρες του αντικειμένου.

«Αυτό που ξεχωρίζει τη δουλειά μας είναι ο τρόπος με τον οποίο εκπαιδεύουμε το AI, το οποίο βασίζεται σε προηγούμενες τεχνικές εκπαίδευσης», λέει ο Wu. «Όπως και οι προηγούμενες προσπάθειες, τοποθετούμε αντικείμενα σε 3D οριοθετημένα κουτιά ενώ εκπαιδεύουμε το AI. Ωστόσο, εκτός από το να ζητάμε από το AI να προβλέψει την απόσταση κάμερας προς αντικείμενο και τις διαστάσεις των πλαισίων οριοθέτησης, ζητάμε επίσης από το AI να προβλέψει τις θέσεις καθενός από τα οκτώ σημεία του κουτιού και την απόστασή του από το κέντρο του ορίου κουτί σε δύο διαστάσεις. Αυτό το ονομάζουμε «βοηθητικό πλαίσιο» και διαπιστώσαμε ότι βοηθά την τεχνητή νοημοσύνη να εντοπίζει και να προβλέπει με μεγαλύτερη ακρίβεια τρισδιάστατα αντικείμενα με βάση εικόνες 3D.

«Η προτεινόμενη μέθοδος υποκινείται από ένα πολύ γνωστό θεώρημα στη θεωρία μετρήσεων, το θεώρημα Cramér-Wold. Είναι επίσης δυνητικά εφαρμόσιμο σε άλλες εργασίες πρόβλεψης δομημένης εξόδου στην όραση υπολογιστή."

Το MonoCon δοκιμάστηκε με ένα ευρέως χρησιμοποιούμενο σύνολο δεδομένων αναφοράς που ονομάζεται KITTI.

«Την στιγμή που υποβάλαμε αυτό το έγγραφο, το MonoCon είχε καλύτερη απόδοση από οποιοδήποτε από τα δεκάδες άλλα προγράμματα τεχνητής νοημοσύνης που στοχεύουν στην εξαγωγή τρισδιάστατων δεδομένων σε αυτοκίνητα από εικόνες 3D», λέει ο Wu.

Η ομάδα θα προσπαθήσει τώρα να κλιμακώσει τη διαδικασία με μεγαλύτερα σύνολα δεδομένων.

"Προχωρώντας προς τα εμπρός, το κλιμακώνουμε και εργαζόμαστε με μεγαλύτερα σύνολα δεδομένων για να αξιολογήσουμε και να τελειοποιήσουμε το MonoCon για χρήση στην αυτόνομη οδήγηση", λέει ο Wu. «Θέλουμε επίσης να εξερευνήσουμε εφαρμογές στην κατασκευή, για να δούμε αν μπορούμε να βελτιώσουμε την απόδοση εργασιών όπως η χρήση ρομποτικών βραχιόνων».

Σχετικά θέματα:AI τεχνητή νοημοσύνη Αυτόνομα οχήματα

Επόμενο

The New CGI: Creating Neural Neighborhoods With Block-NeRF

Μην χάσετε

Η ερευνητική ομάδα αναπτύσσει τεχνική AI για την ανίχνευση τρισδιάστατων εκφράσεων προσώπου

Άλεξ ΜακΦάρλαντ

Ο Alex McFarland είναι δημοσιογράφος και συγγραφέας AI που εξερευνά τις τελευταίες εξελίξεις στην τεχνητή νοημοσύνη. Έχει συνεργαστεί με πολλές startups και εκδόσεις AI παγκοσμίως.