Τεχνητή νοημοσύνη

Μετατροπή LiDAR σε Φωτο-Πραγματική Εικόνα Με Ένα Γεννητικό Ανταγωνιστικό Δίκτυο

Published December 23, 2021

Updated April 26, 2026

Martin Anderson

Νωρίτερα αυτή την εβδομάδα, βίντεο κυκλοφόρησε εκδόθηκε που δείχνει ένα σύστημα αυτόματου πιλότου Tesla να συντρίβεται trực tiếp στο πλάι ενός σταματημένου οχήματος σε μια αυτοκινητόδρομο τον Ιούνιο του 2021. Το γεγονός ότι το αυτοκίνητο ήταν σκούρο και δύσκολο να διακριθεί έχει προκαλέσει συζήτηση σχετικά με τους περιορισμούς της εξάρτησης από την υπολογιστική όραση σε σενάρια αυτόνομης οδήγησης.

Βίντεο που κυκλοφόρησε τον Δεκέμβριο του 2021 δείχνει τη στιγμή της σύγκρουσης. Πηγή: https://twitter.com/greentheonly/status/1473307236952940548

Αν και η συμπίεση βίντεο στο ευρέως-μοιραζόμενο βίντεο δίνει μια ελαφρώς υπερβολική εντύπωση για το πόσο γρήγορα το ακινητοποιημένο φορτηγό ‘έπιασε’ τον οδηγό σε αυτή την περίπτωση, ένα υψηλότερης ποιότητας βίντεο της ίδιας εκδήλωσης δείχνει ότι ένας πλήρως-εγερμένος οδηγός θα είχε επίσης δυσκολευτεί να ανταποκριθεί με τίποτα άλλο παρά με ένα αργό στροφή ή ημι-αποτελεσματικό φρένο.

Το βίντεο προσθέτει στην tranhάρα γύρω από την απόφαση της Tesla να αφαιρέσει αισθητήρες ραντάρ για το Autopilot, που ανακοινώθηκε τον Μάιο του 2021, και τη στάση της για την προτίμηση σε συστήματα που βασίζονται στην όραση έναντι άλλων τεχνολογιών ηχο-τοποθέτησης, όπως το LiDAR.

Με σύμπτωση, μια νέα έρευνα από το Ισραήλ αυτή την εβδομάδα προσφέρει μια προσέγγιση για να συνδυάσει τα LiDAR και υπολογιστική όραση, μετατρέποντας LiDAR σημειακές νεφέλες σε φωτο-πραγματικές εικόνες με τη χρήση ενός Γεννητικού Ανταγωνιστικού Δικτύου (GAN).

Στο νέο έργο από το Ισραήλ, μαύρα αυτοκίνητα που αναγνωρίζονται σε LiDAR βίντεο μετατρέπονται σε σενάριο ‘ημέρας’ για αναλύσεις που βασίζονται στην υπολογιστική όραση, παρόμοιο με την προσέγγιση που ακολουθεί η Tesla για την ανάπτυξη του συστήματος Autopilot. Πηγή: https://arxiv.org/pdf/2112.11245.pdf

Οι συγγραφείς δηλώνουν:

‘Τα μοντέλα μας έμαθαν πώς να προβλέπουν πραγματικά εικόνες από απλές σημειακές νεφέλες, ακόμη και εικόνες με μαύρα αυτοκίνητα.

‘Τα μαύρα αυτοκίνητα είναι δύσκολο να ανιχνευτούν trực tiếp από σημειακές νεφέλες λόγω του χαμηλού επιπέδου ανακλαστικότητας. Αυτή η προσέγγιση μπορεί να χρησιμοποιηθεί στο μέλλον για να thực hiện αναγνώριση αντικειμένων σε φωτο-πραγματικές εικόνες που παράγονται από LiDAR σημειακές νεφέλες.’

Φωτο-Πραγματικές, LiDAR-Βάσεις Ροές Εικόνων

Το νέο έγγραφο έχει τον τίτλο Γεννήτριες Φωτο-Πραγματικών Εικόνων από LiDAR Σημειακές Νεφέλες με Γεννητικά Ανταγωνιστικά Δίκτυα, και προέρχεται από επτά ερευνητές σε τρεις ισραηλινές ακαδημαϊκές σχολές, μαζί με έξι ερευνητές από την Innoviz Technologies του Ισραήλ.

Οι ερευνητές έθεσαν ως στόχο να ανακαλύψουν αν GAN-βασισμένες συνθετικές εικόνες θα μπορούσαν να παραχθούν σε κατάλληλο ρυθμό από τις σημειακές νεφέλες που παράγονται από LiDAR συστήματα, ώστε η επόμενη ροή εικόνων να μπορούσε να χρησιμοποιηθεί σε αναγνώριση αντικειμένων και σεμαντική διαίρεση.

Δεδομένα

Η κεντρική ιδέα, όπως και σε πολλά νέα [x]>[x] εικόνα transliteration projects, είναι να εκπαιδεύσετε einen αλγόριθμο σε ζευγαρωμένα δεδομένα, όπου LiDAR σημειακές νεφέλες (οι οποίες βασίζονται σε φως που εκπέμπεται από τη συσκευή) εκπαιδεύονται ενάντια σε μια αντίστοιχη καρέ από μια κάμερα.

Εφόσον το βίντεο ήταν τραβηγμένο κατά τη διάρκεια της ημέρας, όπου ένα σύστημα υπολογιστικής όρασης μπορεί να individuate ένα αλλιώς-ελusive all-μαύρο όχημα (όπως αυτό που η Tesla έπληξε τον Ιούνιο), αυτή η εκπαίδευση θα πρέπει να παρέχει μια κεντρική αλήθεια που είναι πιο ανθεκτική σε σκοτεινές συνθήκες.

Τα δεδομένα συλλέχθηκαν με einen αισθητήρα LiDAR InnovizOne, ο οποίος προσφέρει einen ρυθμό καρέ 10fps ή 15fps, ανάλογα με το μοντέλο.

LiDAR δεδομένα που συλλέχθηκαν με einen αισθητήρα Innoviz. Πηγή: https://www.youtube.com/watch?v=wmcaf_VpsQI

Το αποτέλεσμα dataset περιείχε περίπου 30.000 εικόνες και 200.000 συλλεγμένα 3D σημεία. Οι ερευνητές διεξήγαγαν δύο πειράματα: ένα στο οποίο τα δεδομένα σημειακής νεφέλης μεταφέρονταν μόνο πληροφορίες ανακλαστικότητας, και ένα δεύτερο, στο οποίο τα δεδομένα σημειακής νεφέλης είχαν δύο κανάλια, ένα για ανακλαστικότητα και απόσταση.

Για το πρώτο πείραμα, το GAN εκπαιδεύτηκε για 50 επαναλήψεις, πέρα από το οποίο το overfitting ήταν ένα ζήτημα.

GAN-δημιουργημένες εικόνες από το πρώτο πείραμα. Στα αριστερά, δεδομένα σημειακής νεφέλης, στο κέντρο, πραγματικά καρέ από συλλεγμένο βίντεο, χρησιμοποιούμενο ως αλήθεια, δεξιά, οι συνθετικές αναπαραστάσεις που δημιουργούνται από το Γεννητικό Ανταγωνιστικό Δίκτυο.

Οι συγγραφείς σχολιάζουν:

‘Το σύνολο δοκιμής είναι μια完全 νέα καταγραφή που το GAN δεν έχει δει ποτέ πριν από τη δοκιμή. Αυτό προβλέφθηκε χρησιμοποιώντας μόνο πληροφορίες ανακλαστικότητας από τη σημειακή νεφέλη.

‘Επιλέξαμε να δείξουμε καρέ με μαύρα αυτοκίνητα επειδή τα μαύρα αυτοκίνητα είναι συνήθως δύσκολο να ανιχνευτούν από LiDAR. Μπορούμε να δούμε ότι ο γεννήτορας έμαθε να γεννήσει μαύρα αυτοκίνητα, πιθανότατα από контекουαλ πληροφορίες, επειδή τα χρώματα και οι ακριβείς μορφές αντικειμένων στις προβλεπόμενες εικόνες δεν είναι идентичны με τις πραγματικές εικόνες.’

Για το δεύτερο πείραμα, οι συγγραφείς εκπαίδευσαν το GAN για 40 επαναλήψεις με ένα μέγεθος batch 1, με αποτέλεσμα μια παρόμοια παρουσίαση ‘παραστατικών’ μαύρων αυτοκινήτων που λαμβάνονται κυρίως από контекουαλ.

Αυτή η διαμόρφωση χρησιμοποιήθηκε επίσης για να γεννήσει ένα βίντεο που δείχνει τις GAN-γεννημένες εικόνες (εικονιζόμενο πάνω, στη δείγμα εικόνα παρακάτω) μαζί με τις αλήθειες εικόνες.

Αξιολόγηση

Η συνήθης διαδικασία αξιολόγησης και σύγκρισης με υπάρχοντα state-of-the-art δεν ήταν δυνατή με αυτό το έργο, λόγω της μοναδικής φύσης του. Αντίθετα, οι ερευνητές σχεδίασαν einen προσαρμοσμένο μετρητή σχετικά με το βαθμό στον οποίο τα αυτοκίνητα (λεπτά και προσωρινά μέρη του πηγαίου βίντεο) αντιπροσωπεύονται στις εξοδικές εικόνες.

Επιλέξανε 100 ζευγάρια LiDAR/Γεννημένες εικόνες από κάθε σύνολο και διαιρέθηκαν τον αριθμό εικόνων αυτοκινήτων που υπάρχουν στο πηγαίο βίντεο με τον αριθμό που υπάρχει στα συνθετικά δεδομένα που παράγονται, παράγοντας einen μετρητή κλίμακας από 0 έως 1.

Οι συγγραφείς δηλώνουν:

‘Ο βαθμός και στα δύο πειράματα ήταν μεταξύ 0,7 και 0,8. Λαμβάνοντας υπόψη το γεγονός ότι η γενική ποιότητα των προβλεπόμενων εικόνων είναι χαμηλότερη από τις πραγματικές εικόνες (είναι πιο δύσκολο γενικά να ανιχνεύονται αντικείμενα σε χαμηλότερης ποιότητας εικόνες), αυτός ο βαθμός δείχνει ότι η πλειοψηφία των αυτοκινήτων που υπάρχουν στην αλήθεια υπάρχουν στις προβλεπόμενες εικόνες.’

Οι ερευνητές κατέληξαν στο συμπέρασμα ότι η ανίχνευση μαύρων οχημάτων, η οποία είναι ένα πρόβλημα και για τα συστήματα που βασίζονται στην υπολογιστική όραση και για το LiDAR, μπορεί να επηρεαστεί από την ανίχνευση ενός έλλειψης δεδομένων για τμήματα της εικόνας:

‘Το γεγονός ότι στις προβλεπόμενες εικόνες, οι πληροφορίες χρώματος και οι ακριβείς μορφές δεν είναι идентичны με την αλήθεια, υποδηλώνει ότι η πρόβλεψη μαύρων αυτοκινήτων είναι κυρίως παραγμένη από контекουαλ πληροφορίες και όχι από την ανακλαστικότητα των LiDAR σημείων τους ιδιών.’

‘Προτείνουμε ότι,除了 το συμβατικό LiDAR σύστημα, ένα δεύτερο σύστημα που γεννήτει φωτο-πραγματικές εικόνες από LiDAR σημειακές νεφέλες θα τρέξει ταυτόχρονα για αναγνώριση αντικειμένων σε πραγματικό χρόνο.’

Οι ερευνητές σκοπεύουν να αναπτύξουν το έργο στο μέλλον, με μεγαλύτερα δεδομένα.

Καθυστέρηση, και το Πλήρες SDV Επεξεργασίας Στάκτη

Ένας σχολιαστής στο πολύ-μοιραζόμενο tweet της σύγκρουσης του Autopilot εκτίμησε ότι, ταξιδεύοντας με περίπου 75mph (110 πόδια το δευτερόλεπτο), μια βίντεο ροή που λειτουργεί σε 20fps θα καλύπτει μόνο 5,5 πόδια ανά καρέ. Ωστόσο, αν το όχημα ήταν να τρέξει την τελευταία апаратного και λογισμικού της Tesla, ο ρυθμός καρέ θα ήταν 36fps (για την κύρια κάμερα), ο οποίος θέτει τον ρυθμό αξιολόγησης σε 110 πόδια το δευτερόλεπτο (τρία πόδια ανά καρέ).

Εκτός από το κόστος και την εргονομία, το πρόβλημα με τη χρήση LiDAR ως συμπληρωματικής ροής δεδομένων είναι το τεράστιο μέγεθος του ‘traffic jam’ των εισροών αισθητήρων στο SDV επεξεργασίας πλαισίου. Σε συνδυασμό με την κρίσιμη φύση της εργασίας, αυτό φαίνεται να έχει εξαναγκάσει το ραντάρ και το LiDAR έξω από το Autopilot στάκτη υπέρ μεθόδων αξιολόγησης που βασίζονται στην εικόνα.

Επομένως, φαίνεται απίθανο ότι ένα σύστημα που χρησιμοποιεί LiDAR – το οποίο από μόνο του θα πρόσθετε σε einen επεξεργαστικό μποτλνεκ στο Autopilot – για να συναγάγει φωτο-πραγματικές εικόνες είναι εφικτό από την πλευρά της Tesla.

Ο ιδρυτής της Tesla Elon Musk δεν είναι ένας κριτικός του LiDAR, το οποίο σημειώνει ότι χρησιμοποιείται από την SpaceX για διαδικασίες докαρίσματος, αλλά θεωρεί ότι η τεχνολογία είναι ‘άχρηστη’ για αυτοκίνητα χωρίς οδηγό. Ο Musk προτείνει ότι ένας διεισδυτικός ωκεανός, όπως το ~4mm της ακριβούς ραντάρ, θα ήταν πιο χρήσιμος.

Ωστόσο, από τον Ιούνιο του 2021, τα οχήματα της Tesla δεν είναι εξοπλισμένα με ραντάρ. Δεν υπάρχουν πολλά έργα που σχεδιάζονται για να γεννήσουν ροές εικόνων από ραντάρ με τον ίδιο τρόπο όπως το τρέχον ισραηλινό έργο (αν και το Υπουργείο Ενέργειας των ΗΠΑ χορήγησε ένα τέτοιο έργο για ραντάρ-πηγμένες GAN εικόνες το 2018).

Πρώτη δημοσίευση 23ης Δεκεμβρίου 2021.

Martin Anderson

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]