Τεχνητή νοημοσύνη

Δημιουργώντας Νευρωνικά Περιβάλλοντα Έρευνας και Διάσωσης με Mega-NeRF

Δημοσιεύτηκε 21 Δεκεμβρίου 2021

Ενημερώθηκε 24 Μαΐου 2026

Martin Anderson

Μια νέα ερευνητική συνεργασία μεταξύ του Carnegie Mellon και της εταιρείας αυτονομής οδήγησης Argo AI έχει αναπτύξει μια οικονομική μέθοδο για τη δημιουργία δυναμικών περιβαλλόντων εναέριας έρευνας και διάσωσης με βάση τα Νευρωνικά Πεδία Ραδιάνσεως (NeRF), χρησιμοποιώντας βίντεο που έχουν καταγραφεί από drones.

"Mega-NeRF

Η νέα προσέγγιση, που ονομάζεται Mega-NeRF, επιτυγχάνει μια ταχύτητα 40 φορές μεγαλύτερη σε σύγκριση με τον μέσο όρο των προτύπων απόδοσης των NeRF, καθώς και κάτι που είναι αξιοσημείωτα διαφορετικό από τα τυπικά 坦κς και ναούς που επαναλαμβάνονται σε νέες εργασίες NeRF.

Το νέο έγγραφο έχει τον τίτλο Mega-NeRF: Scalable Construction of Large-Scale NeRFs for Virtual Fly-Throughs, και προέρχεται από τρεις ερευνητές στο Carnegie Mellon, ένας από τους οποίους αντιπροσωπεύει επίσης την Argo AI.

Μοντελοποίηση Τοπίου NeRF για Έρευνα και Διάσωση

Οι συγγραφείς θεωρούν ότι η έρευνα και διάσωση (SAR) είναι μια πιθανή βέλτιστη περίπτωση χρήσης της τεχνικής τους. Όταν αξιολογούν ένα τοπίο SAR, τα drones περιορίζονται目前 από περιορισμούς εύρους ζώνης και ζωής της μπαταρίας, και δεν μπορούν συνήθως να λάβουν λεπτομερείς ή綜合ικές πληροφορίες πριν να πρέπει να επιστρέψουν στη βάση, στην οποία σημείο τα δεδομένα τους μετατρέπονται σε στατικές 2D αεροφωτογραφίες.

Οι συγγραφείς δηλώνουν:

‘Φανταζόμαστε ένα μέλλον στο οποίο η νευρωνική απόδοση ανυψώνει αυτήν την ανάλυση σε 3D, επιτρέποντας στις ομάδες ανταπόκρισης να ελέγξουν το πεδίο ως να ήταν να πετάξουν ένα drone σε πραγματικό χρόνο σε ένα επίπεδο λεπτομέρειας πολύ πέρα από αυτό που είναι δυνατό με την κλασική Σύνθεση-από-Κίνηση (SfM).’

Καθορισμένοι με αυτήν την περίπτωση χρήσης, οι συγγραφείς έχουν αναζητήσει να δημιουργήσουν ένα σύνθετο μοντέλο NeRF που μπορεί να εκπαιδευτεί μέσα σε μια μέρα, δεδομένου ότι η διάρκεια ζωής των επιζώντων στις επιχειρήσεις έρευνας και διάσωσης μειώνεται έως και 80% μέσα στις πρώτες 24 ώρες.

Οι συγγραφείς σημειώνουν ότι τα δεδομένα που έχουν συλλεχθεί από drones που είναι απαραίτητα για την εκπαίδευση ενός μοντέλου Mega-NeRF είναι ‘παραγγελίες μεγέθους’ μεγαλύτερα από ένα τυπικό σύνολο δεδομένων για NeRF, και ότι η ικανότητα του μοντέλου πρέπει να είναι αξιοσημείωτα υψηλότερη από την προεπιλογή ή την παραλλαγή του NeRF. Επιπλέον, η αλληλεπίδραση και η εξερεύνηση είναι απαραίτητες σε ένα χάρτη εδάφους έρευνας και διάσωσης, ενώ τα τυπικά πραγματικά NeRF αποδίδουν ένα πολύ πιο περιορισμένο εύρος προκατασκευασμένων δυνατών κινήσεων.

Διαίρεση και Κατάκτηση

Για να αντιμετωπίσουν αυτά τα προβλήματα, οι συγγραφείς δημιούργησαν einen γεωμετρικό αλγόριθμο ομαδοποίησης που διαιρεί την εργασία σε υπομονάδες, και δημιουργεί αποτελεσματικά μια матриξ υπο-NeRF που εκπαιδεύονται ταυτόχρονα.

Στο σημείο της απόδοσης, οι συγγραφείς εφαρμόζουν επίσης einen αλγόριθμο οπτικής απόδοσης σε πραγματικό χρόνο που είναι αρκετά ανταποκριτικός για να διευκολύνει πλήρη αλληλεπίδραση χωρίς υπερβολική προεπεξεργασία, παρόμοια με τον τρόπο που τα βιντεοπαιχνίδια θα αυξήσουν το λεπτομέρεια των αντικειμένων καθώς προσεγγίζουν την οπτική γωνία του χρήστη, αλλά τα οποία παραμένουν σε μια ενεργειακά αποταμιευτική και πιο πρωτότυπη κλίμακα όταν βρίσκονται σε απόσταση.

Αυτές οι οικονομίες, οι συγγραφείς ισχυρίζονται, οδηγούν σε καλύτερη λεπτομέρεια από τις προηγούμενες μεθόδους που προσπαθούν να αντιμετωπίσουν πολύ широкές περιοχές σε ένα διαδραστικό контέκστ. Σε σχέση με την εξαγωγή λεπτομέρειας από περιορισμένα βίντεο, οι συγγραφείς σημειώνουν επίσης την οπτική βελτίωση του Mega-NeRF σε σύγκριση με την αντίστοιχη λειτουργικότητα του UC Berkeley’s PlenOctrees.

Η χρήση της αλυσίδας υπο-NeRF στο έργο βασίζεται στις ικανότητες απόδοσης σε πραγματικό χρόνο του KiloNeRF, οι συγγραφείς αναγνωρίζουν. Ωστόσο, το Mega-NeRF απομακρύνεται από αυτήν την προσέγγιση πραγματοποιώντας ‘sharding’ (διακριτή μεταφορά των πτυχών μιας σκηνής) κατά την εκπαίδευση, αντί για την προσέγγιση του KiloNeRF, η οποία λαμβάνει μια ήδη υπολογισμένη σκηνή NeRF και μετατρέπει την σκηνή σε ένα εξερεύνησιμο χώρο.

Ένα διακριτό σύνολο εκπαίδευσης δημιουργείται για υπομονάδες, αποτελούμενο από pixels εικόνας εκπαίδευσης των οποίων η τροχιά μπορεί να εκτείνεται στο κελί που αντιπροσωπεύει. Συνεπώς, κάθε μονάδα εκπαιδεύεται完全чески ξεχωριστά από τις γειτονικές κελιά. Source: https://arxiv.org/pdf/2112.10703.pdf

Οι συγγραφείς χαρακτηρίζουν το Mega-NeRF ως ‘μια αναδιατύπωση της αρχιτεκτονικής NeRF που απο sparsifies συνδέσεις στρωμάτων σε μια χωρικά-ευαίσθητη manera, διευκολύνοντας βελτιώσεις αποδοτικότητας κατά την εκπαίδευση και την απόδοση’.

Σχέδιο σύγκρισης της εκπαίδευσης και της διακριτοποίησης δεδομένων σε NeRF, NeRF++, και Mega-NeRF. Source: https://meganerf.cmusatyalab.org/

Οι συγγραφείς ισχυρίζονται ότι η χρήση του Mega-NeRF των καινοτόμων στρατηγικών χρονικής συνάφειας αποφεύγει την ανάγκη για υπερβολική προεπεξεργασία, υπερβαίνει τα εγγενή όρια κλίμακας και επιτυγχάνει υψηλότερο επίπεδο λεπτομέρειας από προηγούμενες παρόμοιες εργασίες, χωρίς να θυσιάζει την αλληλεπίδραση ή να απαιτεί πολλές ημέρες εκπαίδευσης.

Οι ερευνητές καθιστά επίσης διαθέσιμες μεγάλης κλίμακας συνόλους δεδομένων που περιέχουν χιλιάδες υψηλής ανάλυσης εικόνες που έχουν ληφθεί από βίντεο drones που έχουν καταγραφεί σε 100.000 τετραγωνικά μέτρα γης γύρω από einen βιομηχανικό συγκρότημα. Τα δύο διαθέσιμα συνόλους δεδομένων είναι ‘Κτίριο’ και ‘Σκύβαλα’.

Βελτιώνοντας την Προηγούμενη Εργασία

Το έγγραφο σημειώνει ότι προηγούμενες προσπάθειες σε παρόμοιο πνεύμα, συμπεριλαμβανομένων του SneRG, PlenOctree, και FastNeRF, όλες βασίζονται σε κάποιο είδος caching ή προεπεξεργασίας που προσθέτει υπολογιστική και/ή χρόνο υπερβολικά που δεν είναι κατάλληλα για τη δημιουργία εικονικών περιβαλλόντων έρευνας και διάσωσης.

Ενώ το KiloNeRF προέρχεται από υπο-NeRF από μια υπάρχουσα συλλογή πολυστρωματικών perceptron (MLP), είναι αρχιτεκτονικά περιορισμένο σε εσωτερικές σκηνές με περιορισμένη επεκτασιμότητα ή ικανότητα να αντιμετωπίσουν υψηλότερες κλίμακες περιβαλλόντων. Το FastNeRF, εν τω μεταξύ, αποθηκεύει μια ‘ψημένη’, προκατασκευασμένη έκδοση του μοντέλου NeRF σε einen αφιερωμένο δομή δεδομένων και επιτρέπει στον τελικό χρήστη να ναυπηγήσει μέσα από αυτήν μέσω einen αφιερωμένου MLP, ή μέσω σφαιρικής βάσης υπολογισμού.

Στην περίπτωση του KiloNeRF, η μέγιστη ανάλυση κάθε πτυχής στη σκηνή έχει ήδη υπολογιστεί, και δεν θα είναι διαθέσιμη μεγαλύτερη ανάλυση αν ο χρήστης αποφασίσει να ‘ζουμ’.

Αντίθετα, το NeRF++ μπορεί να χειριστεί φυσικά μη περιορισμένα, εξωτερικά περιβάλλοντα με το τμήμα του потенτικά εξερεύνησιμου χώρου σε περιοχές προσώπου και φόντου, κάθε μια από τις οποίες εποπτεύεται από einen αφιερωμένο MLP μοντέλο, το οποίο εκτελεί ray-casting πριν από την τελική σύνθεση.

Τέλος, το NeRF στο Wild, το οποίο δεν αντιμετωπίζει απευθείας απεριόριστο χώρο, ωστόσο βελτιώνει την ποιότητα εικόνας στο Phototourism dataset, και οι εμφανίσεις εμφάνισης έχουν ακολουθηθεί στην αρχιτεκτονική για το Mega-NeRF.

Οι συγγραφείς παραδέχονται επίσης ότι το Mega-NeRF είναι εμπνευσμένο από έργα Structure-from-Motion (SfM), ιδιαίτερα το έργο Building Rome in a Day του Πανεπιστημίου της Ουάσινγκτον.

Χρονική Συνάφεια

Όπως το PlenOctree, το Mega-NeRF προκατασκευάζει einen грубό cache χρώματος και αδιαφάνειας στην περιοχή του τρέχοντος焦點 του χρήστη. Ωστόσο, αντί να υπολογίζει μονοπάτια κάθε φορά που βρίσκονται στην περιοχή του υπολογισμένου μονοπατιού, όπως το PlenOctree, το Mega-NeRF ‘αποθηκεύει’ και επαναχρησιμοποιεί αυτές τις πληροφορίες υποδιαιρώντας το υπολογισμένο δέντρο, ακολουθώντας μια αυξανόμενη τάση να αποσυνδέει την στενά δεμένη επεξεργασία του NeRF.

Στα αριστερά, η μονή-χρήση υπολογισμού του PlenOctree. Κέντρο, η δυναμική επέκταση του octree του Mega-NeRF, σχετική με την τρέχουσα θέση του fly-through. Δεξιά, το octree επαναχρησιμοποιείται για την επόμενη ναυπηγήση.

Αυτή η οικονομία του υπολογισμού, σύμφωνα με τους συγγραφείς, μειώνει σημαντικά το υπολογιστικό φορτίο χρησιμοποιώντας υπολογισμούς σε πραγματικό χρόνο ως τοπικό cache, αντί να εκτιμά και να αποθηκεύει προκαταβολικά, σύμφωνα με πρόσφατη πρακτική.

Οδηγούμενη Δειγματοληψία

Μετά την αρχική δειγματοληψία, σύμφωνα με τα τυπικά μοντέλα μέχρι σήμερα, το Mega-NeRF Applies μια δεύτερη γύρο οδηγούμενης δειγματοληψίας ακτίνων μετά την βελτίωση του octree, για να βελτιώσει την ποιότητα εικόνας. Για αυτό, το Mega-NeRF χρησιμοποιεί μόνο einen πέρασμα με βάση τα υπάρχοντα βάρη στη δομή δεδομένων του octree.

Όπως φαίνεται στην εικόνα πάνω, από το νέο έγγραφο, η τυπική δειγματοληψία σπαταλά υπολογιστικούς πόρους αξιολογώντας υπερβολικό μέρος του στόχου ενώ το Mega-NeRF περιορίζει τους υπολογισμούς με βάση μια γνώση του που είναι η γεωμετρία.

Δεδομένα και Εκπαίδευση

Οι ερευνητές έτεσαν το Mega-NeRF σε διάφορα συνόλους δεδομένων, συμπεριλαμβανομένων των δύο προαναφερθέντων, χειροποίητων συνόλων που λήφθηκαν από βίντεο drones πάνω από βιομηχανικό έδαφος. Το πρώτο σύνολο δεδομένων, Mill 19 – Κτίριο, παρουσιάζει βίντεο που λήφθηκαν σε eine περιοχή 500 x 250 τετραγωνικών μέτρων. Το δεύτερο, Mill 19 – Σκύβαλα, αντιπροσωπεύει παρόμοιο βίντεο που λήφθηκε σε einen γειτονικό χώρο κατασκευής, στον οποίο οι ερευνητές τοποθέτησαν δούμια που αντιπροσώπευαν πιθανούς επιζώντες σε μια περίπτωση έρευνας και διάσωσης.

Από το συμπληρωματικό υλικό του εγγράφου: Αριστερά, οι τετραγωνικοί που πρέπει να καλυφθούν από το drone Parrot Anafi (εικονιζόμενο στο κέντρο και στην απόσταση στη δεξιά φωτογραφία).

Επιπλέον, η αρχιτεκτονική ελέγχθηκε ενάντια σε διάφορες σκηνές από το UrbanScene3D, από το Κέντρο Ερευνών Οπτικής Υπολογιστών του Πανεπιστημίου Σεντζέν στην Κίνα, το οποίο αποτελείται από υψηλής ανάλυσης βίντεο drones που έχουν ληφθεί σε μεγάλες αστικές περιοχές; και το Quad 6k dataset, από το IU Computer Vision Lab του Πανεπιστημίου της Ιντιάνα.

Η εκπαίδευση πραγματοποιήθηκε σε 8 υπομονάδες, κάθε μια με 8 στρώματα 256 κρυφών μονάδων, και ένα επόμενο 128 канάλι ReLU στρώμα. Αντιθέτως με το NeRF, το ίδιο MLP χρησιμοποιήθηκε για να ρωτήσει gross και refined δείγματα, μειώνοντας το συνολικό μέγεθος του μοντέλου και επιτρέποντας την επαναχρησιμοποίηση των gross network outputs στο επόμενο στάδιο απόδοσης. Οι συγγραφείς εκτιμούν ότι αυτό σώζει 25% των ερωτημάτων μοντέλου για κάθε ακτίνα.

1024 ακτίνες δειγματολήφθηκαν ανά批 υπό Adam με ένα αρχικό ρυθμό μάθησης 5×10⁴, που μειώνεται σε 5×10^-5. Οι εμφανίσεις εμφάνισης χειρίστηκαν με τον ίδιο τρόπο όπως το NeRF στο Wild. Mixed precision δειγματοληψία (εκπαίδευση σε χαμηλότερη ακρίβεια από 32-bit floating point) χρησιμοποιήθηκε, και το πλάτος του MLP καθορίστηκε σε 2048 κρυφές μονάδες.

Δοκιμές και Αποτελέσματα

Στις δοκιμές των ερευνητών, το Mega-NeRF μπόρεσε να υπερβεί το NeRF, NeRF++ και DeepView μετά από εκπαίδευση για 500.000 επαναλήψεις σε διάφορα συνόλους δεδομένων.既然 το σενάριο Mega-NeRF είναι χρονικά περιορισμένο, οι ερευνητές επέτρεψαν στα πιο αργά προηγούμενα πλαίσια επιπλέον χρόνο πέρα από το 24ωρο όριο, και αναφέρουν ότι το Mega-NeRF εξακολουθεί να υπερβαίνει αυτά, ακόμη και με αυτά τα πλεονεκτήματα.

Οι μετρήσεις που χρησιμοποιήθηκαν ήταν Peak signal-to-noise ratio (PSNR), η VGG έκδοση του LPIPS, και SSIM. Η εκπαίδευση πραγματοποιήθηκε σε μια seule μηχανή εξοπλισμένη με οκτώ V100 GPUs – αποτελεσματικά, σε 256GB VRAM, και 5120 Tensor πυρήνες.

Δείγματα αποτελεσμάτων από τις πειραματικές δοκιμές του Mega-NeRF (δείτε το έγγραφο για περισσότερα εκτεταμένα αποτελέσματα σε όλα τα πλαίσια και συνόλους δεδομένων) δείχνουν ότι το PlenOctree προκαλεί αξιοσημείωτη voxelization, ενώ το KiloNeRF παράγει artifacts και γενικά πιο θολά αποτελέσματα.

Η σελίδα του έργου είναι στο https://meganerf.cmusatyalab.org/, και ο κώδικας είναι διαθέσιμος στο https://github.com/cmusatyalab/mega-nerf.

Πρώτη δημοσίευση 21ης Δεκεμβρίου 2021.