Connect with us

Επανέλαβε τα Νευρωνικά Πεδία Ραδιοβολίας με Οποιονδήποτε Χαρτογραφικό Χάρτη Περιβάλλοντος

Τεχνητή νοημοσύνη

Επανέλαβε τα Νευρωνικά Πεδία Ραδιοβολίας με Οποιονδήποτε Χαρτογραφικό Χάρτη Περιβάλλοντος

mm

Ένα νέο έγγραφο από το Ινστιτούτο Max Planck και το MIT έχει προτείνει μια τεχνική για την απόκτηση πραγματικής αποσύνδεσης του περιεχομένου των Νευρωνικών Πεδίων Ραδιοβολίας (NeRF) από το φωτισμό που ήταν παρών όταν συλλέχθηκαν τα δεδομένα, επιτρέποντας ad hoc χαρτογραφικούς χάρτες περιβάλλοντος να ανταλλάξουν完全 το φωτισμό σε μια σκηνή NeRF:

Η νέα τεχνική εφαρμοσμένη σε πραγματικά δεδομένα. Είναι αξιοσημείωτο ότι η μέθοδος λειτουργεί ακόμη και σε αρχειοθετημένα δεδομένα αυτού του τύπου, τα οποία δεν έλαβαν υπόψη το νέο pipeline όταν συλλέχθηκαν τα δεδομένα. Παρά το γεγονός αυτό, επιτυγχάνεται ρεαλιστικός και καθορισμένος από τον χρήστη έλεγχος φωτισμού

Η νέα τεχνική εφαρμοσμένη σε πραγματικά δεδομένα. Είναι αξιοσημείωτο ότι η μέθοδος λειτουργεί ακόμη και σε αρχειοθετημένα δεδομένα αυτού του τύπου, τα οποία δεν έλαβαν υπόψη το νέο pipeline όταν συλλέχθηκαν τα δεδομένα. Παρά το γεγονός αυτό, επιτυγχάνεται ρεαλιστικός και καθορισμένος από τον χρήστη έλεγχος φωτισμού. Source: https://arxiv.org/pdf/2207.13607.pdf

Η νέα προσέγγιση χρησιμοποιεί το δημοφιλές ανοιχτό πρόγραμμα 3D animation Blender για τη δημιουργία ενός ‘εικονικού σταδίου φωτισμού’, όπου πολλές επαναλήψεις των πιθανών σεναρίων φωτισμού αποδίδονται και τελικά εκπαιδεύονται σε ένα ειδικό στρώμα στο μοντέλο NeRF που μπορεί να φιλοξενήσει οποιοδήποτε χαρτογραφικό χάρτη περιβάλλοντος που ο χρήστης θέλει να χρησιμοποιήσει για να φωτίσει τη σκηνή.

Μια απεικόνιση του μέρους της διαδικασίας που χρησιμοποιεί το Blender για τη δημιουργία εικονικών προβολών σταδίου φωτισμού της εξαγηγμένης γεωμετρίας. Προηγούμενες μεθόδους που ακολουθούν παρόμοιες γραμμές έχουν χρησιμοποιήσει πραγματικά στάδια φωτισμού για να παρέχουν αυτά τα δεδομένα, τα οποία είναι một βαρύς απαιτούμενος για διακριτά αντικείμενα και ένας αδύνατος για εξωτερικές απόψεις περιβάλλοντος. Στο πάνω αριστερό της δεξιάς εικόνας, μπορούμε να δούμε τους χαρτογραφικούς χάρτες περιβάλλοντος που καθορίζουν το φωτισμό της σκηνής. Αυτοί μπορούν να δημιουργηθούν αυθαίρετα από τον τελικό χρήστη, φέρνοντας το NeRF ένα βήμα πιο κοντά στη ευελιξία μιας σύγχρονης προσέγγισης CGI.

Μια απεικόνιση του μέρους της διαδικασίας που χρησιμοποιεί το Blender για τη δημιουργία εικονικών προβολών σταδίου φωτισμού της εξαγηγμένης γεωμετρίας. Προηγούμενες μεθόδους που ακολουθούν παρόμοιες γραμμές έχουν χρησιμοποιήσει πραγματικά στάδια φωτισμού για να παρέχουν αυτά τα δεδομένα, τα οποία είναι một βαρύς απαιτούμενος για διακριτά αντικείμενα και ένας αδύνατος για εξωτερικές απόψεις περιβάλλοντος. Στο πάνω αριστερό της δεξιάς εικόνας, μπορούμε να δούμε τους χαρτογραφικούς χάρτες περιβάλλοντος που καθορίζουν το φωτισμό της σκηνής. Αυτοί μπορούν να δημιουργηθούν αυθαίρετα από τον τελικό χρήστη, φέρνοντας το NeRF ένα βήμα πιο κοντά στη ευελιξία μιας σύγχρονης προσέγγισης CGI.

Η νέα προσέγγιση δοκιμάστηκε ενάντια στο Mitsuba2 πλαίσιο αντίστροφου rendering, και επίσης ενάντια σε προηγούμενες εργασίες PhySG, RNR, Neural-PIL και NeRFactor, χρησιμοποιώντας μόνο ένα μοντέλο άμεσου φωτισμού, και απέκτησε τα καλύτερα σκορ:

Αποτελέσματα της νέας τεχνικής, σε σύγκριση με άλλες παρόμοιες προσεγγίσεις υπό διάφορες συναρτήσεις απώλειας. Οι ερευνητές ισχυρίζονται ότι η προσέγγισή τους προσφέρει τις υψηλότερης ποιότητας μεθόδους, με τα αποτελέσματα να αξιολογούνται μέσω Peak Signal-to-noise Ratio (PSNR), Structural Similarity Index Measure (SSIM), και την αποτελεσματική αλλά εκκεντρική Learned Perceptual Image Patch Similarity (LPIPS).

Αποτελέσματα της νέας τεχνικής, σε σύγκριση με άλλες παρόμοιες προσεγγίσεις υπό διάφορες συναρτήσεις απώλειας. Οι ερευνητές ισχυρίζονται ότι η προσέγγισή τους προσφέρει τις υψηλότερης ποιότητας μεθόδους, με τα αποτελέσματα να αξιολογούνται μέσω Peak Signal-to-noise Ratio (PSNR), Structural Similarity Index Measure (SSIM), και την αποτελεσματική αλλά εκκεντρική Learned Perceptual Image Patch Similarity (LPIPS).

Το έγγραφο αναφέρει:

‘Τα ποιοτικά και ποσοτικά αποτελέσματά μας αποδεικνύουν ένα σαφές βήμα προς τα εμπρός όσον αφορά την ανάκτηση των παραμέτρων της σκηνής καθώς και την ποιότητα σύνθεσης της προσέγγισής μας υπό νέες απόψεις και συνθήκες φωτισμού σε σύγκριση με την προηγούμενη κατάσταση της τέχνης.’

Οι ερευνητές αναφέρουν ότι θα κυκλοφορήσουν τον κώδικα του έργου.

Η Ανάγκη για Επεξεργασία NeRF

Αυτή η αποσύνδεση έχει αποδειχθεί μια αξιοσημείωτη πρόκληση για τους ερευνητές των Νευρωνικών Πεδίων Ραδιοβολίας,既然 το NeRF είναι ουσιαστικά μια τεχνική φωτογραμμετρίας που υπολογίζει την τιμή pixel χιλιάδων πιθανών μονοπατιών από μια οπτική, αναθέτοντας τιμές RGBD, και συναρμολόγηση ενός πίνακα αυτών των τιμών σε μια ογκομετρική αναπαράσταση. Στο κέντρο του, το NeRF ορίζεται από το φωτισμό.

Στην πραγματικότητα, παρά τις εντυπωσιακές οπτικές και την πλούσια υιοθέτησή του από την NVIDIA, το NeRF είναι αξιοσημείωτα ‘σκληρό’ – σε όρους CGI, ‘ψημένο’. Έτσι, η ερευνητική κοινότητα έχει επικεντρωθεί στην βελτίωση της εγγύητας και της ευελιξίας σε αυτόν τον τομέα κατά τους τελευταίους 12-18 μήνες.

Όσον αφορά τη σημασία, τα στοιχήματα για αυτό το είδος ορόσημου είναι υψηλά, και περιλαμβάνουν τη δυνατότητα μετασχηματισμού της βιομηχανίας οπτικών εφέ από ένα δημιουργικό και συνεργατικό μοντέλο που επικεντρώνεται γύρω από τη γεννήτρια mesh, τη δυναμική κίνησης και το texturing, σε ένα μοντέλο που βασίζεται στην αντίστροφη απόδοση, όπου η διαδικασία οπτικών εφέ τροφοδοτείται από φωτογραφίες του πραγματικού κόσμου (ή ακόμη και, ενδεχομένως, από συνθετικά μοντέλα), αντί για εκτιμώμενες, χειροκίνητες προσεγγίσεις.

Για τώρα, υπάρχει σχετικά λίγος λόγος για ανησυχία μεταξύ της κοινότητας οπτικών εφέ, τουλάχιστον από τα Νευρωνικά Πεδία Ραδιοβολίας. Το NeRF έχει μόνο νασεντικές ικανότητες σε όρους rigging, nesting, έλεγχο βάθους, αρθρότητα… και σίγουρα επίσης σε όρους φωτισμού. Η σύνδεσμος βίντεο για ένα νέο έγγραφο, το οποίο προσφέρει βασικές παραμορφώσεις για τη γεωμετρία NeRF, εικονογραφεί τον τεράστιο χάσμα μεταξύ της τρέχουσας κατάστασης της τέχνης στο CGI και των σεμιναλικών προσπαθειών των τεχνικών νευρωνικής απόδοσης.

Διαχωρίζοντας τα Στοιχεία

Παρά το γεγονός ότι, είναι απαραίτητο να ξεκινήσουμε κάπου, οι ερευνητές για το νέο έγγραφο έχουν υιοθετήσει το CGI ως μεσολαβικό μηχανισμό ελέγχου και παραγωγής, τώρα μια κοινή προσέγγιση προς τα σκληρά.latent χώρους των GANs και τα σχεδόν αδιαπέραστα και γραμμικά δίκτυα του NeRF.

Επιδραστικά, η κεντρική πρόκληση είναι να υπολογίσει παγκόσμια απόδοση (GI, η οποία δεν έχει άμεση εφαρμογή στη νευρωνική απόδοση) σε μια ισοδύναμη Προκατασκευασμένη Μεταφορά Ραδιοβολίας (PRT, η οποία μπορεί να προσαρμοστεί στη νευρωνική απόδοση) υπολογισμό.

Η GI είναι μια τώρα σεβαστή τεχνική απόδοσης CGI που μοντελοποιεί τον τρόπο με τον οποίο το φως ανακλώνεται από τις επιφάνειες και στις άλλες επιφάνειες, και ενσωματώνει αυτές τις περιοχές του ανακλώμενου φωτός σε μια απόδοση, γιαเพิ่μένη ρεαλιστικότητα.

Η PRT χρησιμοποιείται ως μεσολαβική συνάρτηση φωτισμού στην νέα προσέγγιση, και το γεγονός ότι είναι ένα διακριτό και επεξεργάσιμο στοιχείο είναι αυτό που επιτυγχάνει την αποσύνδεση. Η νέα μέθοδος μοντελοποιεί το υλικό του αντικειμένου NeRF με μια εκμαθημένη PRT.

Η πραγματική σκηνική απόδοση των αρχικών δεδομένων ανακτάται ως χαρτογραφικός χάρτης περιβάλλοντος στη διαδικασία, και η γεωμετρία της σκηνής εξάγεται ως ένα Πεδίο Υπογεγραμμένης Απόστασης (SDF) το οποίο θα παρέχει τελικά μια παραδοσιακή mesh για το Blender να λειτουργήσει σε εικονικό στάδιο φωτισμού.

Μια επισκόπηση της διαδικασίας για τη νέα τεχνική.

Μια επισκόπηση της διαδικασίας για τη νέα τεχνική.

Το πρώτο στάδιο στη διαδικασία είναι να εξαγάγει τη γεωμετρία της σκηνής από τις διαθέσιμες πολλαπλές εικόνες προβολής μέσω της σιωπηρής ανασυγκρότησης επιφάνειας, μέσω τεχνικών που χρησιμοποιούνται στη συνεργασία NeuS του 2021.

Για να αναπτύξει ένα νευρωνικό πεδίο μεταφοράς ραδιοβολίας (NRTF, το οποίο θα φιλοξενήσει τα δεδομένα φωτισμού), οι ερευνητές χρησιμοποίησαν το Mitsuba 2 διαφορικό path tracer.

Αυτό διευκολύνει την κοινή βελτιστοποίηση μιας διπλής συνάρτησης σκέδασης (BSDF), καθώς και τη γεννήτρια μιας αρχικής χαρτογραφικής χάρτας περιβάλλοντος. Μόλις δημιουργηθεί η BSDF, ο path tracer μπορεί να χρησιμοποιηθεί στο Blender (βλέπε ενσωματωμένο βίντεο ακριβώς πάνω) για τη δημιουργία εικονικών προβολών μιας σκηνής.

Το NRTF εκπαιδεύεται με μια συνδυασμένη απώλεια μεταξύ φωτορεαλιστικών υλικών και συνθετικών δεδομένων, τα οποία δεν είναι συνδεδεμένα μεταξύ τους.

Μια σύγκριση με τον προκατόχο NeRFactor, στις προκλήσεις της σύνθεσης νέων απόψεων και φωτισμού.

Μια σύγκριση με τον προκατόχο NeRFactor, στις προκλήσεις της σύνθεσης νέων απόψεων και φωτισμού.

Ο Δρόμος προς το Φωτισμό

Οι απαιτήσεις εκπαίδευσης για αυτή τη τεχνική, αν και αξιοσημείωτα λιγότερες από τις αρχικές φορές εκπαίδευσης NeRF, δεν είναι αμελητέες. Σε ένα NVIDIA Quadro RTX 8000 με 48GB VRAM, η προκαταρκτική εκπαίδευση για την αρχική εκτίμηση φωτισμού και υλικού διαρκεί 30 λεπτά. Η εκπαίδευση OLAT (δηλαδή η εκπαίδευση των εικονικών σταδίων φωτισμού) διαρκεί 8 ώρες. και η τελική κοινή βελτιστοποίηση μεταξύ των αποσυνδεμένων συνθετικών και πραγματικών δεδομένων διαρκεί weitere 16 ώρες για να φτάσει στην βέλτιστη ποιότητα.

Επιπλέον, η αποτέλεσμα νευρωνική αναπαράσταση δεν μπορεί να τρέξει σε πραγματικό χρόνο, διαρκεί, σύμφωνα με τους ερευνητές ‘περίπου quelques δευτερόλεπτα ανά кадρό’.

Οι ερευνητές συμπεραίνουν:

‘Τα αποτελέσματά μας αποδεικνύουν μια σαφή βελτίωση της τρέχουσας κατάστασης της τέχνης, ενώ μελλοντική εργασία θα μπορούσε να περιλαμβάνει την περαιτέρω βελτίωση του χρόνου εκτέλεσης και μια κοινή συλλογιστική της γεωμετρίας, του υλικού και του φωτισμού της σκηνής.’

 

Πρώτη δημοσίευση 28ης Ιουλίου 2022.

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]