Connect with us

NeRFocus: Εισαγωγή Ελαφριάς Ελέγχου Εστίασης σε Νευρωνικά Πεδία Ραδιάντσας

Τεχνητή νοημοσύνη

NeRFocus: Εισαγωγή Ελαφριάς Ελέγχου Εστίασης σε Νευρωνικά Πεδία Ραδιάντσας

mm

Νέα έρευνα από την Κίνα προσφέρει μια μέθοδο για να επιτύχει οικονομική έλεγχο των επιπτώσεων του βάθους πεδίου για Νευρωνικά Πεδία Ραδιάντσας (NeRF), επιτρέποντας στον τελικό χρήστη να εστιάσει και να αλλάξει δυναμικά τη διαμόρφωση του εικονικού φακού στο χώρο απόδοσης.

Titled NeRFocus, η τεχνική εφαρμόζει μια νέα προσέγγιση ‘λεπτού φακού’ για την εστίαση, και καινοτομεί την P-training, μια πιθανοτική στρατηγική εκπαίδευσης που καταργεί την ανάγκη για αφιερωμένα σύνολα δεδομένων βάθους πεδίου, και απλοποιεί τη διαδικασία εκπαίδευσης με εστίαση.

Το έγγραφο έχει τον τίτλο NeRFocus: Νευρωνικά Πεδία Ραδιάντσας για 3D Συνθετικό Defocus, και προέρχεται από τέσσερις ερευνητές από τη Σχολή Μεταπτυχιακών Σπουδών του Πεκίνου και το Εργαστήριο Peng Cheng στο Σεντζέν, ένα ινστιτούτο που χρηματοδοτείται από την κυβέρνηση της επαρχίας Guangdong.

Αντιμετώπιση του Κέντρου Προσοχής σε NeRF

Εάν το NeRF θα λάβει τη θέση του ως μια έγκυρη τεχνολογία οδήγησης για εικονική και επαυξημένη πραγματικότητα, θα χρειαστεί μια ελαφριά μέθοδο για να επιτύχει πραγματιστική εστίαση, όπου η większość των πόρων απόδοσης συγκεντρώνεται γύρω από την προσοχή του χρήστη, και όχι να διανέμονται ανεξέλεγκτα σε χαμηλότερη ανάλυση σε όλο το διαθέσιμο οπτικό χώρο.

Από το έγγραφο του 2021 Foveated Neural Radiance Fields for Real-Time and Egocentric Virtual Reality, βλέπουμε το κέντρο προσοχής σε ένα νέο σχήμα εστίασης για NeRF. Πηγή: https://arxiv.org/pdf/2103.16365.pdf

Από το έγγραφο του 2021 Foveated Neural Radiance Fields for Real-Time and Egocentric Virtual Reality, βλέπουμε το κέντρο προσοχής σε ένα νέο σχήμα εστίασης για NeRF. Πηγή: https://arxiv.org/pdf/2103.16365.pdf

Ένα απαραίτητο μέρος της αυθεντικότητας των μελλοντικών αναπτύξεων του εγocentric NeRF θα είναι η ικανότητα του συστήματος να αντανακλά την ικανότητα του ανθρώπινου ματιού να αλλάξει εστίαση σε μια πλάγια πλευρά της προοπτικής (βλέπε την πρώτη εικόνα παραπάνω).

Αυτή η κλίση της εστίασης είναι επίσης ένας αντεστραμμένος δείκτης του μεγέθους της σκηνής. Η θέα από ένα ελικόπτερο που πετάει πάνω από μια πόλη θα έχει μηδενικά πεδία εστίασης, γιατί η整η σκηνή υπάρχει πέρα από την εξωτερικότερη ικανότητα εστίασης του θεατή, ενώ η εξέταση ενός μικροσκοπικού ή ‘κοντινού’ σκηνικού δεν θα επιτρέψει μόνο ‘εστίαση’, αλλά θα πρέπει, για πραγματικότητα, να περιέχει một στενό βάθος πεδίου από προεπιλογή.

Κάτω από αυτό το βίντεο, που μας παρέχεται από τον συγγραφέα του εγγράφου, μπορούμε να δούμε τις αρχικές ικανότητες του NeRFocus:

Πέρα από τα Περιορισμένα Πεδία Εστίασης

Γνωρίζοντας τις απαιτήσεις για έλεγχο εστίασης, πολλά projεκτα NeRF τα τελευταία χρόνια έχουν κάνει πρόνοια για αυτό, αν και όλες οι προσπάθειες μέχρι τώρα είναι αποτελεσματικά ελαφριά λύσεις ή απαιτούν αξιοσημείωτες διαδικασίες μετά-επεξεργασίας που τις καθιστούν απίθανες συμβολές σε πραγματικό χρόνο περιβάλλοντα που τελικά προβλέπονται για τις τεχνολογίες Νευρωνικών Πεδίων Ραδιάντσας.

Η συνθετική έλεγχο εστίασης σε νευρωνικά πλαίσια απόδοσης έχει προσπαθήσει με διάφορες μεθόδους τα τελευταία 5-6 χρόνια – για παράδειγμα, χρησιμοποιώντας ένα δίκτυο τομής για να απομονώσει τα δεδομένα του προσώπου και του φόντου, και στη συνέχεια να γενικεύσει την ασαφή του φόντου – μια κοινή λύση για απλά δύο-πεδία εστίασης.

Από το έγγραφο 'Αυτόματη Τομή Πορτρέτου για Στυλισμό Εικόνας', μια κοινή, animation-στυλ διαχωρισμός των πεδίων εστίασης. Πηγή: https://jiaya.me/papers/portrait_eg16.pdf

Από το έγγραφο ‘Αυτόματη Τομή Πορτρέτου για Στυλισμό Εικόνας’, μια κοινή, animation-στυλ διαχωρισμός των πεδίων εστίασης. Πηγή: https://jiaya.me/papers/portrait_eg16.pdf

Οι πολλαπλές αναπαραστάσεις προσθέτουν quelques εικονικά ‘animation cels’ σε αυτό το παράδειγμα, για παράδειγμα χρησιμοποιώντας εκτίμηση βάθους για να κόψει τη σκηνή σε μια χονδρή αλλά διαχειρίσιμη κλίση των ξεχωριστών πεδίων εστίασης, και στη συνέχεια να ορχηστρώσει depth-εξαρτώμενους πυρήνες για να συνθέσει ασαφή.

Επιπλέον, και υψηλής σχετικότητας με πιθανές AR/VR περιβάλλοντα, η διαφορά μεταξύ των δύο οπτικών γωνιών μιας στερεοσκοπικής κάμερας μπορεί να χρησιμοποιηθεί ως μια διαδρομή βάθους – μια μέθοδος που προτάθηκε από την Google Research το 2015.

Από το έγγραφο της Google Fast Bilateral-Space Stereo for Synthetic Defocus, η διαφορά μεταξύ των δύο οπτικών γωνιών παρέχει μια χάρτα βάθους που μπορεί να διευκολύνει την ασαφή. Ωστόσο, αυτή η προσέγγιση είναιไม αuthentik στην κατάσταση που προβλέπεται παραπάνω, όπου η φωτογραφία είναι σαφώς τραβηγμένη με ένα 35-50mm (SLR standard) φακό, αλλά η ακραία ασαφή του φόντου θα συνέβαινε μόνο με ένα φακό που υπερβαίνει τα 200mm, το οποίο έχει το είδος του περιορισμένου πεδίου εστίασης που παράγει στενό βάθος πεδίου σε κανονικά, ανθρώπινα περιβάλλοντα. Πηγή

Από το έγγραφο της Google Fast Bilateral-Space Stereo for Synthetic Defocus, η διαφορά μεταξύ των δύο οπτικών γωνιών παρέχει μια χάρτα βάθους που μπορεί να διευκολύνει την ασαφή. Ωστόσο, αυτή η προσέγγιση είναιไม αuthentik στην κατάσταση που προβλέπεται παραπάνω, όπου η φωτογραφία είναι σαφώς τραβηγμένη με ένα 35-50mm (SLR standard) φακό, αλλά η ακραία ασαφή του φόντου θα συνέβαινε μόνο με ένα φακό που υπερβαίνει τα 200mm, το οποίο έχει το είδος του περιορισμένου πεδίου εστίασης που παράγει στενό βάθος πεδίου σε κανονικά, ανθρώπινα περιβάλλοντα. Πηγή

Οι προσεγγίσεις αυτής της φύσης τείνουν να δείχνουν τέτοια άκρους αρτεφάκτων,既然 προσπαθούν να αντιπροσωπεύσουν δύο ξεχωριστά και περιορισμένα σφαιρικά πεδία εστίασης ως μια συνεχής κλίση εστίασης.

Το 2021 η RawNeRF πρωτοβουλία προσέφερε λειτουργικότητα High Dynamic Range (HDR), με μεγαλύτερο έλεγχο σε χαμηλού φωτισμού καταστάσεις, και μια φαινομενικά εντυπωσιακή ικανότητα να εστιαστεί:

RawNeRF εστίασε όμορφα (αν, σε αυτή την περίπτωση, μη αuthentik, λόγω μη ρεαλιστικών πεδίων εστίασης), αλλά απαιτεί υψηλό κόστος υπολογισμού. Πηγή: https://bmild.github.io/rawnerf/

RawNeRF εστίασε όμορφα (αν, σε αυτή την περίπτωση, μη αuthentik, λόγω μη ρεαλιστικών πεδίων εστίασης), αλλά απαιτεί υψηλό κόστος υπολογισμού. Πηγή: https://bmild.github.io/rawnerf/

Ωστόσο, η RawNeRF απαιτεί βαρύ προ-υπολογισμό για τις πολλαπλές αναπαραστάσεις του εκπαιδευμένου NeRF, με αποτέλεσμα μια διαδικασία που δεν μπορεί να προσαρμοστεί εύκολα σε ελαφρύτερες ή χαμηλότερες-καθυστερήσεις υλοποιήσεις του NeRF.

Μοντελοποίηση ενός Εικονικού Φακού

Το NeRF είναι βασισμένο στο μοντέλο φακού pinhole, το οποίο αποδίδει όλη τη σκηνή με σαφήνεια σε一种 manière παρόμοια με μια προεπιλογή CGI σκηνής (πριν από τις διάφορες προσεγγίσεις που αποδίδουν ασαφή ως μια μετά-επεξεργασία ή εγγενή επίδραση με βάση το βάθος πεδίου).

Το NeRFocus δημιουργεί einen εικονικό ‘λεπτό φακό’ (παρά einem ‘glassless’ φακό) που υπολογίζει τη διαδρομή του κάθε εισερχόμενου pixel και το αποδίδει απευθείας, αποτελεσματικά αναστρέφοντας τη τυπική διαδικασία καπνίσματος εικόνας, η οποία λειτουργεί post facto σε φωτεινή είσοδο που έχει ήδη επηρεαστεί από τις ανακλαστικές ιδιότητες του σχεδιασμού του φακού.

Αυτό το μοντέλο εισάγει μια σειρά από δυνατότητες για απόδοση περιεχομένου μέσα στο frustum (η μεγαλύτερη κυκλική επιρροή που απεικονίζεται στην εικόνα παραπάνω).

Ο υπολογισμός του σωστού χρώματος και της πυκνότητας για κάθε multilayer perceptron (MLP) σε αυτή τη μεγαλύτερη σειρά δυνατοτήτων είναι μια πρόσθετη εργασία. Αυτή έχει λυθεί πριν από την εφαρμογή εποπτικής εκπαίδευσης σε ένα υψηλό αριθμό DLSR εικόνων, που συνεπάγεται τη δημιουργία πρόσθετων συνόλων δεδομένων για μια πιθανοτική διαδικασία εκπαίδευσης – αποτελεσματικά εμπλέκοντας την εργασιακή προετοιμασία και αποθήκευση πολλαπλών πιθανών υπολογισμένων πόρων που μπορεί ή δεν μπορεί να χρειαστούν.

Το NeRFocus υπερβαίνει αυτό με P-training, όπου τα σύνολα δεδομένων εκπαίδευσης δημιουργούνται με βάση τις βασικές ασαφείς λειτουργίες. Έτσι, το μοντέλο σχηματίζεται με ασαφείς λειτουργίες εγγενείς και ναυτιλίας.

Ο διάμετρος της διαμέτρου του φακού ορίζεται σε μηδέν κατά την εκπαίδευση, και προκαθορισμένες πιθανότητες χρησιμοποιούνται για να επιλέξουν μια ασαφή πυρήνα τυχαία. Αυτή η ληφθείσα διάμετρος χρησιμοποιείται για να κλιμακωθεί κάθε σύνθετο κώνο, επιτρέποντας στο MLP να προβλέψει με ακρίβεια την ακτινοβολία και την πυκνότητα των frustums (τα ευρεία κύκλοι στις εικόνες παραπάνω, που αντιπροσωπεύουν τη ζώνη μετασχηματισμού για κάθε pixel)

Ο διάμετρος της διαμέτρου του φακού ορίζεται σε μηδέν κατά την εκπαίδευση, και προκαθορισμένες πιθανότητες χρησιμοποιούνται για να επιλέξουν μια ασαφή πυρήνα τυχαία. Αυτή η ληφθείσα διάμετρος χρησιμοποιείται για να κλιμακωθεί κάθε σύνθετο κώνο, επιτρέποντας στο MLP να προβλέψει με ακρίβεια την ακτινοβολία και την πυκνότητα των frustums (τα ευρεία κύκλοι στις εικόνες παραπάνω, που αντιπροσωπεύουν τη ζώνη μετασχηματισμού για κάθε pixel)

Οι συγγραφείς του νέου εγγράφου παρατηρούν ότι το NeRFocus είναι πιθανότατα συμβατό με την προσέγγιση HDR της RawNeRF, η οποία θα μπορούσε να βοηθήσει στην απόδοση ορισμένων απαιτητικών τμημάτων, όπως ασαφείς specular highlights, και πολλά από τα άλλα υπολογιστικά-εντατικά εφέ που έχουν προκλήσει προκλήσεις CGI διαδικασίες για τριάντα ή περισσότερα χρόνια.

Η διαδικασία δεν απαιτεί πρόσθετες απαιτήσεις για χρόνο και/ή παραμέτρους σε σύγκριση με προηγούμενες προσεγγίσεις όπως το core NeRF και Mip-NeRF (και, πιθανώς Mip-NeRF 360, αν και αυτό δεν αναφέρεται στο έγγραφο), και είναι εφαρμόσιμο ως μια γενική επέκταση της κεντρικής μεθοδολογίας των νευρωνικών πεδίων ραδιάντσας.

 

Πρώτη δημοσίευση 12ης Μαρτίου 2022.

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]