στέλεχος Νευρωνική απόδοση: Το NeRF κάνει έναν περίπατο στον καθαρό αέρα - Unite.AI
Συνδεθείτε μαζί μας

Τεχνητή νοημοσύνη

Νευρωνική απόδοση: Το NeRF κάνει έναν περίπατο στον καθαρό αέρα

mm
Ενημερώθηκε on

Μια συνεργασία μεταξύ της Google Research και του Πανεπιστημίου του Χάρβαρντ ανέπτυξε μια νέα μέθοδο για τη δημιουργία νευρικού βίντεο 360 μοιρών ολόκληρων σκηνών χρησιμοποιώντας Πεδία νευρικής ακτινοβολίας (NeRF). Η νέα προσέγγιση φέρνει το NeRF ένα βήμα πιο κοντά στην περιστασιακή αφηρημένη χρήση σε οποιοδήποτε περιβάλλον, χωρίς να περιορίζεται σε επιτραπέζια μοντέλα or κλειστά εσωτερικά σενάρια.

Πηγή: https://www.youtube.com/watch?v=YStDS2-Ln1s

Δείτε το τέλος του άρθρου για το πλήρες βίντεο. Πηγή: https://www.youtube.com/watch?v=YStDS2-Ln1s

Το Mip-NeRF 360 μπορεί να χειριστεί εκτεταμένα υπόβαθρα και «άπειρα» αντικείμενα όπως ο ουρανός, επειδή, σε αντίθεση με τις περισσότερες προηγούμενες επαναλήψεις, θέτει όρια στον τρόπο ερμηνείας των ακτίνων φωτός και δημιουργεί όρια προσοχής που εξορθολογίζουν κατά τα άλλα μεγάλους χρόνους προπόνησης. Δείτε το νέο συνοδευτικό βίντεο που είναι ενσωματωμένο στο τέλος αυτού του άρθρου για περισσότερα παραδείγματα και μια εκτεταμένη εικόνα της διαδικασίας.

Η νέο χαρτί είναι ο τίτλος Mip-NeRF 360: Απεριόριστα Anti-Aliased Neural Radiance Fields, και διευθύνεται από τον Επιστήμονα Έρευνας Ανώτερου Προσωπικού στο Google Research Jon Barron.

Για να κατανοήσουμε την ανακάλυψη, είναι απαραίτητο να έχουμε μια βασική κατανόηση του τρόπου με τον οποίο λειτουργεί η σύνθεση εικόνας βάσει πεδίου νευρικής ακτινοβολίας.

Τι είναι το NeRF;

Είναι προβληματικό να περιγράψουμε ένα δίκτυο NeRF με όρους «βίντεο», καθώς είναι πιο κοντά σε ένα πλήρως 3D υλοποιημένο αλλά Με βάση την τεχνητή νοημοσύνη εικονικό περιβάλλον, όπου πολλαπλές απόψεις από μεμονωμένες φωτογραφίες (συμπεριλαμβανομένων των καρέ βίντεο) χρησιμοποιούνται για να συνδυάσουν μια σκηνή που τεχνικά υπάρχει μόνο στον λανθάνοντα χώρο ενός αλγορίθμου μηχανικής μάθησης – αλλά από την οποία μπορεί να εξαχθεί ένας εξαιρετικός αριθμός απόψεων και βίντεο κατά βούληση .

Μια απεικόνιση των πολλαπλών σημείων λήψης κάμερας που παρέχουν τα δεδομένα που συγκεντρώνει το NeRF σε μια νευρική σκηνή (εικόνα δεξιά).

Μια απεικόνιση των πολλαπλών σημείων λήψης κάμερας που παρέχουν τα δεδομένα που συγκεντρώνει το NeRF σε μια νευρική σκηνή (εικόνα δεξιά).

Οι πληροφορίες που προέρχονται από τις συνεισφέρουσες φωτογραφίες εκπαιδεύονται σε μια μήτρα παρόμοια με μια παραδοσιακή πλέγμα voxel στις ροές εργασίας CGI, δεδομένου ότι κάθε σημείο στον τρισδιάστατο χώρο καταλήγει σε μια τιμή, καθιστώντας τη σκηνή πλοηγήσιμη.

Ένας παραδοσιακός πίνακας voxel τοποθετεί πληροφορίες pixel (που κανονικά υπάρχουν σε ένα περιβάλλον 2D, όπως το πλέγμα pixel ενός αρχείου JPEG) σε έναν τρισδιάστατο χώρο. Πηγή: https://www.researchgate.net/publication/344488704_Processing_and_analysis_of_airborne_full-waveform_laser_scanning_data_for_the_characterization_of_forest_structure_and_fuel_properties

Ένας παραδοσιακός πίνακας voxel τοποθετεί πληροφορίες pixel (που κανονικά υπάρχουν σε ένα περιβάλλον 2D, όπως το πλέγμα pixel ενός αρχείου JPEG) σε έναν τρισδιάστατο χώρο. Πηγή: ResearchGate

Μετά τον υπολογισμό του ενδιάμεσου χώρου μεταξύ των φωτογραφιών (εάν είναι απαραίτητο), η διαδρομή κάθε πιθανού εικονοστοιχείου κάθε συνεισφέρουσας φωτογραφίας ουσιαστικά «ιχνηλατείται με ακτίνες» και εκχωρείται μια τιμή χρώματος, συμπεριλαμβανομένης μιας τιμής διαφάνειας (χωρίς την οποία η νευρική μήτρα θα ήταν εντελώς αδιαφανής, ή εντελώς άδειο).

Όπως τα πλέγματα voxel, και διαφορετικός Ο χώρος συντεταγμένων 3D που βασίζεται σε CGI, το «εσωτερικό» ενός «κλειστού» αντικειμένου δεν υπάρχει σε έναν πίνακα NeRF. Μπορείτε να ανοίξετε ένα κιτ τυμπάνων CGI και να κοιτάξετε μέσα, αν θέλετε. αλλά όσον αφορά το NeRF, η ύπαρξη του κιτ τυμπάνου τελειώνει όταν η τιμή αδιαφάνειας της επιφάνειάς του ισούται με '1'.

Μια ευρύτερη προβολή ενός pixel

Το Mip-NeRF 360 είναι μια επέκταση του έρευνα από τον Μάρτιο του 2021, το οποίο εισήγαγε αποτελεσματικά αποτελεσματική αντι-αλλοίωση στο NeRF χωρίς εξαντλητική υπερδειγματοληψία.

Το NeRF υπολογίζει παραδοσιακά μόνο ένα μονοπάτι pixel, το οποίο τείνει να παράγει το είδος του 'jaggies' που χαρακτήριζε πρώιμες μορφές εικόνων στο Διαδίκτυο, καθώς και παλαιότερα συστήματα παιχνιδιών. Αυτές οι οδοντωτές ακμές επιλύθηκαν με διάφορες μεθόδους, που συνήθως περιελάμβαναν τη δειγματοληψία γειτονικών pixel και την εύρεση μιας μέσης αναπαράστασης.

Επειδή το παραδοσιακό NeRF δειγματίζει μόνο αυτό το μονοπάτι ενός εικονοστοιχείου, το Mip-NeRF εισήγαγε μια «κωνική» λεκάνη απορροής, όπως ένας φακός ευρείας δέσμης, που παρέχει αρκετές πληροφορίες σχετικά με γειτονικός εικονοστοιχεία για την παραγωγή οικονομικής αντιδιαστολής με βελτιωμένη λεπτομέρεια.

Η λεκάνη απορροής κωνικού κώνου που χρησιμοποιεί το Mip-NeRF είναι τεμαχισμένη σε κωνικά κόλουρα (παρακάτω), τα οποία είναι περαιτέρω «θολά» για να αντιπροσωπεύσουν έναν πιο ασαφή χώρο Gauss που μπορεί να χρησιμοποιηθεί για τον υπολογισμό της ακρίβειας και του ψευδώνυμου ενός pixel. Πηγή: https://www.youtube.com/watch?v=EpH175PY1A0

Η λεκάνη απορροής κωνικού κώνου που χρησιμοποιεί το Mip-NeRF τεμαχίζεται σε κωνικά κολοκύθα (κάτω εικόνα), τα οποία είναι περαιτέρω «θολά» για να δημιουργηθούν ασαφείς Gaussian χώροι που μπορούν να χρησιμοποιηθούν για τον υπολογισμό της ακρίβειας και του ψευδώνυμου ενός pixel. Πηγή: https://www.youtube.com/watch?v=EpH175PY1A0

Η βελτίωση σε σχέση με μια τυπική υλοποίηση NeRF ήταν αξιοσημείωτη:

Το Mip-NeRF (δεξιά), που κυκλοφόρησε τον Μάρτιο του 2021, παρέχει βελτιωμένη λεπτομέρεια μέσω μιας πιο περιεκτικής αλλά οικονομικής διοχέτευσης aliasing, αντί απλώς να «θολώνει» τα pixel για να αποφευχθούν οι οδοντωτές άκρες. Πηγή: https://jonbarron.info/mipnerf/

Το Mip-NeRF (δεξιά), που κυκλοφόρησε τον Μάρτιο του 2021, παρέχει βελτιωμένη λεπτομέρεια μέσω μιας πιο περιεκτικής αλλά οικονομικής διοχέτευσης aliasing, αντί απλώς να «θολώνει» τα pixel για να αποφευχθούν οι οδοντωτές άκρες. Πηγή: https://jonbarron.info/mipnerf/

NeRF Χωρίς περιορισμούς

Το έγγραφο του Μαρτίου άφησε τρία προβλήματα άλυτα σχετικά με τη χρήση του Mip-NeRF σε απεριόριστα περιβάλλοντα που μπορεί να περιλαμβάνουν πολύ μακρινά αντικείμενα, συμπεριλαμβανομένων των ουρανών. Η νέα εργασία το λύνει αυτό εφαρμόζοντας α στιλ Kalman στημόνι στους Gaussians Mip-NeRF.

Δεύτερον, οι μεγαλύτερες σκηνές απαιτούν μεγαλύτερη ισχύ επεξεργασίας και εκτεταμένους χρόνους προπόνησης, τους οποίους το Mip-NeRF 360 λύνει «αποστάζοντας» τη γεωμετρία σκηνής με μια μικρή «πρόταση». πολυστρωματικό perceptron (MLP), το οποίο δεσμεύει εκ των προτέρων τη γεωμετρία που προβλέπεται από ένα μεγάλο πρότυπο NeRF MLP. Αυτό επιταχύνει την προπόνηση κατά τρεις φορές.

Τέλος, οι μεγαλύτερες σκηνές τείνουν να κάνουν τη διακριτοποίηση της ερμηνευόμενης γεωμετρίας διφορούμενη, με αποτέλεσμα το είδος των τεχνουργημάτων που μπορεί να γνωρίζουν οι παίκτες όταν η έξοδος του παιχνιδιού «σκίζει». Το νέο έγγραφο αντιμετωπίζει αυτό το ζήτημα δημιουργώντας έναν νέο ρυθμιστή για διαστήματα ακτίνων Mip-NeRF.

Στα δεξιά, βλέπουμε ανεπιθύμητα τεχνουργήματα στο Mip-NeRF λόγω της δυσκολίας οριοθέτησης μιας τόσο μεγάλης σκηνής. Στα αριστερά, βλέπουμε ότι ο νέος ρυθμιστής έχει βελτιστοποιήσει τη σκηνή αρκετά καλά για να αφαιρέσει αυτές τις διαταραχές.

Στα δεξιά, βλέπουμε ανεπιθύμητα τεχνουργήματα στο Mip-NeRF λόγω της δυσκολίας οριοθέτησης μιας τόσο μεγάλης σκηνής. Στα αριστερά, βλέπουμε ότι ο νέος ρυθμιστής έχει βελτιστοποιήσει τη σκηνή αρκετά καλά για να αφαιρέσει αυτές τις διαταραχές.

Για να μάθετε περισσότερα για τη νέα εφημερίδα, ρίξτε μια ματιά στο παρακάτω βίντεο, καθώς και στο Εισαγωγή βίντεο Μαρτίου 2021 στο Mip-NeRF. Μπορείτε επίσης να μάθετε περισσότερα για την έρευνα του NeRF κάνοντας check out η μέχρι τώρα κάλυψή μας.

Mip-NeRF 360: Απεριόριστα Anti-Aliased Neural Radiance Fields

Δημοσιεύθηκε αρχικά στις 25 Νοεμβρίου 2021
21 Δεκεμβρίου 2021, 12:25 μ.μ. – Αντικαταστάθηκε νεκρό βίντεο. – MA