Connect with us

Μπορούν τα Περιβάλλοντα Επαυξημένης Πραγματικότητας του Apple με HDR να Λύσουν τα Προβλήματα των Ανακλάσεων για την Νευρωνική Απόδοση;

Τεχνητή νοημοσύνη

Μπορούν τα Περιβάλλοντα Επαυξημένης Πραγματικότητας του Apple με HDR να Λύσουν τα Προβλήματα των Ανακλάσεων για την Νευρωνική Απόδοση;

mm

Η ενεργητική και μακροχρόνια επένδυση της Apple στις τεχνολογίες Επαυξημένης Πραγματικότητας επιταχύνεται φέτος, με μια νέα σειρά εργαλείων για τους développers για να καταγράψουν και μετατρέψουν αντικείμενα του πραγματικού κόσμου σε στοιχεία AR, και μια αυξανόμενη βιομηχανική πεποίθηση ότι αφιερωμένα γυαλιά AR έρχονται για να υποστηρίξουν τις εύκολες εμπειρίες που μπορεί να ενεργοποιήσει αυτή η χιονοστιβάδα έρευνας και ανάπτυξης.

Μεταξύ μιας σειράς νέων πληροφοριών για τις προσπάθειες της Apple στις τεχνολογίες Επαυξημένης Πραγματικότητας, μια νέα εργασία από το τμήμα έρευνας υπολογιστικής όρασης της εταιρείας αποκαλύπτει μια μέθοδο για την χρήση 360-βαθμιών πανοραμικών εικόνων υψηλής δυναμικής εύρους (HDR) για να παρέχει περιβάλλον-ειδικές ανακλάσεις και φωτισμό για αντικείμενα που είναι υπερθεμένα σε σκηνές επαυξημένης πραγματικότητας.

Με τίτλο Εκτίμηση Χαρτών Περιβάλλοντος HDR για Επαυξημένη Πραγματικότητα σε Εchtzeit, η εργασία, από τους μηχανικούς Gowri Somanath και Daniel Kurz, προτείνει τη δυναμική δημιουργία περιβαλλόντων HDR σε εchtzeit μέσω ενός συνελικτικού νευρωνικού δικτύου (CNN) που εκτελείται σε ένα περιβάλλον επεξεργασίας κινητών συσκευών. Το αποτέλεσμα είναι ότι τα αντικείμενα με ανακλαστικές ιδιότητες μπορούν να ανακλούν νέα, μη ορατά περιβάλλοντα κατά παραγγελία:

Στην νέα ροή δημιουργίας αντικειμένων AR της Apple, ένας βραστήρας πιέσεως δημιουργείται με φωτογραμμετρία, μαζί με το περιβάλλον του, οδηγώντας σε πειστικές ανακλάσεις που δεν είναι 'βαμμένες' στην υφή. Πηγή: https://docs-assets.developer.apple.com/

Στην νέα ροή δημιουργίας αντικειμένων AR της Apple, ένας βραστήρας πιέσεως δημιουργείται με φωτογραμμετρία, μαζί με το περιβάλλον του, οδηγώντας σε πειστικές ανακλάσεις που δεν είναι ‘βαμμένες’ στην υφή. Πηγή: https://docs-assets.developer.apple.com/

Η μέθοδος, που παρουσιάστηκε στο CVPR 2021, λαμβάνει μια φωτογραφία ολόκληρης της σκηνής και χρησιμοποιεί το EnvMapNet CNN για να εκτιμήσει μια οπτικά πλήρη πανοραμική εικόνα HDR, επίσης γνωστή ως ‘light probe’.

Το αποτέλεσμα χαρτογραφεί ισχυρές πηγές φωτός (περιγραμμένες στο τέλος της ανώτερης animation) και τις λαμβάνει υπόψη κατά την απόδοση των εικονικών αντικειμένων.

Η αρχιτεκτονική του EnvMapNet, η οποία επεξεργάζεται περιορισμένες εικόνες σε πλήρεις σκηνές HDR light probes. Πηγή: https://arxiv.org/pdf/2011.10687.pdf

Η αρχιτεκτονική του EnvMapNet, η οποία επεξεργάζεται περιορισμένες εικόνες σε πλήρεις σκηνές HDR light probes. Πηγή: https://arxiv.org/pdf/2011.10687.pdf

Ο αλγόριθμος μπορεί να εκτελεστεί σε λιγότερο από 9ms σε ένα iPhone XS και είναι ικανός να αποδίδει αντικείμενα που είναι ευαίσθητα στις ανακλάσεις σε εchtzeit, με μειωμένο σφάλμα κατεύθυνσης 50% σε σύγκριση με προηγούμενες και διαφορετικές προσεγγίσεις στο πρόβλημα.

Light Probes

Οι περιβάλλοντες χώροι φωτισμού HDR έχουν αποτελέσει παράγοντα στις οπτικές επιδράσεις από τότε που οι εικόνες υψηλής δυναμικής εύρους (HDR) έγιναν μια αξιοσημείωτη δύναμη μέσω των προόδων στην υπολογιστική τεχνολογία στη δεκαετία του 1990. Όποιος παρακολουθεί πίσω από τις σκηνές μπορεί να έχει παρατηρήσει την σουρεαλιστική παρουσία τεχνικών που κρατούν αντανακλαστικές σφαίρες σε ράβδους – αναφορικές εικόνες που θα ενσωματωθούν ως περιβαλλοντικοί παράγοντες όταν ανακατασκευάζονται στοιχεία CGI για τη σκηνή.

Πηγή: https://beforesandafters.com/

Πηγή: https://beforesandafters.com/

Ωστόσο, η χρήση χρωμικών σφαιρών για ανάκλαση χαρτογράφησης προηγήθηκε της δεκαετίας του 1990, ξεκινώντας από το 1983 με το έγγραφο SIGGRAPH Pyramidal Parametrics, το οποίο παρουσίασε στατικές εικόνες ενός αντανακλαστικού ρομποτικού CGI σε ένα στυλ που θα γινόταν διάσημο σχεδόν μια δεκαετία αργότερα μέσω των ‘υγρών μετάλλων’ επιδράσεων της ταινίας Terminator 2: Judgement Day του James Cameron.

HDR Environments In Neural Rendering?

Η νευρωνική απόδοση προσφέρει τη δυνατότητα να παράγει φωτορεαλιστικές βίντεο από πολύ σπάνιες εισόδους, συμπεριλαμβανομένων χονδρικών χαρτών διαχωρισμού.

Intel ISL’s segmentation>image νευρωνική απόδοση (2017). Πηγή: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis

Intel ISL’s segmentation>image νευρωνική απόδοση (2017). Πηγή: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis

Τον Μάιο, ερευνητές της Intel αποκάλυψαν μια νέα πρωτοβουλία στη νευρωνική σύνθεση εικόνων όπου η φωτογραφία από το Grand Theft Auto V χρησιμοποιήθηκε για να παράγει φωτορεαλιστικά αποτελέσματα με βάση datasets εικόνων δρόμων της Γερμανίας.

Πηγή: https://www.youtube.com/watch?v=0fhUJT21-bs

Πηγή: https://www.youtube.com/watch?v=0fhUJT21-bs

Η πρόκληση στην ανάπτυξη περιβαλλόντων νευρωνικής απόδοσης που μπορούν να προσαρμοστούν σε διάφορες συνθήκες φωτισμού είναι να διαχωρίσουν το περιεχόμενο του αντικειμένου από τους περιβαλλοντικούς παράγοντες που το επηρεάζουν.

Ως खडει, οι ανακλάσεις και οι ανισοτροπικές επιδράσεις παραμένουν λειτουργίες είτε της αρχικής δεδομένης φωτογραφίας (η οποία τις καθιστά άκαμπτες), είτε απαιτούν το ίδιο είδος σχήματος που οι ερευνητές της Intel χρησιμοποίησαν, το οποίο παράγει ημι-φωτορεαλιστικά αποτελέσματα από μια χονδρή (παιχνίδι) μηχανή, πραγματοποιεί διαχωρισμό σε αυτό και στη συνέχεια εφαρμόζει μεταφορά στυλ από ένα ‘ψημένο’ dataset (όπως το σύνολο δεδομένων οδικής θέασης Mapillary της Γερμανίας που χρησιμοποιήθηκε στη πρόσφατη έρευνα).

Σε αυτή τη νευρωνική απόδοση (η φωτογραφία από το GTA V είναι αριστερά), το όχημα μπροστά δείχνει πειστική λάμψη και ακόμη και ικανοποιεί τον αισθητήρα της εικονικής κάμερας με ανακλάσεις από τον ήλιο. Αλλά αυτός ο φωτισμός προέρχεται από την αρχική μηχανή παιχνιδιού,既然 τα νευρωνικά στοιχεία της σκηνής δεν έχουν αυτόνομες και αυτοαναφορικές φωτιζόμενες δομές που μπορούν να αλλάξουν.

Σε αυτή τη νευρωνική απόδοση (η φωτογραφία από το GTA V είναι αριστερά), το όχημα μπροστά δείχνει πειστική λάμψη και ακόμη και ικανοποιεί τον αισθητήρα της εικονικής κάμερας με ανακλάσεις από τον ήλιο. Αλλά αυτός ο φωτισμός προέρχεται από την αρχική μηχανή παιχνιδιού,既然 τα νευρωνικά στοιχεία της σκηνής δεν έχουν αυτόνομες και αυτοαναφορικές φωτιζόμενες δομές που μπορούν να αλλάξουν.

Reflectance In NeRF

Οι εικόνες που προέρχονται από Νευρωνικά Πεδία Ραδιότητας (NeRF) αντιμετωπίζουν παρόμοια πρόκληση. Αν και πρόσφατη έρευνα στο NeRF έχει κάνει βήματα στην分离 των στοιχείων που συνθέτουν μια νευρωνική σκηνή (για παράδειγμα, η συνεργασία MIT/Google NeRFactor), οι ανακλάσεις παραμένουν ένα εμπόδιο.

Η προσέγγιση NeRFactor του MIT και της Google διαχωρίζει τους.normals, ορατότητα (σκιές), υφή και τοπική αλμπέντο, αλλά δεν αντανακλούν ένα ευρύτερο (ή κινούμενο) περιβάλλον,既然 υπάρχει σε ένα κενό.

Η προσέγγιση NeRFactor του MIT και της Google διαχωρίζει τους.normals, ορατότητα (σκιές), υφή και τοπική αλμπέντο, αλλά δεν αντανακλούν ένα ευρύτερο (ή κινούμενο) περιβάλλον,既然 υπάρχει σε ένα κενό. Πηγή: https://arxiv.org/pdf/2106.01970.pdf

Το NeRF μπορεί να λύσει αυτό το πρόβλημα με τον ίδιο τύπο χαρτογράφησης HDR που χρησιμοποιεί η Apple. Κάθε pixel σε ένα νευρωνικό πεδίο ραδιότητας υπολογίζεται σε μια τροχιά από μια εικονική κάμερα μέχρι το σημείο όπου ο ‘ακτίνα’ δεν μπορεί να ταξιδέψει περαιτέρω, παρόμοια με το ray-tracing στις παραδοσιακές CGI. Η προσθήκη εισόδου HDR στον υπολογισμό αυτής της ακτίνας είναι μια πιθανή μέθοδος για να επιτύχει γνήσιες περιβαλλοντικές ανακλάσεις, και είναι στην πραγματικότητα ένα ανάλογο με τις μεθόδους ‘παγκόσμιου φωτισμού’ ή ραδιοσκοπικής απόδοσης CGI, όπου μια σκηνή ή αντικείμενο φωτίζεται εν μέρει από τις ανακλάσεις του δικού του περιβάλλοντος.

Αν και είναι βέβαιο ότι μια πλέγμα HDR δεν θα κάνει τίποτα για να ευκολύνει τα υπολογιστικά βάρη του NeRF, πολλή έρευνα σε αυτόν τον τομέα σήμερα επικεντρώνεται στην αντιμετώπιση αυτού του аспέκτου της Pipeline επεξεργασίας. Αναπόφευκτα, η ανακλαστικότητα είναι ένας από τους πολλούς παράγοντες που περιμένουν στην πτέρυγα για να ξαναγεμίσει και να προκλήσει αυτή τη νεο-βελτιωμένη αρχιτεκτονική. Ωστόσο, το NeRF δεν μπορεί να επιτύχει το πλήρες δυναμικό του ως μια διακριτή νευρωνική σύνθεση εικόνων και βίντεο χωρίς να υιοθετήσει έναν τρόπο για να λάβει υπόψη ένα περιβάλλον.

Reflectance In Neural Rendering Pipelines

Σε μια υποθετική εκδοχή του σενάριου νευρωνικής απόδοσης Intel GTA V με HDR, μια seule HDR δεν θα μπορούσε να φιλοξενήσει τις δυναμικές ανακλάσεις που χρειάζονται να εκφραστούν σε κινούμενα αντικείμενα. Για παράδειγμα, για να δείτε το δικό σας όχημα να αντανακλάται στο όχημα μπροστά καθώς πλησιάζει στα φανάρια, το όχημα μπροστά θα μπορούσε να έχει το δικό του κινούμενο HDR light probe, η ανάλυση του οποίου θα μειωνόταν σταδιακά καθώς απομακρύνεται από την οπτική γωνία του χρήστη, για να γίνει χαμηλής ανάλυσης και μόνο αντιπροσωπευτική καθώς απομακρύνεται στην απόσταση – μια προοπτική-βασισμένη LOD παρόμοια με ‘αποστάσεις σχεδίασης’ σε βιντεοπαιχνίδια.

Η πραγματική δυνατότητα της εργασίας της Apple σε φωτισμό και χαρτογράφηση HDR δεν είναι ότι είναι ιδιαίτερα καινοτόμα,既然 χτίζει πάνω σε προηγούμενη εργασία στη γενική σύνθεση εικόνων και στην ανάπτυξη σκηνών AR. Αλλά η πιθανή διάρρηξη είναι ότι η συνδυασμένη επένδυση σε τοπική επεξεργασία και οι καινοτομίες της Apple σε υλικό μηχανικής μάθησης έχουν οδηγήσει σε ελαφριά, χαμηλής καθυστέρησης χαρτογράφηση HDR που σχεδιάζεται για να λειτουργεί υπό περιορισμένους πόρους.

Αν αυτό το πρόβλημα μπορεί να λυθεί οικονομικά, η έλευση της σεμαντικής διαχωριστικής > φωτορεαλιστικής σύνθεσης βίντεο μπορεί να έρθει ένα σημαντικό βήμα πιο κοντά.

Πηγή: https://docs-assets.developer.apple.com/

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]