Τεχνητή νοημοσύνη
Προς την Εποχή των Ανθρώπων του AI σε Εποχή Πραγματικού Χρόνου με την Απόδοση του Νευρωνικού Λουμιγκράφου

Παρά την τρέχουσα έξαρση του ενδιαφέροντος για τα Νευρωνικά Πεδία Ραδιότητας (NeRF), μια τεχνολογία που είναι ικανή να δημιουργεί περιβάλλοντα και αντικείμενα 3D που παράγονται από το AI, αυτή η νέα προσέγγιση στην τεχνολογία σύνθεσης εικόνων vẫn απαιτεί μεγάλο χρόνο εκπαίδευσης και λείπει μια εφαρμογή που να επιτρέπει διεπαφές σε πραγματικό χρόνο και υψηλής απόκρισης.
Ωστόσο, μια συνεργασία μεταξύ ονομάτων που εντυπωσιάζουν στη βιομηχανία και την ακαδημία προσφέρει μια νέα προσέγγιση σε αυτή την πρόκληση (γενικά γνωστή ως Νέα Σύνθεση Θέσης, ή NVS).
Το ερευνητικό έγγραφο, με τίτλο Απόδοση Νευρωνικού Λουμιγκράφου, ισχυρίζεται ότι υπάρχει μια βελτίωση της κατάστασης της τέχνης περίπου δύο τάξεις μεγέθους, αντιπροσωπεύοντας αρκετά βήματα προς την απόδοση CG σε πραγματικό χρόνο μέσω των πιπελίνων της μηχανικής μάθησης.

Απόδοση Νευρωνικού Λουμιγκράφου (δεξιά) προσφέρει καλύτερη ανάλυση των τεχνικών συνδυασμού και βελτιωμένη αντιμετώπιση της οκκλουσίου από τις προηγούμενες μεθόδους. Source.
Αν και τα πιστωτικά στοιχεία για το έγγραφο αναφέρουν μόνο το Πανεπιστήμιο του Στάνφορντ και την εταιρεία ολογραφικών οθονών Raxium (η οποία λειτουργεί目前 σε κρυφό τρόπο), οι συντελεστές περιλαμβάνουν έναν αρχιτέκτονα μηχανικής μάθησης στο Google, έναν επιστήμονα υπολογιστών στην Adobe, και τον CTO στην StoryFile (η οποία έκανε τα πρωτοσέλιδα πρόσφατα με μια εκδοχή του AI του William Shatner).
Σχετικά με την πρόσφατη δημοσιότητα του Shatner, η StoryFile φαίνεται να χρησιμοποιεί την NLR στη νέα της διαδικασία για τη δημιουργία διαδραστικών, AI-παραγόμενων οντοτήτων με βάση τα χαρακτηριστικά και τις αφηγήσεις των ατόμων.
Η StoryFile οραματίζεται τη χρήση αυτής της τεχνολογίας σε εκθέσεις μουσείων, διαδραστικές αφηγήσεις online, ολογραφικές οθόνες, aumented reality (AR) και τεκμηρίωση κληρονομιάς – και φαίνεται επίσης να εξετάζει潜τικές νέες εφαρμογές της NLR σε συνεντεύξεις πρόσληψης και εφαρμογές εικονικής randevouz:

Προτεινόμενες χρήσεις από ένα online βίντεο της StoryFile. Source: https://www.youtube.com/watch?v=2K9J6q5DqRc
Τρισδιάστατη Καταγραφή για Νέα Σύνθεση Θέσης και Βίντεο
Η αρχή της τρισδιάστατης καταγραφής, σε όλη τη σειρά των ερευνών που συσσωρεύονται στο θέμα, είναι η ιδέα να λαμβάνονται στατικές εικόνες ή βίντεο ενός αντικειμένου και να χρησιμοποιείται η μηχανική μάθηση για να “γεμίσουμε” τις απόψεις που δεν καλύπτονται από την αρχική σειρά των καμερών.

Source: https://research.fb.com/wp-content/uploads/2019/06/Neural-Volumes-Learning-Dynamic-Renderable-Volumes-from-Images.pdf
Στην εικόνα παραπάνω, που έχει ληφθεί από την έρευνα του Facebook του 2019 (βλ. παρακάτω), βλέπουμε τα τέσσερα στάδια της τρισδιάστατης καταγραφής: πολλές κάμερες λαμβάνουν εικόνες/βίντεο; αρχιτεκτονική κωδικοποιητή/αποκωδικοποιητή (ή άλλες αρχιτεκτονικές) υπολογίζουν και συνδυάζουν τη σχετικότητα των απόψεων; αλγόριθμοι ray-marching υπολογίζουν τα voxels (ή άλλα μονάδα XYZ γεωμετρικών μονάδων) κάθε σημείου στο τρισδιάστατο χώρο; και (σε πρόσφατες έρευνες) η εκπαίδευση πραγματοποιείται για να συνθέσει ένα πλήρες αντικείμενο που μπορεί να χειριστεί σε πραγματικό χρόνο.
Είναι αυτή η συχνά εκτεταμένη και πλούσια σε δεδομένα φάση εκπαίδευσης που, μέχρι τώρα, έχει κρατήσει τη νέα σύνθεση θέσης εκτός του πεδίου του πραγματικού χρόνου ή της υψηλής απόκρισης.
Το γεγονός ότι η Νέα Σύνθεση Θέσης δημιουργεί ένα πλήρες τρισδιάστατο χάρτη του χώρου σημαίνει ότι είναι σχετικά εύκολο να συνδέσουμε αυτές τις σημείες μαζί σε ένα παραδοσιακό CG mesh, αποτελεσματικά καταγράφοντας και артикуλιруя ένα CGI ανθρώπινο (ή οποιοδήποτε άλλο σχετικά οριοθετημένο αντικείμενο) στην πτήση.
Προσέγγιση που χρησιμοποιεί NeRF βασίζεται σε σημειακές νεφώσεις και χάρτες βάθους για να παράγει τις δια.interpolate μεταξύ των σπάνιων σημείων-απόψεων των συσκευών καταγραφής:

NeRF μπορεί να παράγει τρισδιάστατο βάθος μέσω υπολογισμού χαρτών βάθους, αντί της δημιουργίας CG mesh. Source: https://www.youtube.com/watch?v=JuH79E8rdKc
Αν και το NeRF είναι ικανό να υπολογίζει mesh, οι περισσότερες εφαρμογές δεν χρησιμοποιούν αυτό για να παράγουν τρισδιάστατα σκηνικά.
Αντίθετα, η προσέγγιση του Implicit Differentiable Renderer (IDR), δημοσιευμένη από το Ινστιτούτο Επιστημών του Weizmann τον Οκτώβριο του 2020, βασίζεται στην εκμετάλλευση των πληροφοριών 3D mesh που παράγονται αυτόματα από τις σειρές καταγραφής:

Παραδείγματα IDR που μετατρέπονται σε διαδραστικά CGI mesh. Source: https://www.youtube.com/watch?v=C55y7RhJ1fE
Ενώ το NeRF λείπει από την ικανότητα του IDR για εκτίμηση σχήματος, το IDR δεν μπορεί να ταιριάξει με την ποιότητα εικόνας του NeRF, και και τα δύο απαιτούν εκτεταίους πόρους για εκπαίδευση και συλλογή (αν και πρόσφατες καινοτομίες στο NeRF αρχίζουν να αντιμετωπίσουν αυτό).

Εξειδικευμένο σύστημα καμερών NLR με 16 GoPro HERO7 και 6 κεντρικές κάμερες Back-Bone H7PRO. Για ‘πραγματικό χρόνο’ απόδοση, αυτές λειτουργούν με ελάχιστη ταχύτητα 60fps. Source: https://arxiv.org/pdf/2103.11571.pdf
Αντίθετα, η Απόδοση Νευρωνικού Λουμιγκράφου χρησιμοποιεί SIREN (Δίκτυα Αναπαράστασης Σινουσοειδών) για να ενσωματώσει τις ισχύες κάθε προσέγγισης στο δικό της πλαίσιο, το οποίο προορίζεται να παράγει έξοδο που είναι απευθείας χρησιμοποιήσιμη στις υφιστάμενες πιπελίνες γραφικών σε πραγματικό χρόνο.
Το SIREN έχει χρησιμοποιηθεί για παρόμοιες εφαρμογές κατά το τελευταίο χρόνο, και τώρα αντιπροσωπεύει μια δημοφιλή κλήση API για hobbyist Colabs στις κοινότητες σύνθεσης εικόνων; ωστόσο, η καινοτομία της NLR είναι να εφαρμόσει SIRENs σε δισδιάστατη πολυοπτική εποπτεία εικόνων, η οποία είναι προβληματική λόγω του βαθμού στον οποίο το SIREN παράγει over-προσαρμοσμένα αντί για γενικευμένα αποτελέσματα.
Μετά την εξαγωγή του CG mesh από τις εικόνες της σειράς, το mesh rasterize μέσω OpenGL, και οι θέσεις των κορυφών του mesh χαρτογραφούνται στα αντίστοιχα pixels, μετά από οποία υπολογίζεται η σύνθετη των verschiedenen συνεισφέρουσων χαρτών.
Το αποτελεσματικό mesh είναι πιο γενικευμένο και αντιπροσωπευτικό από το NeRF (βλ. εικόνα παρακάτω), απαιτεί λιγότερο υπολογισμό, και δεν εφαρμόζει υπερβολική λεπτομέρεια σε περιοχές (όπως λεία δερματική επιφάνεια) που δεν μπορούν να επωφεληθούν από αυτή:
Στην αρνητική πλευρά, η NLR δεν έχει ακόμη καμία ικανότητα για δυναμική φωτισμό ή relighting, και η έξοδος περιορίζεται σε χάρτες σκιών και άλλες σκέψεις φωτισμού που λαμβάνονται κατά την время της καταγραφής. Οι ερευνητές σκοπεύουν να αντιμετωπίσουν αυτό σε μελλοντική εργασία.
Επιπλέον, το έγγραφο παραδέχεται ότι τα σχήματα που παράγονται από την NLR δεν είναι τόσο ακριβή όσο κάποιες εναλλακτικές προσεγγίσεις, όπως Pixelwise View Selection for Unstructured Multi-View Stereo, ή η έρευνα του Ινστιτούτου του Weizmann που αναφέρθηκε νωρίτερα.
Η Άνοδος της Τρισδιάστατης Σύνθεσης Εικόνων
Η ιδέα της δημιουργίας οντοτήτων 3D από μια περιορισμένη σειρά φωτογραφιών με νευρωνικά δίκτυα προηγείται του NeRF, με οραματικές έρευνες που χρονολογούνται από το 2007 ή νωρίτερα. Το 2019 η έρευνα του Facebook για την τεχνολογία AI παρήγαγε μια σημαδιακή έρευνα, Νευρωνικά Όγκοι: Μάθηση Δυναμικών Renderable Όγκων από Εικόνες, η οποία πρώτα επέτρεψε διεπαφές σε πραγματικό χρόνο για συνθετικά ανθρώπινα που παράγονται από την τεχνολογία volumetric καταγραφής με βάση τη μηχανική μάθηση.

Η έρευνα του Facebook του 2019 επέτρεψε τη δημιουργία μιας διεπαφής χρήστη σε πραγματικό χρόνο για ένα τρισδιάστατο άτομο. Source: https://research.fb.com/publications/neural-volumes-learning-dynamic-renderable-volumes-from-images/











