Επαυξημένη πραγματικότητα
Ερευνητές Δημιουργούν AI-Ενισχυμένα Τρισδιάστατα Ολογράμματα σε Πραγματικό Χρόνο σε Σ마트φώνες

Τα σ마트φώνη θα μπορούσαν σύντομα να παράγουν φωτορεαλιστικά τρισδιάστατα ολογράμματα, χάρη σε μέρος ενός μοντέλου AI που αναπτύχθηκε από ερευνητές στο MIT. Το σύστημα AI που αναπτύχθηκε από την ομάδα του MIT καθορίζει τον καλύτερο τρόπο για να παράγει ολογράμματα από μια σειρά εικόνων εισόδου.
Ερευνητές από το MIT έχουν σχεδιάσει πρόσφατα μοντέλα AI που επιτρέπουν την παραγωγή φωτορεαλιστικών τρισδιάστατων ολογραμμάτων. Η τεχνολογία αυτή θα μπορούσε να έχει εφαρμογές για VR και AR γυαλιά, και τα ολογράμματα μπορούν ακόμη και να παραχθούν από ένα σ마트φώνη.
Σε αντίθεση με τις παραδοσιακές οθόνες 3D και VR, οι οποίες παράγουν απλώς την ψευδαίσθηση του βάθους και οι οποίες μπορούν να προκαλέσουν ναυτία και πονοκεφάλους, οι ολογραφικές οθόνες μπορούν να παρατηρηθούν από τους ανθρώπους χωρίς να προκαλούν εYE-πόνους. Ένας σημαντικός εμπόδιο για τη δημιουργία ολογραφικών μέσων είναι η διαχείριση των δεδομένων που απαιτούνται για την παραγωγή του ολογραμματος. Κάθε ολογράμμα αποτελείται από một τεράστιο όγκο δεδομένων, απαραίτητων για τη δημιουργία του “βάθους” του ολογραμματος. Λόγω αυτού, η παραγωγή ολογραμμάτων συνήθως απαιτεί τεράστιο υπολογιστικό δυναμικό. Για να κάνουν την ολογραφική τεχνολογία πιο πρακτική, η ομάδα του MIT εφαρμόζει βαθιά συνβολικά νευρωνικά δίκτυα στο πρόβλημα, δημιουργώντας ένα δίκτυο ικανό να παράγει γρήγορα ολογράμματα με βάση εικόνες εισόδου.
Η τυπική προσέγγιση για την παραγωγή ολογραμμάτων γενικά παράγει πολλά τμήματα ολογραμμάτων και στη συνέχεια χρησιμοποιεί προσομοιώσεις φυσικής για να συνδυάσει τα τμήματα σε μια πλήρη αναπαράσταση ενός αντικειμένου ή εικόνας. Αυτό διαφέρει από την τυπική προσέγγιση που χρησιμοποιείται για την παραγωγή ολογραμμάτων. Στην παραδοσιακή μέθοδο, οι εικόνες κομμένες σε τμήματα και μια σειρά πινάκων αναζήτησης χρησιμοποιούνται για να ενωθούν τα τμήματα ολογραμμάτων, καθώς οι πίνακες αναζήτησης σηματοδοτούν τα όρια των διαφορετικών τμημάτων ολογραμμάτων. Η διαδικασία ορισμού ορίων τμημάτων ολογραμμάτων με πίνακες αναζήτησης είναι khá χρονοβόρα και εντατική σε υπολογιστική δύναμη.
Σύμφωνα με το IEEE Spectrum, η ομάδα του MIT σχεδιάσε μια άλλη μέθοδο για την παραγωγή ολογραμμάτων. Χρησιμοποιώντας τη δύναμη των βαθιών νευρωνικών δικτύων, ήταν σε θέση να κοπεί εικόνες σε τμήματα που θα μπορούσαν να ανασυναρμολογηθούν σε ολογράμματα χρησιμοποιώντας πολύ λιγότερα “τμήματα”. Η νέα τεχνική επωφελείται από την ικανότητα των συνβολικών νευρωνικών δικτύων να αναλύουν εικόνες και να τις χωρίζουν σε διακριτά τμήματα. Αυτή η νέα μέθοδος ανάλυσης και τμηματοποίησης εικόνων μειώνει σημαντικά τον αριθμό των συνολικών λειτουργιών που πρέπει να εκτελεστούν από το σύστημα.
Για να σχεδιάσουν τον AI-ενισχυμένο γεννήτορα ολογραμμάτων, η ερευνητική ομάδα άρχισε κατασκευάζοντας μια βάση δεδομένων που αποτελείται από περίπου 4000 υπολογιστικά παραγμένες εικόνες, με μια αντίστοιχη 3D ολογράμμα που αντιστοιχεί σε κάθε μια από αυτές τις εικόνες. Το συνβολικό νευρωνικό δίκτυο εκπαιδεύτηκε σε αυτό το σύνολο δεδομένων, μαθαίνοντας πώς κάθε μια από τις εικόνες συνδέεται με το ολογράμμα της και τον καλύτερο τρόπο για να χρησιμοποιηθούν τα χαρακτηριστικά για να παράγουν τα ολογράμματα. Όταν το σύστημα AI παρέχθηκε με μη προηγουμένως εμφανισμένα δεδομένα με πληροφορίες βάθους, μπορούσε τότε να παράγει νέα ολογράμματα από αυτά τα δεδομένα. Οι πληροφορίες βάθους παρέχονται μέσω της χρήσης αισθητήρων lidar ή οθονών πολλαπλών καμερών και αποδίδονται ως υπολογιστικά παραγμένες εικόνες. Κάποια νέα iPhone έχουν αυτά τα στοιχεία, που σημαίνει ότι θα μπορούσαν potencially να παράγουν τα ολογράμματα εάν συνδεθούν με τον σωστό τύπο οθόνης.
Το νέο AI-κίνητο σύστημα ολογραμμάτων χρειάζεται πολύ λιγότερη μνήμη από τις κλασικές μεθόδους. Το σύστημα μπορεί να παράγει τρισδιάστατα ολογράμματα με 60 καρέ ανά δευτερόλεπτο σε πλήρη χρώμα με ανάλυση 1920 x 1080 χρησιμοποιώντας περίπου 620 kilobytes μνήμης ενώ εκτελείται σε一个人 GPU. Οι ερευνητές ήταν σε θέση να εκτελέσουν το σύστημά τους σε ένα iPhone 11 παράγοντας περίπου 1 ολογράμμα ανά δευτερόλεπτο, ενώ ένα Google Edge TPU το σύστημα μπορούσε να αποδώσει 2 ολογράμματα ανά δευτερόλεπτο. Αυτό υποδηλώνει ότι το σύστημα θα μπορούσε να προσαρμοστεί σε σ마트φώνη, συσκευές AR και VR γενικά. Το σύστημα θα μπορούσε επίσης να έχει εφαρμογές για τρισδιάστατη εκτύπωση ή στο σχεδιασμό ολογραφικών μικροσκοπίων.
Στο μέλλον, οι βελτιώσεις στην τεχνολογία θα μπορούσαν να εισαγάγουν hardware και λογισμικό παρακολούθησης ματιών, επιτρέποντας στα ολογράμματα να κλιμακώνονται δυναμικά σε ανάλυση όσο ο χρήστης κοιτάζει συγκεκριμένα σημεία.












