Τεχνητή νοημοσύνη

Uni3D: Εξερεύνηση Ενοποιημένων 3D Αναπαραστάσεων σε Κλίμακα

Δημοσιεύτηκε 27 Οκτωβρίου 2023

Ενημερώθηκε 22 Μαΐου 2026

Kunal Kejriwal

Η κλιμάκωση των αναπαραστάσεων του κειμένου και των οπτικών έχει sido ένα σημαντικό焦點 της έρευνας τα τελευταία χρόνια. Οι εξελίξεις και η έρευνα που διεξήχθησαν στο πρόσφατο παρελθόν οδήγησαν σε πολλές επαναστάσεις στην εκμάθηση γλωσσών και όρασης. Ωστόσο, παρά την δημοτικότητα της κλιμάκωσης των αναπαραστάσεων κειμένου και οπτικών, η κλιμάκωση των αναπαραστάσεων για 3D σκηνές και αντικείμενα δεν έχει συζητηθεί επαρκώς.

Σήμερα, θα συζητήσουμε το Uni3D, ένα 3D μοντέλο θεμελιώδους που στοχεύει να εξερευνήσει ενοποιημένες 3D αναπαραστάσεις. Το πλαίσιο Uni3D χρησιμοποιεί ένα 2D-αρχικοποιημένο ViT πλαίσιο, προ-εκπαιδευμένο από άκρη σε άκρη, για να ευθυγραμμίσει τα χαρακτηριστικά εικόνας-κειμένου με τα αντίστοιχα 3D σημειακά χαρακτηριστικά.

Το πλαίσιο Uni3D χρησιμοποιεί προθεματικές εργασίες και μια απλή αρχιτεκτονική για να εκμεταλλευτεί την αφθονία προ-εκπαιδευμένων 2D μοντέλων και μοντέλων εικόνας-κειμένου που ευθυγραμμίζονται ως αρχικοποιήσεις και στόχους, αντίστοιχα. Αυτή η προσέγγιση απελευθερώνει το πλήρες δυναμικό των 2D μοντέλων και στρατηγικών για να κλιμακωθούν στον 3D κόσμο.

Σε αυτό το άρθρο, θα εμβαθύνουμε περισσότερο στην 3D υπολογιστική όραση και το πλαίσιο Uni3D, εξερευνώντας τις βασικές έννοιες και την αρχιτεκτονική του μοντέλου. Έτσι, ας αρχίσουμε.

Uni3D και 3D Αναπαράσταση Μάθηση: Μια Εισαγωγή

Τα τελευταία χρόνια, η υπολογιστική όραση έχει αναδειχθεί ως ένας από τους πιο επενδυμένους τομείς στην βιομηχανία AI. Ακολουθώντας σημαντικές προόδους στα 2D πλαίσια υπολογιστικής όρασης, οι dévelopπερ έχουν μεταφέρει την προσοχή τους στην 3D υπολογιστική όραση. Αυτός ο τομέας, ιδιαίτερα η 3D αναπαράσταση μάθηση, συνδυάζει аспектς της υπολογιστικής γραφικής, της μηχανικής μάθησης, της υπολογιστικής όρασης και των μαθηματικών για να αυτοματοποιήσει την επεξεργασία και την κατανόηση 3D γεωμετρίας. Η ταχεία ανάπτυξη 3D αισθητήρων όπως το LiDAR, μαζί με τις ευρείες εφαρμογές τους στη βιομηχανία AR/VR, έχει οδηγήσει την 3D αναπαράσταση μάθηση να κερδίσει αυξανόμενη προσοχή. Οι πιθανές εφαρμογές της συνεχίζουν να αυξάνονται καθημερινά.

Αν και τα υπάρχοντα πλαίσια έχουν δείξει αξιοσημείωτη πρόοδο στην αρχιτεκτονική 3D μοντέλου, στοχευμένη μοντελοποίηση και στόχους μάθησης, τα περισσότερα εξερευνούν την 3D αρχιτεκτονική σε σχετικά μικρή κλίμακα με περιορισμένα δεδομένα, παραμέτρους και σενάρια εργασιών. Η πρόκληση της μάθησης κλιμακώσιμων 3D αναπαραστάσεων, που μπορούν να εφαρμοστούν σε εφαρμογές σε πραγματικό χρόνο σε διάφορες περιβάλλοντα, παραμένει σε μεγάλο βαθμό ανεξερεύνητη.

Συνεχίζοντας, τα τελευταία χρόνια, η κλιμάκωση μεγάλων γλωσσικών μοντέλων που προ-εκπαιδεύονται έχει βοηθήσει στην επανάσταση του τομέα της φυσικής γλωσσικής επεξεργασίας, και πρόσφατες εργασίες έχουν δείξει μια μετάβαση στην πρόοδο από τη γλώσσα στα 2D με τη χρήση δεδομένων και κλιμάκωσης μοντέλων, η οποία ανοίγει τον δρόμο για τους dévelopπερ να δοκιμάσουν και να επαναλάβουν αυτή την επιτυχία για να μάθουν μια 3D αναπαράσταση που μπορεί να κλιμακωθεί και να μεταφερθεί σε εφαρμογές στον πραγματικό κόσμο.

Το Uni3D είναι ένα κλιμακώσιμο και ενοποιημένο προ-εκπαιδευμένο 3D πλαίσιο που αναπτύχθηκε με στόχο να μάθει μεγάλης κλίμακας 3D αναπαραστάσεις που δοκιμάζουν τα όριά του σε κλίμακα πάνω από ένα δισεκατομμύριο παραμέτρων, πάνω από 10 εκατομμύρια εικόνες που ζευγαρώνουν με πάνω από 70 εκατομμύρια κείμενα και πάνω από ένα εκατομμύριο 3D σχήματα. Το πλαίσιο Uni3D αποτελείται από ένα 2D ViT ή Οπτικό Μετασχηματισμό ως 3D κωδικοποιητή που προ-εκπαιδεύεται από άκρη σε άκρη για να ευθυγραμμίσει τα χαρακτηριστικά εικόνας-κειμένου με τα 3D σημειακά χαρακτηριστικά. Το πλαίσιο Uni3D χρησιμοποιεί προθεματικές εργασίες και μια απλή αρχιτεκτονική για να εκμεταλλευτεί την αφθονία προ-εκπαιδευμένων 2D μοντέλων και μοντέλων εικόνας-κειμένου που ευθυγραμμίζονται ως αρχικοποιήσεις και στόχους, αντίστοιχα, απελευθερώνοντας το πλήρες δυναμικό των 2D μοντέλων και στρατηγικών για να κλιμακωθούν στον 3D κόσμο.

Κλιμάκωση του μοντέλου από 6M σε πάνω από ένα δισεκατομμύριο παραμέτρους.
2D αρχικοποίηση σε κείμενο που εποπτεύεται από οπτική αυτο-επιτήρηση.
Κλιμάκωση του μοντέλου στόχου εικόνας-κειμένου από 150 εκατομμύρια σε πάνω από ένα δισεκατομμύριο παραμέτρους.

Uni3D: Σχετιζόμενη Εργασία

Το πλαίσιο Uni3D εμπνέεται από τις εξελίξεις που έχουν γίνει από προηγούμενη 3D αναπαράσταση μάθησης και θεμελιώδους μοντέλων, ιδιαίτερα υπό διαφορετικές modalities.

3D Αναπαράσταση Μάθηση

Η 3D αναπαράσταση μάθηση χρησιμοποιεί σημειακά νεφελώματα για την 3D κατανόηση του αντικειμένου, και αυτό το πεδίο έχει εξερευνηθεί εκτενώς από τους dévelopπερς στο πρόσφατο παρελθόν, και έχει παρατηρηθεί ότι αυτά τα νεφελώματα μπορούν να προ-εκπαιδευτούν με αυτο-επιτήρηση χρησιμοποιώντας συγκεκριμένες 3D προθεματικές εργασίες, συμπεριλαμβανομένης της μοντελοποίησης σημειακών νεφελωμάτων, της αυτο-ανασυγκρότησης και της αντίθετης μάθησης.

Θεμελιώδη Μοντέλα

Οι dévelopπερ έχουν εργαστεί εξαντλητικά για να σχεδιάσουν θεμελιώδη μοντέλα για να κλιμακώσουν και να ενοποιήσουν πολυ-τροπικές αναπαραστάσεις. Για παράδειγμα, στο πεδίο της NLP, οι dévelopπερ έχουν εργαστεί σε πλαίσια που μπορούν να κλιμακώσουν προ-εκπαιδευμένα γλωσσικά μοντέλα, και αυτό έχει επαναστατήσει τη βιομηχανία NLP. Επιπλέον, προόδους можно να παρατηρήσει και στο πεδίο της 2D όρασης, επειδή οι dévelopπερ εργάζονται σε πλαίσια που χρησιμοποιούν τεχνικές κλιμάκωσης δεδομένων και μοντέλων για να βοηθήσουν στην πρόοδο της γλώσσας στα 2D μοντέλα, αν και τέτοια πλαίσια είναι δύσκολο να αναπαραχθούν για 3D μοντέλα λόγω της περιορισμένης διαθεσιμότητας 3D δεδομένων και των προκλήσεων που αντιμετωπίζονται κατά την ενοποίηση και κλιμάκωση των 3D πλαισίων.

Uni3D: Μέθοδος και Αρχιτεκτονική

Η παραπάνω εικόνα δείχνει μια γενική επισκόπηση του πλαισίου Uni3D, ενός κλιμακώσιμου και ενοποιημένου προ-εκπαιδευμένου 3D πλαισίου για μεγάλη κλίμακα 3D αναπαράσταση μάθησης. Οι dévelopπερ χρησιμοποιούν πάνω από 70 εκατομμύρια κείμενα και 10 εκατομμύρια εικόνες που ζευγαρώνουν με πάνω από ένα εκατομμύριο 3D σχήματα για να κλιμακώσουν το πλαίσιο Uni3D σε πάνω από ένα δισεκατομμύριο παραμέτρους. Το πλαίσιο Uni3D χρησιμοποιεί ένα 2D ViT ή Οπτικό Μετασχηματισμό ως 3D κωδικοποιητή που προ-εκπαιδεύεται από άκρη σε άκρη για να ευθυγραμμίσει τα χαρακτηριστικά εικόνας-κειμένου με τα 3D σημειακά χαρακτηριστικά, επιτρέποντας στο πλαίσιο Uni3D να επιστρέψει την επιθυμητή αποδοτικότητα και ακρίβεια σε μια ευρεία ποικιλία από chuẩnς.

Κλιμάκωση του Πλαισίου Uni3D

Προηγούμενες μελέτες για την 3D αναπαράσταση μάθηση έχουν παραδοσιακά εστιάσει σε σχεδιασμό συγκεκριμένων αρχιτεκτονικών μοντέλων που παρέχουν καλύτερη απόδοση σε eine ευρεία ποικιλία εφαρμογών και εργασιών σε μια περιορισμένη ποσότητα δεδομένων λόγω μικρής κλίμακας συνόλων δεδομένων. Ωστόσο, πρόσφατες μελέτες έχουν προσπαθήσει να εξερευνήσουν τη δυνατότητα χρήσης κλιμακώσιμης προ-εκπαίδευσης σε 3D, αλλά δεν υπήρξαν σημαντικά αποτελέσματα λόγω της περιορισμένης διαθεσιμότητας 3D δεδομένων. Για να λυθεί το πρόβλημα της κλιμάκωσης των 3D πλαισίων, το πλαίσιο Uni3D αξιοποιεί τη δύναμη μιας απλής αρχιτεκτονικής μετασχηματιστή που σχεδόν αντανακλά einen Οπτικό Μετασχηματισμό, και μπορεί να λύσει τα προβλήματα κλιμάκωσης χρησιμοποιώντας ενοποιημένες 2D ή NLP στρατηγικές για να κλιμακώσει το μέγεθος του μοντέλου.

Αρχικοποίηση του Uni3D

Μια άλλη σημαντική πρόκληση που αντιμετωπίζουν οι προηγούμενες εργασίες που ασχολούνται με την κλιμάκωση των 3D αναπαραστάσεων, οι δυσκολίες στην σύγκλιση και την υπερ-προσαρμογή που ήταν αποτέλεσμα του μεγάλου μεγέθους των μοντέλων. Μια αποτελεσματική προσέγγιση για να υπερβεί αυτό το εμπόδιο είναι να προ-εκπαιδεύσει τα 3D σκελετούς με συγκεκριμένες 3D προθεματικές εργασίες και να αρχικοποιήσει προ-εκπαιδευμένα παραμέτρους. Ωστόσο, αυτή η προσέγγιση συνοδεύεται από υψηλό κόστος εκπαίδευσης, και είναι επίσης δύσκολο να καθορίσει μια σταθερή αρχικοποίηση για δια-τροπική μάθηση λόγω της περιορισμένης ποσότητας 3D δεδομένων που είναι διαθέσιμα για εκπαιδευτικούς σκοπούς.

Δια-Τροπική Ευθυγράμμιση

Το πλαίσιο Uni3D προσπαθεί να μάθει δια-τροπικές ευθυγραμμίσεις μεταξύ εικόνας, γλώσσας και σημειακών νεφελωμάτων χρησιμοποιώντας παραδείγματα παρόμοια με OpenShape και ULIP. Επιπλέον, για να εξασφαλίσει μια δίκαιη σύγκριση με άλλα μέθοδος, το πλαίσιο Uni3D χρησιμοποιεί το συνδυασμένο 3D σύνολο δεδομένων από OpenShape για εκπαιδευτικούς σκοπούς. Αυτό το συνδυασμένο σύνολο δεδομένων από OpenShape αποτελείται από 4 3D συνόλα δεδομένων:

Objaverse.
ShapeNet.
3D-FUTURE.
ABO.

Πειράματα και Αποτελέσματα

Το πλαίσιο Uni3D έχει δοκιμαστεί σε διάφορες ρυθμίσεις και σε διάφορες ταξινομητικές εργασίες, συμπεριλαμβανομένης της απόδοσης του σε μηδενική-πυροβοληματική και ολίγη-πυροβοληματική ρύθμιση, αποτελέσματα γύρω από την κατανόηση του ανοιχτού κόσμου και άλλα. Ας δούμε μια λεπτομερή ματιά σε αυτά τα αποτελέσματα.

Μηδενική-Πυροβοληματική Σχηματική Ταξινόμηση

Για να αξιολογήσει την απόδοση του πλαισίου Uni3D σε μηδενική-πυροβοληματική σχηματική ταξινόμηση, οι dévelopπερ διεξάγουν πειράματα σε τρεις chuẩnς, συμπεριλαμβανομένων των ModelNet, ScanObjNN και Objaverse-LVIS. Το ModelNet και το ScanObjNN είναι συνόλα δεδομένων που χρησιμοποιούνται ευρέως για ταξινομητικές εργασίες και αποτελούνται από 15 και 40 αντικειμενικές κατηγορίες, αντίστοιχα, ενώ το Objaverse-LVIS είναι ένα καθαρό και ανανεωμένο σύνολο δεδομένων που αποτελείται από πάνω από 40.000 αντικείμενα σε πάνω από 1.100 κατηγορίες. Η σύγκριση μεταξύ των πλαισίων δείχνεται στην εικόνα παρακάτω, και όπως φαίνεται, το πλαίσιο Uni3D υπερβαίνει σημαντικά τα προηγούμενα state-of-the-art πλαισια σε διάφορες ρυθμίσεις.

Ολίγη-Πυροβοληματική Γραμμική Διερεύνηση

Στην AI, η γραμμική διερεύνηση είναι μια κοινή μέθοδος που χρησιμοποιείται για να αξιολογήσει τις αναπαραστάσεις που μάθει ένα πλαίσιο ή ένα μοντέλο. Για να αξιολογήσει την ικανότητα του Uni3D στη γραμμική διερεύνηση, οι dévelopπερ παγώνουν τις παραμέτρους του πλαισίου Uni3D χρησιμοποιώντας τις κοινές ρυθμίσεις ως OpenShape. Στη συνέχεια, οι dévelopπερ εκπαιδεύουν einen γραμμικό ταξινομητή για το Uni3D χρησιμοποιώντας ολίγη-πυροβοληματικές κατηγορίες. Η εικόνα παρακάτω δείχνει την ικανότητα γραμμικής διερεύνησης του Uni3D σε σχέση με άλλα πλαισια στο σύνολο δεδομένων Objaverse-LVIS, και δείχνει την μέση απόδοση του μοντέλου σε 10 τυχαίες σπούντες. Όπως φαίνεται, το πλαίσιο Uni3D υπερβαίνει σημαντικά τα υπάρχοντα μέθοδος σε διάφορες ολίγη-πυροβοληματικές ρυθμίσεις.

Κατανόηση του Ανοιχτού Κόσμου

Για να αξιολογήσει την ικανότητα του πλαισίου Uni3D να κατανοήσει πραγματικούς κόσμους και αντικείμενα σε πραγματικό χρόνο, οι dévelopπερ χρησιμοποιούν τα συνόλα δεδομένων ScanNet και CLIP για να εξερευνήσουν την απόδοση του Uni3D. Αξίζει να σημειωθεί ότι η αλήθεια στιγμιαίας τομής είναι διαθέσιμη, και ο πρωταρχικός στόχος είναι να αναγνωρίσει την κατηγορία κάθε στιγμιαίας τομής σε μια μηδενική-πυροβοληματική ρύθμιση. Τα αποτελέσματα δείχνουν ότι το πλαίσιο Uni3D επιστρέφει εξαιρετικά αποτελέσματα όταν εκτελείται σε πραγματικούς κόσμους και αναγνώριση. Το πλαίσιο Uni3D υπερβαίνει σημαντικά τα υπάρχοντα πλαισια尽管 δεν έχει εκπαιδευτεί σε πραγματικά συνόλα δεδομένων.

Δια-Τροπική Αναζήτηση

Οι δια-τροπικές αναπαραστάσεις που μάθει το πλαίσιο Uni3D μπορούν να επιτρέψουν στο πλαίσιο να αναζητήσει 3D σχήματα φυσικά είτε από κείμενα είτε από εικόνες. Για να αναζητήσει τα 3D σχήματα, το μοντέλο υπολογίζει την κοσινική ομοιότητα μεταξύ των εμβυθών των 3D σχημάτων και των εμβυθών μιας ερώτησης κειμένου ή μιας ερώτησης εικόνας. Το πλαίσιο χρησιμοποιεί την 알고ριθμία KNN ή K Nearest Neighbour για να γεννήσει 3D σχήματα που μοιάζουν περισσότερο με την ερώτηση, και τα αποτελέσματα δείχνουν ότι το πλαίσιο Uni3D μπορεί να αναζητήσει 3D σχήματα χρησιμοποιώντας πραγματικές εικόνες. Επιπλέον, αξίζει να σημειωθεί ότι τα συνόλα δεδομένων εκπαίδευσης χρησιμοποιούνται μόνο για σκοπούς απόδοσης, και ο χάσμα μεταξύ πραγματικών και εκπαιδευτικών εικόνων είναι σημαντικό. Επιπλέον, το μοντέλο μπορεί να λαμβάνει δύο είσοδεις εικόνες και να αναζητήσει σχήματα που μοιάζουν και με τις δύο είσοδεις εικόνες χρησιμοποιώντας την κοσινική ομοιότητα μεταξύ των εμβυθών των εικόνων και των εμβυθών των 3D σχημάτων. Τα αποτελέσματα είναι ενδιαφέροντα, καθώς δείχνουν την ικανότητα του Uni3D να μάθει διαφορετικές 3D αναπαραστάσεις και να αντιλαμβάνεται πολλαπλά 2D σήματα.

Τελικές Σκέψεις

Σε αυτό το άρθρο, έχουμε συζητήσει το Uni3D, ένα κλιμακώσιμο και ενοποιημένο προ-εκπαιδευμένο 3D πλαίσιο που αναπτύχθηκε με στόχο να μάθει μεγάλης κλίμακας 3D αναπαραστάσεις που δοκιμάζουν τα όριά του σε κλίμακα πάνω από ένα δισεκατομμύριο παραμέτρων, πάνω από 10 εκατομμύρια εικόνες που ζευγαρώνουν με πάνω από 70 εκατομμύρια κείμενα και πάνω από ένα εκατομμύριο 3D σχήματα. Οι dévelopπερ του πλαισίου έχουν συμπεριλάβει einen απλό μετασχηματισμό, η δομή του οποίου μοιάζει με ViTs, που επιτρέπει στο πλαίσιο Uni3D να κλιμακωθεί χρησιμοποιώντας ενοποιημένες 2D ή NLP στρατηγικές. Επιπλέον, το πλαίσιο Uni3D μπορεί να αξιοποιήσει eine ευρεία ποικιλία προ-εκπαιδευμένων 2D πλαισίων και 2D στρατηγικών στον 3D κόσμο. Τα πειραματικά αποτελέσματα έχουν ήδη δείξει το τεράστιο δυναμικό του πλαισίου Uni3D, καθώς το πλαίσιο Uni3D επιστρέφει ακριβή και αποτελεσματικά αποτελέσματα σε eine ευρεία ποικιλία από ρυθμίσεις και υπερβαίνει τα υπάρχοντα state-of-the-art πλαισια.

Kunal Kejriwal

Ένας μηχανικός επάγγελμα, ένας συγγραφέας με την καρδιά. Ο Kunal είναι ένας τεχνικός συγγραφέας με einen βαθύ έρωτα και κατανόηση του AI και ML, αφιερωμένος στο να απλοποιεί σύνθετες έννοιες σε αυτά τα πεδία μέσω των ελκυστικών και ενημερωτικών εγγράφων του.