Τεχνητή νοημοσύνη
Uni3D: Εξερεύνηση Ενοποιημένων 3D Αναπαραστάσεων σε Κλίμακα
Η κλιμάκωση των αναπαραστάσεων του κειμένου και των οπτικών έχει sido ένα σημαντικό焦點 της έρευνας τα τελευταία χρόνια. Οι εξελίξεις και η έρευνα που διεξήχθησαν στο πρόσφατο παρελθόν οδήγησαν σε πολλές επαναστάσεις στην εκμάθηση γλωσσών και όρασης. Ωστόσο, παρά την δημοτικότητα της κλιμάκωσης των αναπαραστάσεων κειμένου και οπτικών, η κλιμάκωση των αναπαραστάσεων για 3D σκηνές και αντικείμενα δεν έχει συζητηθεί επαρκώς.
Σήμερα, θα συζητήσουμε το Uni3D, ένα 3D μοντέλο που στοχεύει να εξερευνήσει ενοποιημένες 3D αναπαραστάσεις. Το πλαίσιο Uni3D χρησιμοποιεί ένα 2D-αρχικοποιημένο ViT πλαίσιο, προ-εκπαιδευμένο από άκρη σε άκρη, για να ευθυγραμμίσει τις χαρακτηριστικές ιδιότητες εικόνας-κειμένου με τις αντίστοιχες 3D σημειακές νεφελικές χαρακτηριστικές.
Το πλαίσιο Uni3D χρησιμοποιεί προκαταρκτικές εργασίες και μια απλή αρχιτεκτονική για να εκμεταλλευτεί την αφθονία των προ-εκπαιδευμένων 2D μοντέλων και των μοντέλων εικόνας-κειμένου που ευθυγραμμίζονται ως αρχικοποιήσεις και στόχους, αντίστοιχα. Αυτή η προσέγγιση απελευθερώνει το πλήρες δυναμικό των 2D μοντέλων και των στρατηγικών για να κλιμακωθούν στο 3D κόσμο.
Σε αυτό το άρθρο, θα εμβαθύνουμε περισσότερο στην 3D υπολογιστική όραση και το πλαίσιο Uni3D, εξερευνώντας τις βασικές έννοιες και την αρχιτεκτονική του μοντέλου. Έτσι, ας ξεκινήσουμε.
Uni3D και 3D Αναπαράσταση Μάθησης: Μια Εισαγωγή
Τα τελευταία χρόνια, η υπολογιστική όραση έχει αναδυθεί ως ένας από τους πιο επενδυμένους τομείς στη βιομηχανία AI. Ακολουθώντας σημαντικές προόδους στα 2D υπολογιστικά πλαίσια όρασης, οι dévelopερες έχουν μεταφέρει την προσοχή τους στην 3D υπολογιστική όραση. Αυτό το πεδίο, ιδιαίτερα η 3D αναπαράσταση μάθησης, συνδυάζει аспектς της υπολογιστικής γραφικής, της μηχανικής μάθησης, της υπολογιστικής όρασης και των μαθηματικών για να αυτοματοποιήσει την επεξεργασία και την κατανόηση της 3D γεωμετρίας. Η ταχεία ανάπτυξη των 3D αισθητήρων όπως το LiDAR, μαζί με τις ευρείες εφαρμογές τους στη βιομηχανία AR/VR, έχει οδηγήσει την 3D αναπαράσταση μάθησης να κερδίσει αυξανόμενη προσοχή. Οι πιθανές εφαρμογές της συνεχίζουν να αυξάνονται καθημερινά.
mặc dù τα υπάρχοντα πλαίσια έχουν δείξει αξιοσημείωτη πρόοδο στην αρχιτεκτονική του 3D μοντέλου, στο μοντέλο προσανατολισμένο σε εργασίες και στα αντικειμενικά μάθηση, τα περισσότερα εξερευνούν την 3D αρχιτεκτονική σε σχετικά μικρή κλίμακα με περιορισμένα δεδομένα, παραμέτρους και σενάρια εργασιών. Η πρόκληση της μάθησης κλιμακωτών 3D αναπαραστάσεων, οι οποίες μπορούν να εφαρμοστούν σε εφαρμογές σε πραγματικό χρόνο σε διαφορετικά περιβάλλοντα, παραμένει σε μεγάλο βαθμό ανεξερεύνητη.
Συνεχίζοντας, τα τελευταία χρόνια, η κλιμάκωση των μεγάλων γλωσσικών μοντέλων που προ-εκπαιδεύονται έχει βοηθήσει στην επανάσταση του πεδίου της φυσικής γλωσσικής επεξεργασίας, και πρόσφατες εργασίες έχουν δείξει μια μετάβαση στην πρόοδο από τη γλώσσα στα 2D χρησιμοποιώντας δεδομένα και κλιμάκωση μοντέλων, η οποία ανοίγει τον δρόμο για τους dévelopερες να δοκιμάσουν και να επαναλάβουν αυτή την επιτυχία για να μάθουν μια 3D αναπαράσταση που μπορεί να κλιμακωθεί και να μεταφερθεί σε εφαρμογές στον πραγματικό κόσμο.
Το Uni3D είναι ένα κλιμακωτό και ενοποιημένο προ-εκπαιδευτικό 3D πλαίσιο που αναπτύχθηκε με στόχο να μάθει μεγάλης κλίμακας 3D αναπαραστάσεις που δοκιμάζουν τα όριά τους σε κλίμακα πάνω από ένα δισεκατομμύριο παραμέτρους, πάνω από 10 εκατομμύρια εικόνες που ζευγαρώνουν με πάνω από 70 εκατομμύρια κείμενα και πάνω από ένα εκατομμύριο 3D σχήματα. Η παρακάτω εικόνα συγκρίνει την ακρίβεια zero-shot έναντι παραμέτρων στο πλαίσιο Uni3D. Το πλαίσιο Uni3D κλιμακώνει επιτυχώς τις 3D αναπαραστάσεις από 6 εκατομμύρια σε πάνω από ένα δισεκατομμύριο.

Το πλαίσιο Uni3D αποτελείται από ένα 2D ViT ή Vision Transformer ως 3D κωδικοποιητή που προ-εκπαιδεύεται από άκρη σε άκρη για να ευθυγραμμίσει τις χαρακτηριστικές ιδιότητες εικόνας-κειμένου με τις αντίστοιχες 3D σημειακές νεφελικές χαρακτηριστικές. Το πλαίσιο Uni3D χρησιμοποιεί προκαταρκτικές εργασίες και μια απλή αρχιτεκτονική για να εκμεταλλευτεί την αφθονία των προ-εκπαιδευμένων 2D μοντέλων και των μοντέλων εικόνας-κειμένου που ευθυγραμμίζονται ως αρχικοποιήσεις και στόχους, αντίστοιχα, απελευθερώνοντας το πλήρες δυναμικό των 2D μοντέλων και των στρατηγικών για να κλιμακωθούν στο 3D κόσμο.
- Κλιμάκωση του μοντέλου από 6M σε πάνω από ένα δισεκατομμύριο παραμέτρους.
- 2D αρχικοποίηση σε κείμενο που εποπτεύεται από οπτική αυτο-επιβλεπόμενη μάθηση.
- Κλιμάκωση μοντέλου εικόνας-κειμένου από 150 εκατομμύρια σε πάνω από ένα δισεκατομμύριο παραμέτρους.
Υπό το εύκαμπτο και ενοποιημένο πλαίσιο που προσφέρει το Uni3D, οι dévelopερες παρατηρούν μια συνεκτική αύξηση της απόδοσης όταν κλιμακώνουν κάθε συνιστώσα. Η μεγάλης κλίμακας 3D αναπαράσταση μάθησης επωφελείται επίσης πολύ από τις κοινές 2D και στρατηγικές κλιμάκωσης.
Όπως φαίνεται στην παρακάτω εικόνα, το πλαίσιο Uni3D παρουσιάζει μια αύξηση της απόδοσης σε σύγκριση με τις προηγούμενες τέχνες σε few-shot και zero-shot ρυθμίσεις. Αξίζει να σημειωθεί ότι το πλαίσιο Uni3D επιστρέφει μια ακρίβεια zero-shot ταξινόμησης πάνω από 88% στο ModelNet, η οποία είναι ίδια με την απόδοση πολλών μεθόδων εποπτευόμενης μάθησης.

Επιπλέον, το πλαίσιο Uni3D παρέχει επίσης υψηλή ακρίβεια και απόδοση όταν εκτελεί άλλες αντιπροσωπευτικές 3D εργασίες όπως διαίρεση μερών και κατανόηση ανοικτού κόσμου. Το πλαίσιο Uni3D στοχεύει να γεφυρώσει το χάσμα μεταξύ 2D και 3D όρασης κλιμακώνοντας 3D θεμελιώδη μοντέλα με μια ενοποιημένη αλλά απλή προ-εκπαιδευτική προσέγγιση για να μάθει πιο ρομπούστες 3D αναπαραστάσεις σε ένα ευρύ φάσμα εργασιών, το οποίο μπορεί τελικά να βοηθήσει στην σύγκλιση της 2D και 3D όρασης σε ένα ευρύ φάσμα modalities.
Uni3D: Σχετική Εργασία
Το πλαίσιο Uni3D εμπνέεται και μαθαίνει από τις εξελίξεις που έχουν γίνει από προηγούμενες 3D αναπαράσταση μάθησης και θεμελιώδη μοντέλα, ιδιαίτερα υπό διαφορετικές modalities.
3D Αναπαράσταση Μάθησης
Η μέθοδος 3D αναπαράσταση μάθησης χρησιμοποιεί σημειακές νεφελικές για την 3D κατανόηση του αντικειμένου, και αυτό το πεδίο έχει εξερευνηθεί πολύ από τους dévelopερες στο πρόσφατο παρελθόν, και έχει παρατηρηθεί ότι αυτές οι σημειακές νεφελικές μπορούν να προ-εκπαιδευτούν υπό αυτο-επίβλεψη χρησιμοποιώντας συγκεκριμένες 3D προκαταρκτικές εργασίες, συμπεριλαμβανομένης της μοντελοποίησης σημείου, της αυτο-ανακατασκευής και της ανταγωνιστικής μάθησης.
Αξίζει να σημειωθεί ότι αυτές οι μέθοδοι λειτουργούν με περιορισμένα δεδομένα και συχνά δεν ερευνώνται πολυμορφικές αναπαραστάσεις σε 3D από 2D ή NLP. Ωστόσο, η πρόσφατη επιτυχία του πλαισίου CLIP που επιστρέφει υψηλή απόδοση στην εκμάθηση οπτικών εννοιών από сыρό κείμενο χρησιμοποιώντας την ανταγωνιστική μάθηση, και περαιτέρω ζητά να μάθει 3D αναπαραστάσεις ευθυγραμμίζοντας χαρακτηριστικές ιδιότητες εικόνας, κειμένου και σημειακής νεφελικής χρησιμοποιώντας την ίδια ανταγωνιστική μάθηση.
Θεμελιώδη Μοντέλα
Οι dévelopερες έχουν εργαστεί εξαντλητικά για να σχεδιάσουν θεμελιώδη μοντέλα για να κλιμακώσουν και να ενοποιήσουν πολυμορφικές αναπαραστάσεις. Για παράδειγμα, στο πεδίο της NLP, οι dévelopερες έχουν εργαστεί σε πλαισια που μπορούν να κλιμακώσουν προ-εκπαιδευμένα γλωσσικά μοντέλα, και αυτό σαφώς επαναστάτησε την βιομηχανία NLP. Επιπλέον, προόδους μπορούν να παρατηρηθούν και στο πεδίο της 2D όρασης, επειδή οι dévelopερες εργάζονται σε πλαισια που χρησιμοποιούν δεδομένα και κλιμάκωση μοντέλων για να βοηθήσουν στην πρόοδο της γλώσσας στα 2D μοντέλα, αν και τέτοια πλαισια είναι δύσκολο να αναπαραχθούν για 3D μοντέλα λόγω της περιορισμένης διαθεσιμότητας 3D δεδομένων και των προκλήσεων που αντιμετωπίζονται při ενοποίηση και κλιμάκωση των 3D πλαισίων.
Μαθαίνοντας από τα παραπάνω δύο πεδία εργασίας, οι dévelopερες έχουν δημιουργήσει το πλαίσιο Uni3D, το πρώτο 3D θεμελιώδες μοντέλο με πάνω από ένα δισεκατομμύριο παραμέτρους που χρησιμοποιεί μια ενοποιημένη ViT ή Vision Transformer αρχιτεκτονική που επιτρέπει στους dévelopερες να κλιμακώσουν το μοντέλο Uni3D χρησιμοποιώντας ενοποιημένες 2D ή NLP στρατηγικές για την κλιμάκωση των μοντέλων. Οι dévelopερες ελπίζουν ότι αυτή η μέθοδος θα επιτρέψει στο πλαίσιο Uni3D να γεφυρώσει το χάσμα που分割ει την 2D και 3D όραση, καθώς και να διευκολύνει την πολυμορφική σύγκλιση.
Uni3D: Μέθοδος και Αρχιτεκτονική

Η παραπάνω εικόνα δείχνει μια γενική επισκόπηση του πλαισίου Uni3D, ένα κλιμακωτό και ενοποιημένο προ-εκπαιδευτικό 3D πλαίσιο για μεγάλης κλίμακας 3D αναπαράσταση μάθησης. Οι dévelopερες χρησιμοποιούν πάνω από 70 εκατομμύρια κείμενα και 10 εκατομμύρια εικόνες που ζευγαρώνουν με πάνω από ένα εκατομμύριο 3D σχήματα για να κλιμακώσουν το πλαίσιο Uni3D σε πάνω από ένα δισεκατομμύριο παραμέτρους. Το πλαίσιο Uni3D χρησιμοποιεί ένα 2D ViT ή Vision Transformer ως 3D κωδικοποιητή που προ-εκπαιδεύεται από άκρη σε άκρη για να ευθυγραμμίσει τα δεδομένα εικόνας-κειμένου με τις 3D σημειακές νεφελικές χαρακτηριστικές, επιτρέποντας στο πλαίσιο Uni3D να παρέχει την επιθυμητή απόδοση και ακρίβεια σε ένα ευρύ φάσμα βεντσών. Ας δούμε τώρα μια λεπτομερή ματιά στη λειτουργία του πλαισίου Uni3D.
Κλιμάκωση του Πλαισίου Uni3D
Προηγούμενες μελέτες για την 3D αναπαράσταση μάθησης έχουν παραδοσιακά εστιάσει σε σχεδιασμό συγκεκριμένων αρχιτεκτονικών μοντέλων που παρέχουν καλύτερη απόδοση σε ένα ευρύ φάσμα εφαρμογών και εργασιών σε περιορισμένα δεδομένα λόγω μικρής κλίμακας δεδομένων. Ωστόσο, πρόσφατες μελέτες έχουν προσπαθήσει να εξερευνήσουν την πιθανότητα χρήσης κλιμακωτής προ-εκπαίδευσης σε 3D, αλλά δεν υπήρξαν σημαντικά αποτελέσματα λόγω της περιορισμένης διαθεσιμότητας 3D δεδομένων. Για να λύσουν το πρόβλημα της κλιμάκωσης των 3D πλαισίων, το πλαίσιο Uni3D αξιοποιεί τη δύναμη μιας απλής transformer δομής που σχεδόν αντανακλά μια Vision Transformer και μπορεί να λύσει τα προβλήματα κλιμάκωσης χρησιμοποιώντας ενοποιημένες 2D ή NLP στρατηγικές για να κλιμακώσει το μέγεθος του μοντέλου.

Προηγούμενες μελέτες για την 3D αναπαράσταση μάθησης έχουν παραδοσιακά εστιάσει σε σχεδιασμό συγκεκριμένων αρχιτεκτονικών μοντέλων που παρέχουν καλύτερη απόδοση σε ένα ευρύ φάσμα εφαρμογών και εργασιών σε περιορισμένα δεδομένα λόγω μικρής κλίμακας δεδομένων. Ωστόσο, πρόσφατες μελέτες έχουν προσπαθήσει να εξερευνήσουν την πιθανότητα χρήσης κλιμακωτής προ-εκπαίδευσης σε 3D, αλλά δεν υπήρξαν σημαντικά αποτελέσματα λόγω της περιορισμένης διαθεσιμότητας 3D δεδομένων. Για να λύσουν το πρόβλημα της κλιμάκωσης των 3D πλαισίων, το πλαίσιο Uni3D αξιοποιεί τη δύναμη μιας απλής transformer δομής που σχεδόν αντανακλά μια Vision Transformer και μπορεί να λύσει τα προβλήματα κλιμάκωσης χρησιμοποιώντας ενοποιημένες 2D ή NLP στρατηγικές για να κλιμακώσει το μέγεθος του μοντέλου.
Αρχικοποίηση του Uni3D
Μια άλλη σημαντική πρόκληση που αντιμετωπίζουν οι προηγούμενες εργασίες που ασχολούνται με την κλιμάκωση των 3D αναπαραστάσεων, οι δυσκολίες στη σύγκλιση και την υπερ-προσαρμογή που ήταν αποτέλεσμα του μεγάλου μεγέθους των μοντέλων. Μια αποτελεσματική προσέγγιση για να υπερβεί αυτό το εμπόδιο είναι να προ-εκπαιδεύσει τα ατομικά 3D σκελετούς με συγκεκριμένες 3D προκαταρκτικές εργασίες και να αρχικοποιήσει προ-εκπαιδευμένες παραμέτρους. Ωστόσο, αυτή η προσέγγιση συνοδεύεται με υψηλό κόστος εκπαίδευσης και είναι επίσης δύσκολο να καθιερωθεί μια ρομποτική αρχικοποίηση για δια-μορφική μάθηση λόγω της περιορισμένης διαθεσιμότητας 3D δεδομένων για εκπαιδευτικούς σκοπούς.
Το πλαίσιο Uni3D αξιοποιεί μια απλή transformer, η δομή της οποίας σχεδόν αντανακλά μια ViT. Με αυτήν την προσέγγιση, το πλαίσιο Uni3D μπορεί να υιοθετήσει φυσικά τα προ-εκπαιδευμένα μεγάλα μοντέλα με άλλες modalities για να αρχικοποιήσει το πλαίσιο Uni3D.
Πολυ-Μορφική Ευθυγράμμιση
Το πλαίσιο Uni3D προσπαθεί να μάθει πολυ-μορφικές ευθυγραμμίσεις μεταξύ εικόνας, γλώσσας και σημειακής νεφελικής χρησιμοποιώντας παραδείγματα παρόμοια με OpenShape και ULIP. Επιπλέον, για να διασφαλίσει μια δίκαιη σύγκριση με άλλες μεθόδους, το πλαίσιο Uni3D χρησιμοποιεί το συνδυασμένο 3D σύνολο δεδομένων από το OpenShape για εκπαιδευτικούς σκοπούς. Αυτό το συνδυασμένο σύνολο δεδομένων από το OpenShape αποτελείται από 4 3D σύνολα δεδομένων:
- Objaverse.
- ShapeNet.
- 3D-FUTURE.
- ABO.
Πειράματα και Αποτελέσματα
Το πλαίσιο Uni3D δοκιμάζεται σε διάφορες ρυθμίσεις και σε διάφορες ταξινομητικές εργασίες, συμπεριλαμβανομένης της απόδοσης σε zero-shot και few-shot ρυθμίσεις, αποτελέσματα γύρω από την κατανόηση ανοικτού κόσμου και άλλα. Ας δούμε μια λεπτομερή ματιά σε αυτά τα αποτελέσματα.
Zero Shot Σχήμα Ταξινόμησης
Για να αξιολογήσει την απόδοση του πλαισίου Uni3D σε zero-shot σχήμα ταξινόμησης εργασίες, οι dévelopερες διεξάγουν πειράματα σε τρία βεντς, συμπεριλαμβανομένων των ModelNet, ScanObjNN και Objaverse-LVIS βεντς. Το ModelNet και το ScanObjNN είναι σύνολα δεδομένων που χρησιμοποιούνται ευρέως για ταξινομητικές εργασίες και αποτελούνται από 15 και 40 αντικείμενα κατηγορίας, αντίστοιχα, ενώ το Objaverse-LVIS βεντς είναι ένα καθαρό και ανανεωμένο σύνολο δεδομένων που αποτελείται από πάνω από 40.000 αντικείμενα σε πάνω από 1.100 κατηγορίες. Η σύγκριση μεταξύ των πλαισίων εμφανίζεται στην παρακάτω εικόνα και όπως φαίνεται, το πλαίσιο Uni3D υπερβαίνει σημαντικά τις προηγούμενες τέχνες σε διάφορες ρυθμίσεις.

Few-Shot Γραμμική Ανίχνευση
Στην AI, η γραμμική ανίχνευση είναι μια κοινή μέθοδος που χρησιμοποιείται για να αξιολογήσει τις αναπαραστάσεις που μαθαίνει ένα πλαίσιο ή ένα μοντέλο. Για να αξιολογήσει την ικανότητα γραμμικής ανίχνευσης του Uni3D, οι dévelopερες παγώνουν τις παραμέτρους του πλαισίου Uni3D χρησιμοποιώντας τις κοινές ρυθμίσεις ως OpenShape. Ακολουθώντας αυτό, οι dévelopερες εκπαιδεύουν einen γραμμικό ταξινομητή για το Uni3D χρησιμοποιώντας few-shot κατηγορίες ετικετών. Η παρακάτω εικόνα δείχνει την ικανότητα γραμμικής ανίχνευσης των διαφόρων πλαισίων στο Objaverse-LVIS βεντς και δείχνει την μέση απόδοση του μοντέλου σε 10 τυχαίες σποράδες. Όπως φαίνεται, το πλαίσιο Uni3D υπερβαίνει σημαντικά τις υπάρχουσες μεθόδους σε διάφορες few-shot ρυθμίσεις.

Κατανόηση Ανοικτού Κόσμου
Για να αξιολογήσει την ικανότητα του πλαισίου Uni3D να κατανοήσει πραγματικούς κόσμους και αντικείμενα σε πραγματικό χρόνο, οι dévelopερες χρησιμοποιούν τα ScanNet και CLIP σύνολα δεδομένων για να εξερευνήσουν την απόδοση του Uni3D. Αξίζει να σημειωθεί ότι η ground truth στιγμιαία τομография είναι διαθέσιμη και ο κύριος στόχος είναι να αναγνωρίσει την κατηγορία κάθε σκηνής σε ένα zero-shot ρύθμιση. Τα αποτελέσματα εμφανίζονται στην παρακάτω εικόνα. Όπως φαίνεται, το πλαίσιο Uni3D παρέχει εξαιρετικά αποτελέσματα όταν εκτελεί πραγματική κατανόηση και αναγνώριση. Το πλαίσιο Uni3D υπερβαίνει τις υπάρχουσες μεθόδους με σημαντικό περιθώριο, παρά το γεγονός ότι δεν έχει εκπαιδευτεί ποτέ σε πραγματικά σύνολα δεδομένων.

Δια-Μορφική Ανίχνευση
Οι πολυ-μορφικές αναπαραστάσεις που μαθαίνει το πλαίσιο Uni3D μπορούν να του επιτρέψουν να ανακτήσει φυσικά 3D σχήματα είτε από κείμενο είτε από εικόνες. Για να ανακτήσει τα 3D σχήματα, το μοντέλο υπολογίζει την κοσινική ομοιότητα μεταξύ των εμβυθών των 3D σχημάτων και των εμβυθών ενός ερωτήματος κειμένου ή μιας ερωτήματος εικόνας. Το πλαίσιο χρησιμοποιεί το KNN ή K Nearest Neighbour αλγόριθμο για να γεννήσει 3D σχήματα που μοιάζουν με το ερώτημα. Τα αποτελέσματα εμφανίζονται στην παρακάτω εικόνα. Όπως φαίνεται, το πλαίσιο Uni3D χρησιμοποιεί με επιτυχία πραγματικές εικόνες για να ανακτήσει 3D σχήματα. Επιπλέον, αξίζει να σημειωθεί ότι τα εκπαιδευτικά δεδομένα είναι μόνο για σκοπούς απόδοσης και ο χάσμα μεταξύ πραγματικών και εκπαιδευτικών εικόνων είναι σημαντικός. Επιπλέον, το μοντέλο λαμβάνει δύο είσοδους εικόνων και ανακτά σχήματα που μοιάζουν και με τις δύο είσοδους εικόνων χρησιμοποιώντας την κοσινική ομοιότητα μεταξύ των εμβυθών των δύο εικόνων και των εμβυθών των 3D σχημάτων. Τα αποτελέσματα είναι ενδιαφέροντα, επειδή δείχνουν την ικανότητα του Uni3D να μάθει διαφορετικές 3D αναπαραστάσεις και να αντιληφθεί πολλαπλά 2D σήματα.

Στην πρώτη στήλη, το πλαίσιο χρησιμοποιεί δύο ερωτήματα εικόνων για να επιστρέψει 3D σχήματα που μοιάζουν με το ερώτημα. Στη δεύτερη στήλη, το πλαίσιο χρησιμοποιεί δύο είσοδους εικόνων για να ανακτήσει 3D σχήματα που μοιάζουν και με τις δύο είσοδους εικόνων. Τέλος, στην τελευταία στήλη, το μοντέλο χρησιμοποιεί ερωτήματα κειμένου και επιστρέφει 3D σχήματα που μοιάζουν με το ερώτημα κειμένου.
Τελικές Σκέψεις
Σε αυτό το άρθρο, μιλήσαμε για το Uni3D, ένα κλιμακωτό και ενοποιημένο προ-εκπαιδευτικό 3D πλαίσιο που αναπτύχθηκε με στόχο να μάθει μεγάλης κλίμακας 3D αναπαραστάσεις που δοκιμάζουν τα όριά τους σε κλίμακα πάνω από ένα δισεκατομμύριο παραμέτρους, πάνω από 10 εκατομμύρια εικόνες που ζευγαρώνουν με πάνω από 70 εκατομμύρια κείμενα και πάνω από ένα εκατομμύριο 3D σχήματα. Οι dévelopερες του πλαισίου έχουν συμπεριλάβει μια απλή transformer, η δομή της οποίας αντανακλά μια ViT. Με αυτήν την προσέγγιση, οι dévelopερες μπορούν να κλιμακώσουν το πλαίσιο Uni3D χρησιμοποιώντας ενοποιημένες 2D ή NLP στρατηγικές για να κλιμακώσουν το μέγεθος του μοντέλου. Επιπλέον, το πλαίσιο Uni3D μπορεί να αξιοποιήσει eine ευρεία γκάμα προ-εκπαιδευμένων 2D πλαισίων και 2D στρατηγικών στο 3D κόσμο. Τα πειραματικά αποτελέσματα έχουν ήδη δείξει το τεράστιο δυναμικό του πλαισίου Uni3D, καθώς το πλαίσιο Uni3D επιστρέφει ακριβή και αποτελεσματικά αποτελέσματα σε ένα ευρύ φάσμα ρυθμίσεων και υπερβαίνει τις υπάρχουσες μεθόδους.












