Τεχνητή νοημοσύνη

Πώς Λειτουργεί η Ανακατασκευή 3D από Μια Όψη;

Published January 19, 2024

Updated April 4, 2026

Kunal Kejriwal

Παραδοσιακά, τα μοντέλα για ανακατασκευή αντικειμένων από μια όψη που βασίζονται σε συνελικτικές νευρωνικές δικτυώσεις έχουν показει εξαιρετική απόδοση σε εργασίες ανακατασκευής. Τα τελευταία χρόνια, η ανακατασκευή 3D από μια όψη έχει αναδυθεί ως一个 δημοφιλής ερευνητικός τομέας στην κοινότητα του AI. Ανεξάρτητα από την συγκεκριμένη μεθοδολογία που χρησιμοποιείται, όλα τα μοντέλα ανακατασκευής 3D από μια όψη μοιράζονται την κοινή προσέγγιση της ενσωμάτωσης ενός δικτύου κωδικοποιητή-αποκωδικοποιητή στο πλαίσιο τους. Αυτό το δίκτυο thựcεί複잡ές συλλογισμοί σχετικά με τη 3D δομή στο χώρο εξόδου.

Σε αυτό το άρθρο, θα εξετάσουμε πώς λειτουργεί η ανακατασκευή 3D από μια όψη σε πραγματικό χρόνο και τις τρέχουσες προκλήσεις που αντιμετωπίζουν αυτά τα πλαίσια στις εργασίες ανακατασκευής. Θα συζητήσουμε διάφορους βασικούς组成 και μεθόδους που χρησιμοποιούνται από τα μοντέλα ανακατασκευής 3D από μια όψη και θα εξετάσουμε στρατηγικές που θα μπορούσαν να βελτιώσουν την απόδοση αυτών των πλαισίων. Επιπλέον, θα αναλύσουμε τα αποτελέσματα που παράγονται από τα state-of-the-art πλαίσια που χρησιμοποιούν μεθόδους κωδικοποιητή-αποκωδικοποιητή. Ας το δούμε.

Ανακατασκευή 3D Αντικειμένων από Μια Όψη

Η ανακατασκευή 3D αντικειμένων από μια όψη περιλαμβάνει τη δημιουργία eines 3D μοντέλου ενός αντικειμένου από μια seule όψη, ή σε απλότερους όρους, από μια εικόνα. Για παράδειγμα, η ανίχνευση της 3D δομής ενός αντικειμένου, όπως ένα μοτοσικλέτα από μια εικόνα, είναι ένας σύνθετος процесс. Συνδυάζει γνώση της δομικής διάταξης των μερών, χαμηλού επιπέδου εικόνας και υψηλού επιπέδου σεμαντικής πληροφορίας. Αυτό το φάσμα περιλαμβάνει δύο основные аспектούς: ανακατασκευή και αναγνώριση. Η διαδικασία ανακατασκευής διακρίνει τη 3D δομή της εικόνας εισόδου χρησιμοποιώντας ενδείξεις όπως σκιές, υφή και οπτικά εφέ. Αντίθετα, η διαδικασία αναγνώρισης ταξινομεί την εικόνα εισόδου και ανακτά ένα κατάλληλο 3D μοντέλο από μια βάση δεδομένων.

Τα τρέχοντα μοντέλα ανακατασκευής 3D αντικειμένων από μια όψη μπορεί να διαφέρουν στην αρχιτεκτονική, αλλά είναι ενοποιημένα από την ένταξη μιας δομής κωδικοποιητή-αποκωδικοποιητή στο πλαίσιο τους. Σε αυτή τη δομή, ο κωδικοποιητής χαρτογραφεί την εικόνα εισόδου σε μια.latent αναπαράσταση, ενώ ο αποκωδικοποιητής πραγματοποιεί σύνθετους συλλογισμοί σχετικά με τη 3D δομή του χώρου εξόδου. Για να εκτελεστεί με επιτυχία αυτή η εργασία, το δίκτυο πρέπει να ενσωματώσει τόσο υψηλού επιπέδου όσο και χαμηλού επιπέδου πληροφορίες. Επιπλέον, πολλά state-of-the-art μοντέλα κωδικοποιητή-αποκωδικοποιητή βασίζονται στην αναγνώριση για εργασίες ανακατασκευής 3D από μια όψη, που περιορίζει τις ικανότητές τους ανακατασκευής. Επιπλέον, η απόδοση των σύγχρονων συνελικτικών νευρωνικών δικτυών στην ανακατασκευή 3D αντικειμένων από μια όψη μπορεί να υπερβεί χωρίς την ρητή ανίχνευση της 3D δομής του αντικειμένου. Ωστόσο, η κυριαρχία της αναγνώρισης στις συνελικτικές νευρωνικές δικτυώσεις στις εργασίες ανακατασκευής αντικειμένων από μια όψη επηρεάζεται από διάφορες πειραματικές διαδικασίες, συμπεριλαμβανομένων πρωτοκόλλων αξιολόγησης και σύνθεσης βάσεων δεδομένων. Τέτοιες παράμετροι ermögουν στο πλαίσιο να βρει μια λύση bypass, σε αυτή την περίπτωση, αναγνώριση εικόνας.

Παραδοσιακά, τα πλαίσια ανακατασκευής 3D αντικειμένων από μια όψη προσεγγίζουν τις εργασίες ανακατασκευής χρησιμοποιώντας την προσέγγιση της μορφής από σκιές, με υφή και εξομάλυνση να υπηρετούν ως εξωτικές απόψεις για τις εργασίες ανακατασκευής.既然 αυτές οι τεχνικές χρησιμοποιούν μια seule βάθους ενδειξη, είναι ικανές να παρέχουν συλλογισμοί για τα ορατά μέρη μιας επιφάνειας. Επιπλέον, πολλά πλαίσια ανακατασκευής 3D από μια όψη χρησιμοποιούν πολλαπλά ενδείξεις μαζί με δομική γνώση για την εκτίμηση βάθους από μια seule μονοοπτική εικόνα, μια συνδυασμένη που επιτρέπει σε αυτά τα πλαίσια να προβλέψουν το βάθος των ορατών επιφανειών. Περισσότερα πρόσφατα πλαίσια εκτίμησης βάθους αναπτύσσουν συνελικτικές νευρωνικές δικτυώσεις για να εξάγουν βάθος σε μια μονοοπτική εικόνα.

Ωστόσο, για αποτελεσματική ανακατασκευή 3D από μια όψη, τα μοντέλα δεν πρέπει μόνο να συλλογιστούν σχετικά με τη 3D δομή των ορατών αντικειμένων στην εικόνα, αλλά πρέπει επίσης να φανταστούν τα αόρατα μέρη στην εικόνα χρησιμοποιώντας某些 προκαταλήψεις που έχουν μάθει από τα δεδομένα. Για να επιτύχουν αυτό, η πλειοψηφία των μοντέλων χρησιμοποιεί εκπαιδευμένες συνελικτικές νευρωνικές δικτυώσεις για να χαρτογραφήσουν 2D εικόνες σε 3D σχήματα χρησιμοποιώντας άμεση 3D επιτήρηση, ενώ πολλά άλλα πλαίσια έχουν αναπτύξει μια voxel-παράσταση του 3D σχήματος και έχουν χρησιμοποιήσει μια.latent αναπαράσταση για να γεννήσουν 3D up-συνελικτικές. Certain πλαίσια επίσης διαμερίζουν τον χώρο εξόδου ιεραρχικά για να βελτιώσουν την υπολογιστική και μνημονική αποτελεσματικότητα, που ermögουν στο μοντέλο να προβλέψουν υψηλής ανάλυσης 3D σχήματα. Πρόσφατη έρευνα εστιάζει στην χρήση ασθενέστερων μορφών επιτήρησης για προβλέψεις 3D σχήματος χρησιμοποιώντας συνελικτικές νευρωνικές δικτυώσεις, είτε συγκρίνοντας προβλεπόμενα σχήματα και τις ground-truth προβλέψεις για να εκπαιδεύσουν shape regressors είτε χρησιμοποιώντας πολλαπλά σήματα μάθησης για να εκπαιδεύσουν mean σχήματα που βοηθούν το μοντέλο να προβλέψει παραμορφώσεις. Ένας άλλος λόγος πίσω από τις περιορισμένες προόδους στην ανακατασκευή 3D από μια όψη είναι ο περιορισμένος όγκος εκπαιδευτικών δεδομένων που είναι διαθέσιμος για την εργασία.

Κινώντας μπροστά, η ανακατασκευή 3D από μια όψη είναι μια σύνθετη εργασία, καθώς δεν μόνο ερμηνεύει οπτικά δεδομένα γεωμετρικά, αλλά και σεμαντικά. Αν και δεν είναι完全 διαφορετικά, αυτά διαρκούν διαφορετικά φάσματα από γεωμετρική ανακατασκευή σε σεμαντική αναγνώριση. Οι εργασίες ανακατασκευής απαιτούν per-pixel συλλογισμό της 3D δομής του αντικειμένου στην εικόνα. Οι εργασίες ανακατασκευής δεν απαιτούν σεμαντική κατανόηση του περιεχομένου της εικόνας και μπορεί να επιτευχθεί χρησιμοποιώντας χαμηλού επιπέδου εικόνας ενδείξεις, συμπεριλαμβανομένων υφής, χρώματος, σκιών, σκιών, προοπτικής και εστίασης. Η αναγνώριση, από την άλλη πλευρά, είναι μια ακραία περίπτωση χρήσης σεμαντικής εικόνας, καθώς οι εργασίες αναγνώρισης χρησιμοποιούν ολόκληρα αντικείμενα και ισοδυναμούν με την ταξινόμηση του αντικειμένου στην είσοδο και την ανάκτηση του αντίστοιχου σχήματος από μια βάση δεδομένων. Αν και οι εργασίες αναγνώρισης μπορούν να παρέχουν ρομποτικές συλλογισμοί σχετικά με τα μέρη του αντικειμένου που δεν είναι ορατά στις εικόνες, η σεμαντική λύση είναι εφικτή μόνο αν μπορεί να εξηγηθεί από ένα αντικείμενο που υπάρχει στη βάση δεδομένων.

Αν και οι εργασίες αναγνώρισης και ανακατασκευής μπορεί να διαφέρουν σημαντικά μεταξύ τους, και τα δύο tend να αγνοούν την πολύτιμη πληροφορία που περιέχεται στην εικόνα εισόδου. Είναι συνιστό να χρησιμοποιούνται και τα δύο μαζί για να ληφθούν τα καλύτερα δυνατά αποτελέσματα και ακριβή 3D σχήματα για ανακατασκευή αντικειμένων, δηλαδή για βέλτιστη ανακατασκευή 3D από μια όψη, το μοντέλο πρέπει να χρησιμοποιήσει δομική γνώση, χαμηλού επιπέδου εικόνας ενδείξεις και υψηλού επιπέδου κατανόηση του αντικειμένου.

Ανακατασκευή 3D από Μια Όψη: Παραδοσιακή Ρύθμιση

Για να εξηγήσουμε την παραδοσιακή ρύθμιση και να αναλύσουμε τη ρύθμιση ενός πλαισίου ανακατασκευής 3D από μια όψη, θα αναπτύξουμε μια τυπική ρύθμιση για την εκτίμηση του 3D σχήματος χρησιμοποιώντας μια seule όψη ή εικόνα του αντικειμένου. Η βάση δεδομένων που χρησιμοποιείται για εκπαιδευτικούς σκοπούς είναι η βάση δεδομένων ShapeNet, και αξιολογεί την απόδοση σε 13 κατηγορίες που επιτρέπει στο μοντέλο να κατανοήσει πώς ο αριθμός των κατηγοριών σε μια βάση δεδομένων καθορίζει την απόδοση εκτίμησης σχήματος του μοντέλου.

Η πλειοψηφία των σύγχρονων συνελικτικών νευρωνικών δικτυών χρησιμοποιεί μια seule εικόνα για να προβλέψει υψηλής ανάλυσης 3D μοντέλα, και αυτά τα πλαίσια μπορούν να κατηγοριοποιηθούν με βάση την αναπαράσταση της εξόδου τους: χάρτες βάθους, συννεφάδες σημείων και voxel πλέγματα. Το μοντέλο χρησιμοποιεί OGN ή Octree Generating Networks ως την αντιπροσωπευτική μέθοδο που ιστορικά έχει υπερβεί την προσέγγιση voxel grid, και/ή μπορεί να καλύψει τις κυρίαρχες αναπαραστάσεις εξόδου. Σε αντίθεση με τις υπάρχουσες μεθόδους που χρησιμοποιούν αναπαραστάσεις εξόδου, η προσέγγιση OGN ermögουν στο μοντέλο να προβλέψει υψηλής ανάλυσης σχήματα και να χρησιμοποιήσει octrees για να αναπαραστήσει αποτελεσματικά τον κατειλημμένο χώρο.

Βασικές Γραμμές

Για να αξιολογήσουμε τα αποτελέσματα, το μοντέλο αναπτύσσει δύο βασικές γραμμές που θεωρούν το πρόβλημα ως μια εργασία αναγνώρισης. Η πρώτη βασική γραμμή βασίζεται στην ομαδοποίηση, ενώ η δεύτερη βασική γραμμή πραγματοποιεί ανάκτηση βάσης δεδομένων.

Ομαδοποίηση

Στην ομαδοποίηση, το μοντέλο χρησιμοποιεί τον αλγόριθμο K-Means για να ομαδοποιήσει ή να συσσωρευσει τα εκπαιδευτικά σχήματα σε K υπο-κατηγορίες, και τρέχει τον αλγόριθμο σε 32*32*32 voxelizations που έχουν πιεστεί σε ένα διανύσμα. Μετά την καθορισμό των ομαδοποιήσεων, το μοντέλο επιστρέφει στην εργασία με μοντέλα υψηλότερης ανάλυσης. Το μοντέλο υπολογίζει το μέσο σχήμα μέσα σε κάθε ομαδοποίηση, και θέτει τα μέσα σχήματα όπου η βέλτιστη τιμή υπολογίζεται με την μεγιστοποίηση του μέσου IoU ή Intersection over Union μεταξύ των μοντέλων.既然 το μοντέλο γνωρίζει τη σχέση μεταξύ των 3D σχημάτων και των εικόνων μέσα στα εκπαιδευτικά δεδομένα, το μοντέλο μπορεί να αντιστοιχίσει εύκολα την εικόνα με την αντίστοιχη ομαδοποίηση.

Ανάκτηση

Η ανάκτηση βασικής γραμμής μαθαίνει να ενσωματώνει σχήματα και εικόνες σε ένα κοινό χώρο. Το μοντέλο θεωρεί την ζευγαρωμένη ομοιότητα των 3D μορφών στη βάση δεδομένων για να κατασκευάσει τον ενσωματωμένο χώρο. Το μοντέλο επιτυγχάνει αυτό χρησιμοποιώντας την προσέγγιση Multi-Dimensional Scaling με Sammon mapping για να συμπιέσει κάθε γραμμή στο πλέγμα σε μια χαμηλής διαστάσεων περιγραφέα. Επιπλέον, για να υπολογίσει την ομοιότητα μεταξύ δύο τυχαίων σχημάτων, το μοντέλο χρησιμοποιεί την περιγραφέα light field. Επιπλέον, το μοντέλο εκπαιδεύει μια συνελικτική νευρωνική δικτυωση για να χαρτογραφήσει εικόνες σε μια περιγραφέα για να ενσωματώσει τις εικόνες στον χώρο.

Ανάλυση

Τα μοντέλα ανακατασκευής 3D από μια όψη ακολουθούν διαφορετικές στρατηγικές, ως αποτέλεσμα του οποίου υπερβαίνουν άλλα μοντέλα σε ορισμένες περιοχές, ενώ σε άλλες περιοχές υπολείπονται. Για να συγκρίνουμε διαφορετικά πλαίσια και να αξιολογήσουμε την απόδοσή τους, έχουμε διαφορετικά μετρικά, ένα από τα οποία είναι η μέση IoU βαθμολογία.

Όπως φαίνεται στην παραπάνω εικόνα, παρά το γεγονός ότι έχουν διαφορετικές αρχιτεκτονικές, τα τρέχοντα state-of-the-art μοντέλα ανακατασκευής 3D παράγουν σχεδόν παρόμοια απόδοση. Ωστόσο, είναι ενδιαφέρον να σημειωθεί ότι παρά το γεγονός ότι είναι μια καθαρή μέθοδος αναγνώρισης, το πλαίσιο ανάκτησης υπερβαίνει άλλα μοντέλα σε όρους μέσης και μεσικής IoU βαθμολογίας. Το πλαίσιο ομαδοποίησης παράγει στερεά αποτελέσματα, υπερβαίνοντας το AtlasNet, το OGN και το Matryoshka πλαίσια. Ωστόσο, το πιο απροσδόκητο αποτέλεσμα αυτής της ανάλυσης παραμένει το Oracle NN που υπερβαίνει όλα τα άλλα μέθοδος, παρά το γεγονός ότι χρησιμοποιεί μια τέλεια αρχιτεκτονική ανάκτησης. Αν και ο υπολογισμός της μέσης IoU βαθμολογίας βοηθά στην σύγκριση, δεν παρέχει πλήρη εικόνα, поскольку η διακύμανση των αποτελεσμάτων είναι υψηλή, ανεξάρτητα από το μοντέλο.

Κοινές Μετρικές Αξιολόγησης

Τα μοντέλα ανακατασκευής 3D από μια όψη συχνά χρησιμοποιούν διαφορετικές μετρικές αξιολόγησης για να αναλύσουν την απόδοσή τους σε eine ευρεία γκάμα εργασιών. Οι ακόλουθες είναι μερικές από τις συνήθεις μετρικές αξιολόγησης.

Σύγκλιση Επί του Ορίου

Η μέση Σύγκλιση Επί του Ορίου είναι μια μετρική που χρησιμοποιείται συνήθως ως ποσοτική μέτρηση για να εξυπηρετήσει ως ένα σημείο αναφοράς για μοντέλα ανακατασκευής 3D από μια όψη. Αν και η IoU παρέχει κάποια εικόνα για την απόδοση του μοντέλου, δεν θεωρείται ως η μόνη μετρική για να αξιολογήσει μια μέθοδο,既然 αυτή η μετρική δείχνει την ποιότητα του σχήματος που προβλέπεται από το μοντέλο μόνο αν οι τιμές είναι αρκετά υψηλές με μια σημαντική απόκλιση που παρατηρείται μεταξύ των χαμηλών και μεσαίων βαθμολογιών για δύο δεδομένα σχήματα.

Απόσταση Chamfer

Η απόσταση Chamfer ορίζεται σε συννεφάδες σημείων και έχει σχεδιαστεί με τρόπο που μπορεί να εφαρμοστεί σε διαφορετικές αναπαραστάσεις 3D ικανοποιητικά. Ωστόσο, η μετρική αξιολόγησης απόστασης Chamfer είναι υψηλά ευαίσθητη σε outliers, που την καθιστά μια προβληματική μέτρηση για να αξιολογήσει την απόδοση του μοντέλου, με την απόσταση του outlier από το αναφορικό σχήμα να καθορίζει σημαντικά την ποιότητα της γεννήτριας.

Βαθμολογία F

Η βαθμολογία F είναι μια κοινή μετρική αξιολόγησης που χρησιμοποιείται από πολλά μοντέλα ανακατασκευής 3D. Η μετρική F ορίζεται ως η αρμονική μέση μεταξύ ανακλησιμότητας και ακρίβειας και αξιολογεί την απόσταση μεταξύ των επιφανειών των αντικειμένων ρητά. Η ακρίβεια μετρά το ποσοστό των ανακατασκευασμένων σημείων που βρίσκονται μέσα σε μια προκαθορισμένη απόσταση από το ground truth, για να μετρήσει την ακρίβεια της ανακατασκευής. Η ανακλησιμότητα μετρά το ποσοστό των σημείων στο ground truth που βρίσκονται μέσα σε μια προκαθορισμένη απόσταση από την ανακατασκευή, για να μετρήσει την πληρότητα της ανακατασκευής. Επιπλέον, μεταβάλλοντας την απόσταση του κατώτερου ορίου, οι dévelopers μπορούν να ελέγξουν τη στενότητα της μετρικής F.

Περί-Κατηγορία Ανάλυση

Η ομοιότητα στην απόδοση που παρέχεται από τα παραπάνω πλαίσια δεν μπορεί να είναι αποτέλεσμα μεθόδων που τρέχουν σε διαφορετικά υποσύνολα κατηγοριών, και το ακόλουθο σχήμα δείχνει την σταθερή σχετική απόδοση σε διαφορετικές κατηγορίες με την Oracle NN ανάκτηση βασικής γραμμής να επιτυγχάνει το καλύτερο αποτέλεσμα από όλα, και όλα τα μοντέλα παρατηρούν υψηλή διακύμανση για όλες τις κατηγορίες.

Επιπλέον, ο αριθμός των εκπαιδευτικών δειγμάτων που είναι διαθέσιμα για μια κατηγορία μπορεί να οδηγήσει κάποιον να υποθέσει ότι επηρεάζει την απόδοση της κατηγορίας. Ωστόσο, όπως φαίνεται στο ακόλουθο σχήμα, ο αριθμός των εκπαιδευτικών δειγμάτων που είναι διαθέσιμα για μια κατηγορία δεν επηρεάζει την απόδοση της κατηγορίας, και ο αριθμός των δειγμάτων σε μια κατηγορία και η μέση IoU βαθμολογία δεν είναι συσχετισμένα.

Ποιοτική Ανάλυση

Τα ποσοτικά αποτελέσματα που συζητήθηκαν στην παραπάνω ενότητα υποστηρίζονται από ποιοτικά αποτελέσματα, όπως φαίνεται στο ακόλουθο σχήμα.

Για την πλειοψηφία των κατηγοριών, δεν υπάρχει σημαντική διαφορά μεταξύ της ομαδοποίησης βασικής γραμμής και των προβλέψεων που γίνονται από τις μεθόδους αποκωδικοποιητή. Η ομαδοποίηση προσέγγιση αποτυγχάνει να παράγει αποτελέσματα όταν η απόσταση μεταξύ του δείγματος και του μέσου σχήματος της ομαδοποίησης είναι υψηλή, ή σε περιπτώσεις όπου το μέσο σχήμα δεν μπορεί να περιγράψει την ομαδοποίηση αρκετά καλά. Από την άλλη πλευρά, τα πλαίσια που χρησιμοποιούν μεθόδους αποκωδικοποιητή και αρχιτεκτονική ανάκτησης παράγουν τα πιο ακριβή και ελκυστικά αποτελέσματα,既然 αυτά είναι ικανά να περιλαμβάνουν λεπτές λεπτομέρειες στο γεννημένο 3D μοντέλο.

Ανακατασκευή 3D από Μια Όψη: Τελικές Σκέψεις

Σε αυτό το άρθρο, abbiamo μιλήσει για την ανακατασκευή 3D αντικειμένων από μια όψη και abbiamo μιλήσει για το πώς λειτουργεί, και abbiamo μιλήσει για δύο βασικές γραμμές: Ανάκτηση και Κατηγοριοποίηση, με την ανάκτηση βασική γραμμή να υπερβαίνει τα τρέχοντα state-of-the-art μοντέλα. Τέλος, αν και η ανακατασκευή 3D αντικειμένων από μια όψη είναι ένα από τα πιο 핫 και ερευνημένα θέματα στην κοινότητα του AI, και παρά το γεγονός ότι έχει κάνει σημαντικές προόδους τα τελευταία χρόνια, η ανακατασκευή 3D αντικειμένων από μια όψη είναι ακόμη μακριά από το να είναι τέλεια, με σημαντικά εμπόδια να υπερβούν στα επόμενα χρόνια.

Related Topics:3D object 3D Reconstruction