Η γωνία του Anderson

Τα Προβλήματα του AI στη Αναγνώριση του Μεγέθους των Ορόσημων

Δημοσιεύτηκε 11 Ιουνίου 2026

Martin Anderson

AI-generated image (GPT-2 + Photoshop): High-angle view of a man holding a scale model of the Leaning Tower of Pisa on a grassy field, with an inset photograph showing the same model aligned from ground level to resemble the full-sized tower in the background.

Τα Μοντέλα Γλώσσας και Όρασης καταλαβαίνουν τα ορόσημα, αλλά δεν μπορούν να δουν την整ική εικόνα…

Μια από τις πρώτες ικανότητες επιβίωσης που αναπτύσσουμε είναι η ικανότητα να διακρίνουμε τα πράγματα που είναι μικρά ή μακριά. Μπορούμε να σκεπάσουμε το φεγγάρι με τον αντίχειρα, χωρίς να σκεφτόμαστε ότι είναι του μεγέθους ενός δίμετρου, επειδή έχουμε εσωτερικεύσει μια κατανόηση της σχετικής κλίμακας.

Αυτό είναι ένα ασυνήθιστα δύσκολο έργο για τα συστήματα υπολογιστικής όρασης,既然 ότι τα περισσότερα από αυτά βασίζονται σε προηγούμενη αναnotation, η οποία δεν τους βοηθά να «κατανοήσουν» την κλίμακα με τον ίδιο τρόπο που οι άνθρωποι. Επιπλέον, πέρα από ένα ορισμένο και αρκετά κοντινό όριο, όλα τα αντικείμενα σε απόσταση είναι πέρα από την ικανότητα της στερεοσκοπικής όρασης να τα διακρίνει – το αυτοκίνητο στο μακρινό άκρο του πάρκινγκ, το ουρανοξύστη στη απόσταση πέρα από αυτό, και η σεληνιακή ημισέληνος που ανατέλλει πάνω από αυτό… όλα είναι «2D» οντότητες, για την πλειοψηφία των συστημάτων μηχανικής μάθησης που βασίζονται στην όραση.

Βέβαια, όταν ένα συγκεκριμένο παράδειγμα ενός «μακρινού» αλλά λανθασμένα ερμηνευμένου αντικειμένου τελικά εμφανίζεται καλά στην εκπαίδευση, τα συστήματα που έχουν δει αυτά τα δεδομένα μπορούν να είναι δύσκολο να εξαπατηθούν:

Το ChatGPT-5.5 δεν είναι καθόλου εντυπωσιασμένο από αυτή την κλασική τουριστική στάση.

Όσο λιγότερο το εκπαιδευμένο.latent χώρος του μοντέλου περιέχει τέτοιες συγκεκριμένες και επαναλαμβανόμενες πληροφορίες, τόσο περισσότερο θα πρέπει να μπορεί να γενικεύσει και να εσωτερικεύσει τις έννοιες της κλίμακας που καταλαβαίνουμε από μικρή ηλικία. Χωρίς αυτό, ακόμη και διάσημα παραδείγματα μπορούν να προκαλέσουν λανθασμένες εκτιμήσεις της κλίμακας:

Σε αυτό το εικαστικό παράδειγμα, που έχει ληφθεί από το νέο έγγραφο που εξετάζουμε σήμερα, η οπτική γωνία της κάμερας περιλαμβάνει το Arc De Triomphe στο背景 – αλλά το σύστημα δεν ξέρει ποιο είναι το μέγεθος του και κάνει μια λανθασμένη εκτίμηση. Πηγή

Ο κίνδυνος, με συγκεκριμένα και ιδιαίτερα χαρακτηριστικά αντικείμενα όπως ο Πύργος του Άιφελ, είναι ότι το σύστημα θα καταφύγει σε ένα σύντομο της εκτίμησης του μεγέθους που είναι σωστό για το αρχικό μοντέλο, αλλά δεν είναι σωστό για τις πολλαπλές μιμήσεις του Παρισινού ορόσημου που είναι εξίσου πέρα από την απόσταση της στερεοσκοπικής όρασης, αλλά δεν είναι τόσο μεγάλα.

Επομένως, είναι σημαντικό τα συστήματα όρασης να προσεγγίζουν νέες (αόρατες) απόψεις με ένα έτοιμο σετ δεξιοτήτων, και όχι μόνο με ένα σύνολο «κωδικών».

Αύξηση Κλίμακας

Για αυτόν τον σκοπό, μια νέα συνεργασία μεταξύ των ΗΠΑ και της Κίνας προσφέρει ένα dataset που θεραπεύει το ζήτημα:

Η νέα προσέγγιση τροποποιεί ένα προηγούμενο σύστημα μέσω βελτιωμένου εκπαιδευτικού υλικού – δεδομένα που ποικίλλουν αρκετά για να παρέχουν μια βαθύτερη κατανόηση των προβλημάτων βάθους.

Εκκινήθηκε μαζί με einen ιστότοπο, η πρωτοβουλία MetricScenes περιλαμβάνει δεδομένα και κώδικα κυκλοφορίες.

Το έγγραφο αναφέρει*:

‘[Βρήκαμε ότι τα τρέχοντα state-of-the-art μεθόδους συχνά αποτυγχάνουν να εκτιμήσουν σωστά την κλίμακα της σκηνής, οδηγώντας σε μια διαρκή φαινόμενο της κατάρρευσης της κλίμακας σε «in-the-wild» σενάρια.

‘[Η εικόνα παραπάνω] δείχνει ένα παράδειγμα όπου υπάρχουν σαφείς σημειολογικές αναφορές (άνθρωποι) παρόντες, αλλά όπου μοντέλα όπως το MoGe-2 παρουσιάζουν μια σημαντική ασυνέπεια κλίμακας σε όλη την εύρος των αποστάσεων: η προβλεπόμενη μετρική κλίμακα για αντικείμενα κοντά είναι πιθανή – σε αυτή την περίπτωση, οι τουρίστες έχουν πιθανό ύψος – αλλά η κλίμακα για μακρινές δομές είναι δραματικά υποτιμημένη – εδώ, το Arc de Triomphe στο背景 είναι μετρικά προβλεπόμενο να είναι μόνο 18.8 μ. πλάτος, το οποίο είναι περισσότερο από 2× μικρότερο από το πραγματικό πλάτος (44.8 μ.).

‘Το MoGe-2 έχει υποθέσει ένα μινιατούρο ορόσημο, παρά τις ενδείξεις προς το αντίθετο.’

Η Δύναμη του Τριών

Η νέα συλλογή των συγγραφέων συναρμολογήθηκε με τη συνδυαστική τριών υφιστάμενων datasets: MegaScenes, AerialMegaDepth, και Stereo4D:

Παράδειγμα εικόνων από το MegaScenes, το οποίο αποτελεί μέρος της νέας συλλογής. Πηγή

Το ζήτημα με τα datasets που συνεισφέρουν στο MetricScenes, όταν λαμβάνονται μόνα τους, είναι ότι κάθε ένα από αυτά εφαρμόζεται σε περιορισμένα πεδία, όπως POV βίντεο αυτοκινήτου, ή εσωτερικές σκηνές, όταν ένα συνδυασμένο πεδίο είναι απαραίτητο για να αντιμετωπιστούν τα προβλήματα και να φέρουν τα συστήματα όρασης πιο κοντά σε μια ανθρώπινη-στυλ概念ική κατανόηση της κλίμακας.

Κάθε εικόνα συνοδεύεται από RGB εικόνες, μερικώς παρατηρηθέν βάθος που προέρχεται από Structure from Motion (SfM), Multi-View Stereo (MVS), ή άλλα γεωμετρικά προκαταλήψεις, μαζί με μια ολοκληρωμένη χάρτη βάθους που παράγεται μέσω μιας νέας διφασικής Poisson ολοκλήρωσης διαδικασίας, και συσχετιζόμενα μεταδεδομένα κάμερας.

Βελτιστοποίηση του πλαισίου MoGe-2 στο νέο dataset ‘σημαντικά μετριάσει’ την κατάρρευση της κλίμακας που οι συγγραφείς αναφέρουν, φέρεται να επιτυγχάνει ανώτερα αποτελέσματα σε ανοιχτές σκηνές και state-of-the-art απόδοση σε συναφείς βεντσές.

Το νέο έγγραφο έχει τον τίτλο Honey, I Shrunk the Arc de Triomphe!, και προέρχεται από τέσσερις ερευνητές από το Πανεπιστήμιο Κορνέλ και το Πανεπιστήμιο Σανγκάη Τζιào Τονγκ.

Μέθοδος

Το MetricScenes βασίζεται εν μέρει στα προαναφερθέντα AerialMegaDepth και MegaScenes – δύο συλλογές διαδικτυακών φωτογραφιών που καλύπτουν ιστορικά αρχεία, τουριστικές εικόνες και επαγγελματικές φωτογραφίες. Αν και το MegaScenes προσφέρει μεγάλης κλίμακας ανακατασκευές από Structure from Motion (SfM), αυτές οι σκηνές λείπουν από οποιαδήποτε εσωτερική πραγματική κλίμακα. Για να αντιμετωπιστούν αυτά τα προβλήματα, γεωαναφερόμενες εικόνες από διαδικτυακές χαρτογραφικές υπηρεσίες χρησιμοποιήθηκαν για να ευθυγραμμίσουν τις ανακατασκευές με γνωστές φυσικές τοποθεσίες και διαστάσεις.

Αντίθετα, το AerialMegaDepth ήδη περιλαμβάνει γεωαναφερόμενες απόψεις του Google Earth, παρέχοντας μετρικές ανακατασκευές ορόσημων.

Πιθανές ανακατασκευαστικές σφάλματα που προκλήθηκαν από οπτικά παρόμοια αλλά γεωγραφικά μακρινά δομές αντιμετωπίστηκαν χρησιμοποιώντας MASt3R-SfM και τον Doppelgangers++ ταξινομητή. Μετά την ανακατασκευή Multi-View Stereo (MVS), ασταθείς εκτιμήσεις βάθους και αρτεφάκτα αιμορραγίας βάθους φιλτράθηκαν χρησιμοποιώντας μια συνδυασμένη σειρά ελέγχων σταθερότητας και προβλέψεων από το MoGe-2:

Το AerialMegaDepth λαμβάνει πραγματική κλίμακα συνδυάζοντας διαδικτυακές φωτογραφίες με γεωαναφερόμενες απόψεις του Google Earth, ενώ οι σκηνές του MegaScenes ευθυγραμμίζονται με φυσικές διαστάσεις χρησιμοποιώντας γεωαναφερόμενες εικόνες από υπηρεσίες χαρτογραφίας. Μετά την ανακατασκευή Multi-View Stereo (MVS), ασταθείς εκτιμήσεις βάθους και αρτεφάκτα αιμορραγίας βάθους φιλτράρονται, παράγοντας καθαρότερους μετρικούς χάρτες βάθους κατάλληλους για εκπαίδευση. Κίτρινες κουτιές υπογραμμίζουν προσωρινά αντικείμενα που αφαιρούνται κατά τη διαδικασία, ενώ κόκκινες κουτιές δείχνουν διορθωμένες περιοχές αιμορραγίας βάθους.

Η μετρική κλίμακα ανακτήθηκε στη συνέχεια μέσω γεωαναφερόμενων εικόνων. Το AerialMegaDepth ήδη λαμβάνει κλίμακα από απόψεις του Google Earth που έχουν ανακτηθεί από γνωστές τοποθεσίες, ενώ το MegaScenes ευθυγραμμίστηκε με πραγματικές διαστάσεις χρησιμοποιώντας γεωαναφερόμενες εικόνες από υπηρεσίες χαρτογραφίας.

Αυτές οι εικόνες αντιστοιχίστηκαν με υφιστάμενες ανακατασκευές με MASt3R, βελτιώθηκαν με τον ταξινομητή Doppelganger, ευθυγραμμίστηκαν με COLMAP, και μετρήθηκαν μέσω RANSAC-βασισμένης εκτίμησης χρησιμοποιώντας Earth-Centered, Earth-Fixed (ECEF) συντεταγμένες. Σκηνές με αξιόπιστες εκτιμήσεις κλίμακας, ή κακή καταχώρηση, απορρίφθηκαν.

Βλέποντας σε Στερεοσκοπία

Η συλλογή MetricScenes περιλαμβάνει επίσης το προαναφερθέν dataset Stereo4D, το οποίο περιλαμβάνει χιλιάδες πραγματικές στερεοσκοπικές βίντεο ακολουθίες που έχουν καταγραφεί με VR180 κάμερες, προσφέροντας μια χρονική διάσταση στις λήψεις:

Το dataset Stereo4D κατασκευάστηκε από στερεοσκοπικά διαδικτυακά βίντεο, συνδυάζοντας θέσεις κάμερας, εκτιμήσεις βάθους και τροχιές κίνησης για να ανακτήσει δυναμικές 3D σκηνές σε κλίμακα. Το αποτέλεσμα dataset περιλαμβάνει εκατοντάδες χιλιάδες βίντεο κλιπ που αντιπροσωπεύονται ως σημειακά νέφη με μακροπρόθεσμες τροχιές κίνησης, παρέχοντας μια μεγάλη πηγή πραγματικών 3D γεωμετρίας και κίνησης για την εκπαίδευση μοντέλων όρασης. Πηγή

Επειδή η φυσική απόσταση μεταξύ των δύο φακών κάμερας ποικίλλει σε διαφορετικά συσκευές, χρησιμοποιήθηκαν μόνο βίντεο με τεκμηριωμένες ρυθμίσεις κάμερας, επιτρέποντας τη σκηνική βάθος να ανακτηθεί σε μια ακριβή πραγματική κλίμακα.

Το Stereo4D αρχικά βασίστηκε στο σύστημα SEA-RAFT για την εκτίμηση της γεωμετρίας της σκηνής, αλλά οι συγγραφείς βρήκαν ότι η ατελής καλιμπράρισή κάμερας θα μπορούσε να παραμορφώσει τις ανακατασκευασμένες σκηνές, προκαλώντας δομές που θα έπρεπε να είναι παράλληλες να συγκλίνουν μη φυσικά. Για αυτόν τον λόγο, για να βελτιώσουν την ακρίβεια, αντικατέστησαν αυτήν την προσέγγιση με μια πipeline ανακατασκευής πολλαπλών απόψεων που εκτιμάει από κοινού τις θέσεις κάμερας και το βάθος από πολλαπλά кадράκια.

Μετά την σύγκριση π³, DepthAnything V3, και MapAnything , η π³ επιλέχθηκε για την γεωμετρική της ανθεκτικότητα και την ικανότητά της να διατηρεί λεπτές λεπτομέρειες:

Ανακτήθηκε μετρική βάθος από το Stereo4D. Τυπικές στερεο-συσχετίσεις μεθόδους μπορούν να παράγουν παραμορφωμένες γεωμετρίες όταν η καλιμπράρισή κάμερας είναι ατελής, ενώ η π³ γεννάει πιο συνεπείς ανακατασκευές σκηνών και διατηρεί λεπτές λεπτομέρειες. Η ανακτηθείσα γεωμετρία στη συνέχεια ευθυγραμμίζεται με την γνωστή φυσική βάση της στερεοσκοπικής κάμερας, παράγοντας ακριβώς-μετρημένους μετρικούς χάρτες βάθους.

Επειδή η π³ ανακατασκευάζει σκηνές σε μια αυθαίρετη κλίμακα, οι τελικοί χάρτες βάθους ευθυγραμμίστηκαν με πραγματικές διαστάσεις χρησιμοποιώντας την γνωστή φυσική βάση κάθε στερεοσκοπικής κάμερας. Πρόσθετο φίλτρο αφαίρεσε κακής ποιότητας кадράκια, ασυνέπεια βάθους, σφάλματα καλιμπράρισής και αξιόπιστες εκτιμήσεις κλίμακας.

Επιπλέον, μια διφασική διαδικασία ολοκλήρωσης βάθους χρησιμοποιήθηκε, συνδυάζοντας προβλέψεις από το MoGe-2 με γεωμετρία από Multi-View Stereo (MVS), παράγοντας καθαρότερα μετρικά δεδομένα εκπαίδευσης με πιο συνεπή κλίμακα και πιο οξεία τοπικά περιγράμματα:

Διφασική ολοκλήρωση βάθους. Χρησιμοποιώντας μόνο γεωμετρία φόντου μπορεί να διατηρήσει τη δομή της σκηνής ενώ παραμορφώνει την整ική κλίμακα, ενώ η συνδυασμένη πρόσθεση προβλέψεων από το MoGe-2 και το φόντο σε μια seule πέρα introduce κλίμακα drift και αρτεφάκτα περιγράμματος. Η διφασική προσέγγιση διατηρεί συνεπή μετρική κλίμακα σε και κοντινά και μακρινά αντικείμενα ενώ διατηρεί καθαρά περιγράμματα αντικειμένων.

Οι συγγραφείς παρατήρησαν ότι οι συλλογές διαδικτυακών φωτογραφιών συχνά λείπουν από αξιόπιστη πρόσθια βάθος, ενώ στερεοσκοπικές εικόνες συχνά λείπουν από μακρινές περιοχές φόντου. Αν και το MoGe-2 μπορεί να υποθέσει πυκνή γεωμετρία σε ολόκληρη τη σκηνή, οι εκτιμήσεις του τείνουν προς το ίδιο κατάρρευση της κλίμακας πρόβλημα που το έργο προσπαθεί να αντιμετωπίσει. Για αυτόν τον λόγο, η διφασική διαδικασία ολοκλήρωσης βάθους σχεδιάστηκε για να συνδυάσει τις ιδίες του MoGe-2 και του Multi-View Stereo (MVS).

Η γεωμετρία φόντου ανακτήθηκε χρησιμοποιώντας MVS-παράγοντας μετρικούς άγκυρες, δημιουργώντας einen βασικό χάρτη βάθους με αξιόπιστη μεγάλης κλίμακας δομή. Σε δεύτερη φάση, προβλέψεις από το MoGe-2 επαναεισήχθησαν μέσω μιας διαδικασίας ολοκλήρωσης που σχεδιάστηκε για να διατηρήσει τα περιγράμματα αντικειμένων ενώ προλαμβάνει την κλίμακα drift και αρτεφάκτα αιμορραγίας βάθους.

Οι χάρτες βάθους που παράγονται από αυτήν την προσέγγιση, το έγγραφο ισχυρίζεται, ήταν και οπτικά πλήρεις και πιο συνεπείς σε πραγματική κλίμακα:

Διφασική ολοκλήρωση βάθους. Στην πρώτη φάση, MVS-άγκυρες χρησιμοποιούνται για να ανακτήσουν τη γεωμετρία φόντου σε μια αξιόπιστη μετρική κλίμακα. Στη δεύτερη φάση, προβλέψεις από το MoGe-2 επαναεισήχθησαν μέσω μιας διαδικασίας σύνθεσης που σχεδιάστηκε για να διατηρήσει και τη μεγάλης κλίμακας ακρίβεια και τα τοπικά λεπτά περιγράμματα.

Δεδομένα και Τεστ

Η τελική συλλογή MetricScenes αποτελείται από 47,579 αποκλειστικά πραγματικές εικόνες που καλύπτουν 134 σκηνές από το AerialMegaDepth, 29,583 εικόνες από 356 σκηνές από το MegaScenes και 22,549 кадράκια από 1,725 βίντεο από το Stereo4D.

Η συλλογή, από την οποία 10 σκηνές ανά πηγή κρατήθηκαν πίσω ως επαληθευτική σύνολο, καλύπτει εξωτερικές και εσωτερικές περιβάλλουσες, καθώς και επίπεδες και αεροφωτογραφικές απόψεις, και αστικές καθώς και φυσικές τοπιογραφίες – μια συλλογή και συνεκτική περιβάλλουσα που δεν είναι διαθέσιμη σε κανένα από τα ατομικά συνεισφέροντα datasets.

Για ένα αρχικό ποιοτικό τεστ, οι συγγραφείς βελτίωσαν το MoGe-2 ViT-Large-Normal μοντέλο στο νέο dataset MetricScenes για 10,000 επαναλήψεις σε μια μπατς μεγέθους 32 – αποτελώντας αποτελεσματικά γύρω στις τρεις επαναλήψεις. Κροπή και γενική αύξηση δεδομένων προσεγγίσεις λήφθηκαν από τα αρχικά τεστ του MoGe-2, και η εκπαίδευση πραγματοποιήθηκε σε μια ταχύτητα μάθησης 1×10^-6 (backbone) και 1×10^-5 (όλα τα άλλα παραμέτρους). Για το ποιοτικό τεστ, ανακατασκευές βάθους πραγματοποιήθηκαν από το βελτιωμένο WildMoGe μοντέλο, το οποίο αντιπαρατέθηκε με το βασικό MoGe-2, DepthAnything V3, Metric3Dv2, UniDepth v2 και DepthPro :

Σύγκριση ανακατασκευών μετρικής κλίμακας ορόσημων. Μετρήσεις από το Google Maps εμφανίζονται στη στήλη αριστερά. Σε αόρατα πραγματικά ορόσημα, το WildMoGe παράγει εκτιμήσεις κλίμακας που ταιριάζουν πιο στενά με τις γνωστές διαστάσεις, ενώ το MoGe-2, DepthAnything V3 και Metric3D V2 συχνά υποτιμούν το μέγεθος μακρινών δομών. Το UniDepth V2 συχνά παράγει πιο πιθανές κλίμακες, αλλά παραμένει ασυνεπές, ενώ το DepthPro περιστασιακά παράγει σοβαρά σφάλματα κλίμακας.

Από αυτό το αποτέλεσμα, το έγγραφο αναφέρει:

‘[Το WildMoGe] συνεχώς ανακτά πιο ακριβείς απόλυτες κλίμακες σε διάφορα ορόσημα, ταιριάζοντας στενά με τις πραγματικές διαστάσεις (π.χ. 31.4μ. vs 32.4μ. για το Μουσείο Φιλαδέλφειας, 46.7μ. vs 46.5μ. για την Πιάτσα ντέλλα Σιγνορίνα). Το MoGe-2, DepthAnything v3 και Metric3D v25 εμφανίζουν συμπεριφορά κατάρρευσης κλίμακας, συνεχώς υποτιμώντας το μέγεθος μακρινών δομών.

‘Το UniDepth v2 παράγει πιο πραγματικές κλίμακες, αλλά vẫn απομακρύνεται από την πραγματική τιμή, και το DepthPro συχνά αποτυγχάνει να ανακτήσει απόλυτη κλίμακα, παράγοντας αποτελέσματα που είναι τάξεις μεγέθους μικρότερα από την πραγματικότητα. Σημειώστε ότι αυτές οι σκηνές απουσιάζουν από το σύνολο εκπαίδευσης.

‘Αυτή η απόδοση δείχνει ότι το WildMoGe μπορεί να γενικεύσει σε αόρατο περιεχόμενο, αντί να θυμάται απλώς τις σκηνές εκπαίδευσης.’

Για να διασφαλιστεί ότι τα κέρδη που βρέθηκαν δεν ήταν περιορισμένα σε ορόσημα και μεγάλες εξωτερικές σκηνές, οι συγγραφείς αξιολόγησαν επίσης το WildMoGe σε συνηθισμένες εσωτερικές και οδικές εικόνες, όπου παρήγαγε εκτιμήσεις κλίμακας που ταιριάζουν ευρέως με το MoGe-2, ενώ επιτύγχαναν μεγαλύτερη ακρίβεια σε ένα ETH3D δικαστήριο σκηνή:

Σύγκριση σε τυπικές σκηνές. Σε συνηθισμένες εσωτερικές και οδικές περιβάλλουσες, το WildMoGe παράγει εκτιμήσεις κλίμακας που ταιριάζουν ευρέως με το MoGe-2, ενώ επιτύγχαναν μεγαλύτερη ακρίβεια στο ETH3D δικαστήριο βεντς, ανακτώντας διαστάσεις αντικειμένων που ταιριάζουν πιο στενά με τις πραγματικές μετρήσεις.

Για να αξιολογήσουν εάν το MetricScenes πραγματικά βελτίωσε τη μετρική-κλίμακα συλλογιστική, αξιολόγηση πραγματοποιήθηκε και σε ένα αφιερωμένο MetricScenes σύνολο τεστ και στο NYUv2, KITTI, ETH3D, iBims-1, GSO, Sintel, DDAD, DIODE, Spring και HAMMER.

Οι συγγραφείς σημειώνουν ότι η απόκτηση πυκνών πραγματικών μετρήσεων για μη περιορισμένες διαδικτυακές εικόνες παραμένει δύσκολο, οπότε τα MetricScenes ετικέτες δεν είναι τέλειες. Τυπικοί βεντς συμπεριλήφθηκαν για να επιβεβαιώσουν ότι οποιαδήποτε κέρδη δεν προέρχονταν με το代_ti της γενικής γεωμετρικής απόδοσης.

Συγκρίσεις πραγματοποιήθηκαν με το MoGe-2, UniDepth V2, DepthPro, MASt3R, Depth Anything V2, Depth Anything V3, ZoeDepth και Metric3D V2:

Ποσοτική αξιολόγηση σχετικής και μετρικής γεωμετρίας. Στο MetricScenes σύνολο τεστ, το WildMoGe ξεπέρασε το MoGe-2 σε όλα τα αναφερόμενα μετρικά, ενώ παρέμεινε ευρέως ανταγωνιστικό με το ZoeDepth, Metric3D V2, Depth Anything V2, Depth Anything V3, MASt3R, UniDepth V2 και DepthPro σε καθιερωμένα βεντς, υποδεικνύοντας ότι η βελτιωμένη μετρική-κλίμακα εκτίμηση επιτεύχθηκε χωρίς θυσία της γενικής γεωμετρικής ανακατασκευής ποιότητας.

Το WildMoGe βελτίωσε σημαντικά την μετρική-κλίμακα πρόβλεψη στο MetricScenes, ξεπερνώντας το MoGe-2 σε όλα τα αναφερόμενα μετρικά και επιτύγχανοντας ισχυρότερη μετρική-γεωμετρία και μετρική-βάθος σκορ από το MoGe-2, DepthAnything V3, Metric3D V2, UniDepth V2 και DepthPro.

Η απόδοση στο NYUv2, KITTI, ETH3D, iBims-1, GSO, Sintel, DDAD, DIODE, Spring και HAMMER παρέμεινε ευρέως συγκρίσιμη με το MoGe-2. Οι συγγραφείς αποδίδουν αυτά τα κέρδη στην μετρική-κλίμακα επιτήρηση του MetricScenes, η οποία φαίνεται να βοηθά στη μείωση της κατάρρευσης κλίμακας ενώ διατηρεί τη γενική σκηνική ανακατασκευής απόδοση.

Συμπέρασμα

Η λύση MetricScenes για την «κατάρρευση κλίμακας» φαίνεται ως ένα είδος Heath-Robinson affair, στο έγγραφο – μια συνδυαστική και απόσταξη πολλαπλών datasets, κάθε ένα από τα οποία έχει κάποια πολύτιμη άποψη να συμβάλλει. Φαίνεται λίγο σαν να προσπαθούμε να κατανοήσουμε το σχήμα ενός ελέφαντα με αφή.

Πιθανώς η πιο πολύτιμη υπηρεσία που το έγγραφο προσφέρει είναι να καλεί μεγαλύτερη προσοχή στο ζήτημα, το οποίο φαίνεται να απαιτεί κάποιο είδος καινοτόμου ή προσαρμοσμένου παγκόσμιου προτύπου. Ωστόσο,既然 μια τέτοια καινοτομία θα διαταράξει την αναπαραγωγικότητα και τη συνεκτικότητα των τρεχουσών μεθοδολογιών, θα πρέπει να είναι πολύ πειστική.

* Η μετατροπή μου των ενσωματωμένων παραπομπών των συγγραφέων σε υπερσυνδέσμους.

Πρώτη δημοσίευση Πέμπτη 11η Ιουνίου, 2026

Martin Anderson

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]