Angle d’Anderson

Les difficultés de l’IA pour reconnaître la taille des monuments

Publié le 11 juin 2026

Par

Martin Anderson

AI-generated image (GPT-2 + Photoshop): High-angle view of a man holding a scale model of the Leaning Tower of Pisa on a grassy field, with an inset photograph showing the same model aligned from ground level to resemble the full-sized tower in the background.

Les modèles de langage de vision comprennent les monuments, mais ils ne voient toujours pas l’image globale…

L’une des premières compétences de survie que nous développons est la capacité de distinguer les choses qui sont petites ou éloignées. Nous pouvons cacher la lune avec notre pouce, sans penser qu’elle est de la taille d’un centime, car nous avons internalisé une compréhension de l’échelle relative.

Ceci est une tâche inhabituellement difficile pour les systèmes de vision par ordinateur, car la plupart d’entre eux s’appuient sur des annotations antérieures, qui ne les aident pas à « comprendre » l’échelle de la même manière que les humains. De plus, au-delà d’une certaine limite et plutôt proche, tout ce qui est à distance est au-delà de la capacité de la vision stéréoscopique à résoudre – la voiture à l’autre bout du parking ; le gratte-ciel à distance au-delà ; et la lune croissante qui se lève au-dessus… tous sont des « entités 2D » pour la majorité des systèmes d’apprentissage automatique basés sur la vision.

Bien sûr, lorsque un exemple particulier d’un objet « éloigné » mais mal interprété se retrouve bien représenté dans les données d’entraînement, les systèmes qui ont vu ces données peuvent être difficiles à tromper :

ChatGPT-5.5 n’est pas du tout impressionné par ce classique trope touristique.

Moins que l’espace latent formé par un modèle contient des informations spécifiques et souvent répétées, plus il devra être capable de généraliser et d’internaliser les concepts d’échelle que nous comprenons à un jeune âge. Sans cela, même des exemples célèbres peuvent encore causer des erreurs d’estimation d’échelle :

Dans cet exemple spéculatif, tiré du nouveau document que nous examinons aujourd'hui, le point de vue de la caméra présente l'Arc de Triomphe en arrière-plan – mais le système ne sait pas quelle est sa taille et fait une supposition incorrecte. Source - https://arxiv.org/pdf/2606.02379

Dans cet exemple spéculatif, adapté du nouveau document que nous examinons aujourd’hui, le point de vue de la caméra présente l’Arc de Triomphe en arrière-plan – mais le système ne sait pas quelle est sa taille et fait une supposition incorrecte. Source

Le danger, avec des objets spécifiques et très caractéristiques tels que la Tour Eiffel, est que le système recourra à une raccourci d’estimation de la taille qui est correct pour le modèle original, mais pas correct pour les multiples imitations du monument de Paris qui sont également au-delà de la distance de résolution stéréoscopique, mais qui ne sont pas aussi grands.

Il est donc important que les systèmes de vision abordent des vues nouvelles (non vues) avec un ensemble de compétences prêt, et non seulement un ensemble de « codes de triche ».

Montée en puissance

À cette fin, une nouvelle collaboration entre les États-Unis et la Chine propose un ensemble de données correctif, ainsi qu’une méthode d’estimation, qui aborde le problème :

La nouvelle approche modifie un système antérieur grâce à un matériel de formation amélioré – des données suffisamment variées pour fournir une compréhension plus profonde des problèmes de profondeur.

Lancé avec un site Web accompagnant, l’initiative MetricScenes présente des données et des versions de code.

Le document indique* :

‘[Nous] avons constaté que les méthodes actuelles de pointe échouent fréquemment à estimer l’échelle de scène correcte, ce qui entraîne un phénomène de « collapse d’échelle » persistant dans les scénarios « dans la nature ».

‘[L’image ci-dessus] montre un exemple où des références sémantiques claires (personnes) sont présentes, mais où des modèles comme MoGe-2 présentent une incohérence d’échelle significative sur la plage de distances : l’échelle métrique prédite pour les objets de champ proche est plausible – dans ce cas, les touristes ont une hauteur plausible – mais l’échelle pour les structures de champ lointain est dramatiquement sous-estimée – ici, l’Arc de Triomphe en arrière-plan est prédit à une largeur de 18,8 m, ce qui est plus de 2 fois plus petit que la largeur réelle (44,8 m).

‘MoGe-2 a posé un monument miniaturisé, malgré les indices contraires.’

The Power of Three

La nouvelle collection des auteurs a été assemblée en combinant trois ensembles de données existants : MegaScenes, AerialMegaDepth et Stereo4D :

Exemple d’images de MegaScenes, qui fait partie de la nouvelle curation. Source

Le problème avec les ensembles de données qui contribuent à MetricScenes, pris séparément, est qu’ils s’appliquent chacun à des domaines limités, tels que des séquences de caméra de voiture, ou des scènes intérieures, alors qu’un domaine combiné est nécessaire pour aborder le problème et rapprocher les systèmes de vision d’une compréhension conceptuelle humaine de l’échelle.

Chaque image est accompagnée d’images RGB, d’une profondeur partiellement observée dérivée de Structure from Motion (SfM), Multi-View Stereo (MVS) ou d’autres a priori géométriques, ainsi que d’une carte de profondeur complète générée à travers un processus de complétion de Poisson en deux étapes, et des métadonnées de caméra associées.

L’ajustement fin du cadre MoGe-2 sur le nouveau jeu de données ‘atténue considérablement’ l’effondrement d’échelle auquel les auteurs font référence, réalisant apparemment de meilleurs résultats dans des scènes ouvertes et une performance de pointe sur les benchmarks liés.

Le nouveau document s’intitule Honey, I Shrunk the Arc de Triomphe ! et provient de quatre chercheurs de l’Université Cornell et de l’Université Jiao Tong de Shanghai.

Méthode

MetricScenes s’appuie en partie sur les ensembles de données AerialMegaDepth et MegaScenes mentionnés ci-dessus – deux collections de photographies Internet qui couvrent des archives historiques, des images de touristes et de la photographie professionnelle. Bien que MegaScenes offre des reconstructions de grande échelle de Structure from Motion (SfM), ces scènes manquent de toute échelle réelle inhérente. Pour remédier à cela, des images géoréférencées provenant de services de cartographie en ligne ont été utilisées pour aligner les reconstructions avec des emplacements et des dimensions physiques connus.

Inversement, AerialMegaDepth intègre déjà des vues géoréférencées de Google Earth, fournissant des reconstructions de monuments à échelle métrique.

Les erreurs de reconstruction potentielles causées par des structures visuellement similaires mais géographiquement éloignées ont été abordées à l’aide de MASt3R-SfM et du classificateur Doppelgangers++. Après la reconstruction Multi-View Stereo (MVS), les estimations de profondeur instables et les artefacts de saignement de profondeur ont été filtrés à l’aide d’une combinaison de vérifications de stabilité et de prédictions de MoGe-2 :

AerialMegaDepth dérive de l’échelle réelle en combinant des photographies Internet avec des vues géoréférencées de Google Earth, tandis que les scènes de MegaScenes sont alignées sur des dimensions physiques à l’aide d’images de niveau de rue géoréférencées. Après la reconstruction Multi-View Stereo (MVS), les estimations de profondeur instables et les artefacts de saignement de profondeur sont filtrés, produisant des cartes de profondeur métrique plus propres et plus adaptées à la formation. Les boîtes jaunes mettent en évidence les objets transitoires supprimés pendant le traitement, tandis que les boîtes rouges indiquent les régions de saignement de profondeur corrigées.

L’échelle métrique a ensuite été récupérée à l’aide d’images géoréférencées. AerialMegaDepth dérive déjà de l’échelle à partir de rendus de Google Earth capturés à partir d’emplacements connus, tandis que MegaScenes a été aligné sur des dimensions réelles à l’aide d’images de niveau de rue géoréférencées obtenues à partir de services de cartographie.

Ces images ont été appariées à des reconstructions existantes à l’aide de MASt3R, affinées avec le classificateur Doppelganger, alignées avec COLMAP et étalonnées à l’aide d’une estimation basée sur RANSAC utilisant des coordonnées Earth-Centered, Earth-Fixed (ECEF). Les scènes avec des estimations d’échelle peu fiables ou une qualité d’enregistrement médiocre ont été éliminées.

Voir en stéréo

La collection MetricScenes s’appuie également sur l’ensemble de données Stereo4D mentionné ci-dessus, qui présente des milliers de séquences de vidéo stéréoscopiques réelles capturées avec des caméras VR180, offrant une dimension temporelle aux captures :

L’ensemble de données Stereo4D a été construit à partir de vidéos stéréoscopiques Internet, combinant des poses de caméra, des estimations de profondeur et des trajectoires de mouvement pour récupérer des scènes 3D dynamiques à l’échelle. L’ensemble de données résultant contient des centaines de milliers de clips vidéo représentés sous forme de nuages de points avec des trajectoires de mouvement à longue portée, fournissant une grande source de géométrie et de mouvement 3D réels pour la formation de modèles de vision. Source

Puisque la distance physique entre les deux objectifs de caméra varie selon les appareils, seules les vidéos avec des configurations de caméra documentées ont été utilisées, permettant de récupérer la profondeur de scène à une échelle réelle précise.

Stereo4D s’appuyait initialement sur le système de flux optique SEA-RAFT pour estimer la géométrie de scène, mais les auteurs ont constaté que la calibration de caméra imparfaite pouvait déformer les scènes reconstruites, faisant converger de manière anormale des structures qui devraient être parallèles. Par conséquent, pour améliorer la précision, ils ont remplacé cette approche par un pipeline de reconstruction multi-vue qui estime conjointement les poses de caméra et la profondeur à partir de plusieurs cadres.

Après avoir comparé π³, DepthAnything V3 et MapAnything, π³ a été sélectionné pour sa robustesse géométrique et sa capacité à préserver les détails fins :

Récupération de la profondeur métrique à partir de Stereo4D. Les méthodes de correspondance stéréo standard peuvent produire une géométrie déformée lorsque la calibration de la caméra est imparfaite, tandis que π³ génère des reconstructions de scène plus cohérentes et préserve les détails fins. La géométrie récupérée est ensuite alignée sur la base physique connue de la caméra stéréo, produisant des cartes de profondeur métrique étalonnées avec précision.

Puisque π³ reconstruit les scènes à une échelle arbitraire, les cartes de profondeur résultantes ont été alignées sur des dimensions réelles à l’aide de la base physique connue de chaque trépied de caméra stéréo. Un filtrage supplémentaire a supprimé les cadres de mauvaise qualité, les incohérences de profondeur, les erreurs de calibration et les estimations d’échelle peu fiables.

En outre, un processus de complétion de profondeur en deux étapes a été utilisé, combinant les prédictions de premier plan de MoGe-2 avec la géométrie de fond de Multi-View Stereo (MVS), produisant des données de formation métrique plus propres avec une échelle et des limites d’objets plus cohérentes :

Complétion de profondeur en deux étapes. L’utilisation de seules ancres de fond peut préserver la structure de scène tout en déformant l’échelle globale, tandis que la combinaison de contraintes de premier plan et de fond en une seule passe introduit un dérive d’échelle et des artefacts de limite. L’approche en deux étapes maintient une échelle métrique cohérente à la fois pour les objets proches et éloignés tout en préservant des limites d’objets propres.

Les auteurs ont constaté que les collections de photos Internet manquent souvent d’une profondeur de premier plan fiable, tandis que les images stéréoscopiques manquent fréquemment de régions de fond éloignées. Bien que MoGe-2 puisse inférer une géométrie dense sur toute la scène, ses estimations tendent vers le même problème de « collapse d’échelle » que le projet cherche à résoudre. Par conséquent, le pipeline de complétion de profondeur en deux étapes a été conçu pour combiner les forces de MoGe-2 et de Multi-View Stereo (MVS).

La géométrie de fond a été récupérée à l’aide d’ancres métriques dérivées de MVS, créant une carte de profondeur de base avec une structure de grande échelle fiable. Dans un deuxième stade, les estimations de premier plan de MoGe-2 ont été réintroduites à travers un processus de composition sensible aux bords conçu pour préserver les limites d’objets tout en prévenant la dérive d’échelle et les artefacts de saignement de profondeur.

Les cartes de profondeur produites par cette approche, selon le document, étaient à la fois visuellement complètes et plus cohérentes en termes d’échelle réelle :

Pipeline de complétion de profondeur en deux étapes. Dans la première étape, les ancres de Multi-View Stereo (MVS) sont utilisées pour récupérer la géométrie de fond à une échelle métrique fiable. Dans la deuxième étape, les estimations de premier plan de MoGe-2 sont réintroduites à travers un processus de composition sensible aux bords, produisant une carte de profondeur finale conçue pour préserver à la fois la précision de grande échelle et les détails locaux nets.

Données et tests

La collection finale MetricScenes comprend 47 579 images du monde réel exclusivement, couvrant 134 scènes d’AerialMegaDepth ; 29 583 images de 356 scènes de MegaScenes ; et 22 549 cadres extraits de 1 725 vidéos de Stereo4D.

La collection, dont 10 scènes par source ont été retenues comme validation, couvre des contextes extérieurs et intérieurs, ainsi que des vues au niveau du sol et aériennes, et des paysages urbains ainsi que naturels – un contexte rassemblé et cohérent qui n’est pas disponible dans l’une des collections individuelles.

Pour un test qualitatif initial, les auteurs ont affiné le modèle MoGe-2 ViT-Large-Normal sur le nouveau jeu de données MetricScenes pendant 10 000 itérations à une taille de lot de 32 – soit environ trois époques. Les méthodes de recadrage et d’augmentation de données générales ont été reprises des tests MoGe-2 originaux, et la formation s’est déroulée à un taux d’apprentissage de 1×10^-6 (backbone) et 1×10^-5 (tous les autres paramètres). Pour le test qualitatif, les reconstructions de profondeur ont été effectuées par le modèle WildMoGe affiné, opposé au MoGe-2 de base ; DepthAnything V3 ; Metric3Dv2 ; UniDepth v2 ; et DepthPro :

Comparaison de la reconstruction de monuments à l’échelle métrique. Les mesures de référence réelles de Google Maps sont affichées dans la colonne de gauche. Sur des monuments réels non vus, WildMoGe produit des estimations d’échelle plus proches des dimensions connues, tandis que MoGe-2, DepthAnything V3 et Metric3D V2 sous-estiment fréquemment la taille des structures éloignées. UniDepth V2 produit souvent des échelles plus plausibles, mais reste incohérent, tandis que DepthPro produit parfois des erreurs d’échelle graves.

À ce résultat, le document indique :

‘[WildMoGe] récupère systématiquement des échelles absolues plus précises à travers divers monuments, correspondant étroitement aux dimensions de référence (par exemple, 31,4 m contre 32,4 m pour le Philadelphia Museum of Art, 46,7 m contre 46,5 m pour la Piazza della Signorina). MoGe-2, DepthAnything v3 et Metric3D v25 présentent un comportement de « collapse d’échelle », sous-estimant systématiquement la taille des structures de champ lointain.

‘UniDepth v2 produit des échelles plus réalistes mais dévie encore de la référence, et DepthPro échoue souvent à récupérer l’échelle absolue, produisant des résultats qui sont des ordres de grandeur plus petits que la réalité. Notez que ces scènes sont absentes de l’ensemble de formation.

‘Cette performance démontre que WildMoGe peut se généraliser à du contenu non vu, et non simplement mémoriser les scènes de formation.’

Pour s’assurer que les gains trouvés n’étaient pas limités aux monuments et aux scènes de plein air, les auteurs ont également évalué WildMoGe sur des images intérieures et de niveau de rue ordinaires, où il a produit des estimations d’échelle globalement cohérentes avec MoGe-2, tout en réalisant une meilleure précision sur une scène de cour ETH3D :

Comparaison sur des scènes standard. Sur des environnements intérieurs et de niveau de rue ordinaires, WildMoGe produit des estimations d’échelle globalement cohérentes avec MoGe-2, tout en réalisant une meilleure précision sur le benchmark de cour ETH3D, récupérant des dimensions d’objets qui correspondent plus étroitement aux mesures de référence.

Pour évaluer si MetricScenes améliore réellement la raison métrique, l’évaluation a été effectuée à la fois sur un ensemble de test dédié MetricScenes et sur NYUv2 ; KITTI ; ETH3D ; iBims-1 ; GSO ; Sintel ; DDAD ; DIODE ; Spring ; et HAMMER.

Les auteurs notent que l’obtention de mesures de référence denses pour des images Internet non contraintes reste difficile, ce qui signifie que les étiquettes MetricScenes ne sont pas parfaites. Des benchmarks standard ont donc été inclus pour vérifier que les gains ne se faisaient pas au détriment de la performance géométrique générale.

Les comparaisons ont été effectuées contre MoGe-2 ; UniDepth V2 ; DepthPro ; MASt3R ; Depth Anything V2 ; Depth Anything V3 ; ZoeDepth ; et Metric3D V2 :

Évaluation quantitative de la géométrie relative et métrique. Sur l’ensemble de test MetricScenes, WildMoGe surpasse MoGe-2 sur tous les indicateurs de performance rapportés, tout en restant globalement compétitif avec ZoeDepth, Metric3D V2, Depth Anything V2, Depth Anything V3, MASt3R, UniDepth V2 et DepthPro sur les benchmarks établis, indiquant que l’estimation de l’échelle métrique améliorée a été réalisée sans sacrifier la qualité de reconstruction géométrique générale.

WildMoGe améliore considérablement la prédiction de l’échelle métrique sur MetricScenes, surpassant MoGe-2 sur tous les indicateurs de performance rapportés et réalisant des scores de géométrie métrique et de profondeur métrique plus élevés que MoGe-2, DepthAnything V3, Metric3D V2, UniDepth V2 et DepthPro.

La performance sur NYUv2, KITTI, ETH3D, iBims-1, GSO, Sintel, DDAD, DIODE, Spring et HAMMER est restée globalement comparable à MoGe-2. Les auteurs attribuent ces gains à la supervision métrique de MetricScenes, qui semble réduire le « collapse d’échelle » tout en préservant la performance de reconstruction de scène générale.

Conclusion

La solution MetricScenes pour le « collapse d’échelle » ressemble à une sorte d’affaire Heath-Robinson dans le document – un mélange et une distillation de plusieurs ensembles de données, chacun ayant une vue précieuse à apporter. Cela ressemble un peu à essayer de déterminer la forme d’un éléphant par toucher.

Peut-être que le service le plus précieux que le document offre est de souligner l’importance du problème, qui semble nécessiter une sorte de norme universelle nouvelle ou adaptée. Cependant, une telle innovation devrait être très convaincante pour ne pas interrompre la reproductibilité et la cohérence des méthodologies actuelles.

* Ma conversion des citations en ligne des auteurs en hyperliens.

Publié pour la première fois jeudi 11 juin 2026