Sudut Anderson
Kesulitan AI Mengenali Ukuran Landmark

Model Bahasa Visi memahami monumen, tetapi mereka masih belum dapat melihat gambaran keseluruhan…
Salah satu keterampilan bertahan hidup awal yang kita kembangkan adalah kemampuan untuk membedakan antara hal-hal yang kecil atau jauh. Kita dapat menutupi bulan dengan ibu jari, tanpa berpikir bahwa itu seukuran dengan koin, karena kita telah menginternalisasi pemahaman tentang skala relatif.
Ini adalah tugas yang luar biasa sulit untuk sistem visi komputer, karena sebagian besar dari mereka bergantung pada anotasi sebelumnya, yang tidak membantu mereka untuk ‘memahami’ skala dengan cara yang sama seperti manusia. Selain itu, di luar batas tertentu dan cukup dekat, segala sesuatu di kejauhan di luar kemampuan penglihatan stereo untuk memecahkan – mobil di ujung parkir; gedung pencakar langit di kejauhan di luar itu; dan bulan sabit yang terbit di atasnya…semua adalah ‘entitas 2D’, bagi sebagian besar sistem pembelajaran mesin berbasis visi.
Tentu saja, ketika contoh tertentu dari objek ‘jauh’ tetapi salah ditafsirkan berakhir dengan baik dalam data pelatihan, sistem yang telah melihat data ini dapat sulit untuk ditipu:

ChatGPT-5.5 tidak terlalu terkesan dengan trope wisata klasik ini.
Model yang kurang memiliki ruang laten yang dilatih yang berisi informasi spesifik dan sering diulang, semakin banyak memerlukan kemampuan untuk menggeneralisasi dan menginternalisasi konsep skala yang kita pahami sejak usia muda. Tanpa ini, bahkan contoh terkenal dapat menyebabkan kesalahan perkiraan skala:

Dalam contoh spekulatif ini, diadaptasi dari makalah baru yang kita bahas hari ini, sudut pandang kamera menampilkan Arc De Triomphe di latar belakang – tetapi sistem tidak tahu ukurannya, dan membuat tebakan yang salah. Sumber
Bahaya, dengan objek yang spesifik dan sangat khas seperti Menara Eiffel, adalah bahwa sistem akan menggunakan jalan pintas perkiraan ukuran yang benar untuk model asli, tetapi tidak benar untuk banyak tiruan landmark Paris yang sama-sama di luar jangkauan resolusi stereo, tetapi tidak sebesar itu.
Oleh karena itu, sangat penting bahwa sistem visi mendekati pandangan baru (belum pernah dilihat) dengan keterampilan yang siap, dan tidak hanya sekumpulan ‘kode curang’.
Meningkatkan Skala
Untuk itu, kolaborasi baru antara AS dan Cina menawarkan dataset perbaikan, bersama dengan metode estimasi, yang menangani masalah tersebut:

Pendekatan baru memodifikasi sistem sebelumnya melalui bahan pelatihan yang ditingkatkan – data yang bervariasi cukup untuk memberikan pemahaman yang lebih dalam tentang masalah kedalaman.
Diluncurkan bersama dengan situs web pendamping, inisiatif MetricScenes ini menampilkan data dan rilis kode.
Makalah tersebut menyatakan*:
‘[Kami] menemukan bahwa metode state-of-the-art saat ini sering gagal untuk memperkirakan skala adegan yang benar, menyebabkan fenomena runtuh skala yang persisten dalam skenario “di alam liar”.
‘[Gambar di atas] menunjukkan contoh di mana referensi semantik yang jelas (orang) hadir, tetapi di mana model seperti MoGe-2 menunjukkan inkonsistensi skala yang signifikan di seluruh jangkauan jarak: skala metrik yang diprediksi untuk objek dekat-lapangan masuk akal – dalam hal ini, wisatawan memiliki tinggi yang masuk akal – tetapi skala untuk struktur jauh-lapangan secara dramatis diremehkan – di sini, Arc de Triomphe di latar belakang diprediksi secara metrik memiliki lebar hanya 18,8 m, yang lebih dari 2× lebih kecil dari lebar sebenarnya (44,8 m).
‘MoGe-2 telah memposisikan landmark yang diperkecil, meskipun ada petunjuk yang bertentangan.’
Kekuatan Tiga
Koleksi baru penulis ini disusun dengan menggabungkan tiga dataset yang ada: MegaScenes, AerialMegaDepth, dan Stereo4D:

Contoh gambar dari MegaScenes, yang merupakan bagian dari kurasi baru. Sumber
Masalah dengan dataset yang menyumbang untuk MetricScenes, ketika diambil sendiri, adalah bahwa mereka masing-masing berlaku untuk domain yang terbatas, seperti footage POV mobil, atau adegan interior, ketika domain yang digabungkan diperlukan untuk menangani masalah, dan membawa sistem visi lebih dekat ke pemahaman konseptual manusia tentang skala.
Setiap gambar disertai dengan citra RGB, kedalaman sebagian yang diamati yang berasal dari Structure from Motion (SfM), Multi-View Stereo (MVS), atau prior geometris lainnya, bersama dengan peta kedalaman yang selesai yang dihasilkan melalui proses Poisson completion dua tahap, dan metadata kamera yang terkait.
Fine-tuning kerangka MoGe-2 pada dataset baru ‘secara signifikan mengurangi’ runtuh skala yang penulis sebutkan, dilaporkan mencapai hasil yang lebih baik dalam adegan terbuka, dan kinerja state-of-the-art pada benchmark terkait.
Makalah baru ini berjudul Honey, I Shrunk the Arc de Triomphe!, dan berasal dari empat peneliti dari Cornell University dan Shanghai Jiao Tong University.
Metode
MetricScenes sebagian besar didasarkan pada AerialMegaDepth dan MegaScenes – dua koleksi foto internet yang mencakup arsip sejarah, gambar turis, dan fotografi profesional. Meskipun MegaScenes menawarkan rekonstruksi SfM skala besar, adegan-adegan ini tidak memiliki skala dunia nyata yang inheren. Untuk menangani ini, citra geotag dari layanan pemetaan online digunakan untuk menyelaraskan rekonstruksi dengan lokasi dan dimensi fisik yang diketahui.
Sebaliknya, AerialMegaDepth sudah mencakup pandangan geotag Google Earth, menyediakan rekonstruksi landmark skala metrik.
Kesalahan rekonstruksi potensial yang disebabkan oleh struktur yang secara visual mirip tetapi berjarak secara geografis ditangani menggunakan MASt3R-SfM dan klasifikasi Doppelgangers++. Setelah rekonstruksi MVS, perkiraan kedalaman yang tidak stabil dan artefak perdarahan kedalaman difilter menggunakan kombinasi pemeriksaan stabilitas dan prediksi dari MoGe-2:

AerialMegaDepth menghasilkan skala dunia nyata dengan menggabungkan foto internet dengan pandangan geotag Google Earth, sedangkan adegan MegaScenes diselaraskan ke dimensi fisik menggunakan citra georeferensi tingkat jalan. Setelah rekonstruksi MVS, perkiraan kedalaman yang tidak stabil dan artefak perdarahan kedalaman difilter, menghasilkan peta kedalaman skala metrik yang lebih bersih dan cocok untuk pelatihan. Kotak kuning menyoroti objek sementara yang dihapus selama pemrosesan, sedangkan kotak merah menunjukkan area perdarahan kedalaman yang diperbaiki.
Skala metrik kemudian dipulihkan melalui citra georeferensi. AerialMegaDepth sudah menghasilkan skala dari rendering Google Earth yang diambil dari lokasi yang diketahui, sedangkan MegaScenes diselaraskan ke dimensi fisik menggunakan citra geotag tingkat jalan yang diperoleh dari layanan pemetaan.
Gambar-gambar ini dicocokkan dengan rekonstruksi yang ada menggunakan MASt3R, diperbarui dengan klasifikasi Doppelganger, diselaraskan dengan COLMAP, dan diskalakan melalui estimasi berbasis RANSAC menggunakan koordinat Earth-Centered, Earth-Fixed (ECEF). Adegan dengan perkiraan skala yang tidak dapat diandalkan, atau kualitas pendaftaran yang buruk, dibuang.
Melihat dalam Stereo
Koleksi MetricScenes juga didasarkan pada dataset Stereo4D yang disebutkan sebelumnya, yang menampilkan ribuan urutan video stereoskopik dunia nyata yang diambil dengan kamera VR180, menawarkan dimensi temporal pada penangkapan:

Dataset Stereo4D dibangun dari video internet stereoskopik, menggabungkan pose kamera, perkiraan kedalaman, dan trajektori gerak untuk memulihkan adegan 3D dinamis dengan skala. Dataset yang dihasilkan berisi ratusan ribu klip video yang direpresentasikan sebagai awan titik dengan trek gerak jangka panjang, menyediakan sumber besar geometri 3D dunia nyata dan gerak untuk melatih model visi. Sumber
Karena jarak fisik antara dua lensa kamera bervariasi di seluruh perangkat yang berbeda, hanya video dengan konfigurasi kamera yang didokumentasikan yang digunakan, memungkinkan kedalaman adegan untuk dipulihkan pada skala dunia nyata yang akurat.
Stereo4D awalnya bergantung pada sistem aliran optik SEA-RAFT untuk memperkirakan geometri adegan, tetapi penulis menemukan bahwa kalibrasi kamera yang tidak sempurna dapat mengganggu adegan yang direkonstruksi, menyebabkan struktur yang seharusnya sejajar menjadi tidak sejajar secara tidak wajar. Oleh karena itu, untuk meningkatkan akurasi, mereka menggantikan pendekatan ini dengan pipa rekonstruksi multi-tampilan yang secara bersamaan memperkirakan pose kamera dan kedalaman dari beberapa bingkai.
Setelah membandingkan π³, DepthAnything V3, dan MapAnything , π³ dipilih karena kekuatan geometrisnya dan kemampuan untuk melestarikan detail halus:

Pemulihan kedalaman skala metrik dari Stereo4D. Metode pencocokan stereo standar dapat menghasilkan geometri yang terdistorsi ketika kalibrasi kamera tidak sempurna, sedangkan π³ menghasilkan rekonstruksi adegan yang lebih konsisten dan melestarikan detail halus. Geometri yang dipulihkan kemudian diselaraskan dengan baseline fisik yang diketahui dari kamera stereo, menghasilkan peta kedalaman skala metrik yang akurat.
Karena π³ merekonstruksi adegan pada skala sewenang-wenang, peta kedalaman yang dihasilkan diselaraskan dengan dimensi dunia nyata menggunakan baseline fisik yang diketahui dari setiap rig kamera stereo. Pemfilteran tambahan menghapus bingkai berkualitas rendah, inkonsistensi kedalaman, kesalahan kalibrasi, dan perkiraan skala yang tidak dapat diandalkan.
Tambahan, proses penyelesaian kedalaman dua tahap digunakan, menggabungkan prediksi latar depan dari MoGe-2 dengan geometri latar belakang dari MVS, menghasilkan data pelatihan skala metrik yang lebih bersih dengan skala yang lebih konsisten dan batas objek yang lebih tajam:

Penyelesaian kedalaman dua tahap. Menggunakan hanya jangkar latar belakang dapat melestarikan struktur adegan sementara mengganggu skala secara keseluruhan, sedangkan menggabungkan konstrain latar depan dan latar belakang dalam satu langkah memperkenalkan drift skala dan artefak batas. Pendekatan dua tahap mempertahankan skala metrik yang konsisten di seluruh objek dekat dan jauh sementara melestarikan batas objek yang bersih.
Penulis mengamati bahwa koleksi foto internet sering kekurangan kedalaman latar depan yang dapat diandalkan, sedangkan citra stereo sering kekurangan wilayah latar belakang yang jauh. Meskipun MoGe-2 dapat menginfer geometri padat di seluruh adegan, perkiraannya cenderung menuju masalah runtuh skala yang sama yang proyek ini berusaha untuk mengatasi. Oleh karena itu, pipa penyelesaian kedalaman dua tahap dirancang untuk menggabungkan kekuatan MoGe-2 dan MVS.
Geometri latar belakang dipulihkan menggunakan jangkar metrik yang berasal dari MVS, menciptakan peta kedalaman dasar dengan struktur skala besar yang dapat diandalkan. Pada tahap kedua, perkiraan latar depan dari MoGe-2 diperkenalkan kembali melalui proses penyelesaian yang peka-ujung yang dirancang untuk melestarikan batas objek sementara mencegah drift skala dan artefak perdarahan kedalaman.
Peta kedalaman yang dihasilkan oleh pendekatan ini, makalah tersebut berpendapat, baik secara visual lengkap dan lebih konsisten dalam skala dunia nyata:

Pipa penyelesaian kedalaman dua tahap. Pada tahap pertama, jangkar MVS digunakan untuk memulihkan geometri latar belakang pada skala metrik yang dapat diandalkan. Pada tahap kedua, perkiraan latar depan dari MoGe-2 diperkenalkan kembali melalui proses komposisi yang peka-ujung, menghasilkan peta kedalaman akhir yang dirancang untuk melestarikan baik akurasi skala besar dan detail lokal yang tajam.
Data dan Pengujian
Koleksi MetricScenes akhir terdiri dari 47.579 gambar dunia nyata yang eksklusif yang mencakup 134 adegan dari AerialMegaDepth; 29.583 gambar dari 356 adegan dari MegaScenes; dan 22.549 bingkai yang diambil dari 1.725 video dari Stereo4D.
Koleksi ini, dari mana 10 adegan per sumber diadakan sebagai validasi, mencakup konteks luar dan dalam, serta tampilan tingkat tanah dan udara, dan lanskap perkotaan serta alami – konteks yang terintegrasi dan kohesif yang tidak tersedia dalam koleksi individual yang menyumbang.
Untuk pengujian kualitatif awal, penulis melakukan fine-tuning model MoGe-2 ViT-Large-Normal pada dataset MetricScenes baru selama 10.000 iterasi pada ukuran batch 32 – efektif sekitar tiga epoch. Pemotongan dan pendekatan augmentasi data umum diambil dari pengujian MoGe-2 asli, dan pelatihan terjadi pada laju pembelajaran 1×10-6 (backbone) dan 1×10-5 (semua parameter lain). Untuk pengujian kualitatif, rekonstruksi kedalaman dilakukan oleh model WildMoGe yang diperhalus, dipertandingkan melawan MoGe-2 asli; DepthAnything V3; Metric3Dv2; UniDepth v2 ; dan DepthPro:

Perbandingan rekonstruksi landmark skala metrik. Pengukuran ground-truth dari Google Maps ditampilkan di kolom kiri. Di seluruh landmark dunia nyata yang tidak terlihat, WildMoGe menghasilkan perkiraan skala yang lebih dekat dengan dimensi yang diketahui, sedangkan MoGe-2, DepthAnything V3, dan Metric3D V2 sering meremehkan ukuran struktur jauh. UniDepth V2 sering menghasilkan skala yang lebih masuk akal, tetapi tetap tidak konsisten, sedangkan DepthPro terkadang menghasilkan kesalahan skala yang parah.
Dari hasil ini, makalah tersebut menyatakan:
‘[WildMoGe] secara konsisten memulihkan skala absolut yang lebih akurat di seluruh landmark, secara dekat mencocokkan dimensi ground-truth (misalnya, 31,4m vs. 32,4m untuk Museum Seni Philadelphia, 46,7m vs 46,5m untuk Piazza della Signorina). MoGe-2, DepthAnything v3 dan Metric3D v25 menunjukkan perilaku runtuh skala, secara konsisten meremehkan ukuran struktur jauh-lapangan.
‘UniDepth v2 menghasilkan skala yang lebih realistis tetapi masih menyimpang dari ground truth, dan DepthPro sering gagal untuk memulihkan skala absolut, menghasilkan hasil yang beberapa kali lipat lebih kecil dari kenyataan. Perlu diingat bahwa adegan-adegan ini tidak ada dalam set pelatihan.
‘Kinerja ini menunjukkan bahwa WildMoGe dapat menggeneralisasi ke konten yang tidak terlihat, bukan hanya mengingat adegan pelatihan.’
Untuk memastikan bahwa keuntungan yang ditemukan tidak terbatas pada landmark dan adegan luar yang besar, penulis juga mengevaluasi WildMoGe pada gambar indoor dan tingkat jalan yang biasa, di mana ia menghasilkan perkiraan skala yang secara umum konsisten dengan MoGe-2, sementara mencapai akurasi yang lebih baik pada adegan ETH3D :

Perbandingan pada adegan standar. Di seluruh lingkungan indoor dan tingkat jalan yang biasa, WildMoGe menghasilkan perkiraan skala yang secara umum konsisten dengan MoGe-2, sementara mencapai akurasi yang lebih baik pada benchmark ETH3D, memulihkan dimensi objek yang lebih dekat dengan pengukuran ground-truth.
Untuk menilai apakah MetricScenes benar-benar meningkatkan penalaran skala metrik, evaluasi dilakukan baik pada set pengujian MetricScenes yang didedikasikan dan pada NYUv2; KITTI; ETH3D; iBims-1; GSO; Sintel; DDAD; DIODE; Spring; dan HAMMER.
Penulis mencatat bahwa mendapatkan pengukuran ground-truth yang padat untuk citra internet yang tidak terbatas tetap sulit, sehingga label MetricScenes tidak sempurna. Benchmark standar dimasukkan untuk memverifikasi bahwa keuntungan apa pun tidak datang dengan biaya kinerja geometris umum.
Perbandingan dibuat melawan MoGe-2; UniDepth V2; DepthPro; MASt3R; Depth Anything V2; Depth Anything V3; ZoeDepth; dan Metric3D V2:

Evaluasi kuantitatif geometri relatif dan metrik. Pada set pengujian MetricScenes, WildMoGe mengungguli MoGe-2 di seluruh metrik yang dilaporkan sementara tetap kompetitif dengan ZoeDepth, Metric3D V2, Depth Anything V2, Depth Anything V3, MASt3R, UniDepth V2, dan DepthPro pada benchmark yang mapan, menunjukkan bahwa estimasi skala metrik yang ditingkatkan dicapai tanpa mengorbankan kualitas rekonstruksi geometris umum.
WildMoGe secara signifikan meningkatkan prediksi skala metrik pada MetricScenes, mengungguli MoGe-2 di seluruh metrik yang dilaporkan dan mencapai skor geometri metrik dan kedalaman metrik yang lebih kuat daripada MoGe-2, Depth Anything V3, Metric3D V2, UniDepth V2, dan DepthPro.
Kinerja pada NYUv2, KITTI, ETH3D, iBims-1, GSO, Sintel, DDAD, DIODE, Spring, dan HAMMER tetap sebanding dengan MoGe-2. Penulis mengatributkan keuntungan ini pada pengawasan metrik MetricScenes, yang tampaknya membantu mengurangi runtuh skala sementara melestarikan kinerja rekonstruksi adegan umum.
Kesimpulan
Solusi MetricScenes untuk ‘runtuh skala’ tampak seperti urusan yang agak tidak biasa, dalam makalah – pencampuran dan penyulingan dataset multiple, masing-masing dengan sudut pandang yang berharga untuk disumbangkan. Ini tampak sedikit seperti mencoba menentukan bentuk gajah dengan sentuhan.
Mungkin layanan yang paling berharga yang ditawarkan makalah ini adalah dengan menarik perhatian lebih besar pada masalah ini, yang tampaknya memerlukan beberapa jenis standar universal yang baru atau disesuaikan. Namun, karena inovasi seperti itu akan mengganggu reproduktifitas dan konsistensi metodologi saat ini, itu harus sangat meyakinkan.
* Konversi saya dari kutipan inline penulis ke tautan.
Dipublikasikan pertama kali pada hari Kamis, 11 Juni 2026












