Andersonの視点

AIはランドマークのサイズを認識するのに苦労している

公開日 2026年6月11日

著者

Martin Anderson

AI-generated image (GPT-2 + Photoshop): High-angle view of a man holding a scale model of the Leaning Tower of Pisa on a grassy field, with an inset photograph showing the same model aligned from ground level to resemble the full-sized tower in the background.

ビジョン言語モデルは記念碑を理解していますが、まだ全体像を見ていない…

私たちが最初に身に付ける生存スキルの一つは、小さいまたは遠いものと大きいまたは近いものを区別する能力です。私たちは、月を親指で隠すことができますが、それが10セント硬貨の大きさであるとは思わないでしょう。なぜなら、私たちは相対的なスケールを内面化しているからです。

これは、コンピュータビジョンシステムにとって非常に難しいタスクです。なぜなら、ほとんどのシステムは、人間と同じように「スケール」を「理解」するのを助けてくれる先行的な注釈に依存しているからです。また、ある程度の距離を超えると、その先では、ステレオビジョンによって解決できるものではありません。駐車場の遠くの車、そこを越えた遠くの超高層ビル、そしてそれよりも遠くの三日月…すべては、ほとんどのビジョンベースのマシンラーニングシステムにとって「2D」のエンティティです。

もちろん、特定の「遠い」が誤って解釈されたオブジェクトの例がトレーニングデータに含まれている場合、そのデータを見たシステムは簡単にはだまされません:

ChatGPT-5.5はこのクラシックな観光トロープに全く感銘を受けていません。

モデルの訓練された潜在空間がそのような特定の情報を含んでいない場合、モデルのスケールの概念を一般化し、若い頃に理解する必要があります。そうでない場合、有名な例でもスケールの誤判断につながる可能性があります:

この推測的な例は、今日調査している新しい論文から採用されています。カメラの視点には背景に凱旋門が含まれていますが、システムはそのサイズを知らず、誤った推定を行います。ソース – https://arxiv.org/pdf/2606.02379 ソース

エッフェル塔のような特定の特徴的なオブジェクトの場合、システムはサイズ推定のためのショートカットに頼る危険があります。オリジナルのモデルでは正しいかもしれませんが、パリのランドマークの複製では正しくありません。複製はステレオ解像度の距離を超えていますが、エッフェル塔ほど大きくありません。

したがって、ビジョンシステムは、ただ「チートコード」の集まりではなく、準備されたスキルセットで新しい（見られていない）ビューにアプローチすることが重要です。

スケールを拡大する

この目的のために、アメリカと中国の新しい共同研究が、問題に対処するための新しいデータセットと推定方法を提供しています：

新しいアプローチは、より深いスケールの理解を提供する十分な変化を持つトレーニング資料を使用して、以前のシステムを変更します。

ウェブサイトとともに開始された、MetricScenesイニシアチブには、データとコードのリリースが含まれています。

論文は次のように述べています*：

‘現在の最先端の方法は、シーンのスケールを推定するのに頻繁に失敗し、「野外」のシナリオで「スケール崩壊」現象が持続することがわかりました。

‘[上記の画像]は、明確なセマンティック参照（人々）が存在する例を示していますが、MoGe-2のようなモデルは、距離の範囲全体で重大なスケールの不一致を示しています。近距離のオブジェクトの予測されたメトリックスケールは妥当です。この場合、観光客の高さは妥当です。ただし、遠距離の構造物のスケールは大幅に低く推定されています。ここでは、背景の凱旋門のメトリック幅は18.8mと推定されていますが、これは実際の幅（44.8m）よりも2倍以上小さくなっています。

‘MoGe-2は、反対の証拠にもかかわらず、ミニチュアのランドマークを提示しています。’

3つの力

著者の新しいコレクションは、3つの既存のデータセットの組み合わせによって作成されました：MegaScenes、AerialMegaDepth、Stereo4D：

MegaScenesからの例画像。これが新しいキュレーションの一部を構成しています。ソース – https://megascenes.github.io/ ソース

MetricScenesに寄与するデータセットの問題は、それぞれが限られたドメイン、たとえば車の視点の映像や室内シーンに適用されることです。スケールの問題に対処し、ビジョンシステムを人間のようなスケールの概念的な理解に近づけるには、組み合わせたドメインが必要です。

各画像は、RGB画像、部分的に観測された構造からモーション（SfM）から導かれた深度、マルチビュー・ステレオ（MVS）またはその他の幾何学的先行知識とともに、2段階のポアソン補完プロセスを介して生成された完了した深度マップと、カメラのメタデータが含まれています。

ファインチューニングMoGe-2フレームワークを新しいデータセットで行うと、著者が言及しているスケールの崩壊が「著しく軽減」され、オープンドメインのシーンで優れた結果が得られ、関連するベンチマークで最先端のパフォーマンスが達成されたと報告されています。

新しい論文は、ハニー、私は凱旋門を縮小しました！というタイトルで、コーネル大学と上海交通大学の4人の研究者によって書かれています。

方法

MetricScenesは、上記のAerialMegaDepthとMegaScenesに部分的に依存しています。これらは、インターネット写真の大規模なコレクションです。MegaScenesは大規模な構造からモーションの再構築を提供しますが、これらのシーンには実際のスケールが含まれていません。これに対処するために、地理タグ付きのオンラインマップサービスから得られた画像を使用して、再構築を既知の物理的場所と寸法と一致させました。

一方、AerialMegaDepthには、メトリックスケールのランドマークの再構築を提供する地理タグ付きのGoogle Earthビューがすでに含まれています。

視覚的に類似しているが地理的に離れた構造体によって引き起こされる可能性のある再構築のエラーは、MASt3R-SfMとDoppelgangers++クラス分類器を使用して対処されました。マルチビュー・ステレオ（MVS）再構築の後、安定性のチェックとMoGe-2からの予測の組み合わせを使用して、不安定な深度推定と深度出血のアーティファクトをフィルタリングしました:

AerialMegaDepthは、インターネット写真と地理タグ付きのGoogle Earthビューを組み合わせて、実世界のスケールを導きます。MegaScenesのシーンは、地理参照されたストリートレベル画像を使用して物理的な寸法と一致させます。マルチビュー・ステレオ（MVS）再構築の後、不安定な深度推定と深度出血のアーティファクトをフィルタリングして、トレーニングに適したクリーンなメトリックスケールの深度マップを生成します。黄色のボックスは処理中に削除された一時的なオブジェクトを強調表示し、赤いボックスは修正された深度出血の領域を示します。

メトリックスケールは、地理参照された画像を介して回復されました。AerialMegaDepthはすでにGoogle Earthのレンダリングからスケールを導き出していますが、MegaScenesは地理タグ付きのストリートレベル画像を使用して実際の寸法と一致させました。

これらの画像は、MASt3Rと組み合わせて、Doppelgangerクラス分類器で精査され、COLMAPで一致させられ、RANSACベースの推定を使用して、地球中心地球固定（ECEF）座標でスケーリングされました。不安定なスケール推定や登録の品質が悪いシーンは破棄されました。

ステレオで見る

MetricScenesコレクションは、上記のStereo4Dデータセットにも依存しています。これには、VR180カメラでキャプチャされた実世界のステレオスコピックビデオシーケンスが数千件含まれています。時空間次元が提供されます：

Stereo4Dデータセットは、ステレオインターネットビデオから構築され、カメラの姿勢、深度推定、モーショントラジェクトリを組み合わせて、スケールで動的3Dシーンを回復しました。生成されたデータセットには、長距離モーショントラジェクトリを持つポイントクラウドとして表現される数百万のビデオクリップが含まれており、ビジョンモデルをトレーニングするための実世界の3D幾何学とモーションの大きなソースを提供しています。ソース – https://arxiv.org/pdf/2412.09621 ソース

カメラのレンズ間の物理的な距離は、デバイスによって異なるため、ドキュメント化されたカメラ構成を持つビデオのみが使用され、シーンの深度を正確な実世界のスケールで回復できるようにしました。

Stereo4Dは当初、SEA-RAFT光学フローシステムを使用してシーンの幾何学を推定していましたが、著者は、不完全なカメラのキャリブレーションが再構築されたシーンを歪めることができることを発見しました。したがって、精度を向上させるために、このアプローチを、カメラの姿勢と深度を複数のフレームから同時に推定するマルチビューリコンストラクションパイプラインに置き換えました。

π³、DepthAnything V3、MapAnythingを比較した後、π³は幾何学的な堅牢性と細部を保存する能力のために選択されました:

Stereo4Dからのメトリックスケールの深度回復。標準的なステレオマッチング方法は、カメラのキャリブレーションが不完全な場合に歪んだ幾何学を生成しますが、π³はより一貫性のあるシーンの再構築を生成し、細部を保存します。回復された幾何学は、ステレオカメラの既知の物理的基準と一致させられ、正確にスケーリングされたメトリック深度マップが生成されます。

π³は任意のスケールでシーンを再構築するため、結果の深度マップは、各ステレオカメラの既知の物理的基準と一致させることで、実世界の寸法と一致させられました。さらに、低品質のフレーム、深度の不一致、キャリブレーションのエラー、信頼できないスケール推定を除去するためのフィルタリングが追加されました。

さらに、2段階の深度完了プロセスが使用され、MoGe-2からの前景予測とMVSからの背景幾何学を組み合わせて、より一貫性のあるメトリックスケールのトレーニングデータと、よりシャープなオブジェクトの境界が生成されました:

2段階の深度完了。背景アンカーのみを使用すると、シーンの構造が保存されますが、全体のスケールが歪む可能性があります。一方、前景と背景の制約を1回のパスで組み合わせると、スケールのドリフトと境界アーティファクトが導入されます。2段階のアプローチでは、近距離と遠距離のオブジェクトの両方で一貫したメトリックスケールを維持しながら、クリーンなオブジェクトの境界を保存します。

著者は、インターネット写真コレクションは信頼できる前景深度が不足していることが多く、ステレオ画像は遠距離の背景領域が欠けていることが多いと観察しました。MoGe-2はシーン全体に密な幾何学を推定できますが、その推定は、プロジェクトが対処しようとしているスケールの崩壊問題に傾きます。したがって、MoGe-2とMVSの長所を組み合わせる2段階の深度完了パイプラインが設計されました。

背景幾何学は、MVS由来のメトリックアンカーを使用して、信頼できる大規模構造を持つ基本的な深度マップを作成しました。2段階目では、エッジを認識する完了プロセスを介して、前景推定からMoGe-2を再導入し、境界を保存しながらスケールのドリフトと深度出血のアーティファクトを防ぎました。

このアプローチによって生成される深度マップは、論文によると、視覚的に完全で、実世界のスケールがより一貫しているということです:

2段階の深度完了パイプライン。1段階目では、MVSアンカーを使用して、信頼できるメトリックスケールで背景幾何学を回復します。2段階目では、エッジを認識する構成プロセスを介して、MoGe-2からの前景推定を再導入し、大規模な精度とローカルな詳細の両方を保存するように設計された最終的な深度マップを生成します。

データとテスト

最終的なMetricScenesコレクションには、AerialMegaDepthから47,579枚の実世界の画像（134シーン）、MegaScenesから29,583枚の画像（356シーン）、およびStereo4Dから1,725本のビデオ（22,549フレーム）が含まれています。

コレクションは、ソースごとに10シーンが検証として保持され、外部および内部コンテキスト、地上レベルおよび空中ビュー、都市および自然風景をカバーしています。個々のコレクションでは利用できない、まとまりのあるコンテキストが提供されます。

初期の質的テストでは、著者は、バッチサイズ32で10,000イテレーション（約3エポック）で、新しいMetricScenesデータセットでMoGe-2 ViT-Large-Normalモデルをファインチューニングしました。MoGe-2の元のテストからのクロッピングと一般的なデータ増強アプローチが採用され、トレーニングは、バックボーンで1×10^-6、その他のパラメータで1×10^-5の学習率で実行されました。質的テストでは、ファインチューニングされたWildMoGeモデルによって深度再構築が行われ、ベースのMoGe-2、DepthAnything V3、Metric3Dv2、UniDepth v2、DepthProと比較されました:

メトリックスケールのランドマークの再構築の比較。左側の列には、Google Mapsからの実測値が表示されています。未知の実世界のランドマーク全体で、WildMoGeは、既知の寸法に近いスケールの推定を生成しますが、MoGe-2、DepthAnything V3、Metric3D V2は、遠距離の構造物のサイズを頻繁に低く推定します。UniDepth V2はより妥当なスケールを生成することがありますが、不一致であり、DepthProは時々重大なスケールのエラーを生成します。

この結果について、論文は次のように述べています：

‘[WildMoGe]は、さまざまなランドマーク全体で、絶対スケールをより正確に回復し、地面の真の寸法（たとえば、フィラデルフィア美術館の場合、31.4m vs. 32.4m、ピアッツァ・デラ・シニョリーナの場合、46.7m vs. 46.5m）に近い値を生成します。MoGe-2、DepthAnything v3、Metric3D v25は、スケール崩壊の挙動を示し、遠距離の構造物のサイズを一貫して低く推定します。 ‘

‘UniDepth v2はより現実的なスケールを生成しますが、実測値から逸脱しています。DepthProは絶対スケールを回復することができず、現実よりもはるかに小さい結果を生成します。注目してください。これらのシーンはトレーニングセットにありません。 ‘

‘このパフォーマンスは、WildMoGeが見られていないコンテンツに一般化できることを示しています。つまり、単にトレーニングシーンを記憶しているのではなく、実際に機能しています。 ‘

これらの利点がランドマークや大規模な屋外シーンに限定されていないことを確認するために、著者は、WildMoGeを普通の屋内やストリートレベルの画像で評価し、そこでもMoGe-2とスケールの推定が広く一致することを発見しましたが、ETH3Dの庭のシーンでは精度が高くなりました：

標準シーンの比較。普通の屋内やストリートレベルの環境全体で、WildMoGeはMoGe-2とスケールの推定が広く一致していますが、ETH3Dの庭のベンチマークでは精度が高くなり、地面の真の測定値に近いオブジェクトの寸法を回復します。

評価は、専用のMetricScenesテストセットと、NYUv2、KITTI、ETH3D、iBims-1、GSO、Sintel、DDAD、DIODE、Spring、HAMMERで実行されました。

著者は、制限されたインターネット画像のための密な地面の真の測定値を取得することが難しいことを指摘し、したがって標準的なベンチマークが含まれており、メトリックスケールの推定の改善が一般的な幾何学的パフォーマンスの代償で得られたものではないことを検証するために含まれています。

比較は、MoGe-2、UniDepth V2、DepthPro、MASt3R、Depth Anything V2、Depth Anything V3、ZoeDepth、およびMetric3D V2と比較して行われました:

相対的な幾何学とメトリックスケールの定量的な評価。MetricScenesテストセットでは、WildMoGeは報告されたすべてのメトリックでMoGe-2を上回り、既存のベンチマークではZoeDepth、Metric3D V2、Depth Anything V2、Depth Anything V3、MASt3R、UniDepth V2、DepthProと広く競合することを示しています。これは、メトリックスケールの推定の改善が一般的な幾何学的再構築の品質を犠牲にすることなく達成されたことを示しています。

WildMoGeは、MetricScenesでメトリックスケールの予測を大幅に改善し、すべての報告されたメトリックでMoGe-2を上回り、MoGe-2、Depth Anything V3、Metric3D V2、UniDepth V2、DepthProよりも優れたメトリックスケール幾何学とメトリックスケール深度スコアを達成しました。

NYUv2、KITTI、ETH3D、iBims-1、GSO、Sintel、DDAD、DIODE、Spring、HAMMERでのパフォーマンスは、MoGe-2と広く競合しました。著者は、これらの利点をMetricScenesのメトリックスーパービジョンに帰属させ、スケールの崩壊を軽減し、一般的なシーンの再構築のパフォーマンスを維持したと主張しています。