Anderson의 관점

AI는 랜드마크의 크기를 인식하기 위해 어려움을 겪는다

게시일 2026년 6월 11일

작성자

Martin Anderson

AI-generated image (GPT-2 + Photoshop): High-angle view of a man holding a scale model of the Leaning Tower of Pisa on a grassy field, with an inset photograph showing the same model aligned from ground level to resemble the full-sized tower in the background.

비전 언어 모델은 기념물을 이해하지만 전체 그림을 볼 수 없습니다…

우리가 처음으로 개발하는 생존 기술 중 하나는 가까이 있는 것과 멀리 있는 것을 구별하는 능력입니다. 우리는 생각하지 않고 달을 우리의 엄지로 가릴 수 있지만, 그것이 10센트 크기라고 생각하지는 않습니다. 왜냐하면 우리는 상대적인 크기를 내부화했기 때문입니다.

이것은 컴퓨터 비전 시스템에게는 예외적으로 어려운 작업입니다. 대부분의 시스템은 이전에 주석이 달린 데이터에 의존하기 때문입니다. 이는 인간이 같은 방식으로 “크기”를 이해하는 데 도움이 되지 않습니다. 게다가 특정 거리 이상으로는 모든 것이 STEREO 비전의 해상력 범위를 벗어납니다. 즉, 주차장 끝에 있는 자동차, 그 너머에 있는 고층 건물, 그리고 그 위에 떠 있는 초승달은 모두 “2D” 엔티티입니다. 대부분의 비전 기반 머신 러닝 시스템에서는 이러한 엔티티를 3D로 인식하지 못합니다.

물론, 특정한 ‘멀리’ 있는 객체의 예가 훈련 데이터에 잘 표현되어 있다면, 이러한 데이터를 본 시스템은 속이기 어렵습니다:

ChatGPT-5.5는 이 고전적인 관광 명소에 대해 전혀 감동받지 못합니다.

모델의 훈련된 잠재 공간에 이러한 특정한 정보가 포함되어 있지 않을수록, 모델은 일반화하고 우리가 젊은 나이에 이해하는 크기 개념을 내부화해야 합니다. 이러한 능력이 없으면, 심지어 유명한 예도 크기 오估정을 일으킬 수 있습니다:

이 추측 예는 오늘 검토하는 새로운 논문에서 가져왔습니다. 카메라의 시점에는 배경에 아크 드 트리옹프가 나타나지만, 시스템은 그 크기를 알지 못하고 잘못된 추정을 합니다. 출처 – https://arxiv.org/pdf/2606.02379 출처

특정한 객체, 예를 들어 에펠탑과 같은 경우, 시스템은 크기 추정의捷径을 사용할 수 있습니다. 이는 원래 모델에서는 올바르지만, 파리 랜드마크의 여러 모방품에 대해서는 올바르지 않습니다. 이러한 모방품은 스테레오 비전 거리 범위를 벗어나지만, 원래 에펠탑만큼 크지 않습니다.

따라서 비전 시스템은 새로운(보지 못한) 뷰에 대해 준비된 기술 세트를 가지고 접근해야 하며, 단순히 ‘치트 코드’만을 사용해서는 안 됩니다.

크기 확대

이 목적을 위해, 미국과 중국의 새로운 협력은 문제를 해결하는 데이터 세트와 추정 방법을 제공합니다:

새로운 접근법은 이전 시스템을 개선된 훈련 자료로 수정합니다. 데이터는 깊이 문제를 더 잘 이해할 수 있도록 충분히 다양합니다.

一緒に 출시된 동반 웹사이트와 함께, MetricScenes 이니셔티브는 데이터와 코드를 제공합니다.

논문은 다음과 같이 말합니다:

‘현재 상태의 최고의 방법은 thường적으로 올바른 장면 크기를 추정하지 못하고, “야생” 시나리오에서 지속적인 크기 붕괴 현상을 일으킵니다. ‘

‘위의 이미지에서는 명확한 의미론적 참조(사람들)가 존재하지만, MoGe-2와 같은 모델은 거리 범위에 걸쳐서 상당한 크기 불일치를 나타냅니다. 가까운 물체에 대한 예측된 측정 크기는 타당하지만,远處 구조에 대한 크기는 극적으로 과소평가됩니다. 여기서 배경의 아크 드 트리옹프는 18.8m 너비로 측정되는데, 이는 실제 너비(44.8m)의 2배 이상 작습니다.’

‘MoGe-2는 반대되는 단서에도 불구하고 랜드마크를 축소시킵니다.’

The Power of Three

저자들의 새로운 수집은 세 개의 기존 데이터 세트를 결합하여 구성되었습니다: MegaScenes, AerialMegaDepth, 및 Stereo4D:

MegaScenes의 예시 이미지. 이는 새로운 수집의 일부입니다. 출처 – https://megascenes.github.io/” 출처

MetricScenes에 기여하는 데이터 세트는 각각 제한된 도메인에 적용되기 때문에, 이러한 도메인을 결합하여 문제를 해결하고, 비전 시스템을 인간과 같은 개념적 이해로 더 가깝게 만드는 것이 필요합니다.

각 이미지에는 RGB 이미지, 부분적으로 관찰된 깊이, 구조로부터 유도된 깊이 맵, 및 카메라 메타데이터가 함께 제공됩니다.

저자들은 MoGe-2 프레임워크를 새로운 데이터 세트에 대해 미세 조정했으며, 이는 크기 붕괴를 크게 완화하고, 개방형 도메인 장면에서 우수한 결과를 달성하며, 관련 벤치마크에서 최첨단 성능을 달성합니다.

새로운 논문은 Honey, I Shrunk the Arc de Triomphe!로 제목이 붙여졌으며, 코넬 대학교와 상하이 교통 대학의 4명의 연구자에 의해 작성되었습니다.

방법

MetricScenes는 앞서 언급한 AerialMegaDepth와 MegaScenes에 부분적으로 의존합니다. 두 데이터 세트는 인터넷 사진을 수집하여 역사적 기록, 관광 이미지, 및 전문가 사진을 포함합니다. MegaScenes는 대규모 구조로부터 모션(SfM) 재구성을 제공하지만, 이러한 장면에는 실제 크기가 내재되어 있지 않습니다. 이를 해결하기 위해, 지리적으로 태그된 이미지와 지리 참조된 거리 수준 이미지의 조합을 사용하여 재구성을 실제 물리적 위치와 차원과 일치시킵니다.

반면에, AerialMegaDepth는 이미 지리적으로 태그된 구글 어스 뷰를 포함하여, 지표 크기 랜드마크 재구성을 제공합니다.

시각적으로 유사하지만 지리적으로 떨어진 구조물로 인한 잠재적인 재구성 오류는 MASt3R-SfM 및 Doppelgangers++ 분류기를 사용하여 해결되었습니다. 멀티 뷰 스테레오(MVS) 재구성 후, 불안정한 깊이 추정과 깊이 출혈 아티팩트는 안정성 확인과 MoGe-2의 예측을 결합하여 필터링되었습니다:

AerialMegaDepth는 인터넷 사진과 지리적으로 태그된 구글 어스 뷰를 결합하여 실제 크기를 도출합니다. 반면에, MegaScenes의 장면은 지리 참조된 거리 수준 이미지로 물리적 차원과 일치시킵니다. 멀티 뷰 스테레오(MVS) 재구성 후, 불안정한 깊이 추정과 깊이 출혈 아티팩트는 필터링되어 더 깨끗한 지표 크기 깊이 맵을 생성합니다.

지리 참조된 이미지와 COLMAP을 사용하여 장면을 일치시키고, RANSAC 기반 추정과 지구 중심, 지구 고정(ECEF) 좌표를 사용하여 지표 크기를 회복합니다. 불안정한 크기 추정이나 나쁨 등록 품질의 장면은 삭제됩니다.

스테레오 시각

MetricScenes 수집은 앞서 언급한 Stereo4D 데이터 세트에도 의존합니다. 이는 VR180 카메라로 캡처된 수천 개의 실제 스테레오스코픽 비디오 시퀀스를 특징으로 하며, 시간적 차원을 제공합니다:

Stereo4D 데이터 세트는 스테레오스코픽 인터넷 비디오에서 빌드되었습니다. 카메라 포즈, 깊이 추정, 및 모션 궤적을 결합하여 동적 3D 장면을 크기에서 회복합니다. 결과 데이터 세트에는 수백 개의 수천 개의 비디오 클립이 포함되어 있으며, 장면을 대표하는 점 구름과 장거리 모션 트랙을 제공합니다. 출처 – https://arxiv.org/pdf/2412.09621 출처

카메라 렌즈 사이의 물리적 거리는 다양한 장치에서 다르기 때문에, 문서화된 카메라 구성만을 사용하여 장면의 깊이를 실제 크기에서 회복할 수 있습니다.

Stereo4D는 원래 광학 흐름 시스템 SEA-RAFT를 사용하여 장면 기하학을 추정했지만, 저자들은 불완전한 카메라 캘리브레이션이 재구성된 장면을 왜곡시킬 수 있음을 발견했습니다. 따라서 정확도를 개선하기 위해, 저자들은 카메라 포즈와 깊이를 여러 프레임에서 공동으로 추정하는 멀티 뷰 재구성 파이프라인으로 접근 방식을 대체했습니다.

π³, DepthAnything V3, 및 MapAnything를 비교한 후, π³는 기하학적 강건성과 세부 사항을 보존하는 능력으로 선택되었습니다:

Stereo4D의 지표 크기 깊이 회복. 표준 스테레오 매칭 방법은 불완전한 카메라 캘리브레이션으로 인해 왜곡된 기하학을 생성할 수 있지만, π³는 더 일관된 장면 재구성을 생성하며, 세부 사항을 보존합니다. 회복된 기하학은 스테레오 카메라의 알려진 물리적 기준선에 맞춰지며, 정확하게 측정된 지표 깊이 맵을 생성합니다.

π³는 임의의 크기에서 장면을 재구성하므로, 결과 깊이 맵은 각 스테레오 카메라 리그의 알려진 물리적 기준선에 맞춰졌습니다. 추가 필터링은 낮은 품질의 프레임, 깊이 불일치, 캘리브레이션 오류, 및 불안정한 크기 추정을 제거했습니다.

또한, 두 단계의 깊이 완성 프로세스를 사용하여, MoGe-2의 전경 예측과 멀티 뷰 스테레오(MVS)의 배경 기하학을 결합하여, 더 깨끗한 지표 크기 훈련 데이터를 생성했습니다. 이는 더 일관된 크기와 더 날카로운 객체 경계를 제공합니다:

두 단계의 깊이 완성. 배경 앵커만을 사용하면 장면 구조를 보존할 수 있지만, 전경과 배경 제약을 단일 패스에서 결합하면 크기 드리프트와 경계 아티팩트를 도입할 수 있습니다. 두 단계 접근법은 근거리 및 원거리 객체 모두에서 일관된 지표 크기를 유지하며, 깨끗한 객체 경계를 보존합니다.

저자들은 인터넷 사진 수집이 종종 전경 깊이를 신뢰할 수 없으며, 스테레오 이미지는 종종 원거리 배경 영역을 놓치기 때문에, 두 단계의 깊이 완성 파이프라인을 설계했습니다. 이는 MoGe-2와 멀티 뷰 스테레오(MVS)의 강점을 결합합니다.

배경 기하학은 MVS에서 파생된 지표 앵커를 사용하여 회복되었으며, 안정적인 대규모 구조를 갖는 기본 깊이 맵을 생성했습니다. 두 번째 단계에서, MoGe-2의 전경 예측이 경계 인식 완성 프로세스를 통해 다시 도입되었습니다. 이는 객체 경계를 보존하면서 크기 드리프트와 깊이 출혈 아티팩트를 방지하기 위한 것입니다.

이 접근법으로 생성된 깊이 맵은 실제 크기에서 시각적으로 완전하고 더 일관적이라고 주장합니다:

두 단계의 깊이 완성 파이프라인. 첫 번째 단계에서는 MVS 앵커를 사용하여 배경 기하학을 회복합니다. 두 번째 단계에서는 MoGe-2의 전경 예측을 경계 인식 구성 프로세스를 통해 다시 도입하여, 대규모 정확도와 날카로운 지역 세부 사항을 모두 보존하는 최종 깊이 맵을 생성합니다.

데이터 및 테스트

최종 MetricScenes 수집에는 AerialMegaDepth의 47,579개의 실제 장면 이미지, MegaScenes의 29,583개의 이미지, 및 Stereo4D의 22,549개의 비디오 프레임이 포함되어 있습니다.

수집은 다양한 장면을 포함하며, 10개의 장면은 검증 세트로 유지됩니다. 이는 실내 및 실외 컨텍스트, 지상 및 항공 뷰, 도시 및 자연 풍경을 모두 포함합니다. 이는 개별 기여 데이터 세트에서 사용할 수 없는 일관된 컨텍스트입니다.

초기 질적 테스트를 위해, 저자들은 MoGe-2 ViT-Large-Normal 모델을 새로운 MetricScenes 데이터 세트에서 10,000번의 반복과 배치 크기 32로 미세 조정했습니다. 이는 약 3개의 에포크에 해당합니다. 크로핑과 일반적인 데이터 증강 접근법은 원래 MoGe-2 테스트에서 채택되었습니다. 훈련은 백본의 학습률 1×10^-6과 다른 매개변수의 학습률 1×10^-5에서 수행되었습니다.

질적 테스트에서는 WildMoGe 모델을 사용하여 깊이 재구성이 수행되었습니다. 이는 기본 MoGe-2, DepthAnything V3, Metric3Dv2, UniDepth v2, 및 DepthPro와 비교되었습니다:

지표 크기 랜드마크 재구성 비교. 왼쪽 열에는 구글 맵의 실제 측정값이 표시됩니다. WildMoGe는 알려진 차원과 더 잘 일치하는 크기 추정을 생성하는 반면, MoGe-2, DepthAnything V3, 및 Metric3D V2는 원거리 구조의 크기를 빈번히 과소평가합니다. UniDepth V2는 더 타당한 크기를 생성하지만, 일관성이 떨어집니다. DepthPro는 때때로 심각한 크기 오류를 생성합니다.

논문은 다음과 같이 말합니다:

‘WildMoGe는 다양한 랜드마크에서 더 정확한 절대 크기를 일관되게 회복합니다. 이는 알려진 차원과 잘 일치합니다(예: 필라델피아 미술관의 경우 31.4m vs. 32.4m, 피아자 델라 시뇨리나의 경우 46.7m vs. 46.5m). MoGe-2, DepthAnything v3, 및 Metric3D v2는 원거리 구조의 크기를 일관되게 과소평가합니다.’

‘UniDepth v2는 더 실제적인 크기를 생성하지만, 여전히 실제 값에서 벗어납니다. DepthPro는 종종 절대 크기를 회복하지 못하며, 결과는 현실과는 다소 차이가 있습니다. 이러한 장면은 훈련 세트에不存在합니다.’

‘이 성능은 WildMoGe가 보지 못한 콘텐츠에 일반화할 수 있음을 보여줍니다. 이는 단순히 훈련 장면을 기억하는 것이 아닙니다.’

저자들은 또한 WildMoGe를 일반적인 실내 및 거리 수준 이미지에서 평가했으며, 이는 MoGe-2와 비교하여 크기 추정에서 일관된 결과를 생성했습니다. 또한 ETH3D 코트야드 장면에서 더 높은 정확도를 달성했습니다:

표준 장면 비교. WildMoGe는 일반적인 실내 및 거리 수준 환경에서 MoGe-2와 비교하여 크기 추정에서 일관된 결과를 생성합니다. 또한 ETH3D 코트야드 벤치마크에서 더 높은 정확도를 달성합니다.

저자들은 MetricScenes 테스트 세트와 NYUv2, KITTI, ETH3D, iBims-1, GSO, Sintel, DDAD, DIODE, Spring, 및 HAMMER와 같은 표준 벤치마크에서 WildMoGe의 성능을 평가했습니다.

저자들은 MetricScenes가 실제 크기 추정을 개선하는지 여부를 평가하기 위해 이러한 벤치마크를 포함했습니다. 이는 실제 크기 측정값을 얻는 것이 어려운 인터넷 이미지의 경우입니다.

비교는 MoGe-2, UniDepth V2, DepthPro, MASt3R, Depth Anything V2, Depth Anything V3, ZoeDepth, 및 Metric3D V2와 수행되었습니다:

상대적 및 지표 기하학의 양적 평가. MetricScenes 테스트 세트에서 WildMoGe는 보고된 모든 지표에서 MoGe-2를 초과하며, ZoeDepth, Metric3D V2, Depth Anything V2, Depth Anything V3, MASt3R, UniDepth V2, 및 DepthPro와 비교하여 기존 벤치마크에서 경쟁력 있는 성능을 보입니다. 이는 지표 크기 추정이 일반적인 기하학적 재구성 품질을 희생하지 않고 개선되었음을 나타냅니다.

WildMoGe는 MetricScenes에서 지표 크기 예측을 크게 개선하며, 모든 보고된 지표에서 MoGe-2를 초과합니다. 이는 MoGe-2, Depth Anything V3, Metric3D V2, UniDepth V2, 및 DepthPro와 비교하여 더 나은 지표 기하학 및 지표 깊이 점수를 달성합니다.

NYUv2, KITTI, ETH3D, iBims-1, GSO, Sintel, DDAD, DIODE, Spring, 및 HAMMER에서의 성능은 MoGe-2와 비교하여 대체로 일관됩니다. 저자들은 이러한 이점이 MetricScenes의 지표监督에서 비롯된 것으로 보며, 이는 크기 붕괴를 줄이는 데 도움이 되면서 일반적인 장면 재구성 성능을 유지합니다.