Взгляд Anderson

Борьба ИИ с распознаванием размера достопримечательностей

mm
AI-generated image (GPT-2 + Photoshop): High-angle view of a man holding a scale model of the Leaning Tower of Pisa on a grassy field, with an inset photograph showing the same model aligned from ground level to resemble the full-sized tower in the background.

Модели языка и зрения понимают памятники, но они всё ещё не могут увидеть всю картину…

 

Одним из первых навыков, которые мы развиваем, является способность различать вещи, которые являются маленькими или далёкими. Мы можем закрыть луну большим пальцем, не думая, что она размером с десятицентовику, потому что мы внутренне понимаем относительную шкалу.

Это необычно трудная задача для систем компьютерного зрения, поскольку большинство из них полагаются на предварительную аннотацию, которая не помогает им «понимать» масштаб так же, как люди. Кроме того, за определённым и довольно близким пределом всё, что находится на расстоянии, находится за пределами способности стереовидения разрешать – машина в дальнем конце парковки; небоскрёб вдали за ней; и растущая над ним полумесяц… все являются «двумерными» сущностями для большинства систем машинного обучения, основанных на видео.

Конечно, когда конкретный пример «далёкого», но неправильно интерпретированного объекта оказывается хорошо представленным в обучающих данных, системы, которые видели эти данные, могут быть трудными для обмана:

ChatGPT-5.5 совершенно не впечатлён этой классической туристической тропой.

ChatGPT-5.5 совершенно не впечатлён этой классической туристической тропой.

Чем меньше обучающее латентное пространство модели содержит такой конкретной и часто повторяющейся информации, тем больше ей нужно будет обобщать и внутренне понимать понятия масштаба, которые мы осознаём в молодом возрасте. Без этого даже знаменитые примеры всё ещё могут вызывать неправильные оценки масштаба:

В этом спекулятивном примере, взятом из новой статьи, которую мы рассматриваем сегодня, точка зрения камеры включает в себя Триумфальную арку на заднем плане – но система не знает, какой размер у неё, и делает неправильную догадку. Источник - https://arxiv.org/pdf/2606.02379

В этом спекулятивном примере, адаптированном из новой статьи, которую мы рассматриваем сегодня, точка зрения камеры включает в себя Триумфальную арку на заднем плане – но система не знает, какой размер у неё, и делает неправильную догадку. Источник

Опасность, связанная с конкретными и характерными объектами, такими как Эйфелева башня, заключается в том, что система может прибегнуть к обходному пути оценки размера, который верен для исходной модели, но не верен для множества копий парижской достопримечательности, которые находятся на расстоянии, не доступном для стереовидения, но не близки к такому же размеру.

Следовательно, важно, чтобы системы зрения подходили к новым (не виденным) видам с готовым набором навыков, а не просто с кучей «чит-кодов».

Масштабирование

Для этого новое сотрудничество между США и Китаем предлагает исправляющий набор данных, вместе с методом оценки, который решает эту проблему:

Новый подход изменяет предыдущую систему за счёт улучшенного обучающего материала – данных, достаточно разнообразных, чтобы обеспечить более глубокое понимание проблем глубины.

Новый подход изменяет предыдущую систему за счёт улучшенного обучающего материала – данных, достаточно разнообразных, чтобы обеспечить более глубокое понимание проблем глубины.

Запущенный вместе с сопровождающим сайтом, инициатива MetricScenes включает в себя данные и релизы кода.

В статье говорится*:

‘[Мы] обнаружили, что современные методы часто не могут оценить правильный масштаб сцены, что приводит к постоянному явлению «коллапса масштаба» в «дикой природе».

‘[Изображение выше] показывает пример, где присутствуют ясные семантические ссылки (люди), но где модели, такие как MoGe-2, демонстрируют значительную несоответствие масштаба на различных расстояниях: предсказанный метрический масштаб для объектов ближнего поля зрения является правдоподобным – в данном случае туристы имеют правдоподобный рост – но масштаб для дальнего фона сильно занижен – здесь Триумфальная арка на заднем плане метрически предсказана быть всего 18,8 м в ширину, что более чем в 2 раза меньше истинной ширины (44,8 м).

‘MoGe-2 предположил миниатюрную достопримечательность, несмотря на сигналы, указывающие на обратное.’

Сила трёх

Новый сбор авторов был собран путем объединения трёх существующих наборов данных: MegaScenes, AerialMegaDepth и Stereo4D:

Пример изображения из MegaScenes, который составляет часть новой кураторской коллекции. Источник - https://megascenes.github.io/

Пример изображения из MegaScenes, который составляет часть новой кураторской коллекции. Источник

Проблема с наборами данных, которые вносят вклад в MetricScenes, когда они рассматриваются отдельно, заключается в том, что они каждый применяются к ограниченным областям, таким как кадры с точки зрения машины или внутренние сцены, когда объединённая область нужна для решения проблемы и приближения систем зрения к человеческому пониманию масштаба.

Каждое изображение сопровождается RGB-изображением, частично наблюдаемой глубиной, полученной из структуры из движения (SfM), многообразного стерео (MVS) или других геометрических априорных знаний, вместе с завершённой картой глубины, сгенерированной через новый двухэтапный процесс завершения Пуассона, и связанными с ним метаданными камеры.

Настройка рамки MoGe-2 на новом наборе данных ‘значительно смягчает’ коллапс масштаба, о котором говорят авторы, якобы достигая лучших результатов в открытых сценах и демонстрируя результаты на уровне состояния искусства на связанных бенчмарках.

Новая статья озаглавлена Дорогая, я уменьшил Триумфальную арку! и исходит от четырёх исследователей из Корнеллского университета и Шанхайского университета Цзяо Тун.

Метод

MetricScenes частично основан на вышеупомянутом AerialMegaDepth и MegaScenes – двух коллекциях интернет-фотографий, охватывающих исторические архивы, туристические изображения и профессиональную фотографию. Хотя MegaScenes предлагает крупномасштабные реконструкции SfM, эти сцены лишены внутреннего реального масштаба. Чтобы решить эту проблему, использовались геотегированные изображения из онлайн-карт для выравнивания реконструкций с известными физическими местами и размерами.

Напротив, AerialMegaDepth уже включает в себя геотегированные виды Google Earth, обеспечивающие метрические реконструкции достопримечательностей.

Потенциальные ошибки реконструкции, вызванные визуально подобными, но географически удалёнными структурами, были устранены с помощью MASt3R-SfM и классификатора Doppelgangers++. После реконструкции MVS нестабильные оценки глубины и артефакты глубины были отфильтрованы с помощью комбинации проверок стабильности и прогнозов MoGe-2:

<img class=" wp-image-427458" src="https://www.unite.ai/wp-content/uploads/2026/06/figure-2-3.jpg" alt="AerialMegaDepth получает реальный масштаб, объединяя интернет-фотографии с геотегированными видами Google Earth, в то время как сцены MegaScenes выравниваются с физическими размерами с помощью геотегированных уличных изображений. После реконструкции MVS нестабильные оценки глубины и артефакты глубины отфильтрованы, в результате чего получаются более чистые метрические карты глубины, пригодные для обучения. Жёлтые рамки выделяют транзитные объекты, удалённые во время обработки, в то время как красные рамки указывают на исправленные области глубины.

Метрический масштаб затем был восстановлен с помощью геотегированных изображений. AerialMegaDepth уже получает масштаб из представлений Google Earth, снятых из известных мест, в то время как MegaScenes был выровнен с реальными размерами с помощью геотегированных уличных изображений, полученных из картографических сервисов.

Эти изображения были сопоставлены с существующими реконструкциями с помощью MASt3R, уточнены с помощью классификатора Doppelganger, выровнены с помощью COLMAP и масштабированы с помощью оценки на основе RANSAC, используя координаты Earth-Centered, Earth-Fixed (ECEF). Сцены с ненадёжными оценками масштаба или плохим качеством регистрации были отброшены.

Видение в стерео

Коллекция MetricScenes также основана на вышеупомянутом наборе данных Stereo4D, который включает в себя тысячи реальных стереоскопических видеопоследовательностей, снятых камерами VR180, предлагающих временную размерность захватам:

Набор данных Stereo4D был построен из стереоскопических интернет-видео, объединяющих положения камеры, оценки глубины и траектории движения для восстановления динамических 3D-сцен в масштабе. Результатом является набор данных, содержащий сотни тысяч видеоклипов, представленных в виде облаков точек с длинными треками движения, обеспечивая большой источник реальной 3D-геометрии и движения для обучения моделей зрения. Источник - https://arxiv.org/pdf/2412.09621

Набор данных Stereo4D был построен из стереоскопических интернет-видео, объединяющих положения камеры, оценки глубины и траектории движения для восстановления динамических 3D-сцен в масштабе. Результатом является набор данных, содержащий сотни тысяч видеоклипов, представленных в виде облаков точек с длинными треками движения, обеспечивая большой источник реальной 3D-геометрии и движения для обучения моделей зрения. Источник

Поскольку физическое расстояние между двумя объективами камеры варьируется на разных устройствах, использовались только видео с задокументированными конфигурациями камеры, что позволяло восстанавливать глубину сцены в точном реальном масштабе.

Stereo4D изначально полагался на систему оптического потока SEA-RAFT для оценки геометрии сцены, но авторы обнаружили, что несовершенная калибровка камеры может искажать реконструированные сцены, вызывая структуры, которые должны быть параллельными, сходящимися ненатурально. Следовательно, для улучшения точности они заменили этот подход на многовидовую трубопроводную реконструкцию, которая совместно оценивает положения камеры и глубину из нескольких кадров.

После сравнения π³, DepthAnything V3 и MapAnything был выбран π³ за его геометрическую прочность и способность сохранять тонкие детали:

Восстановление глубины в метрическом масштабе из Stereo4D. Стандартные методы стереосопоставления могут производить искажённую геометрию, когда калибровка камеры несовершенна, в то время как π³ генерирует более последовательные реконструкции сцены и сохраняет тонкие детали. Восстановленная геометрия затем выравнивается с известной физической базой стереокамеры, в результате чего получаются точно масштабированные метрические карты глубины.

Восстановление глубины в метрическом масштабе из Stereo4D. Стандартные методы стереосопоставления могут производить искажённую геометрию, когда калибровка камеры несовершенна, в то время как π³ генерирует более последовательные реконструкции сцены и сохраняет тонкие детали. Восстановленная геометрия затем выравнивается с известной физической базой стереокамеры, в результате чего получаются точно масштабированные метрические карты глубины.

Поскольку π³ реконструирует сцены в произвольном масштабе, полученные карты глубины были выровнены с реальными размерами с помощью известной физической базы каждой стереокамеры. Дополнительный фильтр удалил кадры низкого качества, несоответствия глубины, ошибки калибровки и ненадёжные оценки масштаба.

Кроме того, был использован двухэтапный процесс завершения глубины, объединяющий прогнозы переднего плана из MoGe-2 с геометрией фона из MVS, в результате чего получались более чистые метрические карты глубины с более последовательным масштабом и более чёткими границами объектов:

Двухэтапное завершение глубины. Использование только якорей фона может сохранить структуру сцены, но искажает общий масштаб, в то время как объединение ограничений переднего и заднего планов в одном проходе вводит дрейф масштаба и артефакты границ. Двухэтапный подход сохраняет последовательный метрический масштаб как для близких, так и для далёких объектов, сохраняя при этом чёткие границы объектов.

Двухэтапное завершение глубины. Использование только якорей фона может сохранить структуру сцены, но искажает общий масштаб, в то время как объединение ограничений переднего и заднего планов в одном проходе вводит дрейф масштаба и артефакты границ. Двухэтапный подход сохраняет последовательный метрический масштаб как для близких, так и для далёких объектов, сохраняя при этом чёткие границы объектов.

Авторы обнаружили, что коллекции интернет-фотографий часто лишены надёжной глубины переднего плана, в то время как стереоизображения часто не хватает далёких регионов фона. Хотя MoGe-2 может выводить плотную геометрию на всю сцену, его оценки склонны к той же проблеме «коллапса масштаба», которую проект пытается решить. Следовательно, двухэтапный трубопровод завершения глубины был разработан для объединения сильных сторон MoGe-2 и MVS.

Геометрия фона была восстановлена с помощью якорей MVS, создав базовую карту глубины с надёжной крупномасштабной структурой. На втором этапе прогнозы переднего плана из MoGe-2 были повторно введены через процесс завершения, чувствительный к границам, предназначенный для сохранения границ объектов, предотвращая при этом дрейф масштаба и артефакты глубины.

Карты глубины, полученные этим подходом, по утверждению статьи, были визуально полными и более последовательными в реальном масштабе:

Двухэтапный трубопровод завершения глубины. На первом этапе якоря MVS используются для восстановления геометрии фона в надёжном метрическом масштабе. На втором этапе прогнозы переднего плана из MoGe-2 повторно вводятся через процесс составления, чувствительный к границам, в результате чего получается окончательная карта глубины, предназначенная для сохранения как крупномасштабной точности, так и чётких местных деталей.

Двухэтапный трубопровод завершения глубины. На первом этапе якоря MVS используются для восстановления геометрии фона в надёжном метрическом масштабе. На втором этапе прогнозы переднего плана из MoGe-2 повторно вводятся через процесс составления, чувствительный к границам, в результате чего получается окончательная карта глубины, предназначенная для сохранения как крупномасштабной точности, так и чётких местных деталей.

Данные и тесты

Окончательная коллекция MetricScenes состоит из 47 579 исключительно реальных изображений, покрывающих 134 сцены из AerialMegaDepth; 29 583 изображений из 356 сцен из MegaScenes; и 22 549 кадров, снятых из 1 725 видео из Stereo4D.

Коллекция, из которой 10 сцен из каждого источника были отложены в качестве валидации, покрывает как внешние, так и внутренние контексты, а также виды с земли и с воздуха, и городские, а также природные пейзажи – объединённый и сплочённый контекст, недоступный в любой из отдельных коллекций.

Для начального качественного теста авторы настроили модель MoGe-2 ViT-Large-Normal на новом наборе данных MetricScenes за 10 000 итераций с размером партии 32 – эффективно около трёх эпох. Обрезка и общие методы аугментации данных были взяты из исходных тестов MoGe-2, и обучение происходило при скорости обучения 1×10-6 (бэкбон) и 1×10-5 (все остальные параметры). Для качественного теста реконструкции глубины были проведены с помощью настроенной модели WildMoGe, сопоставленной с базовой MoGe-2; DepthAnything V3; Metric3Dv2; UniDepth v2 ; и DepthPro:

Сравнение реконструкции достопримечательностей в метрическом масштабе. Измерения, полученные из Google Maps, показаны в левой колонке. На незнакомых реальных достопримечательностях WildMoGe производит оценки масштаба, более близкие к известным размерам, в то время как MoGe-2, DepthAnything V3 и Metric3D V2 часто занижают размер далёких структур. UniDepth V2 часто даёт более правдоподобные масштабы, но остаётся не последовательным, в то время как DepthPro иногда производит тяжёлые ошибки масштаба.

Сравнение реконструкции достопримечательностей в метрическом масштабе. Измерения, полученные из Google Maps, показаны в левой колонке. На незнакомых реальных достопримечательностях WildMoGe производит оценки масштаба, более близкие к известным размерам, в то время как MoGe-2, DepthAnything V3 и Metric3D V2 часто занижают размер далёких структур. UniDepth V2 часто даёт более правдоподобные масштабы, но остаётся не последовательным, в то время как DepthPro иногда производит тяжёлые ошибки масштаба.

Об этой результате статья гласит:

‘[WildMoGe] последовательно восстанавливает более точные абсолютные масштабы на различных достопримечательностях, близкие к измерениям, полученным из Google Maps (например, 31,4 м против 32,4 м для Филадельфийского музея искусства, 46,7 м против 46,5 м для площади Синьории). MoGe-2, DepthAnything v3 и Metric3D v2 демонстрируют поведение коллапса масштаба, постоянно занижая размер далёких структур.

‘UniDepth v2 производит более реалистичные масштабы, но всё ещё отклоняется от измерений, полученных из Google Maps, и DepthPro часто не может восстановить абсолютный масштаб, производя результаты, которые на порядок меньше реальности. Обратите внимание, что эти сцены отсутствуют в обучающем наборе.

‘Эта производительность демонстрирует, что WildMoGe может обобщаться на незнакомый контент, а не просто запоминать обучающие сцены.’

Чтобы убедиться, что полученные выгоды не ограничивались только достопримечательностями и большими наружными сценами, авторы также оценили WildMoGe на обычных внутренних и уличных изображениях, где он производил оценки масштаба, в целом последовательные с MoGe-2, достигая при этом большей точности на ETH3D-сцене дворика:

Сравнение на стандартных сценах. На обычных внутренних и уличных средах WildMoGe производит оценки масштаба, в целом последовательные с MoGe-2, достигая при этом большей точности на бенчмарке ETH3D, восстанавливая размеры объектов, более близкие к измерениям, полученным из Google Maps.

Сравнение на стандартных сценах. На обычных внутренних и уличных средах WildMoGe производит оценки масштаба, в целом последовательные с MoGe-2, достигая при этом большей точности на бенчмарке ETH3D, восстанавливая размеры объектов, более близкие к измерениям, полученным из Google Maps.

Для оценки того, действительно ли MetricScenes улучшил метрическую оценку масштаба, оценка была проведена как на специальном тестовом наборе MetricScenes, так и на NYUv2; KITTI; ETH3D; iBims-1; GSO; Sintel; DDAD; DIODE; Spring; и HAMMER.

Авторы отмечают, что получение плотных измерений, полученных из Google Maps, для неограниченных интернет-изображений остаётся трудной задачей, что означает, что метки MetricScenes не идеальны. Стандартные бенчмарки были включены для проверки того, что любые выгоды не произошли за счёт общей геометрической производительности.

Сравнения были проведены с MoGe-2; UniDepth V2; DepthPro; MASt3R; Depth Anything V2; Depth Anything V3; ZoeDepth; и Metric3D V2:

Количественная оценка относительной и метрической геометрии. На тестовом наборе MetricScenes WildMoGe превосходит MoGe-2 по всем отчётным метрикам, оставаясь при этом в целом конкурентоспособным с ZoeDepth, Metric3D V2, Depth Anything V2, Depth Anything V3, MASt3R, UniDepth V2 и DepthPro на установленных бенчмарках, указывая на то, что улучшенная оценка метрического масштаба была достигнута без жертвования общей геометрической качеством реконструкции.

Количественная оценка относительной и метрической геометрии. На тестовом наборе MetricScenes WildMoGe превосходит MoGe-2 по всем отчётным метрикам, оставаясь при этом в целом конкурентоспособным с ZoeDepth, Metric3D V2, Depth Anything V2, Depth Anything V3, MASt3R, UniDepth V2 и DepthPro на установленных бенчмарках, указывая на то, что улучшенная оценка метрического масштаба была достигнута без жертвования общей геометрической качеством реконструкции.

WildMoGe значительно улучшил метрическую оценку масштаба на MetricScenes, превосходя MoGe-2 по всем отчётным метрикам и достигая более сильных метрических геометрических и метрических глубинных оценок, чем MoGe-2, DepthAnything V3, Metric3D V2, UniDepth V2 и DepthPro.

Производительность на NYUv2, KITTI, ETH3D, iBims-1, GSO, Sintel, DDAD, DIODE, Spring и HAMMER осталась в целом сопоставимой с MoGe-2. Авторы приписывают эти выгоды метрической надзору MetricScenes, который, по-видимому, помогает уменьшить коллапс масштаба, сохраняя при этом общую производительность реконструкции сцены.

Заключение

Решение MetricScenes проблемы «коллапса масштаба» кажется немного похожим на хаотичное объединение и дистилляцию нескольких наборов данных, каждый из которых вносит свой ценный вклад. Это немного похоже на попытку определить форму слона на ощупь.

Возможно, наиболее ценной услугой, которую оказывает статья, является привлечение большего внимания к этой проблеме, которая, по-видимому, требует некоторого рода новой или адаптированной универсальной нормы. Однако, поскольку такое нововведение прервет воспроизводимость и последовательность текущих методологий, оно должно быть очень убедительным.

 

* Мой перевод внутренних цитат авторов в гиперссылки.

Опубликовано впервые в четверг, 11 июня 2026 года.

Писатель о машинном обучении, специалист в области синтеза человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.