Ângulo de Anderson

As Inteligências Artificiais Têm Dificuldade em Reconhecer o Tamanho de Monumentos

Publicado em 11 de junho de 2026

Por

Martin Anderson

AI-generated image (GPT-2 + Photoshop): High-angle view of a man holding a scale model of the Leaning Tower of Pisa on a grassy field, with an inset photograph showing the same model aligned from ground level to resemble the full-sized tower in the background.

Os Modelos de Linguagem de Visão entendem monumentos, mas ainda não conseguem ver a imagem completa…

Uma das primeiras habilidades de sobrevivência que desenvolvemos é a capacidade de distinguir entre coisas que são pequenas ou distantes. Podemos cobrir a lua com o polegar, sem pensar que ela é do tamanho de uma moeda, porque internalizamos uma compreensão de escala relativa.

Isso é uma tarefa excepcionalmente difícil para os sistemas de visão computacional, pois a maioria deles depende de anotação prévia, que não os ajuda a “entender” a escala da mesma maneira que os humanos. Além disso, além de um certo limite e bastante próximo, tudo ao longe está além da capacidade da visão estereoscópica de resolver – o carro no final do estacionamento; o arranha-céu ao longe, além disso; e a lua crescente se erguendo sobre ele… todos são entidades “2D”, para a maioria dos sistemas de aprendizado de máquina baseados em visão.

Claro, quando um exemplo específico de um objeto “distante” mas mal interpretado acaba bem representado nos dados de treinamento, os sistemas que viram esses dados podem ser difíceis de enganar:

ChatGPT-5.5 não está nem um pouco impressionado com esse clássico trope de turista.

Quanto menos o espaço latente treinado de um modelo contém informações específicas e frequentemente repetidas, mais ele precisará ser capaz de generalizar e internalizar os conceitos de escala que entendemos desde cedo. Sem isso, mesmo exemplos famosos podem causar erros de estimativa de escala:

Neste exemplo especulativo, adaptado do novo artigo que estamos examinando hoje, a POV da câmera apresenta o Arc De Triomphe ao fundo – mas o sistema não sabe qual é o seu tamanho e faz uma suposição incorreta. Fonte

O perigo, com objetos específicos e altamente característicos, como a Torre Eiffel, é que o sistema recorrerá a um atalho de estimativa de tamanho que é correto para o modelo original, mas não é correto para as múltiplas imitações do monumento de Paris que estão igualmente além da distância de resolução da visão estereoscópica, mas não são nem perto de tão grandes.

Portanto, é importante que os sistemas de visão abordem vistas novas (não vistas) com um conjunto de habilidades pronto, e não apenas um monte de “códigos de trapaça”.

Escalando

Para isso, uma nova colaboração entre os EUA e a China oferece um conjunto de dados remediador, juntamente com um método de estimativa, que aborda a questão:

A nova abordagem modifica um sistema anterior por meio de material de treinamento aprimorado – dados variados o suficiente para fornecer uma compreensão mais profunda de problemas de profundidade.

Lançado junto com um site acompanhante, a iniciativa MetricScenes apresenta dados e código liberados.

O artigo afirma*:

‘[Nós] descobrimos que os métodos atuais de ponta frequentemente falham em estimar a escala da cena correta, levando a um fenômeno persistente de colapso de escala em cenários “in-the-wild”.

‘[A imagem acima] mostra um exemplo onde referências semânticas claras (pessoas) estão presentes, mas onde modelos como MoGe-2 exibem uma inconsistência de escala significativa em toda a faixa de distâncias: a escala métrica prevista para objetos de campo próximo é plausível – nesse caso, os turistas têm uma altura plausível – mas a escala para estruturas de campo distante é dramaticamente subestimada – aqui, o Arc de Triomphe ao fundo é previsto metricamente como tendo apenas 18,8 m de largura, o que é mais de 2× menor do que a largura real (44,8 m).

‘MoGe-2 propôs um monumento em miniatura, apesar de pistas em contrário.’

A Força de Três

A nova coleção dos autores foi montada combinando três conjuntos de dados existentes: MegaScenes, AerialMegaDepth e Stereo4D:

Imagem de exemplo de MegaScenes, que compõe parte da nova curadoria. Fonte

O problema com os conjuntos de dados que contribuem para MetricScenes, quando considerados individualmente, é que cada um se aplica a domínios limitados, como filmagens de POV de carro ou cenas internas, quando um domínio combinado é necessário para abordar o problema e trazer os sistemas de visão mais perto de uma compreensão humana de escala.

Cada imagem é acompanhada de imagens RGB, profundidade parcialmente observada derivada de Structure from Motion (SfM), Multi-View Stereo (MVS) ou outros priors geométricos, juntamente com um mapa de profundidade completo gerado por meio de um novo processo de complementação de Poisson de duas etapas e metadados de câmera associados.

Ajuste fino do framework MoGe-2 no novo conjunto de dados ‘mitiga significativamente’ o colapso de escala que os autores se referem, aparentemente alcançando resultados superiores em cenas de domínio aberto e desempenho de ponta em benchmarks relacionados.

O novo artigo é intitulado Querida, eu encolhi o Arc de Triomphe! e vem de quatro pesquisadores da Universidade Cornell e da Universidade Jiao Tong de Xangai.

Método

MetricScenes se baseia em parte nos mencionados AerialMegaDepth e MegaScenes – duas coleções de fotografias da Internet que abrangem arquivos históricos, imagens de turismo e fotografia profissional. Embora MegaScenes ofereça reconstruções de grande escala de Structure from Motion (SfM), essas cenas carecem de qualquer escala real no mundo real. Para resolver isso, imagens geotagadas de serviços de mapeamento online foram usadas para alinhar as reconstruções com locais e dimensões físicas conhecidas.

Inversamente, AerialMegaDepth já incorpora vistas geotagadas do Google Earth, fornecendo reconstruções de monumentos em escala métrica.

Erros de reconstrução potenciais causados por estruturas visualmente semelhantes, mas geograficamente distantes, foram abordados usando MASt3R-SfM e o classificador Doppelgangers++. Após a reconstrução Multi-View Stereo (MVS), estimativas de profundidade instáveis e artefatos de sangramento de profundidade foram filtrados usando uma combinação de verificações de estabilidade e previsões de MoGe-2:

AerialMegaDepth deriva escala real do mundo combinando fotografias da Internet com vistas geotagadas do Google Earth, enquanto as cenas de MegaScenes são alinhadas a dimensões físicas usando imagens de nível de rua georreferenciadas. Após a reconstrução Multi-View Stereo (MVS), estimativas de profundidade instáveis e artefatos de sangramento de profundidade são filtrados, produzindo mapas de profundidade em escala métrica mais limpos e adequados para treinamento. Caixas amarelas destacam objetos transitórios removidos durante o processamento, enquanto caixas vermelhas indicam regiões de sangramento de profundidade corrigidas.

A escala métrica foi então recuperada por meio de imagens georreferenciadas. AerialMegaDepth já deriva escala de renderizações do Google Earth capturadas de locais conhecidos, enquanto MegaScenes foi alinhada a dimensões reais do mundo usando imagens de nível de rua geotagadas obtidas de serviços de mapeamento.

Essas imagens foram combinadas com reconstruções existentes com MASt3R, refinadas com o classificador Doppelganger, alinhadas com COLMAP e escaladas por meio de estimativa baseada em RANSAC usando coordenadas Earth-Centered, Earth-Fixed (ECEF). Cenas com estimativas de escala não confiáveis ou qualidade de registro ruim foram descartadas.

Vendo em Estéreo

A coleção MetricScenes também se baseia no conjunto de dados Stereo4D mencionado anteriormente, que apresenta milhares de sequências de vídeo estereoscópicas reais capturadas com câmeras VR180, oferecendo uma dimensão temporal às capturas:

O conjunto de dados Stereo4D foi construído a partir de vídeos estereoscópicos da Internet, combinando poses de câmera, estimativas de profundidade e trajetórias de movimento para recuperar cenas 3D dinâmicas em escala. O conjunto de dados resultante contém centenas de milhares de cliques de vídeo representados como nuvens de pontos com faixas de movimento de longo alcance, fornecendo uma grande fonte de geometria 3D real do mundo e movimento para treinamento de modelos de visão. Fonte

Porque a distância física entre as duas lentes da câmera varia em diferentes dispositivos, apenas vídeos com configurações de câmera documentadas foram usados, permitindo que a profundidade da cena seja recuperada em uma escala real do mundo precisa.

Stereo4D originalmente dependia do sistema de fluxo óptico SEA-RAFT para estimar a geometria da cena, mas os autores descobriram que a calibração imperfeita da câmera poderia distorcer cenas reconstruídas, fazendo com que estruturas que deveriam ser paralelas convergissem de forma não natural. Portanto, para melhorar a precisão, eles substituíram essa abordagem por um pipeline de reconstrução multi-vista que estima conjuntamente poses de câmera e profundidade de múltiplos quadros.

Após comparar π³, DepthAnything V3 e MapAnything, π³ foi selecionado por sua robustez geométrica e capacidade de preservar detalhes finos:

Recuperação de profundidade métrica de Stereo4D. Métodos de correspondência estereoscópica padrão podem produzir geometria distorcida quando a calibração da câmera é imperfeita, enquanto π³ gera reconstruções de cena mais consistentes e preserva detalhes finos. A geometria recuperada é então alinhada com a baseline física conhecida da câmera estereoscópica, produzindo mapas de profundidade métrica escalados com precisão.

Porque π³ reconstrói cenas em uma escala arbitrária, os mapas de profundidade resultantes foram alinhados com dimensões reais do mundo usando a baseline física conhecida de cada câmera estereoscópica. Filtragem adicional removeu quadros de baixa qualidade, erros de calibração, inconsistências de profundidade e estimativas de escala não confiáveis.

Além disso, um processo de complementação de profundidade de duas etapas foi usado, combinando previsões de primeiro plano de MoGe-2 com geometria de fundo de Multi-View Stereo (MVS), produzindo dados de treinamento métricos mais limpos com escala e limites de objeto mais consistentes:

Complementação de profundidade de duas etapas. Usar apenas âncoras de fundo pode preservar a estrutura da cena, enquanto distorce a escala geral, enquanto combinar restrições de primeiro plano e fundo em uma única passagem introduz deriva de escala e artefatos de limite. A abordagem de duas etapas mantém a escala métrica consistente em objetos próximos e distantes, preservando limites de objeto limpos.

Os autores observaram que coleções de fotos da Internet frequentemente carecem de profundidade de primeiro plano confiável, enquanto imagens estereoscópicas frequentemente perdem regiões de fundo distantes. Embora MoGe-2 possa inferir geometria densa em toda a cena, suas estimativas tendem para o mesmo problema de colapso de escala que o projeto busca abordar. Portanto, o pipeline de complementação de profundidade de duas etapas foi projetado para combinar as forças de MoGe-2 e Multi-View Stereo (MVS).

Geometria de fundo foi recuperada usando âncoras métricas derivadas de MVS, criando um mapa de profundidade base com estrutura de grande escala confiável. Em uma segunda etapa, estimativas de primeiro plano de MoGe-2 foram reintroduzidas por meio de um processo de complementação sensível a bordos projetado para preservar limites de objeto, enquanto evita deriva de escala e artefatos de sangramento de profundidade.

Os mapas de profundidade produzidos por essa abordagem, afirma o artigo, foram tanto visualmente completos quanto mais consistentes em escala real do mundo:

Pipeline de complementação de profundidade de duas etapas. Na primeira etapa, âncoras métricas de MVS são usadas para recuperar geometria de fundo em uma escala métrica confiável. Na segunda etapa, estimativas de primeiro plano de MoGe-2 são reintroduzidas por meio de um processo de composição sensível a bordos, produzindo um mapa de profundidade final projetado para preservar tanto a precisão de grande escala quanto o detalhe local nítido.

Dados e Testes

A coleção final MetricScenes compreende 47.579 imagens exclusivamente do mundo real, cobrindo 134 cenas de AerialMegaDepth; 29.583 imagens de 356 cenas de MegaScenes; e 22.549 quadros de 1.725 vídeos de Stereo4D.

A coleção, da qual 10 cenas de cada fonte foram mantidas como validação, cobre contextos internos e externos, bem como vistas de nível do solo e aéreas, e paisagens urbanas e naturais – um contexto coletado e coeso não disponível em nenhuma das coleções contribuintes individuais.

Para um teste qualitativo inicial, os autores ajustaram o modelo MoGe-2 ViT-Large-Normal no novo conjunto de dados MetricScenes por 10.000 iterações em um tamanho de lote de 32 – efetivamente cerca de três épocas. Recortes e abordagens gerais de aumento de dados foram tomados dos testes originais de MoGe-2, e o treinamento ocorreu em uma taxa de aprendizado de 1×10^-6 (backbone) e 1×10^-5 (todos os outros parâmetros). Para o teste qualitativo, reconstruções de profundidade foram realizadas pelo modelo WildMoGe ajustado, comparado ao MoGe-2 base; DepthAnything V3; Metric3Dv2; UniDepth v2; e DepthPro:

Comparação de reconstrução de monumentos em escala métrica. Medidas de referência do Google Maps são mostradas na coluna esquerda. Em monumentos do mundo real não vistos, WildMoGe produz estimativas de escala mais próximas das dimensões conhecidas, enquanto MoGe-2, DepthAnything V3 e Metric3D V2 frequentemente subestimam o tamanho de estruturas distantes. UniDepth V2 frequentemente produz escalas mais plausíveis, mas permanece inconsistente, enquanto DepthPro ocasionalmente produz erros de escala graves.

Do resultado, o artigo afirma:

‘[WildMoGe] recupera consistentemente escalas absolutas mais precisas em diferentes monumentos, correspondendo de perto às dimensões de referência (por exemplo, 31,4 m vs. 32,4 m para o Museu de Arte de Filadélfia, 46,7 m vs 46,5 m para Piazza della Signorina). MoGe-2, DepthAnything v3 e Metric3D v25 exibem comportamento de colapso de escala, consistentemente subestimando o tamanho de estruturas de campo distante.

‘UniDepth v2 produz escalas mais realistas, mas ainda desvia do valor de referência, e DepthPro frequentemente falha em recuperar a escala absoluta, produzindo resultados que são ordens de magnitude menores do que a realidade. Note que essas cenas estão ausentes do conjunto de treinamento.

‘Esse desempenho demonstra que WildMoGe pode generalizar para conteúdo não visto, em vez de simplesmente memorizar cenas de treinamento.’

Para garantir que os ganhos encontrados não se limitassem a monumentos e cenas ao ar livre grandes, os autores também avaliaram WildMoGe em imagens internas e de nível de rua comuns, onde produziu estimativas de escala amplamente consistentes com MoGe-2, enquanto alcançava maior precisão em uma cena de pátio ETH3D:

Comparação em cenas padrão. Em ambientes internos e de nível de rua comuns, WildMoGe produz estimativas de escala amplamente consistentes com MoGe-2, enquanto alcança maior precisão no benchmark de pátio ETH3D, recuperando dimensões de objeto que correspondem mais de perto às medições de referência.

Para avaliar se MetricScenes realmente melhorou a razão métrica, a avaliação foi realizada tanto em um conjunto de teste dedicado MetricScenes quanto em NYUv2; KITTI; ETH3D; iBims-1; GSO; Sintel; DDAD; DIODE; Spring; e HAMMER.

Os autores observam que obter medições de referência densas para imagens da Internet não restritas permanece difícil, o que significa que as etiquetas MetricScenes não são perfeitas. Benchmarks padrão foram incluídos para verificar se os ganhos não vieram à custa do desempenho geométrico geral.

Comparações foram feitas contra MoGe-2; UniDepth V2; DepthPro; MASt3R; Depth Anything V2; Depth Anything V3; ZoeDepth; e Metric3D V2:

Avaliação quantitativa de geometria relativa e métrica. No conjunto de teste MetricScenes, WildMoGe superou MoGe-2 em todos os métricos relatados, enquanto permaneceu amplamente competitivo com ZoeDepth, Metric3D V2, Depth Anything V2, Depth Anything V3, MASt3R, UniDepth V2 e DepthPro em benchmarks estabelecidos, indicando que a estimativa métrica melhorada foi alcançada sem sacrificar a qualidade de reconstrução geométrica geral.

WildMoGe melhorou substancialmente a previsão de escala métrica em MetricScenes, superando MoGe-2 em todos os métricos relatados e alcançando pontuações de geometria métrica e profundidade métrica mais fortes do que MoGe-2, Depth Anything V3, Metric3D V2, UniDepth V2 e DepthPro.

O desempenho em NYUv2, KITTI, ETH3D, iBims-1, GSO, Sintel, DDAD, DIODE, Spring e HAMMER permaneceu amplamente comparável ao de MoGe-2. Os autores atribuem esses ganhos à supervisão métrica de MetricScenes, que aparentemente ajuda a reduzir o colapso de escala, preservando o desempenho de reconstrução de cena geral.

Conclusão

A solução MetricScenes para o ‘colapso de escala’ parece um pouco como uma solução improvisada, no artigo – uma combinação e destilação de vários conjuntos de dados, cada um com uma contribuição valiosa. Parece um pouco como tentar determinar a forma de um elefante pelo toque.

Talvez o serviço mais valioso que o artigo oferece seja chamar a atenção para a questão, que parece exigir algum tipo de padrão universal novo ou adaptado. No entanto, como tal inovação interromperia a reprodutibilidade e a consistência das metodologias atuais, ela teria que ser muito convincente.

* Minha conversão das citações em linha dos autores para links.

Publicado pela primeira vez na quinta-feira, 11 de junho de 2026