Angolo di Anderson

Le difficoltà dell’AI nel riconoscere le dimensioni dei monumenti

Pubblicato il 11 giugno 2026

Martin Anderson

AI-generated image (GPT-2 + Photoshop): High-angle view of a man holding a scale model of the Leaning Tower of Pisa on a grassy field, with an inset photograph showing the same model aligned from ground level to resemble the full-sized tower in the background.

I modelli di linguaggio visivo capiscono i monumenti, ma non riescono ancora a vedere l’intero quadro…

Una delle prime abilità di sopravvivenza che sviluppiamo è la capacità di distinguere tra le cose che sono piccole o lontane. Possiamo oscurare la luna con il pollice, senza pensare che sia grande come una moneta da 10 centesimi, perché abbiamo interiorizzato una comprensione della scala relativa.

Questo è un compito insolitamente difficile per i sistemi di visione computerizzata, poiché la maggior parte di essi si basa su annotazioni precedenti, che non aiutano a “comprendere” la scala nello stesso modo degli esseri umani. Inoltre, oltre un certo limite abbastanza vicino, tutto ciò che è lontano è al di là della capacità della visione stereoscopica di risolvere – l’auto alla fine del parcheggio; il grattacielo in lontananza oltre quello; e la mezzaluna che sorge sopra di esso…tutti sono entità “2D” per la maggior parte dei sistemi di apprendimento automatico basati sulla visione.

Certo, quando un esempio particolare di un oggetto “lontano” ma mal interpretato finisce per essere ben rappresentato nei dati di training, i sistemi che hanno visto questi dati possono essere difficili da ingannare:

ChatGPT-5.5 non è affatto impressionato da questo classico tropo turistico.

Quanto meno lo spazio latente addestrato di un modello contiene informazioni specifiche e ripetute, tanto più dovrà essere in grado di generalizzare e interiorizzare i concetti di scala che noi comprendiamo a una giovane età. Senza questo, anche esempi famosi possono ancora causare errori di stima della scala:

In questo esempio speculativo, tratto dal nuovo articolo che esaminiamo oggi, la prospettiva della telecamera presenta l'Arco di Trionfo sullo sfondo – ma il sistema non sa quale sia la sua dimensione e fa un'ipotesi errata. Fonte - https://arxiv.org/pdf/2606.02379

In questo esempio speculativo, adattato dal nuovo articolo che esaminiamo oggi, la prospettiva della telecamera presenta l’Arco di Trionfo sullo sfondo – ma il sistema non sa quale sia la sua dimensione e fa un’ipotesi errata. Fonte

Il pericolo, con oggetti specifici e caratteristici come la Torre Eiffel, è che il sistema ricorrerà a un escamotage di stima della dimensione che è corretto per il modello originale, ma non corretto per le numerose imitazioni del monumento parigino che sono altrettanto al di là della portata della visione stereoscopica, eppure non sono quasi così grandi.

Quindi è importante che i sistemi di visione si avvicinino a nuove (non viste) prospettive con un set di abilità pronto, e non solo con un mucchio di “codici segreti”.

Scaling Up

A questo scopo, una nuova collaborazione tra gli Stati Uniti e la Cina offre un set di dati di rimedio, insieme a un metodo di stima, che affronta il problema:

Il nuovo approccio modifica un sistema precedente attraverso materiali di addestramento migliorati – dati variati abbastanza per fornire una comprensione più profonda dei problemi di profondità.

Lanciato insieme a un sito web accompagnatore, l’iniziativa MetricScenes presenta dati e rilasci di codice.

L’articolo afferma*:

‘[Abbiamo] scoperto che i metodi attuali di stato dell’arte spesso falliscono nell’stimare la scala della scena corretta, portando a un persistente fenomeno di “scale-collapse” in scenari “in-the-wild”.

‘[L’immagine sopra] mostra un esempio in cui sono presenti chiare referenze semantiche (persone), ma in cui modelli come MoGe-2 esibiscono una significativa inconsistenza di scala attraverso la gamma di distanze: la scala metrica prevista per gli oggetti nel campo vicino è plausibile – in questo caso, i turisti hanno un’altezza plausibile – ma la scala per le strutture lontane è drasticamente sottostimata – qui, l’Arco di Trionfo sullo sfondo è previsto metricamente essere largo solo 18,8 m, il che è più di 2× più piccolo della larghezza effettiva (44,8 m).

‘MoGe-2 ha ipotizzato un monumento miniaturizzato, nonostante gli indizi contrari.’

Il Potere di Tre

La nuova raccolta degli autori è stata assemblata combinando tre set di dati esistenti: MegaScenes, AerialMegaDepth e Stereo4D:

Esempio di immagini da MegaScenes, che fa parte della nuova raccolta. Fonte

Il problema con i set di dati che contribuiscono a MetricScenes, presi individualmente, è che ciascuno di essi si applica a domini limitati, come ad esempio le riprese dal punto di vista di un’auto, o le scene interne, quando è necessario un dominio combinato per affrontare il problema e portare i sistemi di visione più vicini a una comprensione umana della scala.

Ogni immagine è accompagnata da immagini RGB, profondità parzialmente osservata derivata da Structure from Motion (SfM), Multi-View Stereo (MVS) o altri priors geometrici, insieme a una mappa di profondità completata generata attraverso un nuovo processo di completamento di Poisson a due fasi e metadati della telecamera.

Fine-tuning del framework MoGe-2 sul nuovo set di dati ‘mitiga significativamente’ il collasso di scala a cui gli autori fanno riferimento, raggiungendo risultati superiori in scenari aperti e prestazioni di stato dell’arte sui benchmark correlati.

L’articolo nuovo si intitola Honey, I Shrunk the Arc de Triomphe! e proviene da quattro ricercatori di Cornell University e Shanghai Jiao Tong University.

Metodo

MetricScenes attinge in parte dai già menzionati AerialMegaDepth e MegaScenes – due raccolte di fotografie Internet che coprono archivi storici, immagini turistiche e fotografia professionale. Sebbene MegaScenes offra ricostruzioni di grandi dimensioni di Structure from Motion (SfM), queste scene mancano di qualsiasi scala reale intrinseca. Per affrontare questo problema, sono state utilizzate immagini geotaggate da servizi di mapping online per allineare le ricostruzioni con posizioni e dimensioni fisiche note.

Al contrario, AerialMegaDepth incorpora già viste geotaggate di Google Earth, fornendo ricostruzioni di monumenti con scala metrica.

Errori di ricostruzione potenziali causati da strutture visivamente simili ma geograficamente distanti sono stati affrontati utilizzando MASt3R-SfM e il classificatore Doppelgangers++. Dopo la ricostruzione Multi-View Stereo (MVS), stime di profondità instabili e artefatti di “depth-bleeding” sono stati filtrati utilizzando una combinazione di controlli di stabilità e previsioni di MoGe-2:

AerialMegaDepth deriva la scala reale combinando fotografie Internet con viste geotaggate di Google Earth, mentre le scene di MegaScenes sono allineate alle dimensioni fisiche utilizzando immagini georeferenziate a livello stradale. Dopo la ricostruzione Multi-View Stereo (MVS), stime di profondità instabili e artefatti di depth-bleeding sono stati filtrati, producendo mappe di profondità metrica più pulite adatte all’addestramento. Le caselle gialle evidenziano oggetti transitori rimossi durante l’elaborazione, mentre le caselle rosse indicano regioni di depth-bleeding corrette.

La scala metrica è stata quindi recuperata attraverso immagini georeferenziate. AerialMegaDepth deriva già la scala da rendering di Google Earth catturati da posizioni note, mentre MegaScenes è stata allineata alle dimensioni reali utilizzando immagini geotaggate a livello stradale ottenute da servizi di mapping.

Queste immagini sono state abbinate a ricostruzioni esistenti con MASt3R, raffinate con il classificatore Doppelganger, allineate con COLMAP e scalate attraverso stima basata su RANSAC utilizzando coordinate Earth-Centered, Earth-Fixed (ECEF). Le scene con stime di scala non attendibili o qualità di registrazione scarsa sono state scartate.

Vedere in Stereo

La raccolta MetricScenes attinge anche dal set di dati Stereo4D, che presenta migliaia di sequenze video stereoscopiche reali catturate con telecamere VR180, offrendo una dimensione temporale alle catture:

Il set di dati Stereo4D è stato costruito da video stereoscopici Internet, combinando pose della telecamera, stime di profondità e traiettorie di movimento per recuperare scene 3D dinamiche in scala. Il set di dati risultante contiene centinaia di migliaia di clip video rappresentate come nuvole di punti con tracce di movimento a lungo raggio, fornendo una grande fonte di geometria 3D e movimento reali per l’addestramento dei modelli di visione. Fonte

Perché la distanza fisica tra le due lenti della telecamera varia tra dispositivi diversi, sono stati utilizzati solo video con configurazioni della telecamera documentate, consentendo di recuperare la profondità della scena a scala reale precisa.

Stereo4D si basava originariamente sul sistema di flusso ottico SEA-RAFT per stimare la geometria della scena, ma gli autori hanno scoperto che una calibrazione della telecamera imperfetta poteva distortare le scene ricostruite, facendo convergere strutture che dovrebbero essere parallele in modo innaturale. Pertanto, per migliorare l’accuratezza, hanno sostituito questo approccio con una pipeline di ricostruzione multi-vista che stima congiuntamente le pose della telecamera e la profondità da più frame.

Dopo aver confrontato π³, DepthAnything V3 e MapAnything, π³ è stato selezionato per la sua robustezza geometrica e la capacità di preservare dettagli fini:

Recupero della profondità metrica da Stereo4D. I metodi di abbinamento stereo standard possono produrre geometrie distorte quando la calibrazione della telecamera è imperfetta, mentre π³ genera ricostruzioni di scene più coerenti e preserva i dettagli fini. La geometria recuperata è quindi allineata alla scala fisica nota della telecamera stereo, producendo mappe di profondità metrica accurate.

Perché π³ ricostruisce le scene a scala arbitraria, le mappe di profondità risultanti sono state allineate alle dimensioni reali utilizzando la scala fisica nota di ciascuna configurazione della telecamera stereo. Ulteriore filtraggio ha rimosso frame di bassa qualità, errori di calibrazione, errori di profondità e stime di scala non attendibili.

Inoltre, è stato utilizzato un processo di completamento della profondità a due fasi, combinando previsioni del primo piano da MoGe-2 con geometria di sfondo da Multi-View Stereo (MVS), producendo dati di addestramento metrici più puliti con scala e confini di oggetto più coerenti:

Completamento della profondità a due fasi. Utilizzare solo ancore di sfondo può preservare la struttura della scena mentre distorce la scala complessiva, mentre la combinazione di vincoli di primo piano e di sfondo in un’unica passata introduce deriva della scala e artefatti di confine. L’approccio a due fasi mantiene la scala metrica coerente su oggetti vicini e lontani mentre preserva confini di oggetto puliti.

Gli autori hanno osservato che le raccolte di foto Internet spesso mancano di profondità di primo piano attendibile, mentre le immagini stereoscopiche spesso mancano di regioni di sfondo lontane. Sebbene MoGe-2 possa inferire geometria densa in tutta la scena, le sue stime tendono verso lo stesso problema di “collasso di scala” che il progetto cerca di affrontare. Pertanto, la pipeline di completamento della profondità a due fasi è stata progettata per combinare i punti di forza di MoGe-2 e Multi-View Stereo (MVS).

La geometria di sfondo è stata recuperata utilizzando ancore metriche derivate da MVS, creando una mappa di profondità di base con struttura di larga scala attendibile. In una seconda fase, le stime del primo piano da MoGe-2 sono state riintrodotte attraverso un processo di completamento consapevole dei bordi progettato per preservare i confini degli oggetti mentre si preveniva la deriva della scala e gli artefatti di depth-bleeding.

Le mappe di profondità prodotte da questo approccio, sostengono gli autori, sono state sia visualmente complete che più coerenti nella scala reale:

Pipeline di completamento della profondità a due fasi. Nella prima fase, le ancore di MVS sono utilizzate per recuperare la geometria di sfondo a scala metrica attendibile. Nella seconda fase, le stime del primo piano da MoGe-2 sono riintrodotti attraverso un processo di composizione consapevole dei bordi, producendo una mappa di profondità finale progettata per preservare sia l’accuratezza di larga scala che i dettagli locali nitidi.

Dati e Test

La raccolta finale MetricScenes comprende 47.579 immagini esclusivamente del mondo reale che coprono 134 scene da AerialMegaDepth; 29.583 immagini da 356 scene da MegaScenes; e 22.549 frame da 1.725 video da Stereo4D.

La raccolta, da cui 10 scene per fonte sono state trattenute come validazione, copre contesti esterni e interni, nonché viste a livello del suolo e viste aeree, e paesaggi urbani e naturali – un contesto collato e coerente non disponibile in nessuna delle raccolte individuali.

Per un test qualitativo iniziale, gli autori hanno eseguito il fine-tuning del modello MoGe-2 ViT-Large-Normal sul nuovo set di dati MetricScenes per 10.000 iterazioni con un batch size di 32 – effettivamente intorno a tre epoch. Le tecniche di data augmentation sono state prese dai test originali di MoGe-2 e l’addestramento è avvenuto a un tasso di apprendimento di 1×10^-6 (backbone) e 1×10^-5 (tutti gli altri parametri). Per il test qualitativo, le ricostruzioni della profondità sono state eseguite dal modello WildMoGe fine-tuned, messo a confronto con il modello MoGe-2 di base; DepthAnything V3; Metric3Dv2; UniDepth v2 ; e DepthPro:

Confronto della ricostruzione dei monumenti con scala metrica. Le misure di riferimento del terreno da Google Maps sono mostrate nella colonna di sinistra. Tra i monumenti del mondo reale non visti, WildMoGe produce stime di scala più vicine alle dimensioni note, mentre MoGe-2, DepthAnything V3 e Metric3D V2 spesso sottostimano le dimensioni delle strutture lontane. UniDepth V2 produce spesso scale più plausibili, ma rimane incoerente, mentre DepthPro occasionalmente produce errori di scala gravi.

Di questo risultato, l’articolo afferma:

‘[WildMoGe] recupera costantemente scale assolute più accurate attraverso diversi monumenti, corrispondendo strettamente alle dimensioni di riferimento del terreno (ad esempio, 31,4 m vs 32,4 m per il Museo d’Arte di Filadelfia, 46,7 m vs 46,5 m per Piazza della Signorina). MoGe-2, DepthAnything v3 e Metric3D v25 esibiscono un comportamento di collasso di scala, sottostimando costantemente le dimensioni delle strutture lontane.

‘UniDepth v2 produce scale più realistiche ma devia ancora dalle misure di riferimento del terreno, e DepthPro spesso non riesce a recuperare la scala assoluta, producendo risultati che sono di diversi ordini di grandezza più piccoli della realtà. Si noti che queste scene sono assenti dal set di addestramento.

‘Questa prestazione dimostra che WildMoGe può generalizzare a contenuti non visti, a differenza di semplici memorizzazioni di scene di addestramento.’

Per assicurarsi che i guadagni trovati non fossero limitati ai monumenti e alle grandi scene all’aperto, gli autori hanno anche valutato WildMoGe su immagini ordinarie a livello del suolo e stradali, dove ha prodotto stime di scala ampiamente coerenti con MoGe-2, raggiungendo una maggiore accuratezza su una scena di cortile ETH3D:

Confronto su scene standard. Tra ambienti interni e stradali ordinari, WildMoGe produce stime di scala ampiamente coerenti con MoGe-2, raggiungendo una maggiore accuratezza sul benchmark di cortile ETH3D, recuperando dimensioni di oggetti che corrispondono più da vicino alle misure di riferimento del terreno.

Per valutare se MetricScenes abbia effettivamente migliorato la stima della scala metrica, la valutazione è stata eseguita sia su un set di test dedicato MetricScenes che su NYUv2; KITTI; ETH3D; iBims-1; GSO; Sintel; DDAD; DIODE; Spring; e HAMMER.

Gli autori notano che ottenere misure di riferimento del terreno dense per immagini Internet non vincolate rimane difficile, quindi i benchmark standard sono stati inclusi per verificare che eventuali guadagni non si verificassero a scapito della prestazione geometrica generale.

I confronti sono stati eseguiti contro MoGe-2; UniDepth V2; DepthPro; MASt3R; Depth Anything V2; Depth Anything V3; ZoeDepth; e Metric3D V2:

Valutazione quantitativa della geometria relativa e metrica. Sul set di test MetricScenes, WildMoGe ha superato MoGe-2 in ogni metrica segnalata, rimanendo ampiamente competitivo con ZoeDepth, Metric3D V2, Depth Anything V2, Depth Anything V3, MASt3R, UniDepth V2 e DepthPro sui benchmark stabiliti, indicando che è stata raggiunta una stima della scala metrica migliorata senza sacrificare la qualità della ricostruzione geometrica generale.

WildMoGe ha migliorato sostanzialmente la previsione della scala metrica su MetricScenes, superando MoGe-2 in ogni metrica segnalata e raggiungendo punteggi di geometria metrica e profondità più forti di MoGe-2, Depth Anything V3, Metric3D V2, UniDepth V2 e DepthPro.

La prestazione su NYUv2, KITTI, ETH3D, iBims-1, GSO, Sintel, DDAD, DIODE, Spring e HAMMER è rimasta ampiamente paragonabile a MoGe-2. Gli autori attribuiscono questi guadagni alla supervisione metrica di MetricScenes, che apparentemente aiuta a ridurre il collasso di scala mentre preserva la prestazione di ricostruzione della scena generale.

Conclusione

La soluzione MetricScenes al problema del “collasso di scala” sembra un po’ come un tentativo di combinare e distillare più set di dati, ognuno dei quali ha un punto di vista prezioso da offrire. Sembra un po’ come cercare di determinare la forma di un elefante al tatto.

Forse il servizio più prezioso offerto dall’articolo è quello di richiamare l’attenzione su questo problema, che sembra richiedere una sorta di standard universale innovativo o adattato. Tuttavia, poiché una tale innovazione interromperebbe la riproducibilità e la coerenza delle metodologie attuali, dovrebbe essere molto convincente.

* La mia conversione delle citazioni in linea degli autori in collegamenti ipertestuali.

Pubblicato per la prima volta giovedì 11 giugno 2026