Andersonův úhel

Umělé inteligence má potíže s rozpoznáním velikosti památek

Publikováno 11. června 2026

Martin Anderson

AI-generated image (GPT-2 + Photoshop): High-angle view of a man holding a scale model of the Leaning Tower of Pisa on a grassy field, with an inset photograph showing the same model aligned from ground level to resemble the full-sized tower in the background.

Modely jazyka a vidění rozumějí památkám, ale stále nedokážou vidět celý obraz…

Jedna z prvních dovedností, které se učíme, je schopnost rozlišovat mezi věcmi, které jsou malé nebo vzdálené. Můžeme zakrýt měsíc palcem, aniž bychom si mysleli, že je velikosti mince, protože jsme internalizovali pochopení relativní velikosti.

Tato dovednost je neobvykle obtížná pro počítačové vidění, protože většina z nich spoléhá na předchozí anotaci, která jim nepomůže „porozumět“ velikosti stejným způsobem jako lidem. Kromě toho, za určitou a poměrně blízkou hranicí, je všechno v dálce mimo schopnost stereo vidění rozlišit – auto na konci parkoviště; mrakodrap v dálce za ním; a rostoucí srpek měsíce nad ním…všechny jsou „2D“ entity, pro většinu systémů založených na počítačovém vidění.

Samozřejmě, když konkrétní příklad „vzdáleného“, ale nesprávně interpretovaného objektu se objeví v trénovacích datech, systémy, které viděly tato data, mohou být obtížné oklamat:

ChatGPT-5.5 není vůbec ohromen tímto klasickým turistickým trikem.

Čím méně obsahuje trénovací latentní prostor modelu specifické a často opakované informace, tím více bude muset být schopen generalizovat a internalizovat pojmy velikosti, které chápeme v mladém věku. Bez toho, i slavné příklady mohou stále způsobit nesprávné odhady velikosti:

V tomto spekulativním příkladu, převzatém z nové studie, kterou dnes zkoumáme, je kamera POV s Arc de Triomphe na pozadí – ale systém neví, jakou má velikost, a dělá nesprávnou domněnku. Zdroj

Nebezpečí spočívá v tom, že systém bude používat zkratku pro odhad velikosti, který je správný pro původní model, ale ne pro mnohé napodobeniny pařížské památky, které jsou stejně daleko za hranicí stereo vidění, ale nejsou téměř tak velké.

Proto je důležité, aby vidění systémů přistupovalo k novým (neviděným) pohledům s připraveným souborem dovedností, a ne jen s „cheat kódy“.

Škálování

K tomuto účelu nabízí nová spolupráce mezi USA a Čínou léčebná data souboru, spolu s metodou odhadu, která řeší problém:

Nový přístup modifikuje předchozí systém pomocí vylepšeného trénovacího materiálu – dat dostatečně rozmanitých, aby poskytovaly hlubší pochopení problémů hloubky.

Spuštěn spolu s doprovodnou webovou stránkou, iniciativa MetricScenes nabízí data a kód vydání.

Studie uvádí*:

‘[Myšlenka] zjistila, že současné metody často selhávají při odhadu správné velikosti scény, což vede k trvalému jevu „kolapsu velikosti“ v „divokých“ scénářích.

‘[Obrázek výše] ukazuje příklad, kde jsou přítomny jasné semantické odkazy (lidé), ale kde modely jako MoGe-2 vykazují významnou nesrovnalost velikosti napříč rozsahem vzdáleností: předpovězená metrická velikost pro objekty v blízkosti je přijatelná – v tomto případě mají turisté přijatelnou výšku – ale velikost pro vzdálené struktury je dramaticky podceněna – zde je Arc de Triomphe na pozadí metricky předpovězen jako široký pouze 18,8 m, což je více než 2× menší než skutečná šířka (44,8 m).

‘MoGe-2 navrhl zmenšenou památku, navzdory protichůdným signálům.’

Síla tří

Nová sbírka autorů byla sestavena kombinací tří existujících datových souborů: MegaScenes, AerialMegaDepth a Stereo4D:

Příklad obrazu z MegaScenes, který je součástí nové sbírky. Zdroj

Problém s datovými soubory, které přispívají k MetricScenes, je, že každý z nich se vztahuje k omezeným doménám, jako je POV automobilového videa nebo vnitřní scény, zatímco je zapotřebí kombinovaná doména, aby se problém vyřešil a přiblížil systémy vidění k lidskému pochopení velikosti.

Každý obraz je doprovázen RGB obrazem, částečně pozorovanou hloubkou odvozenou ze Structure from Motion (SfM), Multi-View Stereo (MVS) nebo jinými geometrickými předpověďmi, spolu s dokončenou hloubkovou mapou vygenerovanou pomocí nové dvoufázové Poisson completion procesu a přidružené kamerové metadata.

Fine-tuning rámce MoGe-2 na novém datovém souboru ‘signifikantně zmírňuje’ kolaps velikosti, o kterém autoři hovoří, a údajně dosahuje lepších výsledků v otevřených scénářích a špičkových výsledků na souvisejících benchmarcích.

Nová studie se jmenuje Honey, I Shrunk the Arc de Triomphe! a pochází od čtyř výzkumníků z Cornell University a Shanghai Jiao Tong University.

Metoda

MetricScenes částečně vychází z výše uvedeného AerialMegaDepth a MegaScenes – dvou sbírek internetových fotografií pokrývajících historické archivy, turistické obrázky a profesionální fotografii. MegaScenes nabízí velké měřítko rekonstrukcí Structure from Motion (SfM), ale tyto scény postrádají jakoukoli vnitřní reálnou velikost. Aby se tento problém vyřešil, byly použity geotagované obrázky z online mapovacích služeb k zarovnání rekonstrukcí s známými fyzickými umístěními a rozměry.

Naopak, AerialMegaDepth již zahrnuje geotagované pohledy Google Earth, které poskytují rekonstrukce památek v metrickém měřítku.

Potenciální chyby rekonstrukce způsobené vizuálně podobnými, ale geograficky vzdálenými strukturami, byly řešeny pomocí MASt3R-SfM a Doppelgangers++ klasifikátoru. Po rekonstrukci Multi-View Stereo (MVS) byly nestabilní odhady hloubky a artefakty krvácení hloubky filtrovány pomocí kombinace kontrol stability a předpovědí z MoGe-2:

AerialMegaDepth odvozuje reálnou velikost kombinací internetových fotografií s geotagovanými pohledy Google Earth, zatímco scény MegaScenes jsou zarovnány s fyzickými rozměry pomocí georeferencovaných street-level obrázků. Po rekonstrukci Multi-View Stereo (MVS) jsou nestabilní odhady hloubky a artefakty krvácení hloubky filtrovány, což produkuje čistější metrické hloubkové mapy vhodné pro trénink.

Metrická velikost byla poté obnovena pomocí georeferencovaných obrázků. AerialMegaDepth již odvozuje velikost z renderování Google Earth zachycených z známých umístění, zatímco MegaScenes byly zarovnány s reálnými rozměry pomocí geotagovaných street-level obrázků získaných z mapovacích služeb.

Tyto obrázky byly zarovnány s existujícími rekonstrukcemi pomocí MASt3R, upraveny pomocí Doppelganger klasifikátoru, zarovnány s COLMAP a měřítkem pomocí RANSAC-based odhadu pomocí Earth-Centered, Earth-Fixed (ECEF) souřadnic. Scény s nesprávnými odhady velikosti nebo špatnou kvalitou registrace byly vyřazeny.

Vidění ve stereo

Sbírka MetricScenes také vychází z výše uvedeného datového souboru Stereo4D, který obsahuje tisíce reálných stereoskopických videosekvencí zachycených kamerami VR180, nabízejících temporální dimenzi zachycení:

Datový soubor Stereo4D byl postaven ze stereoskopických internetových videí, kombinujících kamerové pozice, odhady hloubky a pohybové trajektorie pro obnovení dynamických 3D scén v měřítku. Zdroj

Pokud fyzická vzdálenost mezi dvěma kamerovými objektivy se liší v různých zařízeních, byly použity pouze videa s dokumentovanými kamerovými konfiguracemi, což umožnilo obnovit hloubku scény v přesném reálném měřítku.

Stereo4D původně spoléhal na optický tokový systém SEA-RAFT pro odhad scénové geometrie, ale autoři zjistili, že nedokonalá kamerová kalibrace mohla zkreslit rekonstruované scény, způsobující, že struktury, které by měly být rovnoběžné, se neúměrně sbíhají. Proto, aby se zlepšila přesnost, nahradili tento přístup pipeline rekonstrukce s více pohledy, která společně odhaduje kamerové pozice a hloubku z více rámců.

Po srovnání π³, DepthAnything V3 a MapAnything , π³ byl vybrán pro jeho geometrickou robustnost a schopnost zachovat jemné detaily:

Obnovení metrické hloubky ze Stereo4D. Standardní stereo-matching metody mohou produkovat zkreslenou geometrii, když je kamerová kalibrace nedokonalá, zatímco π³ generuje konzistentnější scénové rekonstrukce a zachovává jemné detaily.

Pokud π³ rekonstruuje scény v libovolném měřítku, výsledné hloubkové mapy byly zarovnány s reálnými rozměry pomocí známé fyzické báze každé stereo kamerové sestavy. Další filtrování odstranilo nízkokvalitní snímky, nesrovnalosti hloubky, chyby kalibrace a nesprávné odhady velikosti.

<p Navíc, dvoufázový proces dokončení hloubky byl použit, kombinující předpovědi z MoGe-2 s geometrií z Multi-View Stereo (MVS), produkování čistějších metrických hloubkových map s konzistentnějším měřítkem a ostřejšími hranicemi objektů:

Dvoufázové dokončení hloubky. Použití pouze pozadí kotví může zachovat strukturu scény, zatímco zkresluje celkové měřítko, zatímco kombinace předních a zadních omezení v jednom kroku zavede posun měřítka a artefakty hranic.

Autoři zjistili, že internetové fotografické sbírky často postrádají spolehlivé přední hloubky, zatímco stereoskopické obrázky často chybí vzdálené pozadí. Ačkoli MoGe-2 může odhadnout hustou geometrii napříč celou scénou, jeho odhady tendují ke stejnému problému „kolapsu velikosti“, který projekt snaží vyřešit. Proto byl navržen dvoufázový pipeline dokončení hloubky, aby kombinoval silné stránky MoGe-2 a Multi-View Stereo (MVS).

Pozadí geometrie bylo obnoveno pomocí MVS-derived metrických kotví, vytvářejících základní hloubkovou mapu se spolehlivou velkou strukturou. Ve druhém kroku byly přední odhady z MoGe-2 znovu zavedeny prostřednictvím procesu dokončení hranic, navrženého pro zachování hranic objektů, zatímco zabraňuje posunu měřítka a artefaktům krvácení hloubky.

Hloubkové mapy vyprodukované tímto přístupem, tvrdí studie, byly jak vizuálně kompletní, tak konzistentnější v reálném měřítku:

Dvoufázový pipeline dokončení hloubky. V prvním kroku se používají MVS kotvy pro obnovení pozadí geometrie v spolehlivém metrickém měřítku.

Data a testy

Konečná sbírka MetricScenes se skládá z 47 579 výhradně reálných obrazů pokrývajících 134 scén z AerialMegaDepth; 29 583 obrazů z 356 scén z MegaScenes; a 22 549 snímků z 1 725 videí ze Stereo4D.

Sbírka, z níž bylo 10 scén z každého zdroje vyřazeno jako validační sada, pokrývá venkovní a vnitřní kontexty, jakož i pohledy z úrovně terénu a letecké pohledy, a městské i přírodní krajiny – kombinovaná a soudržná souvislost, která není k dispozici v žádné z jednotlivých přispívajících sbírek.

Pro počáteční kvalitativní test autoři fine-tuned model MoGe-2 ViT-Large-Normal na novém datovém souboru MetricScenes po dobu 10 000 iterací při velikosti batche 32 – efektivní tři epochy. Ořezávání a obecné data augmentation přístupy byly převzaty z původních testů MoGe-2, a trénink probíhal při learning rate 1×10^-6 (backbone) a 1×10^-5 (všechny ostatní parametry). Pro kvalitativní test byly provedeny rekonstrukce hloubky fine-tuned WildMoGe modelem, který byl porovnán s původním MoGe-2; DepthAnything V3; Metric3Dv2; UniDepth v2 ; a DepthPro:

Srovnání rekonstrukce metrické velikosti památek. Měření z Google Maps jsou zobrazena v levém sloupci.

Z tohoto výsledku studie uvádí:

‘[WildMoGe] konzistentně obnovuje více přesné absolutní velikosti napříč různými památkami, úzce se shodující s měřeními z terénu (například 31,4 m vs. 32,4 m pro Filadelfský umělecký muzeum, 46,7 m vs 46,5 m pro Piazza della Signorina). MoGe-2, DepthAnything v3 a Metric3D v2 vykazují chování „kolapsu velikosti“, konzistentně podceňující velikost vzdálených struktur.

‘UniDepth v2 produkuje více realistická měřítka, ale stále se odchyluje od měření z terénu, a DepthPro často selhává při obnovení absolutní velikosti, produkování výsledků, které jsou řádově menší než realita. Poznámka: tyto scény nejsou přítomny ve trénovacím souboru.

‘Tento výkon demonstruje, že WildMoGe může generalizovat na neviditelný obsah, na rozdíl od toho, aby si pouze pamatoval trénovací scény.’

Aby se zajistilo, že zisky nalezené nebyly omezeny na památky a velké venkovní scény, autoři také vyhodnotili WildMoGe na běžných vnitřních a uličních obrazech, kde produkoval odhady velikosti obecně konzistentní s MoGe-2, zatímco dosahoval lepší přesnosti na ETH3D dvorek scéně:

Srovnání na standardních scénách. Napříč běžnými vnitřními a uličními prostředími WildMoGe produkuje odhady velikosti obecně konzistentní s MoGe-2, zatímco dosahuje lepší přesnosti na ETH3D dvorek benchmark, obnovující rozměry objektů, které se více shodují s měřeními z terénu.

Pro vyhodnocení, zda MetricScenes skutečně zlepšila metrickou velikostní úvahu, byla provedena evaluace na dedikovaném testovacím souboru MetricScenes a na NYUv2; KITTI; ETH3D; iBims-1; GSO; DDAD; DIODE; Spring; a HAMMER.

Autoři poznamenávají, že získání hustých měření z terénu pro neomezené internetové obrázky zůstává obtížné, což znamená, že štítky MetricScenes nejsou dokonalé. Standardní benchmaky byly proto zahrnuty, aby se potvrdilo, že zisky nebyly získány na úkor obecné geometrické výkonnosti.

Srovnání byla provedena proti MoGe-2; UniDepth V2; DepthPro; MASt3R; Depth Anything V2; Depth Anything V3; ZoeDepth; a Metric3D V2:

Kvantitativní evaluace relativní a metrické geometrie. Na testovacím souboru MetricScenes WildMoGe překonal MoGe-2 napříč všemi uváděnými metrikami, zatímco zůstal obecně konkurenceschopný se ZoeDepth, Metric3D V2, Depth Anything V2, Depth Anything V3, MASt3R, UniDepth V2 a DepthPro na standardních benchmarcích, ukazující, že zlepšená metrická velikostní úvaha byla dosažena bez obětování obecné geometrické rekonstrukční kvality.

WildMoGe podstatně zlepšil metrickou velikostní předpověď na MetricScenes, překonávající MoGe-2 napříč všemi uváděnými metrikami a dosahující silnějších metrických geometrických a hloubkových skórů než MoGe-2, DepthAnything V3, Metric3D V2, UniDepth V2 a DepthPro.

Výkon na NYUv2, KITTI, ETH3D, iBims-1, GSO, Sintel, DDAD, DIODE, Spring a HAMMER zůstal obecně srovnatelný s MoGe-2. Autoři připisují tyto zisky metrické supervizi MetricScenes, která údajně pomáhá snižovat kolaps velikosti, zatímco zachovává obecnou scénovou rekonstrukční výkonnost.

Závěr

Řešení MetricScenes pro „kolaps velikosti“ se jeví jako somewhat Heath-Robinsonova záležitost, v článku – zoufalé spojení a destilace více datových souborů, z nichž každý má něco cenného k přispění. Zdá se to trochu jako pokus určit tvar slona dotykem.

Možná nejvýznamnější službou, kterou článek nabízí, je upozornění na problém, který zdá se vyžaduje some druh novátorského nebo upraveného univerzálního standardu. Nicméně, protože takový inovační přístup by narušil reprodukovatelnost a konzistenci současných metodologií, musel by být velmi přesvědčivý.

* Moje konverze inline citací autorů na hypertextové odkazy.

Poprvé zveřejněno ve čtvrtek 11. června 2026