Unghiul lui Anderson

Lupta IA pentru a recunoaște mărimea monumentelor

mm
AI-generated image (GPT-2 + Photoshop): High-angle view of a man holding a scale model of the Leaning Tower of Pisa on a grassy field, with an inset photograph showing the same model aligned from ground level to resemble the full-sized tower in the background.

Modelele de limbaj de viziune înțeleg monumentele, dar nu pot vedea încă imaginea de ansamblu…

 

Una dintre primele abilități de supraviețuire pe care le dezvoltăm este capacitatea de a distinge între lucruri care sunt mici sau departe. Putem acoperi luna cu degetul nostru, fără să credem că are mărimea unei monede de 10 bani, pentru că am internalizat o înțelegere a scării relative.

Acesta este un obiectiv neobișnuit de greu pentru sistemele de viziune computerizate, deoarece majoritatea dintre ele se bazează pe anotarea anterioară, care nu le ajută să “înțeleagă” scara în același mod ca oamenii. Mai mult, dincolo de o anumită limită și destul de aproape, totul din depărtare este dincolo de capacitatea viziunii stereoscopice de a rezolva – mașina de la capătul parcării; clădirea cu birouri în depărtare, dincolo de aceasta; și luna în formă de secera care se ridică deasupra lor…toate sunt entități “2D”, pentru majoritatea sistemelor de învățare automată bazate pe viziune.

Desigur, atunci când un anumit exemplu de obiect “distant” dar greșit interpretat se află bine reprezentat în datele de antrenare, sistemele care au văzut aceste date pot fi greu de înșelat:

ChatGPT-5.5 nu este deloc impresionat de acest clasic truc de turist.

ChatGPT-5.5 nu este deloc impresionat de acest clasic truc de turist.

Cu cât spațiul latent antrenat al modelului conține mai puțină informație specifică și repetată, cu atât va trebui să poată generaliza și să internalizeze conceptele de scară pe care le înțelegem la o vârstă fragedă. Fără aceasta, chiar și exemplele celebre pot cauza încă estimări greșite ale scării:

În acest exemplu speculativ, preluat din noua lucrare pe care o examinăm astăzi, punctul de vedere al camerei prezintă Arcul de Triumf în fundal – dar sistemul nu știe ce mărime are și face o presupunere greșită. Sursă - https://arxiv.org/pdf/2606.02379

În acest exemplu speculativ, adaptat din noua lucrare pe care o examinăm astăzi, punctul de vedere al camerei prezintă Arcul de Triumf în fundal – dar sistemul nu știe ce mărime are și face o presupunere greșită. Sursă

Pericolul, cu obiecte specifice și foarte caracteristice, cum ar fi Turnul Eiffel, este că sistemul va recurge la o scurtătură de estimare a mărimii care este corectă pentru modelul original, dar nu este corectă pentru multiplele copii ale monumentului parizian care sunt la fel de departe de rezoluția stereo, dar nu sunt aproape de aceeași mărime.

Prin urmare, este important ca sistemele de viziune să abordeze vederi noi (nevăzute) cu un set de abilități pregătit și nu doar cu o mulțime de “coduri de acces”.

Scalare

În acest scop, o nouă colaborare între Statele Unite și China oferă un set de date de remediere, împreună cu o metodă de estimare, care abordează problema:

Abordarea nouă modifică un sistem anterior prin material de antrenare îmbunătățit – date suficient de variate pentru a oferi o înțelegere mai profundă a problemelor de adâncime.

Abordarea nouă modifică un sistem anterior prin material de antrenare îmbunătățit – date suficient de variate pentru a oferi o înțelegere mai profundă a problemelor de adâncime.

Lansat împreună cu un site web însoțitor, inițiativa MetricScenes prezintă date și lansări de cod.

Articolul afirmă*:

‘[Am] descoperit că metodele actuale de ultimă generație eşuează frecvent în a estima scara corectă a scenei, ducând la un fenomen persistent de colaps al scării în “scenarii din sălbăticie”.

‘[Imaginea de mai sus] prezintă un exemplu în care există referințe semantice clare (oameni), dar în care modele precum MoGe-2 prezintă o inconsistență semnificativă a scării pe parcursul distanțelor: scara metrică prezisă pentru obiectele din apropiere este plauzibilă – în acest caz, turiștii au o înălțime plauzibilă – dar scara pentru structurile din depărtare este subestimată dramatic – aici, Arcul de Triomphe din fundal este prezis metric să aibă doar 18,8 m lățime, ceea ce este de peste 2 ori mai mic decât lățimea reală (44,8 m).

‘MoGe-2 a presupus un monument micșorat, în ciuda indiciilor contrare.’

Puterile a Treia

Colecția nouă a autorilor a fost alcătuită prin combinarea a trei seturi de date existente: MegaScenes, AerialMegaDepth și Stereo4D:

Imaginile de exemplu din MegaScenes, care fac parte din noua colecție. Sursă - https://megascenes.github.io/

Imaginile de exemplu din MegaScenes, care fac parte din noua colecție. Sursă

Problema cu seturile de date care contribuie la MetricScenes, luate individual, este că fiecare se aplică unor domenii limitate, cum ar fi secvențele de filmare din mașină sau scenele interioare, când este nevoie de un domeniu combinat pentru a aborda problema și a aduce sistemele de viziune mai aproape de o înțelegere conceptuală umană a scării.

Fiecare imagine este însoțită de imagini RGB, de adâncime parțial observată derivată din Structură din Mișcare (SfM), Stereo cu Multiple Vederi (MVS) sau alte priorități geometrice, împreună cu o hartă de adâncime completă generată printr-un proces de completare a adâncimii în două etape și metadatele camerelor asociate.

Reglarea cadrului MoGe-2 pe noul set de date ‘atenuază semnificativ’ colapsul scării pe care autorii îl menționează, realizând aparent rezultate superioare în scene deschise și performanță de ultimă generație pe benchmark-urile conexe.

Noua lucrare este intitulată Honey, I Shrunk the Arc de Triomphe! și provine de la patru cercetători de la Universitatea Cornell și Universitatea Shanghai Jiao Tong.

Metodă

MetricScenes se bazează parțial pe AerialMegaDepth și MegaScenes – două colecții de fotografii de internet care acoperă arhive istorice, imagini turistice și fotografie profesională. Deși MegaScenes oferă reconstrucții la scară largă ale Structurii din Mișcare (SfM), aceste scene lipsesc de orice scară reală în sine. Pentru a aborda această problemă, s-a folosit imagini georeferențiate de la servicii de hartă online pentru a alinia reconstrucțiile cu locații și dimensiuni fizice cunoscute.

În schimb, AerialMegaDepth conține deja vederi georeferențiate din Google Earth, care oferă reconstrucții ale monumentelor la scară metrică.

Erori potențiale de reconstrucție cauzate de structuri vizual asemănătoare, dar geografic îndepărtate, au fost abordate folosind MASt3R-SfM și clasificatorul Doppelgangers++. După reconstrucția Stereo cu Multiple Vederi (MVS), s-au filtrat estimatele de adâncime instabile și artefactele de sângerare a adâncimii folosind o combinație de verificări de stabilitate și predicții din MoGe-2:

AerialMegaDepth derivă scara reală prin combinarea fotografiilor de internet cu vederi georeferențiate din Google Earth, în timp ce scenele MegaScenes sunt aliniate la dimensiuni fizice folosind imagini georeferențiate de la nivelul străzii. După reconstrucția Stereo cu Multiple Vederi (MVS), estimatele de adâncime instabile și artefactele de sângerare a adâncimii sunt filtrate, producând hărți de adâncime metrică mai curate, potrivite pentru antrenare. Cutiile galbene evidențiază obiectele tranzitorii eliminate în timpul procesării, în timp ce cutiile roșii indică regiunile corectate de sângerare a adâncimii.

AerialMegaDepth derivă scara reală prin combinarea fotografiilor de internet cu vederi georeferențiate din Google Earth, în timp ce scenele MegaScenes sunt aliniate la dimensiuni fizice folosind imagini georeferențiate de la nivelul străzii. După reconstrucția Stereo cu Multiple Vederi (MVS), estimatele de adâncime instabile și artefactele de sângerare a adâncimii sunt filtrate, producând hărți de adâncime metrică mai curate, potrivite pentru antrenare. Cutiile galbene evidențiază obiectele tranzitorii eliminate în timpul procesării, în timp ce cutiile roșii indică regiunile corectate de sângerare a adâncimii.

Scara metrică a fost recuperată apoi prin imagini georeferențiate. AerialMegaDepth conține deja scara derivată din renderările Google Earth capturate din locații cunoscute, în timp ce MegaScenes a fost aliniat la dimensiuni fizice reale folosind imagini georeferențiate de la nivelul străzii, obținute de la servicii de hartă.

Aceste imagini au fost asociate cu reconstrucții existente cu MASt3R, rafinate cu clasificatorul Doppelganger, aliniate cu COLMAP și scalate prin estimare bazată pe RANSAC, utilizând coordonate Centrate pe Pământ și Fixate pe Pământ (ECEF). Scenele cu estimate de scară nefiabile sau calitate de înregistrare slabă au fost eliminate.

Viziunea Stereoscopică

Colecția MetricScenes se bazează și pe setul de date Stereo4D, care prezintă mii de secvențe de video stereoscopice reale capturate cu camere VR180, oferind o dimensiune temporală capturilor:

Setul de date Stereo4D a fost construit din videoclipuri stereoscopice de pe internet, combinând poziții de cameră, estimate de adâncime și traiectorii de mișcare pentru a recupera scene dinamice 3D la scară. Setul de date rezultat conține sute de mii de clipuri video reprezentate ca nori de puncte cu urme de mișcare pe termen lung, oferind o sursă mare de geometrie și mișcare 3D din lumea reală pentru antrenarea modelelor de viziune. Sursă - https://arxiv.org/pdf/2412.09621

Setul de date Stereo4D a fost construit din videoclipuri stereoscopice de pe internet, combinând poziții de cameră, estimate de adâncime și traiectorii de mișcare pentru a recupera scene dinamice 3D la scară. Setul de date rezultat conține sute de mii de clipuri video reprezentate ca nori de puncte cu urme de mișcare pe termen lung, oferind o sursă mare de geometrie și mișcare 3D din lumea reală pentru antrenarea modelelor de viziune. Sursă

Deoarece distanța fizică dintre cele două lentile de cameră variază în funcție de dispozitiv, s-au folosit doar videoclipuri cu configurații de cameră documentate, permițând recuperarea adâncimii scenei la o scară reală precisă.

Stereo4D s-a bazat inițial pe sistemul de flux optic SEA-RAFT pentru a estima geometria scenei, dar autorii au constatat că o calibrare imperfectă a camerei poate distorsiona scenele reconstruite, făcând structuri care ar trebui să fie paralele să converge în mod neobișnuit. Prin urmare, pentru a îmbunătăți precizia, au înlocuit această abordare cu o conductă de reconstrucție multi-vederi care estimează în mod comun pozițiile camerelor și adâncimea din multiple cadre.

După compararea π³, DepthAnything V3 și MapAnything, π³ a fost selectat pentru robustețea sa geometrică și capacitatea de a păstra detalii fine:

Recuperarea metrică a adâncimii din Stereo4D. Metodele standard de potrivire stereo pot produce geometrii distorsionate atunci când calibrarea camerei este imperfectă, în timp ce π³ generează reconstrucții de scene mai consistente și păstrează detalii fine. Geometria recuperată este apoi aliniată la baza fizică cunoscută a aparatului de cameră stereo, producând hărți de adâncime metrică precis scalate.

Recuperarea metrică a adâncimii din Stereo4D. Metodele standard de potrivire stereo pot produce geometrii distorsionate atunci când calibrarea camerei este imperfectă, în timp ce π³ generează reconstrucții de scene mai consistente și păstrează detalii fine. Geometria recuperată este apoi aliniată la baza fizică cunoscută a aparatului de cameră stereo, producând hărți de adâncime metrică precis scalate.

Deoarece π³ reconstruește scene la o scară arbitrară, hărțile de adâncime rezultate au fost aliniate la dimensiuni fizice reale utilizând baza fizică cunoscută a fiecărui aparat de cameră stereo. Filtrarea suplimentară a eliminat cadre de calitate scăzută, incoerențe de adâncime, erori de calibrare și estimate de scară nefiabile.

În plus, s-a utilizat un proces de completare a adâncimii în două etape, combinând predicțiile din prim-plan de la MoGe-2 cu geometria din fundal de la Stereo cu Multiple Vederi (MVS), producând date de antrenare metrică mai curate, cu scară și margini de obiecte mai clare:

Completarea adâncimii în două etape. Utilizarea doar a ancilor din fundal poate păstra structura scenei, dar distorsiona scara generală, în timp ce combinarea constrângerilor din prim-plan și din fundal într-o singură trecere introduce derivația scării și artefactele de margine. Abordarea în două etape menține scara metrică consistentă pe ambele obiecte apropiate și îndepărtate, păstrând marginile de obiecte clare.

Completarea adâncimii în două etape. Utilizarea doar a ancilor din fundal poate păstra structura scenei, dar distorsiona scara generală, în timp ce combinarea constrângerilor din prim-plan și din fundal într-o singură trecere introduce derivația scării și artefactele de margine. Abordarea în două etape menține scara metrică consistentă pe ambele obiecte apropiate și îndepărtate, păstrând marginile de obiecte clare.

Autorii au observat că colecțiile de fotografii de pe internet adesea lipsesc de adâncime de încredere în prim-plan, în timp ce imaginile stereo frecvent lipsesc regiunile din fundal îndepărtate. Deși MoGe-2 poate infera geometrie densă pe o scenă întreagă, estimatele sale tind către același colaps al scării pe care proiectul încearcă să îl abordeze. Prin urmare, conducta de completare a adâncimii în două etape a fost proiectată pentru a combina punctele forte ale MoGe-2 și ale Stereo cu Multiple Vederi (MVS).

Geometria din fundal a fost recuperată utilizând ancore metrică derivate din MVS, creând o hartă de bază de adâncime cu structură largă fiabilă. În a doua etapă, estimatele din prim-plan de la MoGe-2 au fost reintroduse printr-un proces de completare conștient de margine, proiectat pentru a păstra marginile de obiecte, prevenind derivația scării și artefactele de sângerare a adâncimii.

Hărțile de adâncime produse de această abordare, susține articolul, au fost atât vizual complete, cât și mai consistente în ceea ce privește scara reală:

Conducta de completare a adâncimii în două etape. În prima etapă, ancorele MVS sunt utilizate pentru a recupera geometria din fundal la o scară metrică fiabilă. În a doua etapă, estimatele din prim-plan de la MoGe-2 sunt reintroduse printr-un proces de compunere conștient de margine, producând o hartă finală de adâncime proiectată pentru a păstra atât acuratețea la scară largă, cât și detalii locale clare.

Conducta de completare a adâncimii în două etape. În prima etapă, ancorele MVS sunt utilizate pentru a recupera geometria din fundal la o scară metrică fiabilă. În a doua etapă, estimatele din prim-plan de la MoGe-2 sunt reintroduse printr-un proces de compunere conștient de margine, producând o hartă finală de adâncime proiectată pentru a păstra atât acuratețea la scară largă, cât și detalii locale clare.

Date și Teste

Colecția finală MetricScenes cuprinde 47.579 de imagini exclusiv din lumea reală, care acoperă 134 de scene din AerialMegaDepth; 29.583 de imagini din 356 de scene din MegaScenes; și 22.549 de cadre din 1.725 de videoclipuri din Stereo4D.

Colecția, din care s-au reținut 10 scene din fiecare sursă ca set de validare, acoperă contexte exterioare și interioare, precum și vederi de la nivelul solului și aeriene, și peisaje urbane, precum și naturale – un context colectat și coerent, care nu este disponibil în niciuna dintre colecțiile individuale.

Pentru un test calitativ inițial, autorii au reglat modelul MoGe-2 ViT-Large-Normal pe noul set de date MetricScenes pentru 10.000 de iterații la o dimensiune a lotului de 32 – efectiv, aproximativ trei epoci. S-au folosit tehnici de augmentare a datelor și o rată de învățare de 1×10-6 (spate) și 1×10-5 (toate celelalte parametri). Pentru testul calitativ, reconstrucțiile de adâncime au fost efectuate de modelul WildMoGe finit, comparat cu MoGe-2 de bază; DepthAnything V3; Metric3Dv2; UniDepth v2 ; și DepthPro:

Comparație a reconstrucției monumentelor la scară metrică. Măsurătorile reale de la Google Maps sunt prezentate în coloana din stânga. Pe monumente reale nevăzute, WildMoGe produce estimate de scară care se potrivesc mai bine cu dimensiunile cunoscute, în timp ce MoGe-2, DepthAnything V3 și Metric3D V2 subestimează frecvent mărimea structurilor îndepărtate. UniDepth V2 produce adesea scări mai plauzibile, dar rămâne inconsistent, în timp ce DepthPro produce uneori erori severe de scară.

Comparație a reconstrucției monumentelor la scară metrică. Măsurătorile reale de la Google Maps sunt prezentate în coloana din stânga. Pe monumente reale nevăzute, WildMoGe produce estimate de scară care se potrivesc mai bine cu dimensiunile cunoscute, în timp ce MoGe-2, DepthAnything V3 și Metric3D V2 subestimează frecvent mărimea structurilor îndepărtate. UniDepth V2 produce adesea scări mai plauzibile, dar rămâne inconsistent, în timp ce DepthPro produce uneori erori severe de scară.

Despre acest rezultat, articolul afirmă:

‘[WildMoGe] recuperează în mod constant scări absolute mai precise pe diverse monumente, potrivindu-se îndeaproape cu dimensiunile reale (de exemplu, 31,4 m vs. 32,4 m pentru Muzeul de Artă din Philadelphia, 46,7 m vs 46,5 m pentru Piazza della Signorina). MoGe-2, DepthAnything v3 și Metric3D v25 prezintă un comportament de colaps al scării, subestimând în mod constant mărimea structurilor îndepărtate.

‘UniDepth v2 produce scări mai realiste, dar se abate de la valorile reale, iar DepthPro adesea nu reușește să recupereze scara absolută, producând rezultate care sunt cu ordine de mărime mai mici decât realitatea. Notați că aceste scene lipsesc din setul de antrenare.

‘Această performanță demonstrează că WildMoGe poate generaliza la conținut nevăzut, și nu doar memorizează scenele de antrenare.’

Pentru a asigura că beneficiile găsite nu erau limitate la monumente și scene mari în aer liber, autorii au evaluat, de asemenea, WildMoGe pe imagini obișnuite de interior și de la nivelul străzii, unde a produs estimate de scară în general consistente cu MoGe-2, realizând o acuratețe mai mare pe un benchmark de curte din ETH3D:

Comparație pe scene standard. Pe imagini obișnuite de interior și de la nivelul străzii, WildMoGe produce estimate de scară în general consistente cu MoGe-2, realizând o acuratețe mai mare pe benchmark-ul de curte ETH3D, recuperând dimensiuni de obiecte care se potrivesc mai bine cu măsurătorile reale.

Comparație pe scene standard. Pe imagini obișnuite de interior și de la nivelul străzii, WildMoGe produce estimate de scară în general consistente cu MoGe-2, realizând o acuratețe mai mare pe benchmark-ul de curte ETH3D, recuperând dimensiuni de obiecte care se potrivesc mai bine cu măsurătorile reale.

Pentru a evalua dacă MetricScenes a îmbunătățit într-adevăr raționamentul metric al scării, s-a efectuat o evaluare atât pe un set de test MetricScenes dedicat, cât și pe NYUv2; KITTI; ETH3D; iBims-1; GSO; Sintel; DDAD; DIODE; Spring; și HAMMER.

Autorii notează că obținerea de măsurători dense de referință pentru imagini de internet neconstrânse rămâne dificilă, ceea ce înseamnă că etichetele MetricScenes nu sunt perfecte. S-au inclus benchmark-uri standard pentru a verifica că orice beneficii nu au venit în detrimentul performanței geometrice generale.

Comparațiile au fost efectuate împotriva MoGe-2; UniDepth V2; DepthPro; MASt3R; Depth Anything V2; Depth Anything V3; ZoeDepth; și Metric3D V2:

Evaluare cantitativă a geometriei relative și metrică. Pe setul de test MetricScenes, WildMoGe a depășit MoGe-2 în toate metricile raportate, rămânând în general competitiv cu ZoeDepth, Metric3D V2, Depth Anything V2, Depth Anything V3, MASt3R, UniDepth V2 și DepthPro pe benchmark-urile stabilite, indicând faptul că s-a realizat o estimare îmbunătățită a scării metrică fără a sacrifica calitatea reconstrucției geometrice generale.

Evaluare cantitativă a geometriei relative și metrică. Pe setul de test MetricScenes, WildMoGe a depășit MoGe-2 în toate metricile raportate, rămânând în general competitiv cu ZoeDepth, Metric3D V2, Depth Anything V2, Depth Anything V3, MASt3R, UniDepth V2 și DepthPro pe benchmark-urile stabilite, indicând faptul că s-a realizat o estimare îmbunătățită a scării metrică fără a sacrifica calitatea reconstrucției geometrice generale.

WildMoGe a îmbunătățit semnificativ predicția scării metrică pe MetricScenes, depășind MoGe-2 în toate metricile raportate și realizând scoruri de geometrie și adâncime metrică mai bune decât MoGe-2, DepthAnything V3, Metric3D V2, UniDepth V2 și DepthPro.

Performanța pe NYUv2, KITTI, ETH3D, iBims-1, GSO, Sintel, DDAD, DIODE, Spring și HAMMER a rămas în general comparabilă cu MoGe-2. Autorii atribuie aceste beneficii suplimentare supravegherii metrică a MetricScenes, care pare să ajute la reducerea colapsului scării, păstrând în același timp performanța generală de reconstrucție a scenei.

Concluzie

Soluția MetricScenes pentru “colapsul scării” pare a fi o încercare de a combina și distila multiple seturi de date, fiecare contribuind cu o perspectivă valoroasă. Acest lucru pare a fi o încercare de a determina forma unui elefant prin atingere.

Probabil că cel mai valoros serviciu pe care îl oferă articolul este acela de a atrage atenția asupra problemei, care pare să necesite un fel de standard universal nou sau adaptat. Cu toate acestea, o astfel de inovație ar întrerupe reprodusibilitatea și coerența metodologiilor actuale, astfel încât ar trebui să fie foarte convingătoare.

 

* Conversia mea a citărilor inline ale autorilor în legături.

Publicat pentru prima dată joi, 11 iunie 2026

Scriitor pe machine learning, specialist în domeniul sintezei de imagini umane. Foster head of research content la Metaphysic.ai.