Góc nhìn Anderson

Trí tuệ nhân tạo gặp khó khăn trong việc nhận biết kích thước của các địa danh

Đã xuất bản 11 tháng 6, 2026

Martin Anderson

AI-generated image (GPT-2 + Photoshop): High-angle view of a man holding a scale model of the Leaning Tower of Pisa on a grassy field, with an inset photograph showing the same model aligned from ground level to resemble the full-sized tower in the background.

Các mô hình ngôn ngữ hình ảnh hiểu các công trình, nhưng chúng vẫn không thể nhìn thấy toàn bộ bức tranh…

Một trong những kỹ năng sinh tồn sớm nhất mà chúng ta phát triển là khả năng phân biệt giữa những thứ gần và những thứ xa. Chúng ta có thể che mặt trăng bằng ngón tay cái mà không nghĩ rằng nó có kích thước của một đồng xu, vì chúng ta đã nội hóa sự hiểu biết về tỷ lệ tương đối.

Đây là một nhiệm vụ đặc biệt khó khăn đối với các hệ thống thị giác máy tính, vì hầu hết chúng dựa vào chú thích trước, điều không giúp chúng “hiểu” tỷ lệ theo cách giống như con người. Hơn nữa, ngoài một giới hạn nhất định và khá gần, mọi thứ ở xa đều nằm beyond khả năng của thị giác lập thể để phân giải – chiếc xe ở cuối bãi đậu xe; tòa nhà chọc trời ở xa hơn; và mặt trăng lưỡi liềm mọc lên trên đó… tất cả đều là các thực thể “2D” đối với hầu hết các hệ thống học máy dựa trên thị giác.

Tất nhiên, khi một ví dụ cụ thể về một vật thể “xa” nhưng bị hiểu lầm kết thúc trong dữ liệu đào tạo, các hệ thống đã xem dữ liệu đó có thể khó bị đánh lừa:

ChatGPT-5.5 không hề ấn tượng với trò đùa du lịch cổ điển này.

Ngược lại, mô hình càng ít có không gian潜 ẩn được đào tạo với thông tin cụ thể và lặp đi lặp lại, mô hình càng cần phải tổng quát hóa và nội hóa các khái niệm về tỷ lệ mà chúng ta nắm bắt từ khi còn nhỏ. Nếu không, ngay cả những ví dụ nổi tiếng cũng có thể gây ra sự ước tính sai về tỷ lệ:

Trong ví dụ suy đoán này, lấy từ bài báo mới mà chúng tôi đang xem xét hôm nay, góc nhìn của máy ảnh có Arc De Triomphe ở hậu cảnh – nhưng hệ thống không biết kích thước của nó và đưa ra một ước tính sai. Nguồn

Nguy cơ, với các đối tượng cụ thể và đặc trưng như Tháp Eiffel, là hệ thống sẽ sử dụng một phương pháp tắt để ước tính kích thước mà đúng với mô hình ban đầu, nhưng không đúng với nhiều bản sao của địa danh Paris nằm ngoài tầm nhìn lập thể, nhưng không gần bằng.

Vì vậy, điều quan trọng là các hệ thống thị giác phải tiếp cận các góc nhìn mới (chưa nhìn thấy) với một bộ kỹ năng sẵn sàng, chứ không chỉ là một loạt “mã cheat”.

Phát triển quy mô

Để đạt được điều này, một sự hợp tác mới giữa Mỹ và Trung Quốc cung cấp một tập dữ liệu sửa đổi, cùng với một phương pháp ước tính, để giải quyết vấn đề:

Cách tiếp cận mới sửa đổi một hệ thống trước đó thông qua vật liệu đào tạo được cải tiến – dữ liệu đa dạng đủ để cung cấp sự hiểu biết sâu sắc hơn về các vấn đề về độ sâu.

Được ra mắt cùng với một trang web kèm theo, sáng kiến MetricScenes bao gồm dữ liệu và phát hành mã.

Bản thảo cho biết*:

‘[Chúng tôi] phát hiện ra rằng các phương pháp hiện tại thường không thể ước tính đúng quy mô cảnh, dẫn đến hiện tượng sụp đổ quy mô trong các kịch bản “trong tự nhiên”.

‘[Hình ảnh trên] cho thấy một ví dụ nơi các tham chiếu ngữ nghĩa rõ ràng (con người) có mặt, nhưng các mô hình như MoGe-2 thể hiện sự không nhất quán về quy mô đáng kể trên các khoảng cách:

‘quy mô dự đoán cho các vật thể gần là hợp lý – trong trường hợp này, du khách có chiều cao hợp lý – nhưng quy mô cho các cấu trúc xa là bị đánh giá thấp đáng kể – ở đây, Arc de Triomphe ở hậu cảnh được dự đoán là chỉ 18,8 m rộng, nhỏ hơn 2 lần so với chiều rộng thực tế (44,8 m).

‘MoGe-2 đã đưa ra một địa danh thu nhỏ, mặc dù có các gợi ý ngược lại.’

Sức mạnh của ba

Tập hợp mới của các tác giả được tạo thành bằng cách kết hợp ba tập dữ liệu hiện có: MegaScenes, AerialMegaDepth và Stereo4D:

Hình ảnh ví dụ từ MegaScenes, là một phần của bộ sưu tập mới. Nguồn

Vấn đề với các tập dữ liệu góp phần tạo nên MetricScenes, khi xem riêng lẻ, là chúng mỗi tập áp dụng cho các lĩnh vực hạn chế, chẳng hạn như cảnh quay POV từ xe hơi, hoặc cảnh trong nhà, khi một lĩnh vực kết hợp là cần thiết để giải quyết vấn đề và đưa các hệ thống thị giác gần hơn với sự hiểu biết về tỷ lệ theo phong cách con người.

Mỗi hình ảnh đi kèm với hình ảnh RGB, độ sâu một phần được quan sát từ Cấu trúc từ Chuyển động (SfM), Đa góc nhìn Stereo (MVS) hoặc các tiên đề hình học khác, cùng với một bản đồ độ sâu hoàn chỉnh được tạo ra thông qua một quá trình hoàn thiện Poisson hai giai đoạn và siêu dữ liệu máy ảnh liên quan.

Tinh chỉnh khuôn khổ MoGe-2 trên tập dữ liệu mới ‘đã giảm đáng kể’ sự sụp đổ quy mô mà các tác giả đề cập, được cho là đạt được kết quả vượt trội trong các cảnh mở và hiệu suất hàng đầu trong các điểm chuẩn liên quan.

Bản thảo mới mới có tiêu đề Honey, I Shrunk the Arc de Triomphe!, và đến từ bốn nhà nghiên cứu từ Đại học Cornell và Đại học Shanghai Jiao Tong.

Phương pháp

MetricScenes dựa một phần vào AerialMegaDepth và MegaScenes – hai bộ sưu tập ảnh Internet bao gồm các lưu trữ lịch sử, hình ảnh du lịch và nhiếp ảnh chuyên nghiệp. Mặc dù MegaScenes cung cấp các bản tái tạo SfM quy mô lớn, nhưng các cảnh này thiếu bất kỳ tỷ lệ thực tế nào. Để giải quyết vấn đề này, hình ảnh được gắn thẻ địa lý từ các dịch vụ bản đồ trực tuyến đã được sử dụng để căn chỉnh các bản tái tạo với các vị trí và kích thước vật lý thực tế.

Ngược lại, AerialMegaDepth đã kết hợp các cảnh Google Earth được gắn thẻ địa lý, cung cấp các bản tái tạo địa danh có tỷ lệ đo lường.

Các lỗi tái tạo tiềm năng do các cấu trúc tương tự về mặt hình ảnh nhưng cách xa về mặt địa lý đã được giải quyết bằng cách sử dụng MASt3R-SfM và bộ phân loại Doppelgangers++. Sau khi tái tạo MVS, các ước tính độ sâu không ổn định và các artifact chảy độ sâu đã được lọc bằng cách kết hợp các kiểm tra ổn định và dự đoán từ MoGe-2:

AerialMegaDepth lấy tỷ lệ thực tế bằng cách kết hợp ảnh Internet với các cảnh Google Earth được gắn thẻ địa lý, trong khi các cảnh MegaScenes được căn chỉnh với các kích thước vật lý bằng cách sử dụng hình ảnh đường phố được gắn thẻ địa lý. Sau khi tái tạo MVS, các ước tính độ sâu không ổn định và các artifact chảy độ sâu đã được lọc ra, tạo ra các bản đồ độ sâu có tỷ lệ đo lường sạch sẽ phù hợp cho đào tạo. Các hộp màu vàng突出 các vật thể tạm thời bị xóa trong quá trình xử lý, trong khi các hộp màu đỏ chỉ ra các vùng chảy độ sâu được sửa chữa.

Tỷ lệ đo lường sau đó được phục hồi thông qua hình ảnh được gắn thẻ địa lý. AerialMegaDepth đã lấy tỷ lệ từ các bản đồ Google Earth được chụp từ các vị trí được biết, trong khi MegaScenes được căn chỉnh với các kích thước thực tế bằng cách sử dụng hình ảnh đường phố được gắn thẻ địa lý từ các dịch vụ bản đồ.

Những hình ảnh này đã được khớp với các bản tái tạo hiện có bằng MASt3R, tinh chỉnh bằng bộ phân loại Doppelganger, căn chỉnh với COLMAP và được đo lường bằng cách sử dụng ước tính dựa trên RANSAC sử dụng tọa độ Trái đất-Centered, Earth-Fixed (ECEF). Các cảnh có ước tính tỷ lệ không đáng tin cậy hoặc chất lượng đăng ký kém đã bị loại bỏ.

Nhìn bằng lập thể

Bộ sưu tập MetricScenes cũng dựa trên tập dữ liệu Stereo4D, có tính năng hàng nghìn chuỗi video lập thể thực tế được quay bằng máy ảnh VR180, cung cấp một chiều thời gian cho các cảnh:

Tập dữ liệu Stereo4D được xây dựng từ các video lập thể trên Internet, kết hợp các tư thế máy ảnh, ước tính độ sâu và các đường dẫn chuyển động để phục hồi các cảnh 3D động tại tỷ lệ. Tập dữ liệu kết quả chứa hàng trăm nghìn đoạn video được biểu diễn dưới dạng đám mây điểm với các đường dẫn chuyển động dài, cung cấp một nguồn lớn về hình học 3D thực tế và chuyển động để đào tạo các mô hình thị giác. Nguồn

Bởi vì khoảng cách vật lý giữa hai ống kính máy ảnh khác nhau trên các thiết bị khác nhau, chỉ các video có cấu hình máy ảnh được ghi lại mới được sử dụng, cho phép độ sâu của cảnh được phục hồi ở tỷ lệ thực tế chính xác.

Stereo4D ban đầu dựa vào hệ thống dòng quang SEA-RAFT để ước tính hình học cảnh, nhưng các tác giả phát hiện ra rằng việc hiệu chỉnh máy ảnh không hoàn hảo có thể làm biến dạng các cảnh được tái tạo, khiến các cấu trúc nên song song hội tụ một cách không tự nhiên. Do đó, để cải thiện độ chính xác, họ đã thay thế cách tiếp cận này bằng một đường ống tái tạo đa góc nhìn ước tính đồng thời các tư thế máy ảnh và độ sâu từ nhiều khung hình.

Sau khi so sánh π³, DepthAnything V3 và MapAnything, π³ đã được chọn vì sự mạnh mẽ về mặt hình học và khả năng bảo tồn các chi tiết tinh tế:

Phục hồi độ sâu có tỷ lệ đo lường từ Stereo4D. Các phương pháp ghép lập thể tiêu chuẩn có thể tạo ra hình học bị biến dạng khi hiệu chỉnh máy ảnh không hoàn hảo, trong khi π³ tạo ra các tái tạo cảnh nhất quán hơn và bảo tồn các chi tiết tinh tế. Hình học được phục hồi sau đó được căn chỉnh với baseline vật lý đã biết của máy ảnh lập thể, tạo ra các bản đồ độ sâu có tỷ lệ đo lường chính xác.

Vì π³ tái tạo các cảnh ở tỷ lệ tùy ý, các bản đồ độ sâu kết quả đã được căn chỉnh với các kích thước thực tế bằng cách sử dụng baseline vật lý đã biết của mỗi máy ảnh lập thể. Các bộ lọc bổ sung đã loại bỏ các khung hình chất lượng thấp, các ước tính độ sâu không nhất quán, các lỗi hiệu chỉnh và các ước tính tỷ lệ không đáng tin cậy.

Ngoài ra, một quá trình hoàn thiện độ sâu hai giai đoạn đã được sử dụng, kết hợp các dự đoán tiền cảnh từ MoGe-2 với hình học hậu cảnh từ MVS, tạo ra dữ liệu đào tạo có tỷ lệ đo lường sạch sẽ và có các biên giới đối tượng sắc nét hơn:

Hoàn thiện độ sâu hai giai đoạn. Sử dụng chỉ các neo hậu cảnh có thể bảo tồn cấu trúc cảnh trong khi làm biến dạng tỷ lệ chung, trong khi việc kết hợp các ràng buộc tiền cảnh và hậu cảnh trong một lần đi có thể giới thiệu trôi tỷ lệ và các artifact biên giới. Cách tiếp cận hai giai đoạn duy trì tỷ lệ đo lường nhất quán trên cả các vật thể gần và xa trong khi bảo tồn các biên giới đối tượng sạch sẽ.

Các tác giả quan sát thấy rằng các bộ sưu tập ảnh Internet thường thiếu độ sâu tiền cảnh đáng tin cậy, trong khi ảnh lập thể thường thiếu các vùng hậu cảnh xa. Mặc dù MoGe-2 có thể suy ra hình học dày đặc trên toàn cảnh, nhưng các ước tính của nó có xu hướng hướng tới vấn đề sụp đổ tỷ lệ mà dự án này nhằm giải quyết. Do đó, đường ống hoàn thiện độ sâu hai giai đoạn đã được thiết kế để kết hợp các điểm mạnh của MoGe-2 và MVS.

Hình học hậu cảnh đã được phục hồi bằng cách sử dụng các neo MVS có tỷ lệ đo lường, tạo ra một bản đồ độ sâu cơ sở với cấu trúc lớn đáng tin cậy. Trong giai đoạn thứ hai, các ước tính tiền cảnh từ MoGe-2 đã được giới thiệu lại thông qua một quá trình hoàn thiện có nhận thức về cạnh được thiết kế để bảo tồn các biên giới đối tượng trong khi ngăn chặn trôi tỷ lệ và các artifact chảy độ sâu.

Các bản đồ độ sâu được tạo ra bằng cách tiếp cận này, theo bản thảo, là cả về mặt trực quan và nhất quán về tỷ lệ thực tế:

Đường ống hoàn thiện độ sâu hai giai đoạn. Trong giai đoạn đầu, các neo MVS được sử dụng để phục hồi hình học hậu cảnh ở tỷ lệ đo lường đáng tin cậy. Trong giai đoạn thứ hai, các ước tính tiền cảnh từ MoGe-2 được giới thiệu lại thông qua một quá trình hoàn thiện có nhận thức về cạnh, tạo ra một bản đồ độ sâu cuối cùng được thiết kế để bảo tồn cả độ chính xác lớn và chi tiết địa phương sắc nét.

Dữ liệu và Kiểm tra

Bộ sưu tập MetricScenes cuối cùng bao gồm 47.579 hình ảnh thực tế độc quyền, bao gồm 134 cảnh từ AerialMegaDepth; 29.583 hình ảnh từ 356 cảnh từ MegaScenes; và 22.549 khung hình từ 1.725 video từ Stereo4D.

Bộ sưu tập, từ đó 10 cảnh mỗi nguồn được giữ lại làm bộ xác thực, bao gồm các bối cảnh ngoài trời và trong nhà, cũng như các góc nhìn mặt đất và trên không, và các phong cảnh đô thị cũng như tự nhiên – một bối cảnh tổng hợp và nhất quán không có trong bất kỳ bộ sưu tập cá nhân nào.

Để kiểm tra định tính ban đầu, các tác giả đã tinh chỉnh mô hình MoGe-2 ViT-Large-Normal trên tập dữ liệu MetricScenes mới trong 10.000 lần lặp tại kích thước batch là 32 – hiệu quả khoảng ba epoch. Việc cắt và các phương pháp tăng cường dữ liệu chung được thực hiện từ các kiểm tra MoGe-2 ban đầu, và đào tạo diễn ra tại tốc độ học là 1×10^-6 (đối với backbone) và 1×10^-5 (đối với tất cả các tham số khác). Đối với kiểm tra định tính, các tái tạo độ sâu đã được thực hiện bởi mô hình WildMoGe tinh chỉnh, được so sánh với MoGe-2 cơ bản; DepthAnything V3; Metric3Dv2; UniDepth v2 ; và DepthPro:

So sánh tái tạo địa danh có tỷ lệ đo lường. Các phép đo thực tế từ Google Maps được hiển thị trong cột bên trái. Trên các địa danh thực tế chưa từng thấy, WildMoGe tạo ra các ước tính tỷ lệ gần với kích thước thực hơn, trong khi MoGe-2, DepthAnything V3 và Metric3D V2 thường đánh giá thấp kích thước của các cấu trúc xa. UniDepth V2 thường tạo ra các tỷ lệ hợp lý hơn, nhưng vẫn không nhất quán, trong khi DepthPro đôi khi tạo ra các lỗi tỷ lệ nghiêm trọng.

Về kết quả này, bản thảo cho biết:

‘[WildMoGe] luôn phục hồi các tỷ lệ tuyệt đối chính xác trên nhiều địa danh, khớp với các kích thước thực tế (ví dụ: 31,4m so với 32,4m cho Bảo tàng Philadelphia, 46,7m so với 46,5m cho Piazza della Signorina). MoGe-2, DepthAnything v3 và Metric3D v25 thể hiện hành vi sụp đổ tỷ lệ, thường đánh giá thấp kích thước của các cấu trúc xa.

‘UniDepth v2 tạo ra các tỷ lệ thực tế hơn nhưng vẫn khác với thực tế, và DepthPro thường không thể phục hồi tỷ lệ tuyệt đối, tạo ra kết quả nhỏ hơn nhiều so với thực tế. Lưu ý rằng những cảnh này không có trong tập đào tạo.

‘Hiệu suất này chứng tỏ rằng WildMoGe có thể tổng quát hóa sang nội dung chưa từng thấy, trái ngược với việc chỉ nhớ các cảnh đào tạo.’

Để đảm bảo rằng những lợi ích này không bị giới hạn ở các địa danh và cảnh ngoài trời lớn, các tác giả cũng đã đánh giá WildMoGe trên các hình ảnh trong nhà và đường phố thông thường, nơi nó tạo ra các ước tính tỷ lệ rộng rãi nhất quán với MoGe-2, trong khi đạt được độ chính xác tốt hơn trên một cảnh sân trong ETH3D:

So sánh trên các cảnh tiêu chuẩn. Trên các môi trường trong nhà và đường phố thông thường, WildMoGe tạo ra các ước tính tỷ lệ rộng rãi nhất quán với MoGe-2, trong khi đạt được độ chính xác tốt hơn trên điểm chuẩn sân trong ETH3D, phục hồi các kích thước đối tượng gần với các phép đo thực tế.

Để đánh giá xem MetricScenes có thực sự cải thiện việc suy luận về tỷ lệ đo lường hay không, đánh giá đã được thực hiện trên cả tập kiểm tra MetricScenes chuyên dụng và trên NYUv2; KITTI; ETH3D; iBims-1; GSO; Sintel; DDAD; DIODE; Spring; và HAMMER.

Các tác giả lưu ý rằng việc thu được các phép đo thực tế dày đặc cho các hình ảnh Internet không giới hạn vẫn còn khó khăn, điều này có nghĩa là các nhãn MetricScenes không hoàn hảo. Các điểm chuẩn tiêu chuẩn đã được bao gồm để xác minh rằng bất kỳ lợi ích nào không đến với chi phí của hiệu suất hình học chung.

So sánh đã được thực hiện với MoGe-2; UniDepth V2; DepthPro; MASt3R; Depth Anything V2; Depth Anything V3; ZoeDepth; và Metric3D V2:

Đánh giá định lượng về hình học tương đối và hình học đo lường. Trên tập kiểm tra MetricScenes, WildMoGe đã vượt qua MoGe-2 trên mọi chỉ số được báo cáo trong khi vẫn cạnh tranh với ZoeDepth, Metric3D V2, Depth Anything V2, Depth Anything V3, MASt3R, UniDepth V2 và DepthPro trên các điểm chuẩn đã thiết lập, cho thấy rằng việc ước tính tỷ lệ đo lường đã được cải thiện mà không ảnh hưởng đến chất lượng tái tạo hình học chung.

WildMoGe đã cải thiện đáng kể việc dự đoán tỷ lệ đo lường trên MetricScenes, vượt qua MoGe-2 trên mọi chỉ số được báo cáo và đạt được điểm số hình học đo lường và độ sâu đo lường mạnh hơn so với MoGe-2, Depth Anything V3, Metric3D V2, UniDepth V2 và DepthPro.

Hiệu suất trên NYUv2, KITTI, ETH3D, iBims-1, GSO, Sintel, DDAD, DIODE, Spring và HAMMER vẫn rộng rãi so với MoGe-2. Các tác giả cho rằng những lợi ích này là do sự giám sát đo lường của MetricScenes, có vẻ như giúp giảm sụp đổ tỷ lệ trong khi bảo tồn hiệu suất tái tạo cảnh chung.

Kết luận

Giải pháp MetricScenes cho vấn đề “sụp đổ tỷ lệ” dường như là một sự kết hợp khá phức tạp của nhiều tập dữ liệu, mỗi tập dữ liệu đều có một đóng góp quý giá. Nó giống như một cách để xác định hình dạng của một con voi bằng cách chạm vào.

Có lẽ dịch vụ quý giá nhất mà bài báo cung cấp là việc thu hút sự chú ý nhiều hơn đến vấn đề, dường như đòi hỏi một số loại tiêu chuẩn phổ quát mới hoặc được điều chỉnh. Tuy nhiên, vì một sự đổi mới như vậy sẽ gián đoạn khả năng tái tạo và tính nhất quán của các phương pháp hiện tại, nó sẽ phải rất thuyết phục.

* Sự chuyển đổi của tôi từ các trích dẫn nội tuyến của các tác giả sang các liên kết siêu văn bản.

Được xuất bản lần đầu vào thứ Năm, ngày 11 tháng 6 năm 2026

Martin Anderson

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]