研究人员使用深度学习将地标照片转换为 4D

Published September 10, 2020

Updated April 28, 2026

Alex McFarland

康奈尔大学的研究人员开发了一种新方法，利用深度学习将世界地标照片转换为 4D。该团队依靠公开的旅游照片，例如罗马的特雷维喷泉，并将其转换为可操控的 3D 图像，展示出随时间变化的外观。

这种新方法可以处理和综合数万张未标记和未日期的照片，这是计算机视觉领域的一大进步。

这项工作的标题是“Crowdsampling the Plenoptic Function”，并于 8 月 23-28 日在虚拟的欧洲计算机视觉会议上发表。

诺亚·斯纳维利（Noah Snavely）是康奈尔科技学院的计算机科学副教授，也是论文的首席作者。其他贡献者包括康奈尔博士生郑琦（Zhengqi Li），论文的第一作者，以及计算机科学助理教授阿贝·戴维斯（Abe Davis）和康奈尔科技博士生文琦（Wenqi Xian）。

“这是一种新的场景建模方法，不仅可以让你移动头部并从不同视角看到喷泉，还可以控制时间的变化，”斯纳维利说。

“如果你真的去特雷维喷泉旅游，喷泉的外观将取决于你访问的时间——晚上，它将被底部的泛光灯照亮。在下午，它将被阳光照亮，除非你在多云的日子去，”他继续说。“我们从这些无序的照片集合中学习了从时间和天气中得出的整个外观范围，以便你可以探索整个范围并同时在场景中移动。”

由于需要复制的纹理种类繁多，传统计算机视觉很难通过照片准确地表示场景。

“现实世界的外观非常多样，并且具有不同种类的材料——闪亮的东西，水，薄结构，”斯纳维利说。

除了这些障碍，传统计算机视觉还难以处理不一致的数据。全景函数是指物体从每个可能的空间和时间视角的外观，但为了复制它，需要在场景中安装数百个网络摄像头。并且，它们需要在一整天和夜晚都进行录制。这可以完成，但当考虑到需要这种方法的场景数量时，这是一项非常耗资源的任务。

为了绕过这个限制，研究人员开发了这种新方法。

“可能没有从这个确切视角在 4 点拍摄的照片。所以我们必须从在一个位置拍摄的 9 点照片和在另一个位置拍摄的 4:03 的照片中学习，”斯纳维利说。“并且我们不知道这些照片拍摄的精确时间。但是使用深度学习可以让我们推断出在任何给定时间和地点场景的外观。”

研究人员引入了一种新的场景表示方法，称为深度多平面图像，以便在四个维度（3D 和随时间变化）中插值外观。

根据斯纳维利的说法，“我们使用在 2D 动画中创建 3D 效果的相同想法来创建现实世界场景的 3D 效果，通过将其拟合到所有这些来自游客照片的不同测量值来创建这种深度多层图像。这很有趣，因为它源自一种非常古老的经典技术，用于动画。”

研究表明，经过训练的模型可以使用各种网站的 50,000 张公开图像创建一个场景。研究人员认为，它可以在计算机视觉研究和虚拟旅游等许多领域产生影响。

“你可以真正感受到自己在那里，”斯纳维利说。“它在各种场景中都能令人惊讶地正常工作。”

该项目得到了前谷歌 CEO 和慈善家埃里克·施密特（Eric Schmidt）以及温特·施密特（Wendt Schmidt）的支持。

Alex McFarland

Alex McFarland 是一名人工智能记者和作家，探索最新的人工智能发展。他曾与世界各地的众多人工智能初创公司和出版物合作。

Unite.AI