研究人员利用深度学习将地标照片变成 4D

更新 on 2022 年 12 月 9 日

康奈尔大学的研究人员开发了一种利用深度学习将世界地标照片变成 4D 的新方法。该团队依赖于罗马特莱维喷泉等主要景点的公开旅游照片，最终结果是可操作的 3D 图像，可以显示随时间推移的外观变化。

新开发的方法接收并合成了数万张未标记和未注明日期的照片，这是计算机视觉的一大进步。

该作品的标题为“对全光功能进行众采样”，并在 23 月 28 日至 XNUMX 日举行的虚拟欧洲计算机视觉会议上进行了展示。

诺亚·斯纳维利 (Noah Snavely) 是康奈尔理工大学计算机科学副教授，也是该论文的资深作者。其他贡献者包括论文第一作者康奈尔大学博士生李正琪，以及计算与信息科学学院计算机科学助理教授 Abe Davis 和康奈尔理工学院博士生 Wenqi Xian。

“这是一种新的场景建模方式，它不仅可以让你移动头部，从不同的角度观察喷泉，还可以让你控制改变时间，”Snavely 说。

“如果你真的在度假时去了特莱维喷泉，它的样子取决于你去的时间——晚上，它会被底部的泛光灯照亮。下午，阳光明媚，除非你是阴天去的，”他继续说道。 “我们根据一天中的时间和天气，从这些杂乱的照片集中了解了整个范围的外观，这样你就可以探索整个范围，同时在场景中移动。”

由于可能存在许多不同的纹理需要再现，因此传统计算机视觉很难通过照片准确地表示地点。

“现实世界的外观如此多样化，并且有不同种类的材料——闪亮的东西、水、薄结构，”斯内夫利说。

除了这些障碍之外，传统计算机视觉还面临数据不一致的问题。全光功能是指从空间和时间的每个可能的角度观察事物的方式，但为了重现这一点，现场需要数百个网络摄像头。不仅如此，他们还得日夜不停地录音。这是可以完成的，但考虑到需要此方法的场景数量，这是一项极其耗费资源的任务。

为了解决这个问题，研究小组开发了新方法。

“数据集中可能没有从这个确切角度拍摄的下午 4 点照片。因此，我们必须从一个地点晚上 9 点拍摄的照片和另一个地点下午 4:03 拍摄的照片中学习，”Snavely 说。 “而且我们不知道这些照片拍摄的具体时间。但使用深度学习可以让我们推断出在任何给定时间和地点场景会是什么样子。”

研究人员引入了一种称为“深度多平面图像”的新场景表示，以便在四个维度（3D 且随时间变化的维度）中插入外观。

Snavely 表示，“我们使用在 3D 动画中创建 2D 效果的相同想法在现实世界场景中创建 3D 效果，通过将其拟合到游客照片中的所有这些不同尺寸来创建这种深层的多层图像。有趣的是，它有点源于动画中使用的这种非常古老的经典技术。”

研究表明，经过训练的模型可以创建一个包含来自不同站点的 50,000 张公开图像的场景。该团队认为，它可能会对许多领域产生影响，包括计算机视觉研究和虚拟旅游。

“你可以感受到身临其境的感觉，”斯内夫利说。 “它对于一系列场景的效果出奇的好。”

该项目得到了谷歌前首席执行官兼慈善家埃里克·施密特以及温特·施密特的支持。

能够移动单个分子的人工智能系统

AI 初创公司 Diffbot 读取整个公共互联网以实现基于事实的文本生成

Alex McFarland 是一位人工智能记者和作家，致力于探索人工智能的最新发展。他与全球众多人工智能初创公司和出版物合作。

联合人工智能