存根 新 CGI:使用 Block-NeRF 创建神经邻域 - Unite.AI
关注我们.

人工智能

新的 CGI:使用 Block-NeRF 创建神经邻域

mm
更新 on

神经辐射场(神经RF)允许仅使用多视点照片作为输入在神经网络内重新创建和探索对象,而无需传统 CGI 方法的复杂性和费用。

然而,该过程的计算成本很高,这最初限制了 NeRF 环境 桌面模型 场景。 尽管如此,NeRF 已经被一个专注、甚至疯狂的研究社区所采用,该社区在过去的一年里 启用外部重建 以及 可编辑的神经人类,除了许多其他创新。

现在,一项新的研究计划(包括 Google Research 的参与)认识到优化 NeRF 可能存在的硬性限制,并专注于将 NeRF 环境拼接在一起,以创建由多个协调的 NeRF 实例组成的按需社区。

从链接 NeRF 的 Block-NeRF 网络的角度来看。 。 请参阅文章末尾的嵌入式视频,以及高分辨率全长补充视频的源链接。 来源:https://waymo.com/research/block-nerf/

从链接 NeRF 的 Block-NeRF 网络的角度来看。 请参阅文章末尾的嵌入式视频,以及高分辨率全长补充视频的源链接。 来源:https://waymo.com/research/block-nerf/

有效地导航链接的 NeRF 网络使 NeRF 可扩展和模块化,提供可导航的环境,根据需要加载邻里的额外部分,其方式类似于视频游戏的资源优化方法,在视频游戏中,拐角处的内容很少会加载,直到很明显,我们将需要环境。

在主要驱动力中 解开 除了天气和时间等单独的方面之外,Block-NeRF 还引入了“外观代码”,使得动态更改一天中的时间成为可能:

使用 Block-NeRF 更改一天中的时间。 请参阅文章末尾的嵌入式视频,以及高分辨率全长补充视频的源链接。 来源:https://waymo.com/research/block-nerf/

使用 Block-NeRF 更改一天中的时间。 请参阅文章末尾的嵌入式视频,以及高分辨率全长补充视频的源链接。 来源:https://waymo.com/research/block-nerf/

新论文表明,NeRF 优化正在接近其自身的热极限,并且未来在虚拟现实、其他类型的交互球体和视觉特效工作中神经辐射环境的部署很可能依赖于并行操作,类似于摩尔的方式法律最终让位于多核架构、并行优化和新的缓存方法。

作者的 (标题为 Block-NeRF:可扩展的大场景神经视图合成) 使用 2.8 万张图像创建了有史以来最大的神经场景——旧金山的一系列社区。

Block-NeRF 导航旧金山的恩典大教堂。 请参阅文章末尾的嵌入式视频,以及高分辨率全长补充视频的源链接。 来源:https://waymo.com/research/block-nerf/

Block-NeRF 导航旧金山的恩典大教堂。 请参阅文章末尾的嵌入式视频,以及高分辨率全长补充视频的源链接。 来源:https://waymo.com/research/block-nerf/

该论文的主要作者是加州大学伯克利分校的 Matthew Tancik,他是 神经辐射场的共同发明者,他在自动驾驶技术开发公司 Waymo 实习期间承担了这项工作,该公司是 项目页。 除了项目页面上的许多支持和补充视频示例之外,该计划还在本文末尾嵌入了 YouTube 上的视频概述。

该论文由其他几位 NeRF 创始人共同撰写,包括 Ben Mildenhall(谷歌研究中心)、Pratul P. Srinivasan(谷歌研究中心)和 Jonathan T. Barron(谷歌研究中心)。 其他贡献者包括 Vincent Casser、Xinchen Yan、Sabeek Pradhan、Henrik Kretzschmar 和 Vincent Casser,均来自 Waymo。

Block-NeRF 的开发主要是为了研究自动驾驶汽车系统的虚拟环境,包括自动驾驶汽车和无人机。

Block-NeRF 中 180 度视角的内河码头道路。 请参阅文章末尾的嵌入式视频,以及高分辨率全长补充视频的源链接。 来源:https://waymo.com/research/block-nerf/

Block-NeRF 中 180 度视角的内河码头道路。 请参阅文章末尾的嵌入式视频,以及高分辨率全长补充视频的源链接。 来源:https://waymo.com/research/block-nerf/

Block-NeRF 中可以动态改变的其他因素包括镜头光圈(见上图)、天气和季节。

然而,季节变化可能会导致环境发生相关变化,例如没有叶子的树木,这需要比 Block-NeRF 构建的更广泛的输入数据集。 论文指出:

'[树叶]随季节变化并随风移动; 这导致树木和植物的表示模糊。 同样,训练数据中的时间不一致(例如建筑工作)不会自动处理,需要对受影响的块进行手动重新训练。

世界末日渲染

如果您看一下最后嵌入的视频,您会注意到 行尸走肉- 网络 Block-NeRF 环境的稀疏性。 由于各种原因,尤其是为了为机器人系统提供模拟的启动环境,汽车、行人和其他瞬态物体被故意从源材料中消除,但这留下了一些伪影,例如“擦除”停放车辆的阴影:

一辆被抹去的汽车的幻影。 来源:https://waymo.com/research/block-nerf/

一辆被抹去的汽车的幻影。 来源:https://waymo.com/research/block-nerf/

为了适应各种照明环境(例如白天或夜晚),网络经过训练,可以合并与每个所需条件相关的解开的数据流。 在下图中,我们看到了高速公路白天和夜间的 Block-NeRF 镜头的贡献流:

明显“烘焙”的 Block-NeRF 渲染背后的按需方面,允许用户根据需要打开夜间。 来源:https://waymo.com/research/block-nerf/

明显“烘焙”的 Block-NeRF 渲染背后的按需方面,允许用户根据需要打开夜间。 来源:https://waymo.com/research/block-nerf/

环境和道德考虑

在过去的几年里,研究提交的材料已经开始包含有关拟议工作可能产生的伦理和环境影响的警告和免责声明。 就 Block-NeRF 而言,作者指出,能量需求很高,并且考虑短期和长期瞬态物体(分别例如树上的叶子和建筑工程)需要定期重新扫描源数据,导致城市地区的“监视”增加,其神经模型需要不断更新。

作者指出:

“根据这项工作的应用规模,如果用于计算的能源导致碳排放增加,其计算需求可能会导致或更严重的环境破坏。 正如论文中提到的,我们预见到进一步的工作,例如缓存方法,可以减少计算需求,从而减轻对环境的破坏。

关于监视,他们继续:

“这项工作的未来应用可能需要更大的数据收集工作,这会引发进一步的隐私问题。 虽然公共道路的详细图像已经可以在谷歌街景等服务上找到,但我们的方法可以促进对环境进行重复和更定期的扫描。 据了解,自动驾驶汽车领域的几家公司也利用其车队定期进行区域扫描。 然而,有些可能只使用激光雷达扫描,这可能不如收集相机图像敏感。

方法与解决方案

理论上,在组装成 Block-NeRF 阵列之前,单个 NeRF 环境可以缩小到任意大小。 这为细化包含肯定会发生变化的内容(例如树木)以及建筑工程的识别和管理开辟了道路,这些内容可能会持续多年的重新捕获,但很可能会不断发展和变化。最终成为一致的实体。

然而,在这一初步研究中,离散的 NeRF 块仅限于每个所描述环境的实际城市块,缝合在一起,具有 50% 的重叠,确保用户在网络中导航时从一个块到下一个块的一致过渡。

每个块都受到地理过滤器的限制。 作者指出,框架的这一部分对自动化开放,令人惊讶的是,它们的实现依赖于 OpenStreetMap 而不是 Google 地图。

Block-NeRF“活动”渲染空间的交叉半径。 来源:Waymo

Block-NeRF“活动”渲染空间的交叉半径。 Sumber: Waymo

块是并行训练的,并按需渲染所需的块。 创新的外观代码也在模块组中精心设计,确保人们不会意外地遇到不同的天气、一天中的时间,甚至不同的季节。

Block-NeRF 片段以类似于摄影源材料中的高动态范围 (HDR) 的方式进行曝光调节。 来源:Waymo

Block-NeRF 片段以类似于摄影源材料中的高动态范围 (HDR) 的方式进行曝光调节。 Sumber: Waymo

切换照明和其他环境变量的能力源自于中引入的生成潜在优化 野外的 NeRF (NeRF-W),该方法本身源自 2019 Facebook AI 研究报告 优化生成网络的潜在空间.

语义分割模型起源于 全景-DeepLab in 2020 用于阻挡不需要的元素(例如人和车辆)

时间

查找常见的城市数据集,例如 城市景观 由于不适合 Block-NeRF 所需的如此密集的细节工作,研究人员创建了自己的数据集。 图像数据是从包含 12 度视图的 360 个摄像机捕获的,镜头以 10 Hz 的频率和标量曝光值拍摄。

所覆盖的旧金山街区包括阿拉莫广场和使命湾。 对于 Alamo Square 捕获,覆盖了约 960m x 570m 的区域,分为 35 个 Block-NeRF 实例,每个实例都根据来自 38 到 48 次不同数据收集运行的数据进行训练,总行驶时间为 18-28 分钟。

每个 Block-NeRF 的贡献图像数量在 64,575 到 108,216 之间,在 13.4 次不同的数据收集运行中,该区域的总体驾驶时间为 1,330 小时。 这为 Alamo Square 生成了 2,818,745 张训练图像。 有关 Mission Bay 数据收集的更多详细信息,请参阅论文。

 

首次发布于 11 年 2022 月 XNUMX 日。