Anderson 视角

新的CGI:使用Block-NeRF创建神经邻域

mm

神经辐射场(NeRF)允许使用多个视角的照片作为输入,在神经网络中重现和探索对象,而无需传统的CGI方法的复杂性和费用。

然而,这个过程计算量很大,最初限制了NeRF环境到桌面模型场景。尽管如此,NeRF已经被一个专注的研究社区采用,他们在过去的一年中实现了外部重建,以及可编辑的神经人,以及许多其他创新。

现在,一个新的研究计划,包括谷歌研究的参与,认识到优化NeRF的可能的硬性限制,并专注于将NeRF环境拼接在一起,创建按需的包含多个协调的NeRF实例的邻域。

从Block-NeRF网络中链接的NeRF的视角。请参阅文章末尾的嵌入式视频和源链接的高分辨率全长补充视频。来源:https://waymo.com/research/block-nerf/

从Block-NeRF网络中链接的NeRF的视角。请参阅文章末尾的嵌入式视频和源链接的高分辨率全长补充视频。 来源:https://waymo.com/research/block-nerf/

有效地导航链接的NeRF网络,使NeRF可扩展和模块化,提供可导航的环境,当需要时加载额外的邻域部分,以类似于视频游戏的资源优化方法,环境周围的内容只有在需要时才加载。

在大规模努力中分离单独的方面,例如天气和时间,Block-NeRF还引入了“外观代码”,使得动态更改一天中的时间成为可能:

使用Block-NeRF更改一天中的时间。请参阅文章末尾的嵌入式视频和源链接的高分辨率全长补充视频。来源:https://waymo.com/research/block-nerf/

使用Block-NeRF更改一天中的时间。请参阅文章末尾的嵌入式视频和源链接的高分辨率全长补充视频。 来源:https://waymo.com/research/block-nerf/

新论文表明,NeRF优化正在接近其自身的热限制,并且未来在虚拟现实、交互式领域和VFX工作中的神经辐射环境部署可能取决于类似于摩尔定律最终让位于多核架构、并行优化和新缓存方法的并行操作。

论文作者(题为《Block-NeRF:大规模场景神经视图合成》)使用280万张图像创建了有史以来最大的神经场景——旧金山的一系列街区。

Block-NeRF导航旧金山的格雷斯大教堂。请参阅文章末尾的嵌入式视频和源链接的高分辨率全长补充视频。来源:https://waymo.com/research/block-nerf/

Block-NeRF导航旧金山的格雷斯大教堂。请参阅文章末尾的嵌入式视频和源链接的高分辨率全长补充视频。 来源:https://waymo.com/research/block-nerf/

论文的首席作者,代表加州大学伯克利分校,是马修·坦西克(Matthew Tancik),神经辐射场的共同发明者,他在自动驾驶技术开发公司Waymo实习期间进行了这项工作,Waymo是项目页面的主办方。该计划还在YouTube上提供视频概述,并在项目页面上提供许多支持和补充视频示例。

论文由其他几位NeRF创始人共同撰写,包括本·米尔登霍尔(Ben Mildenhall,谷歌研究)、普拉图尔·普拉迪汉(Pratul P. Srinivasan,谷歌研究)和乔纳森·巴伦(Jonathan T. Barron,谷歌研究)。其他贡献者包括文森特·卡塞尔(Vincent Casser,Waymo)、辛晨·延(Xinchen Yan,Waymo)、萨比克·普拉德汉(Sabeek Pradhan,Waymo)、亨里克·克雷茨施马尔(Henrik Kretzschmar,Waymo)和文森特·卡塞尔(Vincent Casser,Waymo)。

Block-NeRF主要是为了虚拟环境的研究而开发的,包括自动驾驶车辆系统、无人机等。

从Block-NeRF的180度视角看Embarcadero道路。请参阅文章末尾的嵌入式视频和源链接的高分辨率全长补充视频。来源:https://waymo.com/research/block-nerf/

从Block-NeRF的180度视角看Embarcadero道路。请参阅文章末尾的嵌入式视频和源链接的高分辨率全长补充视频。 来源:https://waymo.com/research/block-nerf/

Block-NeRF中可以动态更改的其他因素包括镜头光圈(见上图)、天气和季节。

然而,改变季节可能会导致环境中的相关变化,例如树木没有叶子,这需要比为Block-NeRF构建的输入数据集更广泛的输入数据集。论文指出:

‘[树叶]会随季节变化并在风中移动;这会导致树木和植物的模糊表示。同样,训练数据中的时间不一致性,例如施工工作,并不自动处理,需要手动重新训练受影响的块。’

世界末日渲染

如果您查看文章末尾的嵌入式视频,您会注意到一个行尸走肉风格的稀疏网络化的Block-NeRF环境。由于各种原因,包括为机器人系统、汽车、行人和其他暂时对象提供模拟的初始环境,源材料中故意抹去了这些对象,但这留下了一些伪影,例如停车车辆的影子:

被抹去的汽车的幽灵影子。来源:https://waymo.com/research/block-nerf/

被抹去的汽车的幽灵影子。 来源:https://waymo.com/research/block-nerf/

为了适应各种照明环境,例如白天或晚上,网络被训练以纳入与每个所需条件相关的解耦数据流。在下图中,我们看到Block-NeRF公路白天和晚上的贡献流:

允许用户开启夜晚的Block-NeRF渲染的按需面。来源:https://waymo.com/research/block-nerf/

允许用户开启夜晚的Block-NeRF渲染的按需面。 来源:https://waymo.com/research/block-nerf/

环境和伦理考虑

在过去几年中,研究提交开始包括关于所提出工作的可能伦理和环境影响的警告和免责声明。在Block-NeRF的例子中,作者指出,能量需求很高,并且需要对短期和长期暂时对象(例如树上的叶子和施工工作)进行账户,这将需要定期重新扫描源数据,从而导致城市神经模型需要更新的“监视”增加。

作者指出:

‘根据这项工作的应用规模,其计算需求可能导致或加剧环境损害,如果计算所用的能量导致碳排放增加。如论文中所述,我们预见进一步的工作,例如缓存方法,可以减少计算需求,从而减轻环境损害。’

关于监视,他们继续说:

‘这项工作的未来应用可能涉及更大规模的数据收集工作,这将引发进一步的隐私问题。虽然公共道路的详细图像已经可以在Google Street View等服务上找到,但我们的方法可能会促进环境的重复和更频繁的扫描。一些自动驾驶公司也以其车队使用LiDAR扫描而闻名,但有些可能只使用LiDAR扫描,这比收集相机图像更不敏感。’

方法和解决方案

个别NeRF环境可以在理论上缩小到任意大小,然后组装成Block-NeRF数组。这为包含可能更改的内容(例如树木)和识别和管理施工工作(可能会随时间推移而演变和变得一致)提供了途径。

然而,在这项初步研究中,离散的NeRF块仅限于每个环境的实际城市街区,拼接在一起,50%的重叠确保了从一个块到下一个块的过渡的一致性,当用户导航网络时。

每个块都受到地理过滤器的限制。作者指出,该框架的这一部分可以自动化,并且他们的实现依赖于OpenStreetMap而不是Google Maps。

Block-NeRF '活动'渲染空间的交叉半径。来源:Waymo

Block-NeRF ‘活动’渲染空间的交叉半径。 来源:Waymo

块是并行训练的,需要的块按需渲染。创新性的外观代码也在块集中编排,确保不会意外地进入不同的天气、时间或甚至季节。

Block-NeRF段以类似于照片源材料中高动态范围(HDR)的方式条件化曝光。来源:Waymo

Block-NeRF段以类似于照片源材料中高动态范围(HDR)的方式条件化曝光。 来源:Waymo

更改照明和其他环境变量的能力来自于在野外NeRF(NeRF-W)中引入的生成潜在优化,这本身是从2019年Facebook AI 研究论文 优化生成网络的潜在空间中得出的方法。

Panoptic-DeepLab而创建的语义分割模型用于阻止不需要的元素(例如人和车辆)

数据

发现像CityScapes这样的常见城市数据集不适合Block-NeRF所需的详细工作,研究人员创建了自己的数据集。图像数据从12个摄像头中以10 Hz的速度捕获,覆盖360度视野,并以标量曝光值拍摄。

旧金山的街区包括阿拉莫广场和任务湾。对于阿拉莫广场的捕获,覆盖面积约为960m x 570m,分为35个Block-NeRF实例,每个实例都在38到48个不同的数据收集运行中训练,总驾驶时间为18-28分钟。

每个Block-NeRF的贡献图像数量在64,575到108,216之间,代表该区域的总驾驶时间为13.4小时,共有1,330次不同的数据收集运行。这仅为阿拉莫广场产生了2,818,745张训练图像。有关任务湾的数据收集的更多详细信息,请参阅论文。

 

首次发布于2022年2月11日。

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai