Connect with us

人工智能

苹果的HDR增强现实环境能否解决神经渲染的反射问题?

mm

苹果在增强现实技术方面的长期投资今年正在加速,推出了一系列新的开发者工具,用于捕获和转换现实世界中的物体为AR方面,以及日益增长的行业信念,即专用的AR眼镜即将推出,以支持这些研发能够实现的沉浸式体验。

在关于苹果在增强现实方面的新信息中,公司的计算机视觉研究部门的一篇新论文揭示了一种使用360度全景高动态范围(HDR)图像来为增强现实场景中叠加的物体提供场景特定的反射和照明的方法。

题为《HDR环境映射估计用于实时增强现实》的论文,由苹果计算机视觉研究工程师Gowri Somanath和高级机器学习经理Daniel Kurz提出,通过在移动处理环境中运行卷积神经网络(CNN)来动态创建实时HDR环境。结果是反射物体可以按需镜像新的、未见过的环境:

在苹果的新AR对象生成工作流中,压力锅通过摄影测量法实例化,具有其环境,导致反射令人信服,不会被“烘焙”到纹理中。来源:https://docs-assets.developer.apple.com/

在苹果的新AR对象生成工作流中,压力锅通过摄影测量法实例化,具有其环境,导致反射令人信服,不会被“烘焙”到纹理中。来源:https://docs-assets.developer.apple.com/

该方法于CVPR 2021上发布,拍摄整个场景的快照,并使用EnvMapNetCNN来估计一个视觉上完整的全景HDR图像,也称为“光探测器”。

生成的映射识别强光源(在上面的动画末尾突出显示)并在渲染虚拟对象时考虑它们。

EnvMapNet的架构,它将有限的图像处理为全场景HDR光探测器。来源:https://arxiv.org/pdf/2011.10687.pdf

EnvMapNet的架构,它将有限的图像处理为全场景HDR光探测器。来源:https://arxiv.org/pdf/2011.10687.pdf

该算法可以在iPhone XS上运行少于9毫秒,并能够实时渲染反射感知对象,相比以前的方法,方向误差减少了50%。

光探测器

HDR照明环境自1986年发明高动态范围图像以来一直是视觉效果的一个因素,通过1990年代的计算机技术进步而变得显著。观看幕后录像的人可能已经注意到技术人员举着带有镜子的球体的奇怪存在——这些是要被纳入环境因素的参考图像,当重建CGI元素时。

来源:https://beforesandafters.com/

来源:https://beforesandafters.com/

然而,使用铬球进行反射映射纹理可以追溯到1983年的SIGGRAPH论文《金字塔参数》,该论文中包含了一个反射CGI机器人的静止图像,十年后通过詹姆斯·卡梅隆的《终结者2:审判日》的“液态金属”特效而闻名。

HDR环境在神经渲染中?

神经渲染提供了从非常稀疏的输入中生成照片般逼真的视频的可能性,包括粗糙的分割图。

图像神经渲染(2017)。来源:https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis” width=”738″ height=”395″ /> 英特尔ISL的分割>图像神经渲染(2017)。来源:https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis

五月,英特尔研究人员揭示了一个新的神经图像合成计划,其中使用了《侠盗猎车手V》的录像来生成基于德国街景图像数据集的照片般逼真的输出。

来源:https://www.youtube.com/watch?v=0fhUJT21-bs

来源:https://www.youtube.com/watch?v=0fhUJT21-bs

开发可以适应各种照明条件的神经渲染环境的挑战是将对象内容与影响它的环境因素分开。

目前,反射和各向异性效应要么是原始数据集录像的函数(使其不灵活),要么需要英特尔研究人员使用的同种模式,这种模式从粗糙的(游戏)引擎中生成半照片般逼真的输出,并对其进行分割,然后从“烘焙”数据集(如最近研究中使用的德国Mapillary街景集)中应用风格转换。

在这个从GTA V录像生成的神经渲染中(左),前面的车辆展示了令人信服的眩光,甚至用反射照亮了虚拟摄像机的传感器。但是,这个照明方面来自原始游戏录像的照明引擎,因为场景中的神经元素没有可以更改的自主和自我参照的照明结构。

在这个从GTA V录像生成的神经渲染中(左),前面的车辆展示了令人信服的眩光,甚至用反射照亮了虚拟摄像机的传感器。但是,这个照明方面来自原始游戏录像的照明引擎,因为场景中的神经元素没有可以更改的自主和自我参照的照明结构。

NeRF中的反射

来自神经辐射场(NeRF)的图像也面临类似的挑战。虽然最近的NeRF研究在分离神经场景的元素方面取得了进展(例如,MIT/Google关于NeRFactor的合作),但反射仍然是一个障碍。

MIT和Google的NeRFactor方法分离出法线、可见性(阴影)、纹理和局部反照率,但它不反映环境,因为它本质上存在于真空中。来源:https://arxiv.org/pdf/2106.01970.pdf

MIT和Google的NeRFactor方法分离出法线、可见性(阴影)、纹理和局部反照率,但它不反映环境,因为它本质上存在于真空中。来源:https://arxiv.org/pdf/2106.01970.pdf

NeRF可以通过使用苹果正在使用的相同类型的HDR映射来解决这个问题。神经辐射场中的每个像素都是沿着从虚拟摄像机到“射线”无法进一步行进的点的轨迹计算的,类似于传统CGI中的光线追踪。将HDR输入添加到该射线的计算中是一种实现真正环境反射的潜在方法,这基本上是CGI的“全局照明”或辐射度渲染方法的类似物,其中场景或对象部分由其环境的感知反射照明。

虽然HDR矩阵不会缓解NeRF的显著计算负担,但该领域的许多研究目前都集中在解决处理管道的这一方面。不可避免地,反射是许多因素中的一种,等待着重新填充和挑战新优化的架构。然而,NeRF不能在没有采用一种方法来考虑周围环境的情况下实现其作为离散神经图像和视频合成方法论的全部潜力。

神经渲染管道中的反射

在一个假设的HDR启用的英特尔GTA V神经渲染场景中,单个HDR无法容纳需要在移动对象中表达的动态反射。例如,要看到前方车辆的反射,当它靠近红绿灯时,前方车辆实体可以有自己的动画HDR光探测器,其分辨率会随着它与用户视点的距离而降低,变得低分辨率且仅代表性,当它驶离时–一个基于距离的LOD,类似于视频游戏中的“绘制距离”分界线。

苹果在HDR照明和反射映射方面的工作的真正潜力不在于它特别具有创新性,因为它建立在一般图像合成和AR场景开发方面的以前工作之上。相反,可能的突破在于严格的本地计算约束与苹果的M系列机器学习硬件创新相结合,产生了轻量级、低延迟的HDR映射,旨在在受限资源下运行。

如果这个问题可以在经济上得到解决,语义分割>照片般逼真的视频合成的出现可能会更近了一步。

来源:https://docs-assets.developer.apple.com/

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai