Connect with us

增强现实

研究人员创建 AI 驱动的实时 3D 全息图像在智能手机上

mm

智能手机可能很快能够生成photorealistic 3D 全息图像,这在一定程度上归功于麻省理工学院研究人员开发的 AI 模型。麻省理工学院团队开发的 AI 系统 确定了从一系列输入图像中生成全息图的最佳方法

麻省理工学院的研究人员最近设计了能够生成photorealistic 3D 全息图像的 AI 模型。这种技术可以应用于 VR 和 AR 头戴设备,全息图像甚至可以由智能手机生成。

与传统的 3D 和 VR 显示器不同,传统显示器仅仅产生深度的幻觉,并可能引起恶心和头痛,全息显示器可以被人们看到而不引起眼疲劳。创建全息媒体的主要障碍是处理实际生成全息图所需的数据。每个全息图由创建全息图“深度”的大量数据组成。由于此原因,生成全息图通常需要大量的计算能力。为了使全息技术更实用,麻省理工学院团队将深度卷积神经网络应用于该问题,创建了一个能够快速根据输入图像生成全息图的网络。

生成全息图的典型方法基本上是生成许多全息图块,然后使用物理模拟将块组合成对象或图像的完整表示。这与生成全息图的典型方法不同。在传统方法中,图像被切割成块,然后使用一系列查找表将全息图块连接在一起,因为查找表标记了不同全息图块的边界。使用查找表定义全息图块边界的过程相当耗时且需要大量处理能力。

根据 IEEE Spectrum 的说法,麻省理工学院团队设计了一种生成全息图的新方法。使用深度学习网络的力量,他们能够将图像切割成可以使用更少的“切片”重新编译成全息图的块。这种新方法利用卷积神经网络分析图像和将图像分离成离散块的能力。这种新的图像分析和块处理方法大大减少了系统必须执行的总操作数。

为了设计他们的 AI 驱动的全息图生成器,研究团队首先构建了一个数据库,包含大约 4000 个计算机生成的图像,每个图像都有一个对应的 3D 全息图。卷积神经网络在此数据集上进行了训练,学习了每个图像如何与其全息图相关以及如何使用特征生成全息图。当 AI 系统提供了具有深度信息的未见数据时,它可以从该数据生成新的全息图。深度信息是通过使用激光雷达传感器或多摄像头显示器提供的,并渲染为计算机生成的图像。一些新款 iPhone 具有这些组件,这意味着如果连接到正确类型的显示器,它们可能能够生成全息图。

新的 AI 驱动的全息图系统需要的内存比经典方法少得多。该系统可以以每秒 60 帧、全色、1920 x 1080 分辨率生成 3D 全息图,使用大约 620 kilobytes 的内存,并在单个常用 GPU 上运行。研究人员能够在 iPhone 11 上运行他们的系统,产生大约 1 个全息图每秒,而 Google Edge TPU 的系统可以渲染每秒 2 个全息图。这表明该系统可以适应智能手机、AR 设备和 VR 设备。该系统还可以应用于体积 3D 打印或全息显微镜的设计。

在未来,技术的改进可能会引入眼球跟踪硬件和软件,实现全息图在用户查看特定位置时动态缩放分辨率。

博客作者和程序员,专攻 Machine Learning Deep Learning 领域。Daniel 希望帮助他人利用 AI 的力量为社会做好事。