人工智能

专为 AI 分析而设计的视频编解码器

更新 on 2022 年 12 月 9 日

虽然是科技惊悚片 校友圆 （2017）更多的是对社交网络的伦理影响的评论，而不是外部视频分析的实用性，情节中心的不可思议的微小“SeeChange”相机真正将这部电影推入了“科幻小说”类别。

科技惊悚片《The Circle》（2017 年）中的“SeeChange”摄像头/监控设备。

一个无线和自由漫游的设备，大约有一个大弹珠那么大，这并不是因为缺少太阳能电池板，也不是因为从其他环境来源获取电力的效率低下（例如无线电波）这使得 SeeChange 的前景不太可能，但事实上，它必须 24/7 压缩视频，无论它能够维持多少费用。

为此类廉价传感器供电是计算机视觉 (CV) 和视频分析研究的核心领域，特别是在非城市环境中，传感器必须利用非常有限的电力资源（电池、太阳能等）来维持最大性能.)。

如果这种类型的边缘 IoT/CV 设备必须将图像内容发送到中央服务器（通常通过传统的小区覆盖网络），则选择很困难：设备需要在本地运行某种轻量级神经网络，以便仅发送优化用于服务器端处理的相关数据段；或者它必须发送“哑”视频以供插入的云资源进行评估。

尽管通过基于事件的智能视觉传感器（SVS）进行运动激活可以减少这个开销，激活监控也会消耗能量。

执着于权力

此外，即使不频繁激活（即一只羊偶尔进入视野），该设备也没有足够的电量来发送千兆字节的未压缩视频；它也没有足够的电量来持续运行流行的视频压缩编解码器，例如 H.264/5，这些编解码器需要已插入的硬件或距离下一次充电不远的硬件。

适用于三种典型计算机视觉任务的视频分析管道。视频编码架构需要针对手头的任务进行训练，通常是针对将接收数据的神经网络。 资料来源：https://arxiv.org/pdf/2204.12534.pdf

尽管广泛普及的 H.264 编解码器的能耗低于其后继者 H.265，但它压缩效率差。它的后继者H.265具有更好的压缩效率，但功耗更高。虽然谷歌开源 VP9编解码器在每个领域都击败了它们，它需要更高的本地计算资源，这表明额外的问题在一个据称很便宜的物联网传感器中。

至于在本地分析流：当您运行最轻量的本地神经网络以确定哪些帧（或帧的区域）值得发送到服务器时，您通常会花费您本来拥有的电量只需发送所有帧即可保存。

使用不太可能并网的传感器提取牛的蒙面表示。它是否将其有限的能力用于使用轻量级神经网络进行局部语义分割？通过向服务器发送有限的信息以获取进一步的指令（引入延迟）；或者通过发送“哑”数据（浪费带宽上的能量）？资料来源：https://arxiv.org/pdf/1807.01972.pdf

很明显，“野外”计算机视觉项目需要专用的视频压缩编解码器，这些编解码器针对特定神经网络的要求进行了优化，涵盖特定和多样化的任务，例如语义分割、关键点检测（人体运动分析）和对象检测等可能的任务最终用途。

如果您能够在视频压缩效率和最小数据传输之间取得完美平衡，那么您就离 SeeChange 更近了一步，并且能够在不友好的环境中部署经济实惠的传感器网络。

AccMPEG

芝加哥大学的新研究可能更接近这种编解码器，其形式为 AccMPEG – 一种新颖的视频编码和流媒体框架，可在服务器端深度神经网络（DNN）中以低延迟、高精度运行，并且本地计算要求非常低。

AccMPEG 的架构。 资料来源：https://arxiv.org/pdf/2204.12534.pdf

该系统能够通过评估每个 16x16px 的程度来比以前的方法更经济。宏块可能会影响服务器端 DNN 的准确性。相反，以前的方法通常必须基于图像中的每个像素来评估这种准确性，或者执行昂贵的本地操作来评估图像中的哪些区域可能是最感兴趣的。

在 AccMPEG 中，这种准确性是在名为 AccGrad 的自定义模块中估计的，该模块测量宏块的编码质量可能与最终使用情况相关的方式，例如尝试对人数进行计数的服务器端 DNN，对人体运动或其他常见计算机视觉任务进行骨骼估计。

当视频帧到达系统时，AccMPEG 最初通过一个廉价的质量选择器模型对其进行处理，名为 Acc模型。任何不太可能对服务器端 DNN 的有用计算做出贡献的区域本质上都是镇流器，并且应该标记为以尽可能低的质量进行编码，这与应该以更好的质量发送的显着区域相反。

此过程提出了三个挑战：该过程能否足够快地执行以实现可接受的延迟而不使用耗能的本地计算资源？能否在帧速率和质量之间建立最佳关系？能否为单个服务器端 DNN 快速训练模型？

培训后勤

理想情况下，计算机视觉编解码器将在插入式系统上进行预训练，以满足特定神经网络的确切要求。然而，AccGrad 模块可以直接从 DNN 导出，只需两次前向传播，节省的开销是标准开销的十倍。

AccMPEG 仅通过最终 DNN 对 AccGrad 进行了 15 个传播的 XNUMX 个 epoch 训练，并且可以使用其当前模型状态作为模板进行“实时”重新训练，至少对于类似指定的 CV 任务来说是这样。

AccModel 使用预训练的 MobileNet-SSD 特征提取器，常见于经济实惠的边缘设备。当运算量为 12 GFLOPS 时，该模型仅使用典型 ResNet18 方法的三分之一。除了批量归一化和激活之外，该架构仅由卷积层组成，其计算开销与帧大小成正比。

AccGrad 消除了最终 DNN 推理的需要，从而改善了部署物流。

帧率

该架构的最佳运行速度为 10fps，这使其适用于农业监测、建筑退化监测、高视角交通分析和人体运动中的代表性骨骼推断等用途；然而，非常快速移动的场景，例如低视野交通（汽车或人），以及高帧速率有益的其他情况，不适合这种方法。

该方法的节俭部分在于以下前提：相邻宏块可能具有相似的值，直到宏块低于估计精度。通过这种方法获得的区域轮廓更清晰，并且可以更快地计算。

业绩提升

研究人员在配备单个 60 核 Maxwell GPU 的 128 美元 Jetson Nano 主板以及各种其他廉价同类产品上测试了该系统。 OpenVINO 用于抵消非常稀疏的本地 DNN 对 CPU 的一些能源需求。

AccModel 本身最初是在具有 8 个 GeForce RTX 2080S GPU 的服务器上进行离线训练的。尽管对于初始模型构建来说这是一个强大的计算能力，但该系统使轻量级再训练成为可能，并且可以在攻击类似任务的不同 DNN 上将模型调整到某些容差参数，这意味着 AccMPEG 可以形成一个在野外需要最少参与的系统的一部分。

首次发布于 1 年 2022 月 XNUMX 日。