人工智能
专为 AI 分析而设计的视频编解码器

虽然是科技惊悚片 校友圆 (2017)更多的是对社交网络的伦理影响的评论,而不是外部视频分析的实用性,情节中心不可思议的微型“SeeChange”摄像机才是真正将电影推向“科幻”类别的原因。

科技惊悚片《圆圈》(2017 年)中的“SeeChange”摄像机/监控设备。
这是一种无线且自由漫游的设备,大小与大理石差不多,它不是缺少太阳能电池板,也不是从其他环境源获取电力的效率低下(例如 无线电波) 使得 SeeChange 不太可能取得成功,但事实是,它必须全天候压缩视频,而且只能依靠其能够维持的微薄电量。
为此类廉价传感器供电是计算机视觉 (CV) 和视频分析研究的核心领域,特别是在非城市环境中,传感器必须利用非常有限的电力资源(电池、太阳能等)来维持最大性能.)。
如果这种类型的边缘 IoT/CV 设备必须将图像内容发送到中央服务器(通常通过传统的小区覆盖网络),则选择很困难:设备需要在本地运行某种轻量级神经网络,以便仅发送 优化 相关数据段供服务器端处理;或者必须发送“哑”视频供插入的云资源评估。
尽管通过基于事件的智能视觉传感器(SVS)进行运动激活可以 减少这个开销,激活监控也会消耗能量。
执着于权力
此外,即使不频繁激活(例如偶尔有一只羊进入视野),该设备也没有足够的电量来发送数 GB 的未压缩视频;它也没有足够的电量来持续运行流行的视频压缩编解码器(如 H.264/5),这些编解码器需要插入硬件或距离下次充电不远的硬件。

适用于三种典型计算机视觉任务的视频分析管道。 视频编码架构需要针对手头的任务进行训练,通常是针对将接收数据的神经网络。 资料来源:https://arxiv.org/pdf/2204.12534.pdf
尽管广泛普及的 H.264 编解码器的能耗低于其后继者 H.265,但它 压缩效率差其继任者 H.265 压缩效率更高,但功耗更高。而谷歌的开源 VP9编解码器 在每个领域都击败了它们,它需要更高的本地计算资源,这表明 额外的问题 在一个据称很便宜的物联网传感器中。
至于在本地分析流:当您运行最轻的本地神经网络来确定哪些帧(或帧的区域)值得发送到服务器时,您通常已经消耗了通过发送所有帧所节省的能量。

使用不太可能接入电网的传感器提取牛的蒙版图像。它是否将其有限的功率用于使用轻量级神经网络进行局部语义分割;是否将有限的信息发送到服务器以获取进一步的指令(从而引入延迟);或者是否发送“哑”数据(浪费带宽能量)? 资料来源:https://arxiv.org/pdf/1807.01972.pdf
很明显,“野外”计算机视觉项目需要专用的视频压缩编解码器,这些编解码器针对特定神经网络在特定和多样化任务(如语义分割、关键点检测(人体运动分析)和物体检测以及其他可能的最终用途)中的要求进行了优化。
如果您能在视频压缩效率和最小数据传输之间取得完美的平衡,那么您就离 SeeChange 更近了一步,并且能够在恶劣的环境中部署经济实惠的传感器网络。
AccMPEG
芝加哥大学的新研究可能更接近这种编解码器,其形式为 AccMPEG – 一种新颖的视频编码和流媒体框架,可在服务器端深度神经网络(DNN)中以低延迟、高精度运行,并且本地计算要求非常低。

AccMPEG 的架构。 资料来源:https://arxiv.org/pdf/2204.12534.pdf
该系统能够通过评估每个 16x16px 的程度来比以前的方法更经济。 宏块 可能会影响服务器端 DNN 的准确性。 相反,以前的方法通常必须基于图像中的每个像素来评估这种准确性,或者执行昂贵的本地操作来评估图像中的哪些区域可能是最感兴趣的。
在 AccMPEG 中,此准确度是在名为 AccGrad 的自定义模块中估算的,该模块测量宏块的编码质量与最终使用情况的相关性,例如尝试计算人数的服务器端 DNN、对人体运动进行骨架估计或其他常见的计算机视觉任务。
当视频帧到达系统时,AccMPEG 最初通过一个廉价的质量选择器模型对其进行处理,名为 Acc模型。 任何不太可能对服务器端 DNN 的有用计算做出贡献的区域本质上都是镇流器,并且应该标记为以尽可能低的质量进行编码,这与应该以更好的质量发送的显着区域相反。
此过程提出了三个挑战:该过程能否足够快地执行以实现可接受的延迟而不使用耗能的本地计算资源? 能否在帧速率和质量之间建立最佳关系? 能否为单个服务器端 DNN 快速训练模型?
培训后勤
理想情况下,计算机视觉编解码器将在插入式系统上进行预训练,以满足特定神经网络的确切要求。 然而,AccGrad 模块可以直接从 DNN 导出,只需两次前向传播,节省的开销是标准开销的十倍。
AccMPEG 仅对 AccGrad 进行了 15 个时期的训练,每个时期通过最终的 DNN 进行三次传播,并且可以使用其当前模型状态作为模板进行“实时”重新训练,至少对于类似规格的 CV 任务而言。
AccModel 使用预训练的 MobileNet-SSD 特征提取器,常见于经济实惠的边缘设备。 当运算量为 12 GFLOPS 时,该模型仅使用典型 ResNet18 方法的三分之一。 除了批量归一化和激活之外,该架构仅由卷积层组成,其计算开销与帧大小成正比。

AccGrad 消除了最终 DNN 推理的需要,从而改善了部署物流。
帧率
该架构的最佳运行速度为 10fps,这使其适用于农业监测、建筑退化监测、高视角交通分析和人体运动中的代表性骨骼推断等用途; 然而,非常快速移动的场景,例如低视野交通(汽车或人),以及高帧速率有益的其他情况,不适合这种方法。
该方法的节俭性部分在于其前提:相邻宏块的值可能相似,直到某个宏块的值低于估计精度为止。通过这种方法获得的区域的划分更加清晰,并且计算速度更快。
业绩提升
研究人员在配备单个 60 核 Maxwell GPU 的 128 美元 Jetson Nano 主板以及各种其他廉价同类产品上测试了该系统。 OpenVINO 用于抵消非常稀疏的本地 DNN 对 CPU 的一些能源需求。
AccModel 本身最初是在具有 8 个 GeForce RTX 2080S GPU 的服务器上进行离线训练的。 尽管对于初始模型构建来说这是一个强大的计算能力,但该系统使轻量级再训练成为可能,并且可以在攻击类似任务的不同 DNN 上将模型调整到某些容差参数,这意味着 AccMPEG 可以形成一个在野外需要最少参与的系统的一部分。
首次发布于 1 年 2022 月 XNUMX 日。












