Anderson 视角

1970年代的气息：节能的AI监控

Published March 26, 2026

Updated May 16, 2026

Martin Anderson

Excerpts from a video simulating a grayscale video stream activated by object detection – source: https://videos.pexels.com/video-files/36553218/15498630_2560_1440_25fps.mp4

新研究表明，大多数视频AI不需要颜色，只需在关键时刻打开颜色，并且可以将数据使用量减少90％以上，同时损失很小的准确性。

远程流媒体摄像头和其他无线、电池驱动的视频设备需要紧密优化的监控设置，因为它们可能依赖于不稳定的电源，例如太阳能，或需要周期性重新充电，或其他形式的人工干预，在理想情况下，任何人都不需要在场。

与此研究同时，人们对带有摄像头的可穿戴设备的兴趣也日益增长（尽管此类设备已经受到电源和计算限制的严格限制），因为边缘AI现在承诺使它们更加有用。

除了这些考虑之外，降低边缘AI和监控成本的长期动力（特别是在不需要将节省的成本传递给客户的情况下）为边缘用例的能源保护方法创新提供了有力的理由。

声音

在流媒体视频感知领域，资源匮乏的边缘监控设备必须使用尽可能少的能量，同时仍然需要花费足够的资源来监控“有趣”的事件——在这种情况下，花费更多的资源是值得的。

有效地，这与运动驱动的灯具类似，仅在低能耗传感器确定有人在场时才提供照明。

由于音频监控和压缩比视频监控要少得多，近年来，人们尝试使用声音驱动的提示来“打开”受限系统的注意力；例如Listen to Look和Egotrigger框架：

在Egotrigger系统中，音频驱动触发有选择地激活图像捕获，从手对象交互提示中，减少冗余帧，同时在资源受限的智能眼镜系统中保留情景记忆性能。 来源

显然，音频不是搜索视觉事件的理想介质，因为许多基本事件可能没有相关的音频提示，或者可能发生在边缘麦克风的范围之外。

轻度睡眠者

一篇新论文建议，什么可能更好的是一个可以与AI合作来增加资源的视频流，只要监视的事件发生。下面的模拟给出了该概念的一般想法——低分辨率监控保持在最低信号级别上，以便对象检测框架能够正常运行，并告诉系统由于事件触发而增加分辨率：

所需行为的模拟——流媒体和分析以其最低的资源消耗水平运行；只要检测到“有趣”或被寻找的事件，就会触发更高的资源消耗。黑白监控风格可能有些“复古”，但它可能是未来的一个迹象。这段视频纯粹是为了说明新论文的核心思想而创建的。来源:

新工作是一项学术合作，涉及英国各机构和华为，提出了一种无需训练的、AI促进的、始终为灰度、按需彩色的边缘监控方案，旨在在没有“关键事件”发生时以低令牌使用量运行，并且仅在事件期间增加消耗量：

在流媒体视频理解基准测试中，新的系统（称为ColorTrigger）能够实现91.6％的全彩色基线性能，同时仅使用8.1％的RGB帧：

当模型仅看到灰度视频时，它会混淆关键细节并给出错误答案；但在正确的时刻触发颜色会消除图像的歧义并修复由依赖于颜色的任务引起的错误。 来源

该论文题为《Color When It Counts：Grayscale-Guided Online Triggering for Always-On Streaming Video Sensing》，由八位研究人员共同撰写，来自伦敦玛丽女王大学、杜伦大学、伦敦帝国学院和华为诺亚方舟实验室。该论文还有一個伴隨的項目頁面。

方法

为了在新系统中保留时间结构，ColorTrigger保持恒定的低带宽灰度监控。一个因果在线触发器分析低分辨率流中的一个滑动窗口（即，特定时间周围的帧的灵活正负范围，例如事件触发的感知）：

连续高分辨率RGB捕获迅速耗尽电源，因此记录提前停止并且可能会错过关键时刻。相反，ColorTrigger始终保持低功耗灰度流运行，并且仅在选定的时刻激活RGB摄像头——延长记录时间，同时仍然捕获需要回答后续查询的视觉细节。来源

当系统处于“被动”模式（即，它尚未识别触发事件）时，其动态令牌路由器分配有限的容量给一个不对称的解码器，始终寻找冗余和新颖的事件，在此期间，令牌流重新优先考虑容量而不是压缩：

ColorTrigger的模式。系统监控最近帧的滑动窗口分析，以检测冗余和变化，并仅在需要时触发高分辨率RGB捕获，在信用预算下。动态令牌路由器分配更少的令牌给灰度输入和更多的选定RGB帧，保留时间顺序用于下游多模态大型语言模型（MLLM）处理。

在帧到帧的基础上，系统需要决定当前时刻是否包含值得捕获颜色的新信息。滑动窗口中的最近的灰度帧简史允许ColorTrigger将当前帧与其立即过去进行比较。每个帧被转换成一个紧凑的特征表示，这些特征被比较以衡量其主机帧之间的相似度或差异度。

该比较过程被组织成一个结构，总结了每个帧与其他帧之间的重叠程度，有效地捕获场景是否重复或变化。一个轻量级优化步骤为窗口中的每个帧分配一个重要性评分，偏爱新颖性。

颜色平衡

为了防止过度使用颜色，一个简单的“积分系统”限制了颜色的触发频率。积分逐渐累积，当颜色被请求时就会被消耗，这样就可以允许活动的突发，但总体使用仍然受到控制。只有当帧是信息丰富的，并且有足够的积分时，帧才会被“升级”为颜色。

动态令牌路由器控制每个帧接收的详细程度，而不是以全质量处理每个帧。当没有重要事件被检测到时，灰度帧被保持在低分辨率，并被转换成一个小的、压缩的令牌集。当检测到重要时刻时，系统切换到颜色，并以更高的分辨率处理该帧，提供更丰富、更详细的表示。

两种类型的帧都经过相同的模型处理，但灰度帧以更轻松的方式处理，而选定的颜色帧则给予更多的关注。输出然后以原始顺序组合并发送到模型作为连续流。

由于大多数帧保持轻量级，只有少数被升级，因此系统在捕获关键细节时节省了大量的计算：

从论文中，系统需要暂时增加资源以区分颜色的另一个示例。

数据和测试

为了测试系统，研究人员评估了StreamingBench和OVO-Bench视频基准测试，避免了处理未来的内容（这是离线测试中的潜在危险）：

使用的Multimodal Large Language Model（MLLM）是InternVL3.5-8B-Instruct，通过CLIP ViT-B/16实现了因果触发器。

灰度流被限制在CIELAB颜色空间的亮度通道中，按照先前的工作，得到的灰度帧在patchification之前被调整到224x224px。

RGB帧则具有更高的比特率，并以448x448px处理，产生256个令牌，与灰度帧的64个令牌相比。

使用常见的优化工具来做出系统的决定：CVXPY（一个用于设置优化问题的Python库）和OSQP Solver（一个快速算法，用于计算何时触发颜色）。

视频以1fps的速度处理，帧数上限为128帧，以保持计算低。

测试的专有系统包括Gemini 1.5 Pro、GPT-4o和Claude 3.5 Sonnet。测试的开源视频MLLM包括LLaVA-OneVision-7B、Video-LLaMA2-7B和Qwen2.5-VL-7B。

测试的流媒体MLLM包括Flash-VStream-7B、VideoLLM-online-8B、Dispider-7B和TimeChat-Online-7B。

InternVL-3.5-8B和Qwen3-VL-8B以各种配置进行了测试，详见下面的StreamingBench结果表格：

在StreamingBench上进行实时视觉理解任务的性能比较，比较了专有、开源和流媒体MLLM在不同颜色预算下的性能。RGB（％）表示帧在触发后保留的颜色比例，其中100表示全彩色，0表示仅灰度输入。ColorTrigger在两个操作点进行了评估，分别保留8.1％和34.3％的颜色帧，并且在大大减少颜色使用的同时，相对于全彩色设置，整体准确性有所提高。

作者评论说：

ColorTrigger在StreamingBench的实时视觉理解子任务上实现了具有竞争力的性能。

我们的模型使用34.3％的RGB帧，得分为75.24，超越了最近的在线模型Dispider-7B，并且接近TimeChat-Online-7B，同时也优于专有模型Gemini 1.5 Pro（75.69）和GPT-4o（73.28）以及Claude 3.5 Sonnet（72.44）。

InternVL-3.5-8B使用全彩色得分为77.20，而ColorTrigger使用65.7％较少的RGB帧得分为75.24，即使使用仅8.1％的彩色帧也得分为70.72，相对于灰度基线62.08提高了8.64％，并且仍然与其他流媒体模型具有竞争力。

接下来，测试了OVO-Bench：

在OVO-Bench上进行的性能比较，比较了专有、开源和流媒体MLLM在不同颜色预算下的性能，涵盖了三个类别：实时视觉感知、向后跟踪和向前主动响应。RGB（％）表示帧在触发后保留的颜色比例，其中100表示全彩色，0表示仅灰度输入。ColorTrigger在两个操作点进行了评估，分别保留7.1％和33.1％的颜色帧，并且在大大减少颜色使用的同时，相对于全彩色设置，整体准确性有所提高。

关于这些结果，作者指出：

我们的模型使用33.1％的RGB帧，得分为52.5，超越了几乎所有现有的开源在线MLLM。相比基线模型InternVL-3.5-8B使用全RGB输入（57.7），ColorTrigger得分为52.5，同时将RGB帧的使用量减少了66.9％，仅损失了5.2个点的整体性能。

这种适度的性能下降伴随着显著的效率提高，证明了我们自适应路由策略的有效性。

实时视觉感知达到了65.2的得分，比仅灰度基线53.8提高了11.4个点。即使仅使用7.1％的RGB帧（减少了92.9％），ColorTrigger仍然保持了50.4的整体得分，比灰度设置提高了2.5个点。

最后，研究人员进行了一个测试，使用Video-MME长视频理解基准测试（一个分析任务，不用于测试延迟或其他“实时”环境条件）：