人工智能

如何在运行机器学习模型时保持智能手机的凉爽

Published June 23, 2022

Updated April 28, 2026

Martin Anderson

Source image: 'Young man holding the new Samsung Galaxy S20 Ultra', by Jonas Leupe, Unsplash - https://unsplash.com/photos/wK-elt11pF0

来自奥斯汀大学和卡内基梅隆大学的研究人员提出了在移动设备（如智能手机）和低功率边缘设备上运行计算密集型机器学习模型的新方法，而不会触发热节制 – 专业和消费设备中的一种常见保护机制，旨在通过降低主机设备的性能来降低其温度，直到再次达到可接受的工作温度。

新的方法可以帮助更复杂的机器学习模型运行推理和各种其他类型的任务，而不会威胁到主智能手机的稳定性。

该方法的核心思想是使用 动态网络，其中模型的权重可以被本地机器学习模型的“低压”和“全强度”版本访问。

在本地安装的机器学习模型运行可能会导致设备温度危险性上升的情况下，模型将动态切换到更不苛刻的模型，直到温度稳定，然后切换回完整版本。

测试任务包括图像分类和问答自然语言推理（QNLI）任务 – 这两种操作可能会涉及移动 AI 应用程序。 来源：https://arxiv.org/pdf/2206.10849.pdf

研究人员在 2019 款 Honor V30 Pro 智能手机和 Raspberry Pi 4B 4GB 设备上进行了计算机视觉和自然语言处理（NLP）模型的概念验证测试。

从结果（对于智能手机）中，我们可以看到图像中主机设备的温度随着使用而上升和下降。红线代表在没有 动态切换的情况下运行的模型。

虽然结果看起来可能非常相似，但它们并非如此：蓝线（即使用新论文的方法）温度波动的原因是模型在更简单和更复杂的版本之间切换。在操作过程中，永远不会触发热节制。

红线的温度上升和下降是由于设备中的热节制自动启动，热节制会减慢模型的运行速度并增加其延迟。

在模型的可用性方面，我们可以看到图像中未经辅助的模型在热节制期间的延迟明显更高：

与此同时，图像上方显示，使用动态切换的模型几乎没有延迟的变化，始终保持响应。

对于最终用户，高延迟可能意味着等待时间增加，这可能会导致任务被放弃和对托管应用程序的不满。

在 NLP（而非计算机视觉）系统中，高响应时间可能会更加令人不安，因为任务可能依赖于及时的响应（例如自动翻译或帮助残障用户的实用程序）。

对于真正的时间关键应用程序（例如实时 VR/AR），高延迟实际上会破坏模型的核心用途。

研究人员指出：

‘我们认为热节制对延迟关键的移动机器学习应用程序构成严重威胁。例如，在视频流媒体或游戏的实时视觉渲染期间，处理每帧的突然延迟激增将对用户体验产生重大负面影响。此外，现代移动操作系统通常为视障人士提供特殊服务和应用程序，例如 iOS 上的 VoiceOver 和 Android 上的 TalkBack。 ‘

‘用户通常通过完全依赖语音与移动电话交互，因此这些服务的质量严重依赖于应用程序的响应速度或延迟。’

图表展示了 BERT w50 d50 未辅助和使用动态切换的性能。注意动态切换（蓝色）中的延迟均匀性。

图表展示了 BERT w50 d50 未辅助（红色）和使用动态切换（蓝色）的性能。注意动态切换（蓝色）中的延迟均匀性。

该论文的标题为 保持凉爽：动态切换防止热节制，这是奥斯汀大学两名研究人员、卡内基梅隆大学一名研究人员以及代表两所机构的一名研究人员之间的合作。

CPU 基础移动 AI

虽然动态切换和多尺度架构是一个已确立和活跃的研究领域，但大多数计划都集中在更高端的计算设备阵列上，当前的工作重点分为在设备上优化本地神经网络（通常用于推理而非训练）和改进专用移动硬件。

研究人员进行的测试是在 CPU 而非 GPU 芯片上进行的。尽管人们对利用本地 GPU 资源在移动机器学习应用程序中感兴趣（甚至直接在移动设备上训练，这可能会提高最终模型的质量），GPU 通常会消耗更多电力，这是 AI 在设备上独立（不依赖云服务）和在资源有限的设备上有用性的关键因素。

测试权重共享

该项目中测试的网络是 Slimmable 网络和 DynaBERT，分别代表计算机视觉和 NLP 任务。

虽然已经有各种尝试使 BERT 的迭代在移动设备上高效且经济地运行，但一些尝试被批评为曲折的变通方法，研究人员指出，使用 BERT 在移动空间是一个挑战，并且“BERT 模型通常对于移动电话来说计算密集度太高”。

DynaBERT 是一个中国计划，旨在将 Google 的强大 NLP/NLU 框架优化到资源匮乏的环境中；然而，即使是 BERT 的这个实现，研究人员也发现它的要求非常高。

尽管如此，在智能手机和 Raspberry PI 设备上，作者进行了两项实验。在计算机视觉实验中，一个随机选择的图像被连续和重复地作为分类任务在 ResNet50 中处理，并且能够在整个实验运行时间内稳定运行而不触发热节制。

论文指出：

‘虽然它可能会牺牲一些准确性，但所提出的动态切换具有更快的推理速度。最重要的是，我们的动态切换方法具有一致的推理。’

在连续图像分类任务中运行 ResNet50 未辅助和使用动态切换在 Slimmable ResNet50 x1.0 和 x0.25 版本之间，持续 60 分钟。

对于 NLP 测试，作者将实验设置为在 DynaBERT 套件中两个最小的模型之间切换，但发现 BERT 在 1.4 倍延迟时在 70° 时会降速。因此，他们将降速设置为在温度达到 65° 时发生。

BERT 实验涉及让安装在 GLUE 的 ONLI 数据集中的一个问题/答案对上连续运行推理。

与计算机视觉实现相比，BERT 任务的延迟和准确性权衡更加严重，准确性以需要控制设备温度以避免降速为代价：

作者实验中两个任务的延迟与准确性权衡。

作者观察到：

‘动态切换通常无法防止 BERT 模型的热节制，因为模型的巨大计算强度。然而，在某些限制下，动态切换在部署 BERT 模型在移动电话时仍然可以提供帮助。’

作者发现，BERT 模型会在不到 32 秒内将 Honor V30 手机的 CPU 温度升高到 80°，并在不到 6 分钟的活动时间内触发热节制。因此，作者仅使用半宽度 BERT 模型。

实验在 Raspberry PI 设备上重复进行，技术也能够在这种环境中防止热节制的触发。然而，作者指出，Raspberry PI 不像智能手机那样在极端的热约束下运行，似乎添加了这批实验作为该方法在配置较低的处理环境中的有效性的进一步证明。

首次发布于 2022 年 6 月 23 日。

Related Topics:mobile computing research

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai

Unite.AI

如何在运行机器学习模型时保持智能手机的凉爽

CPU 基础移动 AI

测试权重共享

You may like