存根 如何在智能手机运行机器学习模型时保持凉爽 - Unite.AI
关注我们.

人工智能

如何在智能手机运行机器学习模型时保持凉爽

mm
更新 on
来源图片:“年轻人拿着新款三星 Galaxy S20 Ultra”,作者:Jonas Leupe,Unsplash - https://unsplash.com/photos/wK-elt11pF0

奥斯汀大学和卡内基梅隆大学的研究人员提出了一种新方法,可以在智能手机等移动设备和低功耗边缘设备上运行计算成本高昂的机器学习模型,而无需触发 热节流 – 专业和消费设备中的一种常见保护机制,旨在通过降低主机设备的性能来降低主机设备的温度,直到再次获得可接受的工作温度。

新方法可以帮助更复杂的机器学习模型运行推理和各种其他类型的任务,而不会威胁主机智能手机等的稳定性。

中心思想是利用 动态网络,其中 权重 模型的数据可以通过本地机器学习模型的“低压”和“全强度”版本来访问。

如果本地安装的机器学习模型运行导致设备温度急剧升高,模型会动态切换到要求较低的模型,直到温度稳定,然后再切换回成熟的模型。版本。

测试任务包括图像分类作业和问答自然语言推理 (QNLI) 任务——这两种操作都可能涉及移动人工智能应用程序。 资料来源:https://arxiv.org/pdf/2206.10849.pdf

测试任务包括图像分类作业和问答自然语言推理 (QNLI) 任务——这两种操作都可能涉及移动人工智能应用程序。 资料来源:https://arxiv.org/pdf/2206.10849.pdf

研究人员在 2019 年 Honor V30 Pro 智能手机和 Raspberry Pi 4B 4GB 上对计算机视觉和自然语言处理 (NLP) 模型进行了概念验证测试。

从结果(对于智能手机)中,我们可以在下图中看到主机设备的温度随着使用而上升和下降。 红线代表模型运行 也完全不需要 动态换档。

尽管结果可能看起来非常相似,但事实并非如此:是什么导致温度波动 蓝色 线(即使用新论文的方法)是在更简单和更复杂的模型版本之间来回切换。 在操作过程中任何时候都不会触发热节流。

造成温度升高或降低的原因有哪些 红色 线路是设备中热节流的自动参与,这会减慢模型的运行速度并增加其延迟。

就模型的可用性而言,我们可以在下图中看到,无辅助模型在受到热限制时的延迟明显更高:

同时,上图显示由 Dynamic Shifting 管理的模型的延迟几乎没有变化,始终保持响应。

对于最终用户而言,高延迟可能意味着等待时间增加,这可能会导致放弃任务并对托管该任务的应用程序不满意。

对于 NLP(而不是计算机视觉)系统,高响应时间可能更令人不安,因为任务可能依赖于即时响应(例如自动翻译或帮助残疾用户的实用程序)。

对于真正对时间要求严格的应用程序(例如实时 VR/AR),高延迟将有效地扼杀模型的核心实用性。

研究人员指出:

“我们认为,热限制对延迟至关重要的移动机器学习应用程序构成了严重威胁。 例如,在视频流或游戏的实时视觉渲染过程中,每帧处理延迟的突然激增将对用户体验产生重大负面影响。 此外,现代移动操作系统通常为视力障碍人士提供特殊服务和应用程序,例如 iOS 上的 VoiceOver 和 Android 上的 TalkBack。

“用户通常完全依靠语音与手机进行交互,因此这些服务的质量高度依赖于应用程序的响应能力或延迟。”

图表展示了 BERT w50 d50 在独立和动态转换帮助下的性能。 请注意动态换档中延迟的均匀性(蓝色)。

图表展示了 BERT w50 d50 在独立(红色)和动态移位(蓝色)帮助下的性能。 请注意动态换档中延迟的均匀性(蓝色)。

标题为 冷静一点:动态换档可防止热节流,是 UoA 的两名研究人员之间的合作; 一位来自卡内基梅隆大学; 以及一名代表两个机构的人。

基于CPU的移动人工智能

尽管动态移位和多尺度架构是 已建立并活跃 在研究领域中,大多数举措都集中在更高端的计算设备阵列上,当前的工作重点分为本地(即基于设备的)神经网络的强烈优化,通常是为了推理而不是为了推理。培训,以及专用移动硬件的改进。

研究人员进行的测试是在 CPU 而不是 GPU 芯片上进行的。 尽管 越来越多的兴趣 在移动机器学习应用程序中利用本地 GPU 资源(甚至 直接在移动设备上进行培训,这 可以提高质量 (最终模型的),GPU 通常会消耗更多的电量,这是人工智能努力独立于(云服务)并在资源有限的设备中发挥作用的关键因素。

测试重量共享

该项目测试的网络是 可精简网络DynaBERT,分别代表计算机视觉和基于 NLP 的任务。

虽然曾经有过各种 项目 为了使 BERT 迭代能够在移动设备上高效、经济地运行,一些尝试已经 被批评 作为曲折的解决方法,新论文的研究人员指出,在移动领域使用 BERT 是一个挑战,并且“BERT 模型对于移动电话来说计算量太大”。

DynaBERT是一项中国倡议,旨在优化Google强大的 NLP/NLU框架 进入资源匮乏的环境; 但研究人员发现,即使是这种 BERT 的实现也要求非常高。

尽管如此,作者在智能手机和 Raspberry PI 设备上进行了两项实验。 在 CV 实验中,连续、重复地处理单个随机选择的图像 残差网络50 作为分类任务,并且能够稳定运行,并且在实验运行的整个小时内不调用热节流。

该文件指出:

虽然它可能会牺牲一些准确性,但所提出的动态移位具有更快的推理速度。 最重要的是,我们的动态换档方法具有一致的推论。

在连续图像分类任务中,独立运行 ResNet50,并在 Slimmable ResNet50 x1.0 和 x0.25 版本之间动态切换,时间为 XNUMX 分钟。

在连续图像分类任务中,独立运行 ResNet50,并在 Slimmable ResNet50 x1.0 和 x0.25 版本之间动态切换,时间为 XNUMX 分钟。

对于 NLP 测试,作者将实验设置为在 DynaBERT 套件中的两个最小模型之间切换,但发现在 1.4 倍延迟时,BERT 节流在 70° 左右。 因此,他们设置在工作温度达到 65° 时降档。

BERT 实验涉及让安装对来自的问题/答案对连续运行推理 GLUE 的 ONLI 数据集.

与计算机视觉实现相比,雄心勃勃的 BERT 任务的延迟和准确性权衡更为严重,而准确性是以更严格地控​​制设备温度的需求为代价的,以避免限制:

研究人员在两个部门任务中进行的实验的延迟与准确性。

研究人员在两个部门任务中进行的实验的延迟与准确性。

作者观察到:

“一般来说,动态转移无法阻止 BERT 模型的热节流,因为该模型的计算强度巨大。 然而,在某些限制下,在手机上部署 BERT 模型时,动态移位仍然很有帮助。

作者发现,BERT 模型会导致 Honor V30 手机的 CPU 温度在 80 秒内升至 32°,并将在六分钟的活动内调用热节流。 因此作者仅使用半角 BERT 模型。

在 Raspberry PI 设置上重复了这些实验,该技术也能够在该环境中防止触发热节流。 然而,作者指出,Raspberry PI 不像紧凑型智能手机那样在极端热约束下运行,并且似乎添加了大量实验,以进一步证明该方法在适度装备的处理环境中的有效性。

 

首次发布于 23 年 2022 月 XNUMX 日。