Anderson 视角
NVIDIA 发布热修复以解决 GPU 驱动程序的过热问题

昨天,NVIDIA 发布了一项关键热修复,以解决之前驱动程序版本引起的系统错误报告,导致系统错误地报告安全的 GPU 温度,即使冷却需求正在悄悄地增加到可能达到的临界水平。
在 NVIDIA 的官方 帖子 中,热修复发布时,尽管它在列出的修复列表中排名第三,但问题被列为 ‘GPU 监控工具可能在 PC 从睡眠模式唤醒后停止报告 GPU 温度’。
在受影响的 Game Ready 驱动程序 576.02 发布后不久,一个 固定主题 在 Stable Diffusion 子版块中成为一个资源,用于收集有关新驱动程序的传闻问题和用户报告的更新。从这些报告和其他网络报告中,可以建立一个时间线来描述出现的问题。
Reddit 上的第一个错误报告似乎 出现在 周五下午 UTC 的 ZephyrusG14 子版块,其中用户 fricy81 引用了 NVIDIA 论坛 (存档) 中的一篇帖子:

NVIDIA 论坛中的一位用户在 576.02 更新后发现问题。 来源:https://www.nvidia.com/en-us/geforce/forums/game-ready-drivers/13/563010/geforce-grd-57602-feedback-thread-released-41625/3524072/
NVIDIA 论坛中的用户报告说,在安装驱动程序更新后,像 MSI Afterburner 和游戏中的监控工具(如《使命召唤》中的监控工具)停止更新 GPU 温度读数,冻结在大约 35-36°C。
用户重启监控软件无效,只有完全重启系统才能恢复准确的读数。像 HWInfo 和 NVIDIA 自己的监控应用程序继续正确报告温度。用户强调,这个问题发生在正常使用期间,而不仅仅是在系统从睡眠模式唤醒后。
各个论坛上的用户反馈强调了正常风扇曲线行为的破坏和核心热调节的改变,导致图形处理单元在意外高温下空闲,并在通常被认为是标准操作负载的情况下过热,如 此评论 中所述:
‘我能感觉到有什么不对劲。外面的天气可能在 55°F / 12°C 左右,但我在房间里感到非常热。我的窗户打开了,但我感觉不到任何区别。所有风扇都以最大速度运行,温度看起来很正常,大约在 68°C 到 72°C 之间,玩了一会儿游戏后。
‘一开始,这似乎很正常——直到第二天早上,我意识到这些不是空闲温度,风扇仍然在 [运行]。
‘我最近做了一些 AI 超频,所以我不确定值是否只是升高了。以前在安装 ASUS AI Suite 3 后发生过一次——BIOS 设置甚至无法正常工作,因为它。
‘无论如何,我继续并回滚到较旧的驱动程序,目前为止。
次优
官方发布的 PDF 文件中关于 576.02 驱动程序更新提供了一些线索,可能导致了新的问题。在第 5.5 节中,NVIDIA 承认,在 NVIDIA Optimus 系统上,GPU 温度可能被错误地报告,特别是当没有应用程序运行时,显示零度。

官方 576.02 更新说明的第 5.5 节解决了似乎影响了比 Optimus 系统更多系统的温度监控问题。 来源:https://us.download.nvidia.com/Windows/576.02/576.02-win11-win10-release-notes.pdf
发布说明中写道:
5.5 GPU 温度在 Optimus 系统上被错误地报告
5.5.1 问题
在 Optimus 系统上,温度报告工具(如 Speccy 或 GPU-Z)在没有应用程序运行时报告 NVIDIA GPU 温度为零。
5.5.2 解释
在 Optimus 系统上,当 NVIDIA GPU 没有被使用时,它将进入低功耗状态。这导致温度报告工具返回错误值。唤醒 GPU 查询温度将导致无意义的测量结果,因为 GPU 温度会发生变化。
这些工具只会在 GPU 唤醒并运行时报告准确的温度。
NVIDIA Optimus 是一种 GPU 切换技术,根据应用程序需求在集成和独立图形之间切换,以自动平衡性能和功耗,旨在节省电池寿命和降低功耗。对于游戏或 HD 视频播放等任务,Optimus 激活独立 GPU 以获得更好的性能;在网页浏览等轻负荷活动期间,它会切换到集成(板载)图形。
更新似乎扩展了之前仅限于 Optimus 系统的行为,允许受影响的 GPU 在空闲时进入低功耗状态,即使它不是 Optimus 系统的一部分,从而破坏了第三方工具中的温度报告。
风险调整
在大多数情况下,公平地说,图形卡的 VBIOS 很可能会阻止永久性的 GPU 损害。VBIOS 在固件级别强制执行热和功率限制,与驱动程序独立。
因此,即使驱动程序导致不正确的风扇行为或温度错误报告,VBIOS 也应该限制性能,增加风扇活动,或者关闭 GPU 以防止硬件故障。
这并不意味着风险是微不足道的——长时间高温可能会随着时间的推移降低性能或 给相邻组件带来压力;此外,缺乏对更新驱动程序引起的问题的共同理解(尤其是在驱动程序“默默”更新的系统中),这种问题可能会误导大量受影响的用户,他们可能会尝试解决不存在的问题的方法,甚至可能由于应用不相关的“解决方案”而对系统造成损害。
576.02 更新引起的错误行为对从事人工智能工作流的人来说尤其令人担忧,因为高性能硬件通常会被推到其热极限,并且持续时间较长。
问题驱动程序 576.02 在发布后不久引发了一波投诉,尽管最初有 报告 表明它提供了一些有益的性能改进。尽管提供了热修复,并且 576.02 似乎造成了很大的破坏,但在撰写本文时,它仍然 可供下载* 在 NVIDIA 的网站上。
余波
在有缺陷的更新引起的后果方面,报告了多种类型的损害和不便:用户 Frankie_T9000 报告 说,他的 GPU 在启动时由于热量积累而崩溃,并且只有在降压后才稳定下来。他评论说 ‘看起来它没有永久损坏,但需要尽快重新涂抹(我周三就有垫子了)我怀疑旧的热导膏由于热量积累而老化了,所以我正在使用新的垫子。‘
昨天,同一主题中的另一位用户 表示:‘我正在使用自定义风扇曲线和 MSI Afterburner,它一直显示我的 GPU 温度为 27°C,因此风扇没有打开,导致过热问题。我以为这是我的问题,但是在安装前一个驱动程序后一切都正常了。另外,任务管理器中温度也没有正确显示。’
虽然 NVIDIA(如其在每个热修复发布中反复声明)经常为特定视频游戏或平台提供热修复,但 GPU 或其周围可能受到的热损害风险对于 AI 从业者来说高于游戏玩家,因为诸如训练或持续推理等密集的机器学习过程将 GPU 置于持续的长期负载之下——这可能只是在游戏中偶尔触发,可能会在 boss 战斗或特别耗费资源的游戏地图部分中“激增”到高使用率,但通常被设计为在 GPU 开发和系统稳定性之间进行妥协——这可能只是在游戏中偶尔触发,可能会在 boss 战斗或特别耗费资源的游戏地图部分中“激增”到高使用率,但通常被设计为在 GPU 开发和系统稳定性之间进行妥协——* Archive:https://archive.ph/ylVR1 首次发布于 2025 年 4 月 22 日,星期二












