Anderson 视角
NVIDIA 发布热修复补丁解决 GPU 驱动程序过热问题

昨天,NVIDIA 匆忙发布了一个关键的热修复补丁,以应对之前的驱动程序版本引起的系统错误报告问题,该问题引起了 AI 和游戏社区的警告,因为它导致系统错误地报告安全的 GPU 温度,即使在此期间,散热需求悄悄地增加到可能达到临界水平。
在 NVIDIA 的官方 帖子 中,热修复补丁发布时,尽管它只是列出的修复项中的第三项,但该问题被引用为 ‘GPU 监控工具可能在 PC 从睡眠模式唤醒后停止报告 GPU 温度’。
在受影响的 Game Ready 驱动程序 576.02 发布后不久,Stable Diffusion 子版块中的一个 固定主题,标题为 阅读以保存您的 GPU!,成为一个用于收集有关新驱动程序的传闻问题和用户报告的更新的资源。从这些报告和其他网络报告中,可以建立一些时间线来了解出现的问题。
第一个 Reddit 报告似乎出现在 ZephyrusG14 子版块,用户 fricy81 引用了 NVIDIA 论坛中的一个 帖子(存档):

NVIDIA 论坛中的用户在 576.02 更新后遇到问题。 来源:https://www.nvidia.com/en-us/geforce/forums/game-ready-drivers/13/563010/geforce-grd-57602-feedback-thread-released-41625/3524072/
NVIDIA 论坛中的用户报告说,在安装驱动程序更新后,像 MSI Afterburner 和游戏中的监控工具(如 使命召唤 中的工具)停止更新 GPU 温度读数,冻结在大约 35-36°C。
重启监控软件没有效果,用户表示,只有完全重启系统才能恢复准确的读数。像 HWInfo 和 NVIDIA 自己的监控应用程序继续正确报告温度。用户强调,该问题发生在正常使用期间,而不仅仅是在系统从睡眠模式唤醒后。
各个论坛上的用户反馈强调了正常风扇曲线行为的破坏和核心热调节的改变,导致图形处理单元在空闲时以意外高的温度运行,并且在通常被认为是标准操作负载的情况下过热,如 此评论 中详细描述:
‘我能感觉到有什么不对劲。外面的天气可能在 55°F / 12°C左右,但我在房间里却感到非常热。我的窗户是开着的,但我却感觉不到任何不同。所有风扇都在以最大速度运行,温度看起来很正常,大约在 68°C 到 72°C 之间,在玩游戏一段时间后。
‘一开始,这似乎很正常——直到第二天早上,我意识到那些不是空闲温度,风扇仍然在运行。
‘我最近做了一些 AI 超频,所以我不确定这些值是否只是因为安装了 ASUS AI Suite 3 而变得过高。之前也发生过一次,在安装 ASUS AI Suite 3 后,BIOS 设置甚至无法正常工作,因为它。
‘无论如何,我决定回滚到以前的驱动程序,以防万一.’
次优
官方发布的 PDF 对 576.02 驱动程序更新提供了一些线索,可能导致了新的问题。在 5.5 节中,NVIDIA 承认,GPU 温度可能在 NVIDIA Optimus 系统上被错误报告,特别是当没有运行应用程序时显示零度。

官方 576.02 更新说明的第 5.5 节解决了温度监控问题,似乎影响了比 Optimus 系统更多的系统。 来源:https://us.download.nvidia.com/Windows/576.02/576.02-win11-win10-release-notes.pdf
发布说明中写道:
5.5 GPU 温度在 Optimus 系统上被错误报告
5.5.1 问题
在 Optimus 系统上,温度报告工具(如 Speccy 或 GPU-Z)在没有运行应用程序时报告 NVIDIA GPU 温度为零。
5.5.2 解释
在 Optimus 系统上,当 NVIDIA GPU 没有被使用时,它会进入低功耗状态。这导致温度报告工具返回不正确的值。唤醒 GPU 查询温度将导致无意义的测量结果,因为 GPU 温度会发生变化。
这些工具仅在 GPU 触发并运行时报告准确的温度。
NVIDIA Optimus 是一种 GPU 切换技术,根据应用程序需求在集成和独立图形之间切换,以自动平衡性能和功耗,旨在节省电池寿命和降低功耗。对于游戏或 HD 视频播放等任务,Optimus 激活独立 GPU 以获得更好的性能;在网页浏览等较轻的活动中,它切换到集成(板载)图形。
更新似乎将之前仅限于 Optimus 系统的行为扩展到受影响的 GPU,即使它不在 Optimus 系统上运行,从而破坏了第三方工具中的温度报告。
风险调整
在大多数情况下,显卡的 VBIOS 很可能会防止永久性的 GPU 损害。VBIOS 在固件级别独立于驱动程序执行热和功率限制。
因此,即使驱动程序导致不正确的风扇行为或错误地报告温度,VBIOS仍应限制性能,增加风扇活动,或关闭GPU以防止硬件故障。
这并不意味着风险是微不足道的——长时间的高温会随着时间的推移降低性能或 给相邻组件带来压力;此外,在没有共同理解的驱动程序更新引起问题的情况下(尤其是在驱动程序“静默”更新的系统中),此类问题可能会误导大量受影响的用户,他们可能会尝试解决不存在的问题的方法,甚至可能通过应用不相关的“解决方案”对系统造成损害。
更新 576.02 引起的异常行为对从事人工智能工作流的人来说尤其令人担忧,因为高性能硬件通常会被推到其热极限,并且在长时间内保持这种状态。
问题驱动程序 576.02 在发布中期后引发了一波抱怨,尽管最初 报告 表明它提供了一些有益的性能改进。尽管提供了热修复补丁,并且 576.02 似乎引起了很大的破坏,但在撰写本文时,它仍然 可在 NVIDIA 网站下载*。
余波
关于有缺陷的更新的余波,有各种类型的损害和不便被报告:用户 Frankie_T9000 报告 说,他的 GPU 在启动时由于热量积累而崩溃,并且仅在降压后才稳定下来。他评论说 ‘看起来它没有永久性损害,但需要尽快重新涂抹(我周三会收到垫片)‘。
昨天,同一主题中的另一位用户 表示:‘我正在使用自定义风扇曲线和 MSI Afterburner,它一直显示我的 GPU 温度为 27°C,因此风扇没有打开,导致过热问题。我以为这是我的问题,但在安装以前的驱动程序后一切又恢复正常了。另外,任务管理器中温度也没有正确显示.’
虽然 NVIDIA(如它在每个热修复补丁发布中所述)经常为特定的视频游戏或平台提供热修复补丁,但 GPU 或其周围的热损害风险对于 AI 从业者来说高于游戏玩家,因为诸如训练或持续推理等密集的机器学习过程将 GPU 置于一致的长期负载之下 —— 这种情况可能只会在游戏中周期性地发生,例如在 boss 战斗或特别耗费资源的游戏关卡中,但游戏通常被设计为在 GPU 开发和系统稳定性之间取得平衡。
*存档:https://archive.ph/ylVR1
首次发布于 2025 年 4 月 22 日,星期二
