关注我们.

安德森的角度

NVIDIA 发布针对 GPU 驱动程序过热问题的修补程序

mm
ChatGPT-40 和 Adob​​e Firefly

昨天,NVIDIA 紧急发布了一个关键的修补程序,以控制先前驱动程序版本引发的后果,该版本引发了整个人工智能和游戏社区的恐慌,因为它导致系统错误地报告了安全的 GPU 温度——即使冷却需求悄悄攀升至潜在的临界水平。

在NVIDIA官方 发表 围绕修补程序版本,尽管在声明的修复列表中仅排第三,但该问题被引用为“PC 从睡眠状态唤醒后,GPU 监控实用程序可能会停止报告 GPU 温度.

受影响的 Game Ready 驱动程序 576.02 被推出, 固定线程 在 Stable Diffusion 子版块,标题为 阅读以保存您的 GPU!,成为了有关新驱动程序的轶事问题和用户报告更新的资源。从这些报告以及网络上的其他报告,可以建立一些紧急问题的时间线。

Reddit 上关于该漏洞的第一份报告似乎 发生 UTC 时间周五下午晚些时候,在 ZephyrusG14 subreddit 上,用户 fricy81 引用了 发表 在 NVIDIA 论坛 (存档):

NVIDIA 论坛上的一位用户在 576.02 更新后发现了一些问题。来源:https://www.nvidia.com/en-us/geforce/forums/game-ready-drivers/13/563010/geforce-grd-57602-feedback-thread-released-41625/3524072/

NVIDIA 论坛的一位用户在 576.02 更新后发现了问题。 Source: https://www.nvidia.com/en-us/geforce/forums/game-ready-drivers/13/563010/geforce-grd-57602-feedback-thread-released-41625/3524072/

NVIDIA 论坛上的用户报告称,安装驱动程序更新后,MSI Afterburner 等工具和游戏内监视器(例如 使命召唤 (通常访问本机系统读数,就像 Windows 中的任务管理器的 GPU 面板一样)停止更新 GPU 温度读数,冻结在 35-36°C 左右。

用户表示,重启监控软件没有任何效果,只有彻底重启系统才能恢复准确读数。HWInfo和NVIDIA自带的监控应用程序等工具仍能正确报告温度。用户强调,问题发生在正常使用过程中,而不仅仅是在系统从睡眠状态唤醒后。

各个论坛的用户反馈都强调了风扇正常曲线行为的普遍中断和核心热调节的改变,导致图形处理单元在意外的高温下空转,并且在通常被认为是标准运行负载的情况下过热,详情如下 在此评论中:

我感觉有些不对劲。外面的气温大概在 55°F / 12°C 左右,但我在房间里却热得像要烤焦了一样。窗户开着,却感觉不到任何变化。所有风扇都开到最大,一开始温度看起来还不错——玩了一会儿游戏后,温度在 68°C 到 72°C 左右。

“起初,这似乎很正常——直到第二天早上,我才意识到这些不是空闲温度,而且风扇仍在运转。

最近修复了一些问题后,我做了一些AI超频,所以不确定数值是不是突然飙升得太高了。之前安装华硕AI Suite 3后就发生过一次这种情况——BIOS设置甚至因此无法正常工作。

“无论如何,我现在继续前进并回到旧版驱动程序。”

次优

正式发布 PDF 576.02 驱动程序更新提供了一些可能导致新问题的变更线索。在 5.5 节中,NVIDIA 承认 GPU 温度可能会在 NVIDIA 擎天柱 系统,特别是在没有应用程序运行时显示零度。

官方 5.5 更新说明的 576.02 节解决了温度监控问题,这些问题似乎影响了除 Optimus 系统之外的更多系统。来源:https://us.download.nvidia.com/Windows/576.02/576.02-win11-win10-release-notes.pdf

官方 5.5 更新说明的第 576.02 节解决了温度监控问题,该问题似乎影响了除 Optimus 系统之外的更多系统。 来源:https://us.download.nvidia.com/Windows/576.02/576.02-win11-win10-release-notes.pdf

新闻稿指出:

5.5 Optimus 系统上 GPU 温度报告不正确

5.5.1期

在 Optimus 系统上,当没有应用程序运行时,Speccy 或 GPU-Z 等温度报告工具会报告 NVIDIA GPU 温度为零。

5.5.2 解释

在 Optimus 系统上,当 NVIDIA GPU 未被使用时,它会进入低功耗状态。这会导致温度报告工具返回错误的值。唤醒 GPU 来查询温度会导致测量结果毫无意义,因为 GPU 温度会因此发生变化。

仅当 GPU 处于唤醒状态并运行时,这些工具才会报告准确的温度。

NVIDIA Optimus 是一种 GPU 切换技术,可根据应用程序需求在集成显卡和独立显卡之间切换,从而自动平衡性能和功耗,旨在延长电池续航时间并降低功耗。在游戏或高清视频播放等任务中,Optimus 会激活独立显卡以获得更佳性能;在网页浏览等轻量级任务中,则会恢复为集成(板载)显卡。

该更新似乎扩展了之前仅限于 Optimus 系统的行为,允许受影响的 GPU 在空闲时进入低功耗状态,即使不在 Optimus 系统上托管,从而破坏第三方工具中的温度报告。

风险调整

在大多数情况下,可以说显卡的 BIOS 很可能可以防止永久性的 GPU 损坏。VBIOS 在固件级别强制执行热量和功率限制,与驱动程序无关。

因此,即使驱动程序导致风扇行为不当或错误报告温度,VBIOS 仍应限制性能、增加风扇活动,或者关闭 GPU 以防止硬件故障。

这并不意味着风险微不足道——持续的高温可能会随着时间的推移降低性能,或者 强调相邻组件;此外,如果人们没有共同认识到更新的驱动程序会导致问题(尤其是在驱动程序“静默”更新的系统中),这种性质的问题可能会误导很大一部分受影响的用户,他们可能会尝试补救不存在的问题,甚至可能通过应用不相关的“修复”对其系统造成损害。

更新 576.02 引起的错误行为对于从事人工智能工作流程的人来说尤其令人担忧,因为高性能硬件通常会在较长时间内被推到其热极限。

问题 576.02 驱动程序自 XNUMX 月中旬发布以来,引发了更广泛的投诉,尽管最初 报告 它提供了一些有益的性能改进。尽管提供了修补程序,并且 576.02 似乎造成了一定程度的破坏,但在撰写本文时,它仍然 可供下载* 在 NVIDIA 的网站上。

余辉

就错误更新的后果而言,已报告了多种类型的损害和/或不便:用户 Frankie_T9000 报道 他的 GPU 在故障更新下启动时因热量积聚而崩溃,降压后才稳定下来。他评论道看起来它没有受到永久性损坏,但需要尽快重新粘贴(我周三会有垫子来)怀疑旧的导热膏由于热量积聚而老化,所以我放了新的导热膏垫。

昨天同一主题中的另一个用户 : 我使用自定义风扇曲线和微星 Afterburner,它一直显示我的 GPU 温度稳定在 27°C,所以风扇无法启动,导致过热问题。我以为是我自己的问题,但安装之前的驱动程序后,一切又恢复正常了。而且,任务管理器中温度显示不正确。

尽管 NVIDIA(正如其在每个修补程序版本中始终声明的那样)经常为特定视频游戏或平台提供修补程序,但对于 AI 从业者而言,GPU 或周围发生热损坏的风险比视频游戏玩家更高,因为密集的机器学习过程(例如训练或持续推理)会将 GPU 在长期持续负载下 – 游戏中可能仅会定期触发的事件,在 Boss 战或特别苛刻的地图部分中可能会“激增”为高使用率,但其设计目的是在 GPU 利用率和系统稳定性之间进行妥协。

 

* 存档:https://archive.ph/ylVR1

首次发布于 22 年 2025 月 XNUMX 日星期二

机器学习作家,人体图像合成领域专家。曾任 Metaphysic.ai 研究内容主管。
个人网站: 马丁南德森.ai
联系我们 [email protected]
推特:@manders_ai