Connect with us

NVIDIA выпускает горячее исправление для проблемы с перегревом драйвера GPU

Взгляд Anderson

NVIDIA выпускает горячее исправление для проблемы с перегревом драйвера GPU

mm
ChatGPT-40 and Adobe Firefly

Вчера NVIDIA срочно выпустила критическое горячее исправление, чтобы сдержать последствия предыдущего выпуска драйвера, который вызвал тревогу в сообществах ИИ и игр, заставив системы ложно сообщать о безопасных температурах GPU – даже когда требования к охлаждению тихо увеличивались до потенциально критических уровней.

В официальном посте NVIDIA вокруг выпуска горячего исправления, хотя только третьим в списке заявленных исправлений, проблема указана как ‘Утилиты мониторинга GPU могут перестать сообщать температуру GPU после пробуждения компьютера от сна’.

Вскоре после выпуска пострадавшего драйвера Game Ready 576.02 на Reddit в разделе Stable Diffusion появился закрепленный пост под названием Прочитайте, чтобы спасти свой GPU!, который стал ресурсом для анекдотических проблем и обновлений пользователей, связанных с новым драйвером. Из этих и других отчетов в сети можно установить некоторую временную шкалу возникающих проблем.

Первый отчет о баге на Reddit, кажется, произошел поздним пятничным днем по UTC, в разделе ZephyrusG14, где пользователь fricy81 сослался на пост на форумах NVIDIA (архив):

Пользователь на форумах NVIDIA обнаруживает проблемы после обновления до 576.02.

Пользователь на форумах NVIDIA обнаруживает проблемы после обновления до 576.02. Источник: https://www.nvidia.com/en-us/geforce/forums/game-ready-drivers/13/563010/geforce-grd-57602-feedback-thread-released-41625/3524072/

Пользователь на форумах NVIDIA сообщил, что после установки обновления драйвера инструменты như MSI Afterburner и мониторы в играх, такие как тот, что в Call of Duty (которые обычно доступны к родным системным показаниям, как и панель GPU в Task Manager в Windows), перестали обновлять показания температуры GPU, застревая на уровне около 35-36°C.

Перезапуск программного обеспечения для мониторинга не имел никакого эффекта, заявил пользователь, и только полный перезапуск системы мог восстановить точные показания. Инструменты như HWInfo и собственное приложение для мониторинга NVIDIA продолжали сообщать температуры правильно. Пользователь подчеркнул, что проблема возникла во время нормального использования, а не только после пробуждения системы от сна.

Отзывы пользователей на различных форумах подчеркнули общее нарушение нормального поведения кривой вентилятора и изменение ядрового термического регулирования, что привело к тому, что графические процессоры простаивали на неожиданно высоких температурах и тревожно перегревались под нагрузками, которые обычно считались стандартными, как подробно описано в этом комментарии:

‘Я мог почувствовать, что что-то не так. На улице было probably около 55°F / 12°C, но я был готов alive в своей комнате. Мое окно было открыто, и все же я не мог почувствовать никакой разницы. Все вентиляторы работали на максимуме, и температуры казались нормальными сначала – около 68°C до 72°C после игры в течение некоторого времени.

‘Сначала это казалось нормальным – пока на следующее утро я не понял, что эти температуры не являются температурой простоя, и вентиляторы все еще работали.

‘Я сделал некоторое переопределение частоты после исправления нескольких вещей в последнее время, поэтому я не был уверен, не взлетели ли значения слишком высоко. Это произошло однажды после установки ASUS AI Suite 3 – настройки BIOS не работали должным образом из-за этого.

‘В любом случае, я решил откатиться к более старому драйверу на данный момент.’

Субоптимально

Официальный выпуск PDF для обновления драйвера 576.02 дает некоторые подсказки о изменениях, которые могли способствовать новым проблемам. В разделе 5.5 NVIDIA признает, что температура GPU может быть сообщена неправильно на системах NVIDIA Optimus, в частности, показывая ноль градусов, когда нет запущенных приложений.

Раздел 5.5 официальных заметок к обновлению 576.02 касается проблем с мониторингом температуры, которые, кажется, повлияли на большее количество систем, чем системы Optimus.

Раздел 5.5 официальных заметок к обновлению 576.02 касается проблем с мониторингом температуры, которые, кажется, повлияли на большее количество систем, чем системы Optimus. Источник: https://us.download.nvidia.com/Windows/576.02/576.02-win11-win10-release-notes.pdf

Выпуск гласит:

5.5 Температура GPU сообщается неправильно на системах Optimus

5.5.1 Проблема

На системах Optimus инструменты мониторинга температуры, такие как Speccy или GPU-Z, сообщают, что температура NVIDIA GPU равна нулю, когда нет запущенных приложений.

5.5.2 Объяснение

На системах Optimus, когда NVIDIA GPU не используется, он переводится в состояние низкого потребления энергии. Это вызывает неправильные значения в инструментах мониторинга температуры. Пробуждение GPU для запроса температуры приведет к бессмысленным измерениям, поскольку температура GPU изменится в результате.

Эти инструменты будут сообщать точные температуры только тогда, когда GPU активен и работает.

NVIDIA Optimus – это технология переключения GPU, которая переключает между интегрированной и дискретной графикой на основе требований приложений, чтобы автоматически сбалансировать производительность и потребление энергии, предназначенную для сохранения жизни батареи и снижения потребления энергии. Для задач, таких как игры или воспроизведение видео в формате HD, Optimus активирует дискретный GPU для лучшей производительности; во время более легких занятий, таких как просмотр веб-страниц, он возвращается к интегрированной (встроенной) графике.

Обновление, кажется, расширило поведение, ранее ограниченное системами Optimus, позволяя пострадавшему GPU перейти в состояние низкого потребления энергии при простое, даже когда он не находится на системе Optimus, что привело к нарушению отчетности температуры в утилитах третьих лиц.

Коррекция риска

В большинстве сценариев можно сказать, что VBIOS графической карты, скорее всего, предотвратил бы постоянный ущерб GPU. VBIOS обеспечивает соблюдение термических и энергетических ограничений на уровне прошивки, независимо от драйвера.

Следовательно, даже если драйвер вызвал неправильное поведение вентилятора или неправильную отчетность температуры, VBIOS все равно должен был ограничить производительность, увеличить активность вентилятора или выключить GPU, чтобы предотвратить сбой оборудования.

Это не означает, что риск был тривиальным – длительные высокие температуры могут ухудшить производительность с течением времени или напрячь соседние компоненты; кроме того, отсутствие общего понимания того, что обновление драйвера вызвало проблему (не говоря уже о системах, где драйверы обновляются “бесшумно”), проблема такого рода могла ввести в заблуждение большую часть пострадавших пользователей, которые могут попытаться устранить несуществующие проблемы или даже потенциально нанести ущерб своим системам, применяя нерелевантные “исправления”.

Неправильное поведение, вызванное обновлением 576.02, было особенно тревожным для тех, кто занимался потоками искусственного интеллекта, где высокопроизводительное оборудование обычно эксплуатируется до термических пределов в течение длительного времени.

Проблемный драйвер 576.02 вызвал более широкий всплеск жалоб после его выпуска в середине апреля, несмотря на первоначальные отчеты, что он предлагает некоторые полезные улучшения производительности. Несмотря на предоставление горячего исправления и уровень нарушения, который, кажется, вызвал 576.02, на момент написания он остается доступным для скачивания* на сайте NVIDIA.

Последствия

Что касается последствий от ошибочного обновления, существует много типов ущерба и неудобств, о которых сообщают пользователи: пользователь Frankie_T9000 сообщил, что его GPU выключился при запуске из-за перегрева под ошибочным обновлением и стабилизировался только после понижения напряжения. Он прокомментировал ‘кажется, что он не пострадал необратимо, но мне нужно повторно нанести термопасту как можно скорее (у меня есть подушки, которые приходят в среду) подозреваю, что старая термопаста была более изношена из-за перегрева, поэтому я наношу новую пасту.

Вчера другой пользователь в том же потоке заявил: ‘Я использую пользовательскую кривую вентилятора с MSI Afterburner, и она постоянно показывала, что мои температуры GPU составляют 27°C, поэтому вентиляторы не включались, что привело к проблемам с перегревом. Я думал, что это проблема со мной, но после установки предыдущего драйвера все снова стало работать нормально. Кроме того, температуры не отображаются правильно в диспетчере задач.’

Хотя NVIDIA (как она постоянно заявляет в каждом выпуске горячего исправления) часто предоставляет горячие исправления для определенных видеоигр или платформ, риск повреждения от тепла или вокруг GPU выше для практиков ИИ, чем для геймеров, поскольку интенсивные процессы машинного обучения, такие как обучение или устойчивое вывод, подвергают GPU постоянной долгосрочной нагрузке – событие, которое, вероятно, будет вызвано только периодически в игре, которая может “всплеснуть” в высокое использование для босса или особенно требовательного раздела карты, но которая в противном случае предназначена как компромисс между эксплуатацией GPU и стабильностью системы.

 

* Архив: https://archive.ph/ylVR1

Опубликовано впервые во вторник, 22 апреля 2025 года

Писатель о машинном обучении, специалист в области синтеза человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.