Connect with us

Andersonの視点

NVIDIA、GPUドライバーの過熱問題に対するホットフィックスをリリース

mm
ChatGPT-40 and Adobe Firefly

昨日、NVIDIAは、AIおよびゲームコミュニティで警報を引き起こした前のドライバーのリリースによって引き起こされた損害を封じ込めるために、重要なホットフィックスを急いでリリースしました。このドライバーは、システムが安全なGPU温度を誤って報告していたため、システムが誤って報告され、クーリングの要求が潜在的に臨界レベルに上昇しました。

NVIDIAの公式投稿では、ホットフィックスのリリースについて、リストの3番目に記載されていますが、問題は「GPUモニタリングユーティリティが、PCがスリープから起動した後、GPU温度の報告を停止する」と記載されています。

影響を受けたGame Readyドライバー576.02がロールアウトされた後、Stable Diffusionサブレディットのピン留めされたスレッドGPUを救うために読んでください!」は、ユーザーが報告した問題や新しいドライバーに関する更新についての情報源となりました。これらの報告やウェブ上の他の報告から、問題が発生した時間線を確立することができます。

Redditでの最初のバグ報告は、UTCの金曜日の午後遅くに発生したようです。ZephyrusG14サブレディットで、ユーザーfricy81は、NVIDIAフォーラムの投稿アーカイブ)を引用しました。

NVIDIAフォーラムのユーザーが576.02アップデート後に問題を発見。 Source: https://www.nvidia.com/en-us/geforce/forums/game-ready-drivers/13/563010/geforce-grd-57602-feedback-thread-released-41625/3524072/

NVIDIAフォーラムのユーザーが576.02アップデート後に問題を発見。 Source: https://www.nvidia.com/en-us/geforce/forums/game-ready-drivers/13/563010/geforce-grd-57602-feedback-thread-released-41625/3524072/

NVIDIAフォーラムのユーザーは、ドライバーのアップデートをインストールした後、MSI AfterburnerやCall of Dutyなどのゲーム内のモニターなどのツールがGPU温度の読み出しを停止し、約35-36°Cでフリーズしたと報告しました。モニタリングソフトウェアの再起動は効果がなかったとユーザーは述べ、完全なシステムの再起動のみが正確な読み出しを回復させたと述べました。HWInfoやNVIDIAのモニタリングアプリなどのツールは、温度を正しく報告し続けたと報告されています。ユーザーは、問題がスリープから起動した後のみでなく、通常の使用中にも発生したと強調しています。

さまざまなフォーラムでのユーザーのフィードバックは、通常のファンカーブの動作の混乱とコアの熱制御の変更が発生しており、グラフィック処理ユニットが予想外に高い温度でアイドル状態になっていること、および標準的な運用負荷の下で警告すべき過熱が発生していることを示しています。これは、このコメントで詳細に説明されています:

‘何かが間違っていることがわかりました。外の天気はおよそ55°F / 12°Cでしたが、私の部屋では熱を感じていました。窓は開けていましたが、違いを感じることができませんでした。すべてのファンは最大速度で回っていましたが、温度は最初は約68°Cから72°Cでしたが、ゲームをプレイした後には正常に見えました。

‘最初は正常に見えたのですが、翌朝、アイドル温度ではないことがわかりました。ファンはまだ回っていました。

‘最近、いくつかのことを修正した後、AIオーバークロックを実行しました。値が高すぎることに気付いたので、BIOS設定が正常に機能しなかったことは一度ありました。ASUS AI Suite 3をインストールした後です。

‘とにかく、以前のドライバーにロールバックしました.’

サブオプティマル

公式のPDFリリースノートでは、問題に寄与した可能性のある変更についての手がかりが見つかります。5.5節では、NVIDIAは、NVIDIA Optimusシステムでは、GPU温度が正しく報告されない可能性があることを認めています。具体的には、アプリケーションが実行されていない場合、0度として表示されます。

576.02アップデートの公式ノート、セクション5.5。 Source: https://us.download.nvidia.com/Windows/576.02/576.02-win11-win10-release-notes.pdf

576.02アップデートの公式ノート、セクション5.5。 Source: https://us.download.nvidia.com/Windows/576.02/576.02-win11-win10-release-notes.pdf

リリースノートでは次のように記載されています:

5.5 GPU温度がOptimusシステムで正しく報告されない

5.5.1 問題

Optimusシステムでは、SpeccyやGPU-Zなどの温度報告ツールが、アプリケーションが実行されていない場合、NVIDIA GPUの温度が0度として報告されます。

5.5.2 説明

Optimusシステムでは、NVIDIA GPUが使用されていない場合、低電力状態になります。これにより、温度報告ツールが不正な値を返します。GPUを起動して温度を照会すると、無意味な測定値になるためです。

これらのツールは、GPUが起動して実行中の場合のみ、正確な温度を報告します。

NVIDIA Optimusは、パフォーマンスと電力消費のバランスを自動的に調整するために、アプリケーションの要求に応じて統合されたグラフィックスと別々のグラフィックスを切り替えるGPU切り替えテクノロジーです。バッテリー寿命を節約し、電力消費を削減するように設計されています。ゲームやHDビデオ再生などのタスクの場合、Optimusはパフォーマンスを向上させるために別々のGPUを有効にします。ウェブブラウジングなどの軽いアクティビティの場合、統合された(オンボード)グラフィックスに切り替わります。

アップデートにより、以前はOptimusシステムに限定されていた動作が拡張され、影響を受けたGPUがアイドル時に低電力状態に入ることができるようになり、Optimusシステム以外のシステムでも温度報告が混乱するようになりました。

リスク調整

ほとんどのシナリオでは、グラフィックカードのVBIOSは、ドライバーとは独立して、ファームウェアレベルで熱および電力制限を強制するため、永久的なGPU損傷を防ぐことができます。

したがって、ドライバーが不正なファン動作や温度の誤報告を引き起こしたとしても、VBIOSはパフォーマンスを低下させ、ファンの活動を増やし、またはGPUをシャットダウンしてハードウェアの故障を防ぐはずです。

しかし、それはリスクが軽微であることを意味しません。長時間にわたる高温は、時間の経過とともにパフォーマンスの低下を引き起こしたり、隣接するコンポーネントにストレスを加えたりする可能性があります。さらに、更新されたドライバーが問題を引き起こしたという共通の理解がなければ(特にドライバーが「サイレント」に更新されるシステムの場合)、このような問題は、影響を受けたユーザー的大部分を誤解させ、ユーザーが存在しない問題に対する対処を試みたり、関連のない「対策」を適用してシステムに損傷を与えたりする可能性があります。

アップデート576.02によって引き起こされた不正な動作は、人工知能ワークフローに従事している人にとって特に警戒すべきものでした。ここでは、高性能ハードウェアが通常、長時間にわたって熱制限までプッシュされます。

問題のある576.02ドライバーは、4月中旬にリリースされた後、初期の報告では、一部のパフォーマンスの向上が見られたにもかかわらず、広範な不満の波を引き起こしました。ホットフィックスの提供と576.02が引き起こした混乱のレベルにもかかわらず、当時の時点でNVIDIAのサイトでまだダウンロード可能でした。

余波

不正なアップデートからの余波については、さまざまなタイプの損傷や不便が報告されています。ユーザーFrankie_T9000は、報告しましたが、GPUは熱の増加により起動時にクラッシュし、アンデーボルト後にのみ安定しました。彼は「永久的に損傷していないようですが、すぐに再度貼り付けなければなりません(水曜日にはパッドが届きます)。古い熱伝導材が熱の増加により老化したのではないかと思いますので、新しい熱伝導材を貼り付けます。」とコメントしました。

同じスレッドの別のユーザーは昨日、述べた。「MSI Afterburnerでカスタムファンカーブを使用していますが、GPU温度が常に27°Cであると表示され、ファンが回りませんでした。オーバーヒートの問題が発生しました。自分が原因だと思ったのですが、以前のドライバーに戻すと正常に動作しました。タスクマネージャーでも温度が正しく表示されていませんでした。

NVIDIA(およびそれがホットフィックスのリリースで繰り返し述べているように)は、特定のビデオゲームやプラットフォームのためのホットフィックスを提供することが多いですが、GPUまたはその周辺への熱損傷のリスクは、AIの実践者にとって、ビデオゲームのプレイヤーよりも高いです。なぜなら、機械学習プロセス(トレーニングや継続的な推論など)がGPUに一貫した長期的な負荷を加えるからです。これは、ゲームではボス戦や特に要求の厳しいマップセクションでのみ発生する可能性があり、ゲームはGPUの搾取とシステムの安定性のバランスをとるように設計されているため、時折高使用率になる可能性があります。

 

* アーカイブ: https://archive.ph/ylVR1

初版: 2025年4月22日

Writer on machine learning, domain specialist in human image synthesis. Former head of research content at Metaphysic.ai.
Personal site: martinanderson.ai
Contact: [email protected]
Twitter: @manders_ai