Andersons Blickwinkel

NVIDIA veröffentlicht Hotfix für GPU-Treiber-Probleme mit Überhitzung

mm
ChatGPT-40 and Adobe Firefly

Gestern veröffentlichte NVIDIA einen kritischen Hotfix, um die Folgen einer vorherigen Treiber-Version zu begrenzen, die in den AI- und Gaming-Communities für Alarm gesorgt hatte, da sie Systeme veranlasste, falsche GPU-Temperaturen zu melden – obwohl die Kühlungsanforderungen stillschweigend auf potenziell kritische Niveaus anstiegen.

In NVIDIA’s offiziellem Beitrag zur Veröffentlichung des Hotfix, wird das Problem, obwohl es nur an dritter Stelle in der Liste der behobenen Fehler steht, als ‘GPU-Überwachungstools können nach dem Aufwachen des PCs aus dem Schlafmodus aufhören, die GPU-Temperatur zu melden’ bezeichnet.

Kurz nach der Veröffentlichung des betroffenen Game-Ready-Treibers 576.02 wurde ein pinned Thread im Stable-Diffusion-Sub-Reddit erstellt, der den Titel Lese, um deine GPU zu retten! trug und als Ressource für anekdotische Probleme und Benutzerberichte über den neuen Treiber diente. Aus diesen und anderen Berichten im Internet kann eine Zeitleiste der auftretenden Probleme erstellt werden.

Der erste Reddit-Bericht über den Fehler scheint am späten Freitagabend UTC im ZephyrusG14-Subreddit aufgetaucht zu sein, wo der Benutzer fricy81 einen Beitrag im NVIDIA-Forum (archiviert) erwähnte:

Ein Benutzer im NVIDIA-Forum findet Probleme nach dem Update auf 576.02. Quelle: https://www.nvidia.com/en-us/geforce/forums/game-ready-drivers/13/563010/geforce-grd-57602-feedback-thread-released-41625/3524072/

Ein Benutzer im NVIDIA-Forum findet Probleme nach dem Update auf 576.02. Quelle: https://www.nvidia.com/en-us/geforce/forums/game-ready-drivers/13/563010/geforce-grd-57602-feedback-thread-released-41625/3524072/

Der Benutzer im NVIDIA-Forum berichtete, dass nach der Installation des Treiber-Updates Tools wie MSI Afterburner und In-Game-Überwachungstools wie das in Call of Duty (das normalerweise native Systemlesezeichen wie das Task-Manager-GPU-Panel in Windows verwendet) aufhörten, GPU-Temperaturlesewerte zu aktualisieren und bei etwa 35-36°C einfror.

Das Neustarten der Überwachungssoftware hatte keine Auswirkung, wie der Benutzer angab, und nur ein vollständiger System-Neustart konnte genaue Lesewerte wiederherstellen. Tools wie HWInfo und NVIDIA’s eigene Überwachungs-App berichteten weiterhin korrekte Temperaturen. Der Benutzer betonte, dass das Problem während des normalen Gebrauchs auftrat, nicht nur nach dem Aufwachen des Systems aus dem Schlafmodus.

Benutzerfeedback auf verschiedenen Foren hob eine allgemeine Störung des normalen Lüfter-Verhaltens und eine Änderung der Kern-Thermalregulierung hervor, was zu Grafikprozessoren führte, die bei unerwartet hohen Temperaturen im Leerlauf liefen und unter normalen Betriebsbedingungen alarmierend überhitzten, wie in diesem Kommentar detailliert:

‘Ich konnte erkennen, dass etwas nicht stimmte. Das Wetter draußen war wahrscheinlich etwa 55°F / 12°C, aber ich war in meinem Zimmer zu heiß. Mein Fenster war geöffnet, und dennoch konnte ich keinen Unterschied spüren. Alle Lüfter liefen mit maximaler Geschwindigkeit, und die Temperaturen sahen anfangs normal aus – etwa 68°C bis 72°C nach einiger Spielzeit.

‘Zunächst schien das normal – bis zum nächsten Morgen, als ich erkannte, dass diese Temperaturen nicht im Leerlauf lagen, und die Lüfter immer noch liefen.

‘Ich hatte kürzlich einige AI-Übertaktungen vorgenommen, nachdem ich einige Dinge repariert hatte, also war ich mir nicht sicher, ob die Werte zu hoch gesprungen waren. Es ist einmal zuvor passiert, nachdem ich ASUS AI Suite 3 installiert hatte – die BIOS-Einstellungen funktionierten nicht einmal ordnungsgemäß wegen dessen.

‘Jedenfalls ging ich vor und rollte auf einen älteren Treiber zurück.’

Suboptimal

Die offizielle Veröffentlichung PDF für das 576.02-Treiber-Update bietet einige Hinweise auf Änderungen, die zu den neuen Problemen beigetragen haben könnten. In Abschnitt 5.5 räumt NVIDIA ein, dass die GPU-Temperatur auf NVIDIA-Optimus-Systemen falsch gemeldet werden kann, insbesondere wenn keine Anwendungen ausgeführt werden.

Abschnitt 5.5 der offiziellen 576.02-Update-Hinweise behandelt Temperatur-Überwachungsprobleme, die offensichtlich eine größere Anzahl von Systemen als das Optimus-System betroffen haben. Quelle: https://us.download.nvidia.com/Windows/576.02/576.02-win11-win10-release-notes.pdf

Abschnitt 5.5 der offiziellen 576.02-Update-Hinweise behandelt Temperatur-Überwachungsprobleme, die offensichtlich eine größere Anzahl von Systemen als das Optimus-System betroffen haben. Quelle: https://us.download.nvidia.com/Windows/576.02/576.02-win11-win10-release-notes.pdf

Die Veröffentlichung besagt:

5.5 GPU-Temperatur wird falsch auf Optimus-Systemen gemeldet

5.5.1 Problem

Auf Optimus-Systemen melden Temperatur-Überwachungstools wie Speccy oder GPU-Z, dass die NVIDIA-GPU-Temperatur Null ist, wenn keine Anwendungen ausgeführt werden.

5.5.2 Erklärung

Auf Optimus-Systemen wird die NVIDIA-GPU in einen Niedrigleistungsmodus versetzt, wenn sie nicht verwendet wird. Dies führt dazu, dass Temperatur-Überwachungstools falsche Werte zurückgeben. Das Aufwachen der GPU, um die Temperatur abzufragen, würde zu sinnlosen Messungen führen, da die GPU-Temperatur sich ändern würde.

Diese Tools melden nur dann genaue Temperaturen, wenn die GPU aktiv ist und läuft.

NVIDIA Optimus ist eine GPU-Umschalt-Technologie, die zwischen integrierter und diskreter Grafik basierend auf Anwendungsanforderungen wechselt, um automatisch Leistung und Stromverbrauch auszugleichen, um die Akkulaufzeit zu verlängern und den Stromverbrauch zu reduzieren. Für Aufgaben wie Gaming oder HD-Video-Wiedergabe aktiviert Optimus die diskrete GPU für bessere Leistung; während leichterer Aktivitäten wie Web-Browsing wechselt es zu integrierter (onboard) Grafik.

Das Update scheint ein Verhalten, das zuvor auf Optimus-Systeme beschränkt war, erweitert zu haben, indem es die betroffene GPU in einen Niedrigleistungsmodus versetzt, wenn sie im Leerlauf ist, auch wenn sie nicht in einem Optimus-System gehostet wird, was die Temperatur-Überwachung in Drittanbieter-Tools stört.

Risikobewertung

In den meisten Szenarien ist es fair zu sagen, dass die VBIOS der Grafikkarte wahrscheinlich einen dauerhaften Schaden an der GPU verhindert hätte. VBIOS erzwingt thermische und Leistungsbeschränkungen auf Firmware-Ebene, unabhängig vom Treiber.

Wenn also ein Treiber zu unangemessenem Lüfterverhalten oder falschen Temperaturmeldungen führen würde, sollte die VBIOS dennoch die Leistung drosseln, die Lüfteraktivität erhöhen oder die GPU abschalten, um Hardware-Schäden zu verhindern.

Das bedeutet jedoch nicht, dass das Risiko trivial war – anhaltend hohe Temperaturen können die Leistung über die Zeit hinweg verschlechtern oder benachbarte Komponenten belasten; zusätzlich kann ein Problem dieser Art eine große Anzahl von betroffenen Benutzern täuschen, die möglicherweise Lösungen für nicht existierende Probleme anwenden oder sogar Schäden an ihren Systemen verursachen, indem sie nicht relevante “Lösungen” anwenden.

Das fehlerhafte Verhalten, verursacht durch das Update 576.02, war besonders besorgniserregend für diejenigen, die in künstlicher Intelligenz-Workflows engagiert sind, bei denen Hochleistungs-Hardware routinemäßig über lange Zeiträume hinweg auf ihre thermischen Grenzen getrieben wird.

Der fehlerhafte 576.02-Treiber inspirierte eine breitere Welle von Beschwerden nach seiner Veröffentlichung Mitte April, trotz anfänglicher Berichte, dass er einige leistungsfördernde Verbesserungen bot. Trotz der Bereitstellung des Hotfix und des Ausmaßes der Störung, die 576.02 offensichtlich verursacht hat, bleibt es zum Zeitpunkt des Schreibens verfügbar zum Download* auf der NVIDIA-Website.

Nachwirkungen

In Bezug auf die Folgen des fehlerhaften Updates gibt es zahlreiche Arten von Schäden und Unannehmlichkeiten, die gemeldet wurden: Der Benutzer Frankie_T9000 berichtete, dass seine GPU beim Hochfahren aufgrund von Hitzestau unter dem fehlerhaften Update abstürzte und erst nach der Untervoltierung stabil blieb. Er kommentierte: ‘Es sieht so aus, als ob sie nicht dauerhaft beschädigt ist, aber ich muss sie so schnell wie möglich neu pasten (ich habe Pads bestellt, die am Mittwoch eintreffen). Ich vermute, dass der alte Wärmeleitpaste durch den Hitzestau älter geworden ist, also setze ich neue Paste-Pads ein.

Gestern sagte ein anderer Benutzer in demselben Thread aus: ‘Ich verwende eine benutzerdefinierte Lüfter-Kurve mit MSI Afterburner, und es zeigte an, dass meine GPU-Temperaturen konstant bei 27°C lagen, also schalteten die Lüfter nicht ein, was zu Überhitzungsproblemen führte. Ich dachte, es wäre ein Problem von mir, aber nach der Installation des vorherigen Treibers funktionierte alles wieder einwandfrei. Auch die Temperaturen werden nicht korrekt in der Task-Manager-Ansicht angezeigt.’

Obwohl NVIDIA (wie es in jeder Hotfix-Veröffentlichung behauptet) oft Hotfixes für bestimmte Videospiele oder Plattformen bereitstellt, ist das Risiko von Hitzeschäden an oder um eine GPU herum für KI-Praktiker höher als für Videospiele, da intensive maschinelle Lernprozesse wie Training oder anhaltende Inferenz eine GPU unter konstanter Langzeitbelastung setzen – ein Ereignis, das nur periodisch in einem Spiel ausgelöst wird, das möglicherweise in einen hohen Gebrauch für einen Boss-Kampf oder einen besonders anspruchsvollen Kartenausschnitt “ausschlagen” kann, aber das otherwise als Kompromiss zwischen GPU-Ausbeutung und Systemstabilität konzipiert ist.

 

* Archiv: https://archive.ph/ylVR1

Erstveröffentlicht am Dienstag, dem 22. April 2025

Autor über maschinelles Lernen, Domänen-Spezialist in der menschlichen Bildsynthese. Ehemaliger Leiter der Forschungsinhalte bei Metaphysic.ai.