Seguici sui social

L'angolo di Anderson

NVIDIA pubblica un hotfix per il problema di surriscaldamento del driver GPU

mm
ChatGPT-40 e Adobe Firefly

Ieri NVIDIA ha rilasciato rapidamente un hotfix fondamentale per contenere le conseguenze di una precedente versione di driver che aveva fatto scattare l'allarme nelle comunità di intelligenza artificiale e di gioco, inducendo i sistemi a segnalare erroneamente temperature GPU sicure, nonostante le richieste di raffreddamento stessero silenziosamente salendo verso livelli potenzialmente critici.

Nel comunicato ufficiale di NVIDIA settimana intorno al rilascio dell'hotfix, sebbene solo terzo nell'elenco delle correzioni dichiarate, il problema è citato come 'Le utilità di monitoraggio della GPU potrebbero smettere di segnalare la temperatura della GPU dopo che il PC si riattiva dalla modalità di sospensione..

Poco dopo il driver Game Ready interessato 576.02 è stato lanciato, un filo appuntato nel sub-Reddit Stable Diffusion, intitolato Leggi per salvare la tua GPU!, è diventato una risorsa per problemi aneddotici e aggiornamenti segnalati dagli utenti riguardanti il ​​nuovo driver. Da queste e da altre segnalazioni presenti sul web, è possibile stabilire una cronologia dei problemi emergenti.

Il primo report del bug su Reddit sembra essere si è verificato tardo venerdì pomeriggio UTC, sul subreddit ZephyrusG14, dove l'utente fricy81 ha citato un settimana nei forum NVIDIA (archiviata):

Un utente sui forum NVIDIA riscontra problemi dopo l'aggiornamento 576.02. Fonte: https://www.nvidia.com/en-us/geforce/forums/game-ready-drivers/13/563010/geforce-grd-57602-feedback-thread-released-41625/3524072/

Un utente sui forum NVIDIA riscontra problemi dopo l'aggiornamento 576.02. Source: https://www.nvidia.com/en-us/geforce/forums/game-ready-drivers/13/563010/geforce-grd-57602-feedback-thread-released-41625/3524072/

L'utente sui forum NVIDIA ha segnalato che dopo aver installato l'aggiornamento del driver, strumenti come MSI Afterburner e monitor di gioco come quello in Call of Duty (che in genere accedono alle letture del sistema nativo, proprio come fa il pannello GPU di Task Manager in Windows) hanno smesso di aggiornare le letture della temperatura della GPU, bloccandosi a circa 35-36°C.

Il riavvio del software di monitoraggio non ha avuto alcun effetto, ha affermato l'utente, e solo un riavvio completo del sistema avrebbe ripristinato letture accurate. Strumenti come HWInfo e l'app di monitoraggio di NVIDIA hanno continuato a segnalare correttamente le temperature. L'utente ha sottolineato che il problema si è verificato durante il normale utilizzo, non solo dopo aver riattivato il sistema dalla modalità di sospensione.

Il feedback degli utenti su vari forum ha evidenziato un'interruzione generale del normale comportamento della curva della ventola e un'alterazione della regolazione termica del core, con conseguente funzionamento inattivo delle unità di elaborazione grafica a temperature inaspettatamente elevate e un surriscaldamento allarmante in quelli che normalmente sarebbero considerati carichi operativi standard, come dettagliato in questo commento:

"Mi sono accorto che qualcosa non andava. Fuori la temperatura era probabilmente intorno ai 55 °C, ma stavo cuocendo vivo nella mia stanza. La finestra era aperta, eppure non sentivo alcuna differenza. Tutte le ventole erano al massimo e le temperature sembravano buone all'inizio: tra i 12 e i 68 °C dopo aver giocato per un po'.

"All'inizio sembrava normale, finché la mattina dopo non mi sono reso conto che non si trattava di temperature di inattività e che le ventole continuavano a funzionare.

Avevo fatto un po' di overclocking tramite IA dopo aver sistemato alcuni problemi ultimamente, quindi non ero sicuro che i valori fossero semplicemente aumentati troppo. Era già successo una volta dopo aver installato ASUS AI Suite 3: le impostazioni del BIOS non funzionavano nemmeno correttamente per questo motivo.

"Comunque, per ora sono tornato a un driver più vecchio."

Sub-ottimale

Il comunicato ufficiale PDF L'aggiornamento del driver 576.02 offre alcuni indizi sulle modifiche che potrebbero aver contribuito ai nuovi problemi. Nella sezione 5.5, NVIDIA riconosce che la temperatura della GPU può essere riportata in modo errato su NVIDIA. Optimus sistemi, in particolare mostrando zero gradi quando non ci sono applicazioni in esecuzione.

La sezione 5.5 delle note ufficiali dell'aggiornamento 576.02 affronta i problemi di monitoraggio della temperatura che sembrano aver interessato un numero di sistemi più ampio rispetto al sistema Optimus. Fonte: https://us.download.nvidia.com/Windows/576.02/576.02-win11-win10-release-notes.pdf

La sezione 5.5 delle note ufficiali di aggiornamento 576.02 affronta i problemi di monitoraggio della temperatura che sembrano aver interessato un numero di sistemi più ampio rispetto al sistema Optimus. Fonte: https://us.download.nvidia.com/Windows/576.02/576.02-win11-win10-release-notes.pdf

Il comunicato afferma:

5.5 Temperatura GPU segnalata in modo errato sui sistemi Optimus

Emissione 5.5.1

Nei sistemi Optimus, gli strumenti di segnalazione della temperatura come Speccy o GPU-Z segnalano che la temperatura della GPU NVIDIA è zero quando non ci sono applicazioni in esecuzione.

5.5.2 Spiegazione

Sui sistemi Optimus, quando la GPU NVIDIA non viene utilizzata, entra in uno stato di basso consumo. Questo fa sì che gli strumenti di reporting della temperatura restituiscano valori errati. Riattivare la GPU per interrogare la temperatura produrrebbe misurazioni prive di significato, poiché la temperatura della GPU varia di conseguenza.

Questi strumenti segnaleranno temperature accurate solo quando la GPU è attiva e in funzione.

NVIDIA Optimus è una tecnologia di switching GPU che alterna tra grafica integrata e dedicata in base alle esigenze dell'applicazione, bilanciando automaticamente prestazioni e consumo energetico, progettata per preservare la durata della batteria e ridurre i consumi. Per attività come il gaming o la riproduzione di video HD, Optimus attiva la GPU dedicata per prestazioni migliori; durante attività più leggere come la navigazione web, passa alla grafica integrata (onboard).

Sembra che l'aggiornamento abbia esteso un comportamento precedentemente limitato ai sistemi Optimus, consentendo alla GPU interessata di entrare in uno stato di basso consumo mentre è inattiva, anche quando non è ospitata su un sistema Optimus, interrompendo a sua volta la segnalazione della temperatura negli strumenti di terze parti.

Adeguamento al rischio

Nella maggior parte degli scenari, è giusto dire che la scheda grafica VBIOS avrebbe probabilmente evitato danni permanenti alla GPU. Il VBIOS impone limiti termici e di potenza a livello di firmware, indipendentemente dal driver.

Pertanto, anche se un driver dovesse causare un comportamento improprio della ventola o segnalare temperature errate, il VBIOS dovrebbe comunque limitare le prestazioni, aumentare l'attività della ventola o altrimenti spegnere la GPU per evitare guasti hardware.

Ciò non significa che il rischio fosse banale: temperature elevate sostenute possono degradare le prestazioni nel tempo o componenti adiacenti allo stress; inoltre, in assenza di una comprensione comune del fatto che un driver aggiornato abbia causato un problema (soprattutto nei sistemi in cui i driver si aggiornano "silenziosamente"), un problema di questa natura potrebbe trarre in inganno una larga parte degli utenti interessati, che potrebbero tentare di rimediare a problemi inesistenti o addirittura causare danni ai propri sistemi applicando "correzioni" non pertinenti.

Il comportamento anomalo causato dall'aggiornamento 576.02 è stato particolarmente allarmante per coloro che sono impegnati in flussi di lavoro di intelligenza artificiale, in cui l'hardware ad alte prestazioni viene regolarmente spinto ai suoi limiti termici per periodi prolungati.

Il driver problematico 576.02 ha ispirato una più ampia ondata di reclami dopo la sua uscita a metà aprile, nonostante le iniziali rapporti che offriva alcuni miglioramenti delle prestazioni. Nonostante la presenza dell'hotfix e il livello di interruzione che la versione 576.02 sembra aver causato, al momento della stesura di questo articolo rimane Disponibile per il download* sul sito NVIDIA.

Ultimi bagliori

Per quanto riguarda le conseguenze dell'aggiornamento difettoso, sono stati segnalati numerosi tipi di danni e/o inconvenienti: utente Frankie_T9000 segnalati che la sua GPU si è bloccata all'avvio a causa dell'accumulo di calore durante l'aggiornamento di errore, e si è stabilizzata solo dopo l'undervolt. Ha commentato:Sembra che non sia danneggiato in modo permanente, ma è necessario sostituirlo il prima possibile (i cuscinetti arriveranno mercoledì). Immagino che la vecchia pasta termica sia invecchiata di più a causa dell'accumulo di calore, quindi sto sostituendo i cuscinetti con nuovi.'

Ieri un altro utente nello stesso thread ha dichiarato: "Sto usando una curva di controllo della ventola personalizzata con MSI Afterburner, e continuava a mostrare che la temperatura della GPU era costantemente a 27 °C, quindi le ventole non si accendevano, il che causava problemi di surriscaldamento. Pensavo fosse un problema mio, ma dopo aver installato il driver precedente tutto ha funzionato di nuovo correttamente. Inoltre, le temperature non vengono visualizzate correttamente nel task manager."

Sebbene NVIDIA (come afferma costantemente in ogni rilascio di hotfix) fornisca spesso hotfix per videogiochi o piattaforme particolari, il rischio di danni da calore a o attorno a una GPU è più elevato per i professionisti dell'intelligenza artificiale rispetto ai videogiocatori, poiché processi di apprendimento automatico intensivo come l'addestramento o l'inferenza sostenuta posizionano una GPU sotto carico costante a lungo termine – un evento che probabilmente si verifica solo periodicamente in un gioco, che potrebbe raggiungere un picco di utilizzo elevato per una battaglia con un boss o una sezione di mappa particolarmente impegnativa, ma che altrimenti è progettato come compromesso tra lo sfruttamento della GPU e la stabilità del sistema.

 

* Archivio: https://archive.ph/ylVR1

Prima pubblicazione martedì 22 aprile 2025