El ángulo de Anderson
NVIDIA publica una revisión para el problema de sobrecalentamiento del controlador de la GPU

Ayer NVIDIA se apresuró a lanzar una revisión crítica para contener las consecuencias de un lanzamiento de controlador anterior que había disparado la alarma en las comunidades de IA y juegos al hacer que los sistemas informaran falsamente temperaturas seguras de la GPU, incluso cuando las demandas de enfriamiento aumentaron silenciosamente hacia niveles potencialmente críticos.
En el sitio oficial de NVIDIA post En torno al lanzamiento de la revisión, aunque solo ocupa el tercer lugar en la lista de correcciones indicadas, el problema se cita como 'Las utilidades de monitoreo de GPU pueden dejar de informar la temperatura de la GPU después de que la PC se reactiva del modo de suspensión..
Poco después del controlador Game Ready afectado 576.02 se puso en marcha, un hilo fijado en el sub-Reddit Stable Diffusion, titulado ¡Lea para salvar su GPU!Se convirtió en una fuente de información sobre problemas anecdóticos y actualizaciones reportadas por los usuarios sobre el nuevo controlador. A partir de estos y otros informes en la web, se puede establecer una cronología de los problemas emergentes.
El primer informe de Reddit sobre el error parece tener se produjo A última hora de la tarde del viernes UTC, en el subreddit ZephyrusG14, el usuario fricy81 citó un post en los foros de NVIDIA (archivado):

Un usuario de los foros de NVIDIA encuentra problemas después de la actualización 576.02. Source: https://www.nvidia.com/en-us/geforce/forums/game-ready-drivers/13/563010/geforce-grd-57602-feedback-thread-released-41625/3524072/
El usuario de los foros de NVIDIA informó que después de instalar la actualización del controlador, herramientas como MSI Afterburner y monitores dentro del juego como el de Call of Duty (que generalmente accede a las lecturas nativas del sistema, de forma muy similar a como lo hace el panel de GPU del Administrador de tareas en Windows) dejó de actualizar las lecturas de temperatura de la GPU y se congeló en alrededor de 35-36 °C.
Reiniciar el software de monitorización no tuvo ningún efecto, afirmó el usuario, y solo un reinicio completo del sistema restablecería las lecturas precisas. Herramientas como HWInfo y la propia aplicación de monitorización de NVIDIA seguían informando las temperaturas correctamente. El usuario enfatizó que el problema se producía durante el uso normal, no justo después de reactivar el sistema.
Los comentarios de los usuarios en varios foros destacaron una interrupción general del comportamiento normal de la curva del ventilador y una alteración de la regulación térmica del núcleo, lo que provocó que las unidades de procesamiento de gráficos funcionaran inactivas a temperaturas inesperadamente altas y se sobrecalentaran de manera alarmante bajo lo que normalmente se consideraría cargas operativas estándar, como se detalla. en este comentario:
Me di cuenta de que algo no iba bien. Afuera hacía unos 55 °C, pero me estaba cociendo en mi habitación. Tenía la ventana abierta, pero no notaba la diferencia. Todos los ventiladores funcionaban al máximo, y al principio la temperatura parecía normal: entre 12 °C y 68 °C después de jugar un rato.
'Al principio, eso parecía normal, hasta la mañana siguiente, cuando me di cuenta de que esas no eran temperaturas inactivas y los ventiladores todavía estaban [funcionando].
Había hecho overclocking con IA después de corregir algunos problemas últimamente, así que no estaba seguro de si los valores se habían disparado demasiado. Ya me había pasado una vez después de instalar ASUS AI Suite 3; la configuración de la BIOS ni siquiera funcionaba correctamente por ello.
'De todos modos, seguí adelante y volví a un controlador más antiguo por ahora'.
Subóptimo
El lanzamiento oficial (PDF) La actualización del controlador 576.02 ofrece algunas pistas sobre los cambios que podrían haber contribuido a los nuevos problemas. En la sección 5.5, NVIDIA reconoce que la temperatura de la GPU puede informarse incorrectamente en NVIDIA. Optimus sistemas, específicamente mostrando cero grados cuando no se están ejecutando aplicaciones.

La sección 5.5 de las notas oficiales de actualización 576.02 aborda problemas de monitoreo de temperatura que parecen haber afectado a un número mayor de sistemas que el sistema Optimus. Fuente: https://us.download.nvidia.com/Windows/576.02/576.02-win11-win10-release-notes.pdf
El comunicado dice:
5.5 Temperatura de la GPU informada incorrectamente en sistemas Optimus
Problema 5.5.1
En los sistemas Optimus, las herramientas de informes de temperatura como Speccy o GPU-Z informan que la temperatura de la GPU NVIDIA es cero cuando no se ejecutan aplicaciones.
5.5.2 Explicación
En los sistemas Optimus, cuando la GPU NVIDIA no se utiliza, se pone en un estado de bajo consumo. Esto provoca que las herramientas de informes de temperatura devuelvan valores incorrectos. Activar la GPU para consultar la temperatura generaría mediciones sin sentido, ya que la temperatura de la GPU cambia como resultado.
Estas herramientas informarán temperaturas precisas solo cuando la GPU esté activa y en funcionamiento.
NVIDIA Optimus es una tecnología de conmutación de GPU que alterna entre gráficos integrados y discretos según las necesidades de la aplicación para equilibrar automáticamente el rendimiento y el consumo de energía. Su diseño permite conservar la duración de la batería y reducir el consumo de energía. Para tareas como juegos o reproducción de vídeo HD, Optimus activa la GPU discreta para un mejor rendimiento; durante actividades más sencillas, como la navegación web, se vuelve a la tarjeta gráfica integrada.
La actualización parece haber extendido un comportamiento anteriormente limitado a los sistemas Optimus, permitiendo que la GPU afectada ingrese a un estado de bajo consumo mientras está inactiva, incluso cuando no está alojada en un sistema Optimus, lo que a su vez interrumpe los informes de temperatura en herramientas de terceros.
Ajuste de riesgo
En la mayoría de los escenarios, es justo decir que la tarjeta gráfica VBIOS Probablemente habría evitado daños permanentes en la GPU. VBIOS aplica límites térmicos y de energía a nivel de firmware, independientemente del controlador.
Por lo tanto, incluso si un controlador provocara un comportamiento inadecuado del ventilador o informara incorrectamente las temperaturas, el VBIOS debería limitar el rendimiento, aumentar la actividad del ventilador o apagar la GPU para evitar fallas de hardware.
Eso no significa que el riesgo fuera trivial: las altas temperaturas sostenidas pueden degradar el rendimiento con el tiempo o componentes adyacentes de tensión; además, en ausencia de un entendimiento común acerca de que un controlador actualizado causó un problema (sobre todo en sistemas donde los controladores se actualizan "silenciosamente"), un problema de esta naturaleza podría confundir a una gran proporción de usuarios afectados, quienes podrían intentar solucionar problemas inexistentes o incluso potencialmente causar daños a sus sistemas al aplicar "correcciones" no relevantes.
El comportamiento erróneo causado por la actualización 576.02 fue particularmente alarmante para aquellos involucrados en flujos de trabajo de inteligencia artificial, donde el hardware de alto rendimiento se lleva rutinariamente a sus límites térmicos durante períodos prolongados.
El problemático controlador 576.02 inspiró una serie más amplia de quejas después de su lanzamiento a mediados de abril, a pesar de las críticas iniciales. (aqui) que ofrecía algunas mejoras de rendimiento beneficiosas. A pesar de la provisión de la revisión y el nivel de interrupción que la versión 576.02 parece haber causado, al momento de escribir este artículo sigue... disponible para descarga* en el sitio de NVIDIA.
Resplandor crepuscular
En cuanto a las consecuencias de la actualización defectuosa, se han informado numerosos tipos de daños y/o inconvenientes: usuario Frankie_T9000 reportaron Que su GPU falló al arrancar debido a la acumulación de calor durante la actualización de fallas, y solo se estabilizó después de reducir el voltaje. Comentó:Parece que no está dañado de forma permanente, pero es necesario volver a aplicarlo lo antes posible (me llegarán almohadillas el miércoles). Sospecho que la pasta térmica vieja se envejeció más por la acumulación de calor, así que voy a colocar almohadillas de pasta nuevas."
Ayer otro usuario en el mismo hilo dijo: Estoy usando una curva de ventilador personalizada con MSI Afterburner y la temperatura de mi GPU se mantenía constantemente a 27 °C, por lo que los ventiladores no se encendían, lo que provocaba problemas de sobrecalentamiento. Pensé que era un problema mío, pero después de instalar el controlador anterior, todo volvió a funcionar correctamente. Además, la temperatura no se muestra correctamente en el administrador de tareas.
Aunque NVIDIA (como afirma persistentemente en cada lanzamiento de revisión) a menudo proporciona revisiones para videojuegos o plataformas específicos, el riesgo de daño por calor en o alrededor de una GPU es mayor para los profesionales de IA que para los jugadores de videojuegos, ya que los procesos intensivos de aprendizaje automático como el entrenamiento o la inferencia sostenida colocan una GPU bajo una carga constante a largo plazo – un evento que probablemente se active solo periódicamente en un juego, que puede alcanzar un uso elevado en una batalla contra un jefe o en una sección de mapa particularmente exigente, pero que de otro modo está diseñado como un compromiso entre la explotación de la GPU y la estabilidad del sistema.
* Archivo: https://archive.ph/ylVR1
Primera publicación: martes 22 de abril de 2025












