Connect with us

NVIDIA ने GPU ड्राइवर के ओवरहीटिंग समस्या के लिए हॉटफिक्स जारी किया

Anderson का एंगल

NVIDIA ने GPU ड्राइवर के ओवरहीटिंग समस्या के लिए हॉटफिक्स जारी किया

mm
ChatGPT-40 and Adobe Firefly

कल NVIDIA ने एक महत्वपूर्ण हॉटफिक्स जारी किया ताकि पिछले ड्राइवर रिलीज़ के परिणामस्वरूप हुए नुकसान को रोका जा सके, जिसने AI और गेमिंग समुदायों में अलार्म बढ़ा दिया था क्योंकि यह सिस्टम को गलत तरीके से सुरक्षित GPU तापमान की रिपोर्ट करने का कारण बनता था – यहां तक कि जब शीतलन की मांगें शांतिपूर्ण रूप से महत्वपूर्ण स्तरों की ओर बढ़ रही थीं।

NVIDIA के आधिकारिक पोस्ट में हॉटफिक्स रिलीज़ के आसपास, हालांकि सूची में तीसरे स्थान पर, इस मुद्दे को ‘GPU मॉनिटरिंग यूटिलिटीज़ सिस्टम को स्लीप से जागने के बाद GPU तापमान की रिपोर्ट करना बंद कर सकती हैं‘ के रूप में उद्धृत किया गया है।

प्रभावित गेम रेडी ड्राइवर 576.02 के रोल आउट के तुरंत बाद, स्टेबल डिफ्यूजन सब-रेडिट में एक पिन्ड थ्रेड, जिसका शीर्षक अपने GPU को बचाने के लिए पढ़ें! था, एक संसाधन बन गया अनुभवजन्य मुद्दों और उपयोगकर्ता-रिपोर्टेड अद्यतनों के बारे में जो नई ड्राइवर से संबंधित थे। इनसे और वेब के आसपास की अन्य रिपोर्टों से, कुछ समयरेखा उभरने वाली समस्याओं की स्थापना की जा सकती है।

रेडिट पर पहली रिपोर्ट बग की तरह दिखाई देती है हुई शुक्रवार की दोपहर को यूटीसी में, ज़ेफिरसजी14 सबरेडिट में, जहां उपयोगकर्ता फ्राइसी81 ने पोस्ट का उल्लेख किया NVIDIA मंचों पर (संग्रहीत):

एक उपयोगकर्ता NVIDIA मंचों पर 576.02 अपडेट के बाद मुद्दों का पता लगाता है। स्रोत: https://www.nvidia.com/en-us/geforce/forums/game-ready-drivers/13/563010/geforce-grd-57602-feedback-thread-released-41625/3524072/

एक उपयोगकर्ता NVIDIA मंचों पर 576.02 अपडेट के बाद मुद्दों का पता लगाता है। स्रोत: https://www.nvidia.com/en-us/geforce/forums/game-ready-drivers/13/563010/geforce-grd-57602-feedback-thread-released-41625/3524072/

NVIDIA मंचों पर उपयोगकर्ता ने बताया कि ड्राइवर अपडेट इंस्टॉल करने के बाद, एमएसआई आफ्टरबर्नर और कॉल ऑफ ड्यूटी जैसे गेम में निगरानी सॉफ्टवेयर जैसे मॉनिटर्स ने GPU तापमान रीडिंग को अपडेट करना बंद कर दिया, जो कि 35-36°C के आसपास जमे हुए थे।

निगरानी सॉफ्टवेयर को पुनः आरंभ करने से कोई प्रभाव नहीं पड़ा, उपयोगकर्ता ने कहा, और केवल एक पूर्ण सिस्टम रीबूट ही सटीक रीडिंग को बहाल कर सकता था। HWInfo और NVIDIA के अपने मॉनिटरिंग ऐप जैसे टूल्स ने तापमान को सही ढंग से रिपोर्ट करना जारी रखा। उपयोगकर्ता ने जोर देकर कहा कि समस्या स्लीप से जागने के दौरान नहीं, सामान्य उपयोग के दौरान हुई थी।

विभिन्न मंचों पर उपयोगकर्ता प्रतिक्रिया ने सामान्य प्रशंसक कर्व व्यवहार और मूल कोर थर्मल नियमन के विकार को उजागर किया, जिसके परिणामस्वरूप ग्राफिक्स प्रोसेसिंग यूनिट्स अप्रत्याशित रूप से उच्च तापमान पर बैठती हैं, और मानक ऑपरेशनल लोड के तहत अलार्मिंग रूप से ओवरहीट हो जाती हैं, जैसा कि इस टिप्पणी में विस्तृत है:

‘मुझे पता था कि कुछ गलत है। बाहर का मौसम शायद 55°F / 12°C के आसपास था, लेकिन मैं अपने कमरे में जीवित पक रहा था। मेरी खिड़की खुली थी, और फिर भी मैं कोई अंतर महसूस नहीं कर सकता था। सभी प्रशंसक अधिकतम पर चल रहे थे, और तापमान पहली नज़र में ठीक लग रहे थे – 68°C से 72°C के बीच गेमिंग के बाद कुछ समय के लिए।

‘पहली नज़र में, यह सामान्य लगा – जब तक कि अगली सुबह, जब मुझे एहसास हुआ कि वे बेकार तापमान नहीं हैं, और प्रशंसक अभी भी [किकिंग] थे।

‘मैंने हाल ही में कुछ चीजों को ठीक करने के बाद एआई ओवरक्लॉकिंग की थी, इसलिए मुझे नहीं पता था कि मान सिर्फ बहुत अधिक बढ़ गए थे। यह पहले भी हुआ था जब मैंने ASUS AI सुइट 3 स्थापित किया था – BIOS सेटिंग्स ठीक से काम नहीं कर रही थीं क्योंकि इसके कारण।

‘मैंने आगे बढ़कर एक पुराने ड्राइवर में रोलबैक करने का फैसला किया।’

सब-ऑप्टिमल

आधिकारिक रिलीज़ पीडीएफ 576.02 ड्राइवर अपडेट के लिए कुछ सुराग प्रदान करता है जो नए मुद्दों को योगदान कर सकते हैं। अनुभाग 5.5 में, NVIDIA स्वीकार करता है कि NVIDIA ओप्टिमस सिस्टम पर GPU तापमान गलत तरीके से रिपोर्ट किया जा सकता है, विशेष रूप से जब कोई अनुप्रयोग चल नहीं रहे हों तो शून्य डिग्री दिखा रहा है।

576.02 अपडेट नोट्स का खंड 5.5 तापमान-निगरानी मुद्दों को संबोधित करता है जो ओप्टिमस सिस्टम की तुलना में अधिक सिस्टम को प्रभावित करने लगते हैं। स्रोत: https://us.download.nvidia.com/Windows/576.02/576.02-win11-win10-release-notes.pdf

576.02 अपडेट नोट्स का खंड 5.5 तापमान-निगरानी मुद्दों को संबोधित करता है जो ओप्टिमस सिस्टम की तुलना में अधिक सिस्टम को प्रभावित करने लगते हैं। स्रोत: https://us.download.nvidia.com/Windows/576.02/576.02-win11-win10-release-notes.pdf

रिलीज़ में कहा गया है:

5.5 GPU तापमान ओप्टिमस सिस्टम पर गलत तरीके से रिपोर्ट किया जा सकता है

5.5.1 समस्या

ओप्टिमस सिस्टम पर, तापमान-रिपोर्टिंग टूल जैसे स्पेकी या जीपीयू-जेड रिपोर्ट करते हैं कि NVIDIA जीपीयू तापमान शून्य है जब कोई अनुप्रयोग चल नहीं रहे हों।

5.5.2 व्याख्या

ओप्टिमस सिस्टम पर, जब NVIDIA जीपीयू का उपयोग नहीं किया जा रहा होता है, तो इसे निम्न-शक्ति अवस्था में रखा जाता है। इससे तापमान-रिपोर्टिंग टूल गलत मान देते हैं। जीपीयू को तापमान की जांच के लिए जगाने से तापमान परिवर्तन के परिणामस्वरूप अर्थहीन माप होगा।

इन टूल्स केवल तभी सटीक तापमान दिखाएंगे जब जीपीयू जाग रहा होगा और चल रहा होगा।

NVIDIA ऑप्टिमस एक जीपीयू स्विचिंग प्रौद्योगिकी है जो प्रदर्शन और शक्ति की खपत को संतुलित करने के लिए स्वचालित रूप से एकीकृत और विच्छिन्न ग्राफिक्स के बीच टॉगल करती है, जो बैटरी जीवन को संरक्षित करने और शक्ति की खपत को कम करने के लिए डिज़ाइन की गई है। गेमिंग या एचडी वीडियो प्लेबैक जैसे कार्यों के लिए, ऑप्टिमस विच्छिन्न जीपीयू को बेहतर प्रदर्शन के लिए सक्रिय करता है; हल्की गतिविधियों जैसे वेब ब्राउज़िंग के दौरान, यह एकीकृत (ऑनबोर्ड) ग्राफिक्स में वापस आता है।

अपडेट लगता है कि ओप्टिमस सिस्टम तक सीमित एक व्यवहार को बढ़ाया गया है, जिससे प्रभावित जीपीयू को निष्क्रिय होने पर निम्न-शक्ति अवस्था में प्रवेश करने की अनुमति मिलती है, भले ही यह ओप्टिमस सिस्टम पर होस्ट नहीं किया गया हो, जिससे तीसरे पक्ष के टूल में तापमान रिपोर्टिंग बाधित हो जाती है।

जोखिम समायोजन

अधिकांश परिदृश्यों में, यह कहना उचित होगा कि ग्राफिक्स कार्ड का वीबीआईओएस संभवतः स्थायी जीपीयू क्षति को रोकने के लिए फर्मवेयर स्तर पर थर्मल और शक्ति सीमा लागू करता है, स्वतंत्र रूप से ड्राइवर के।

इसलिए, भले ही एक ड्राइवर असामान्य प्रशंसक व्यवहार या तापमान की गलत रिपोर्टिंग का कारण बनता है, वीबीआईओएस अभी भी प्रदर्शन को सीमित करेगा, प्रशंसक गतिविधि को बढ़ाएगा, या जीपीयू को हार्डवेयर विफलता को रोकने के लिए बंद कर देगा।

इसका मतलब यह नहीं है कि जोखिम महत्वहीन था – लंबे समय तक उच्च तापमान प्रदर्शन को कम कर सकते हैं या संबंधित घटकों पर तनाव डाल सकते हैं; इसके अलावा, एक सामान्य समझ की कमी के बिना कि एक अद्यतन ड्राइवर ने समस्या पैदा की (न्यूनतम सिस्टम में जो ड्राइवर ‘मौन’ अपडेट करते हैं), इस तरह का मुद्दा बड़ी संख्या में प्रभावित उपयोगकर्ताओं को गुमराह कर सकता है, जो गैर-मौजूद समस्याओं के लिए उपचार करने का प्रयास कर सकते हैं, या यहां तक कि अपने सिस्टम को गैर-प्रासंगिक ‘सुधार’ लागू करके नुकसान पहुंचा सकते हैं।

576.02 अपडेट द्वारा किया गया विचलित व्यवहार कृत्रिम बुद्धिमत्ता कार्य प्रवाह में शामिल लोगों के लिए विशेष रूप से चिंताजनक था, जहां उच्च-प्रदर्शन हार्डवेयर को नियमित रूप से लंबे समय तक इसके थर्मल सीमा तक धकेला जाता है।

समस्याग्रस्त 576.02 ड्राइवर ने मध्य अप्रैल में इसकी रिलीज़ के बाद शिकायतों की एक व्यापक लहर को प्रेरित किया,尽管 पहले रिपोर्ट थे कि यह कुछ लाभकारी प्रदर्शन सुधार प्रदान करता है। हॉटफिक्स के प्रावधान के बावजूद, और 576.02 ने जो विघटन पैदा किया है, लेखन के समय यह अभी भी नवीनतम डाउनलोड के लिए उपलब्ध* NVIDIA की साइट पर।

आफ्टरग्लो

दोषपूर्ण अपडेट के परिणामस्वरूप, कई प्रकार के नुकसान और असुविधा की सूचना दी गई है: उपयोगकर्ता फ्रैंकी_टी9000 रिपोर्ट किया कि उसका जीपीयू बूट पर दोषपूर्ण अपडेट के कारण गर्मी के निर्माण के कारण दुर्घटनाग्रस्त हो गया था, और केवल अंडरवोल्टिंग के बाद ही स्थिर हो गया। उन्होंने टिप्पणी की, ‘यह लगता है कि यह स्थायी रूप से क्षतिग्रस्त नहीं है, लेकिन मुझे इसे जल्द से जल्द पुनः पेस्ट करने की आवश्यकता है (मेरे पास बुधवार को पैड आ रहे हैं) मुझे संदेह है कि पुराना थर्मल पेस्ट अधिक गर्मी के निर्माण से अधिक उम्र का हो गया था, इसलिए मैं नए पेस्ट पैड लगा रहा हूं।’

कल उसी थ्रेड में एक अन्य उपयोगकर्ता ने बताया: ‘मैं एमएसआई आफ्टरबर्नर के साथ एक कस्टम प्रशंसक कर्व का उपयोग कर रहा था, और यह दिखा रहा था कि मेरे जीपीयू तापमान लगातार 27°C पर थे, इसलिए प्रशंसक चालू नहीं हुए, जिससे ओवरहीटिंग की समस्या हुई। मुझे लगा कि यह मेरी समस्या है, लेकिन पिछले ड्राइवर में इंस्टॉल करने के बाद यह फिर से ठीक हो गया। इसके अलावा, तापमान टास्कमैनेजर में सही ढंग से प्रदर्शित नहीं हो रहे हैं।’

हालांकि NVIDIA (जैसा कि यह हर हॉटफिक्स रिलीज़ में लगातार कहता है) अक्सर विशिष्ट वीडियो-गेम या प्लेटफ़ॉर्म के लिए हॉटफिक्स प्रदान करता है, जीपीयू या उसके आसपास गर्मी की क्षति का जोखिम एआई प्रैक्टिशनर्स के लिए गेमर्स की तुलना में अधिक है, क्योंकि गहन मशीन लर्निंग प्रक्रियाएं जैसे प्रशिक्षण या स्थायी अनुमान जीपीयू को निरंतर लंबे समय तक लोड के तहत रखती हैं – एक घटना जो केवल आवर्ती रूप से एक गेम में हो सकती है, जो एक बॉस-युद्ध या एक विशेष रूप से मांग वाले मैप खंड के लिए उच्च उपयोग में ‘स्पाइक’ हो सकती है, लेकिन जो अन्यथा जीपीयू शोषण और सिस्टम स्थिरता के बीच समझौता के रूप में डिज़ाइन की जाती है।

 

* आर्काइव: https://archive.ph/ylVR1

पहली बार मंगलवार, 22 अप्रैल, 2025 को प्रकाशित

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai