Connect with us

рдкрд╛рдВрдЪ рдЪрд░рдг рдЬрд┐рд╕рд╕реЗ рдореЗрдореЛрд░реА рдХреЛ рдПрдЖрдИ рдХреА рд╕рдмрд╕реЗ рдмрдбрд╝реА рдмрд╛рдзрд╛ рд╕реЗ рдкреНрд░рддрд┐рд╕реНрдкрд░реНрдзреА рд▓рд╛рдн рдореЗрдВ рдмрджрд▓рд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ

рд╡рд┐рдЪрд╛рд░ рдиреЗрддрд╛

рдкрд╛рдВрдЪ рдЪрд░рдг рдЬрд┐рд╕рд╕реЗ рдореЗрдореЛрд░реА рдХреЛ рдПрдЖрдИ рдХреА рд╕рдмрд╕реЗ рдмрдбрд╝реА рдмрд╛рдзрд╛ рд╕реЗ рдкреНрд░рддрд┐рд╕реНрдкрд░реНрдзреА рд▓рд╛рдн рдореЗрдВ рдмрджрд▓рд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ

mm

पिछले कुछ वर्षों में, एआई इंफ्रास्ट्रक्चर ने अन्य सभी मेट्रिक्स के ऊपर कंप्यूट पर ध्यान केंद्रित किया है। अधिक एक्सेलरेटर, बड़े क्लस्टर और उच्च FLOPS ने जीपीयू का सबसे अधिक उपयोग करने के लिए बातचीत को चलाया। यह दृष्टिकोण तब समझ में आया जब मॉडल प्रगति मुख्य रूप से प्रशिक्षण स्केल पर निर्भर करती थी। अब एआई उत्पादन तैनाती को प्राथमिकता देने के साथ, एक नई बाधा पर ध्यान केंद्रित करने की आवश्यकता है: मेमोरी।

आज, कई सबसे कठिन बाधाएं एआई के लिए मेमोरी क्षमता में दिखाई देती हैं, बैंडविड्थ, लेटेंसी और एक प्रणाली के माध्यम से डेटा को स्थानांतरित करने के समय और ऊर्जा लागत। संदर्भ विंडोज़ बढ़ रहे हैं, कंपनियों के साथ जैसे कि एंथ्रोपिक अब अपने मानक मूल्य निर्धारण में मिलियन टोकन विंडोज़ प्रदान कर रहे हैं। अनुमान कार्यभार बढ़ रहे हैं। मल्टी-एजेंट सिस्टम की वृद्धि का अर्थ है कि एआई सिस्टम एक चरण से दूसरे चरण में बड़े डेटा वॉल्यूम को पास कर रहे हैं। ऑपरेटर जीपीयू जोड़ने की कोशिश कर सकते हैं, लेकिन वे अभी भी अपेक्षित प्रदर्शन से कम हैं क्योंकि ये सिस्टम पर्याप्त रैम की कमी से पीड़ित हैं जो एक्सेलरेटर को कुशलता से खिलाती है जब प्रत्येक सर्वर अपनी सीमित सिस्टम रैम तक सीमित होता है।

यह बदलाव दोनों के लिए प्रभाव डालता है – थ्रूपुट और लागत – हाइपरस्केलर और डेटा सेंटर ऑपरेटरों के लिए। जब मेमोरी सीमित कारक बन जाती है, तो संगठन अक्सर महंगे हार्डवेयर को अधिक प्रदान करके प्रतिक्रिया करते हैं, जीपीयू क्षमता को कम उपयोग में लाते हैं और उच्च शक्ति और बुनियादी ढांचे की लागत को अवशोषित करते हैं। एआई के अगले चरण की स्केलिंग कम रॉ कंप्यूट जोड़ने और अधिक मेमोरी आर्किटेक्चर बनाने पर निर्भर करेगी जो उत्पादन एआई के वास्तविक संचालन के तरीके को फिट करती है।

यहाँ पांच चरण हैं जो इंफ्रास्ट्रक्चर नेता अभी से बढ़ती मेमोरी की मांग के लिए तैयारी कर सकते हैं।

1. वास्तविक बोतलनेक को मापना शुरू करें

अधिकांश संगठन अभी भी एआई प्रदर्शन का मूल्यांकन कंप्यूट-फर्स्ट लेंस के माध्यम से करते हैं। वे क्लस्टर उपयोग, एक्सेलरेटर गिनती और शीर्ष-पंक्ति थ्रूपुट को ट्रैक करते हैं, फिर यह मान लेते हैं कि सुधार जीपीयू एक्सेलरेटर जोड़ने से आएगा। वह दृष्टिकोण अक्सर वास्तविक समस्या को याद करता है।

मेमोरी दबाव अक्सर एक्सेलरेटर को रोकने, प्रति-टोकन लेटेंसी में वृद्धि और लोड के तहत असंगत थ्रूपुट के रूप में दिखाई देता है। एक जीपीयू तब कम उपयोग में आ सकता है जब यह दूसरे मेमोरी टियर, दूसरे सर्वर या अनुप्रयोग में दूसरे चरण से डेटा के आगमन की प्रतीक्षा कर रहा हो। अनुमान इस समस्या को और अधिक दिखाई देने योग्य बनाता है क्योंकि केवी कैश आकार बढ़ता है और अधिक समानांतर सत्र बैंडविड्थ के लिए प्रतिस्पर्धा करते हैं।

ऑपरेटरों को प्रभावी मेमोरी उपयोगिता में बेहतर दृश्यता की आवश्यकता है, जिसमें टोकन प्रति बाइट्स, एक्सेलरेटर रुकावट समय और सीपीयू, जीपीयू और संबंधित मेमोरी टियर्स में मेमोरी एक्सेस पैटर्न शामिल हैं। उन्हें पाइपलाइन ट्रेसिंग की भी आवश्यकता है जो मेमोरी से संबंधित विलंबता को नेटवर्क या स्टोरेज समस्याओं से अलग कर सके। बिना उस दृश्यता के, टीमें वास्तविक धीमी गति के स्रोत को संबोधित किए बिना अधिक कंप्यूट पर खर्च कर सकती हैं।

2. अधिक क्षमता जोड़ने से पहले डेटा स्थानांतरण को कम करें

बड़े एआई सिस्टम में, डेटा स्थानांतरित करना डेटा प्रसंस्करण के रूप में उतना ही ओवरहेड पैदा कर सकता है।

यह विशेष रूप से अनुमान में सच है। जैसे ही संदर्भ विंडोज़ बढ़ते हैं, केवी कैश स्टैक में सिस्टम मेमोरी का सबसे बड़ा उपभोक्ता बन सकता है। मल्टी-टेनेंट सर्विंग और मल्टी-एजेंट वर्कफ्लो और भी जोड़ सकते हैं। पहला चरण आउटपुट उत्पन्न करता है, फिर दूसरा इसका उपभोग करता है और बुनियादी ढांचा इस हस्तांतरण को संभालता है जीपीयू के बीच, सर्वर के माध्यम से या फ्रेमवर्क-स्तरीय सीरियलाइजेशन के माध्यम से बड़े डेटा ब्लॉक की प्रतिलिपि बनाकर।

उन प्रतिलिपि बनाने में वास्तविक लागत है। वे बैंडविड्थ की खपत करते हैं, लेटेंसी जोड़ते हैं और महंगे कंप्यूट संसाधनों को अगले हस्तांतरण को पूरा करने के लिए प्रतीक्षा करते हैं। वे ऑपरेटरों को भी अधिक महंगी मेमोरी खरीदने के लिए प्रेरित करते हैं जितनी कि वास्तव में कार्यभार की आवश्यकता है।

अधिक एक्सेलरेटर निवेश करने से पहले, टीमों को यह पहचानना चाहिए कि सिस्टम में डेटा कहां अधिक आवश्यकता से अधिक स्थानांतरित हो रहा है। जीपीयू-टू-जीपीयू ट्रांसफर, सर्वर-टू-सर्वर कॉपी और मल्टी-एजेंट पाइपलाइन में मध्यवर्ती राज्यों की बार-बार गति अच्छे स्थान हैं जहां से शुरू किया जा सकता है। कई वातावरण में, अनावश्यक गति को काटने से अधिक कार्यशील प्रदर्शन मिलता है जितना कि एक और सर्वर।

3. कार्यभार व्यवहार के चारों ओर मेमोरी स्तर बनाएं

एआई इंफ्रास्ट्रक्चर तब बेहतर काम करता है जब ऑपरेटर मेमोरी को एक एकल स्रोत के रूप में नहीं बल्कि विभिन्न भूमिकाओं के साथ एक पदानुक्रम के रूप में मानते हैं।

सबसे गर्म डेटा एक्सेलरेटर के करीब रहना चाहिए। इसमें निम्न लेटेंसी और उच्चतम बैंडविड्थ की मांग वाले कार्य सेट शामिल हैं। अन्य सक्रिय बफर और अक्सर एक्सेस किए गए राज्य डीआरएएम में बैठ सकते हैं। बड़े ढांचे जिन्हें गति की तुलना में अधिक स्केलिंग की आवश्यकता है, उन्हें पूल्ड मेमोरी में ले जाया जा सकता है। ठंडे डेटा और कम सक्रिय मॉडल स्टैक के नीचे होने चाहिए।

इस दृष्टिकोण के लिए टीमों को यह समझने की आवश्यकता है कि कौन सा डेटा लगातार बदलता है, कौन सा डेटा कई प्रक्रियाओं द्वारा साझा किया जाता है और कौन सा डेटा मध्यम लेटेंसी व्यापार के बिना सेवा की गुणवत्ता को प्रभावित किए बिना सहन कर सकता है। बहुत से तैनाती अभी भी सब कुछ सबसे तेज़ एचबीएम स्तर में धकेलने के लिए डिफ़ॉल्ट रूप से सेट होते हैं क्योंकि यह सुरक्षित लगता है। यह दृष्टिकोण लागत को बढ़ाता है और आमतौर पर दक्षता को छोड़ देता है।

एक स्तरित मेमोरी रणनीति ऑपरेटरों को प्रदर्शन और अर्थशास्त्र दोनों पर अधिक नियंत्रण देती है। उत्पादन एआई में, यह संतुलन एक मूल डिज़ाइन आवश्यकता बन रहा है।

4. एजेंटिक एआई के लिए वास्तुकला के हिस्से के रूप में साझा मेमोरी का इलाज करें

मल्टी-एजेंट एआई खंडित मेमोरी डिज़ाइन की लागत को बढ़ा रहा है।

मल्टी-एजेंट सिस्टम में, एक एजेंट तुरंत दूसरे एजेंट द्वारा उपयोग किए जाने वाले आउटपुट का उत्पादन करता है। एक तीसरी सेवा उस आउटपुट को रैंक कर सकती है, संदर्भ जोड़ सकती है या इसे दूसरे मॉडल में मार्गदर्शन कर सकती है। यदि प्रत्येक चरण उसी राज्य की एक ताज़ा प्रतिलिपि बनाता है, तो यातायात तेजी से बढ़ जाता है। जैसे ही संदर्भ बढ़ता है, कि कॉपी किए गए डेटा का आकार भी बढ़ता है। प्रणाली डेटा को स्थानांतरित करने में अधिक समय बिताती है डेटा की तुलना में प्रसंस्करण।

यह वह जगह है जहां साझा मेमोरी विशेष रूप से महत्वपूर्ण हो जाती है, विशेष रूप से साझा केवी कैश और अन्य राज्यों के लिए जिन्हें कई एजेंट या सेवाओं को एक्सेस करने की आवश्यकता होती है। साझा मेमोरी दोहरी प्रतिलिपि को कम कर सकती है, नेटवर्क यातायात को कम कर सकती है और पूरे अनुप्रयोग पथ में उपयोगिता में सुधार कर सकती है। यह एजेंटिक सिस्टम को भी स्केल करने में मदद कर सकती है क्योंकि विभिन्न नोड या एजेंट साझा मेमोरी के साथ केवी कैश का पुन: उपयोग कर सकते हैं।

हाइपरस्केलर के लिए, यह अब एक किनारे का मामला नहीं है। जैसे ही एजेंटिक एआई परिपक्व होता है, साझा मेमोरी कुशल तैनाती के लिए एक व्यावहारिक आवश्यकता बन रही है।

5. उत्पादन इंफ्रास्ट्रक्चर के लिए सीएक्सएल को अपनाएं

पिछले कुछ वर्षों में, उद्योग ने सीएक्सएल को एक वादा करने वाले मानक के रूप में देखा जिसे परिपक्व होने में अधिक समय की आवश्यकता थी, क्योंकि सीएक्सएल जल्दी से संस्करण 1 से 2 तक चला गया। अब 3.x हार्डवेयर जल्द ही उपलब्ध होने के साथ, सीएक्सएल उत्पादन भार संभालने के लिए परिपक्व, पिछड़े संगत और तैयार होने के बिंदु पर पहुंच रहा है।

सीएक्सएल ने एक ऐसा स्तर हासिल कर लिया है जहां हाइपरस्केलर और डेटा सेंटर ऑपरेटरों को इसे उत्पादन मेमोरी विस्तार, पूलिंग और साझा मेमोरी आर्किटेक्चर के लिए एक व्यावहारिक विकल्प के रूप में मानना चाहिए। यह अब गंभीर बुनियादी ढांचे की योजना में शामिल होना चाहिए, विशेष रूप से उन वातावरणों में जिन्हें अधिक लचीली मेमोरी स्केलिंग और अनुमान के आसपास बेहतर अर्थशास्त्र की आवश्यकता है।

इसका मतलब यह नहीं है कि हर कार्यभार को सीएक्सएल-आधारित मेमोरी में स्थानांतरित किया जाना चाहिए। स्थानीय मेमोरी सबसे गर्म और सबसे लेटेंसी-संवेदनशील डेटा के लिए आवश्यक बनी हुई है। लेकिन ऑपरेटरों को अब किसी भविष्य के संस्करण की प्रतीक्षा नहीं करनी चाहिए। अधिक उपयोगी प्रश्न यह है कि सीएक्सएल आज वास्तविक उत्पादन समस्याओं का समाधान कहां कर सकता है।

सबसे स्पष्ट अवसर मेमोरी विस्तार, पूल्ड मेमोरी और साझा मेमोरी डिज़ाइन में हैं जो एआई वर्कफ्लो में अनावश्यक प्रतिलिपि को कम करते हैं। ये उपयोग के मामले वर्तमान दबाव बिंदुओं के साथ सीधे संरेखित होते हैं: बढ़ती केवी कैश मांग, बढ़ती एजेंट-टू-एजेंट डेटा ट्रांसफर और जीपीयू उपयोगिता में सुधार की आवश्यकता के बिना कुल स्वामित्व लागत को और अधिक बढ़ाए बिना।

ऑपरेटरों को अभी भी सावधानी से इंजीनियर करने की आवश्यकता है। लेटेंसी, पूर्वानुमानीयता और सॉफ्टवेयर समर्थन अभी भी महत्वपूर्ण हैं। मेमोरी प्रबंधन नीतियों को सही समय पर सही स्तर में डेटा रखने की आवश्यकता है। लेकिन वे कार्यान्वयन प्रश्न हैं, नहीं कि योजना को स्थगित करने के कारण।

एक्ससेना में, हम मेमोरी, डेटा स्थानांतरण और उपयोगिता को उत्पादन एआई इंफ्रास्ट्रक्चर में केंद्रीय बाधा के रूप में देखते हैं। यही कारण है कि हम सीएक्सएल-आधारित गणनात्मक मेमोरी और आर्किटेक्चर पर ध्यान केंद्रित करते हैं जो अनावश्यक प्रतिलिपि को कम करते हैं, साझा एक्सेस का समर्थन करते हैं और ऑपरेटरों को महंगे कंप्यूट संसाधनों का बेहतर उपयोग करने में मदद करते हैं।

उद्योग ने वर्षों से मेमोरी को एआई प्रगति के पीछे एक सहायक संसाधन के रूप में माना। वह दृष्टिकोण अब उत्पादन तैनाती वास्तविकता के अनुरूप नहीं है। मेमोरी अब स्टैक के प्रत्येक स्तर पर उपयोगिता, दक्षता और लागत को आकार देती है। जो ऑपरेटर इस बदलाव को जल्दी से पहचानते हैं, उन्हें एक लाभ होगा जो केवल प्रदर्शन में नहीं है, बल्कि यह कि वे वास्तविक दुनिया में एआई को कितनी प्रभावी ढंग से स्केल करते हैं।

рдЬрд┐рди рдХрд┐рдо XCENA рдХреЗ рд╕реАрдИрдУ рдФрд░ рд╕рд╣-рд╕рдВрд╕реНрдерд╛рдкрдХ рд╣реИрдВ, рдЬреЛ рдПрдХ рджрдХреНрд╖рд┐рдг рдХреЛрд░рд┐рдпрд╛-рдЖрдзрд╛рд░рд┐рдд рдлреЗрдмрд▓реЗрд╕ рд╕реЗрдореАрдХрдВрдбрдХреНрдЯрд░ рдХрдВрдкрдиреА рд╣реИ рдЬреЛ рдПрдЖрдИ рдФрд░ рдмрдбрд╝реЗ рдкреИрдорд╛рдиреЗ рдкрд░ рдбреЗрдЯрд╛ рдкреНрд░реЛрд╕реЗрд╕рд┐рдВрдЧ рдХреЗ рд▓рд┐рдП рдЕрдЧрд▓реА рдкреАрдврд╝реА рдХреЗ рдореЗрдореЛрд░реА рд╕рдорд╛рдзрд╛рди рдмрдирд╛рдиреЗ рдкрд░ рдХреЗрдВрджреНрд░рд┐рдд рд╣реИред рдПрд╕рдХреЗ рд╣рд╛рдЗрдирд┐рдХреНрд╕ рдореЗрдВ рд╡рд░рд┐рд╖реНрда рдиреЗрддреГрддреНрд╡ рднреВрдорд┐рдХрд╛рдУрдВ рд╕рд╣рд┐рдд рдкреГрд╖реНрдарднреВрдорд┐ рдХреЗ рд╕рд╛рде - рдЬрд╣рд╛рдВ рд╡рд╣ рд╕рдмрд╕реЗ рдХрдо рдЙрдореНрд░ рдХреЗ рдХреЙрд░реНрдкреЛрд░реЗрдЯ рдЙрдкрд╛рдзреНрдпрдХреНрд╖реЛрдВ рдореЗрдВ рд╕реЗ рдПрдХ рдереЗ - рдХрд┐рдо рдбреЗрдЯрд╛-рдХреЗрдВрджреНрд░рд┐рдд рдХрдВрдкреНрдпреВрдЯрд┐рдВрдЧ рдФрд░ рд╕реЗрдореАрдХрдВрдбрдХреНрдЯрд░ рдЖрд░реНрдХрд┐рдЯреЗрдХреНрдЪрд░ рдореЗрдВ рдЧрд╣рд░реА рд╡рд┐рд╢реЗрд╖рдЬреНрдЮрддрд╛ рд▓рд╛рддреЗ рд╣реИрдВред