कृत्रिम बुद्धिमत्ता

एसजीएलएएनजी: संरचित भाषा मॉडल प्रोग्रामों का कुशल निष्पादन

प्रकाशित 6 अगस्त 2024

अपडेट किया गया 21 मई 2026

Kunal Kejriwal

SGLang: Efficient Execution of Structured Language Model Programs

बड़े भाषा मॉडल (एलएलएम) जटिल कार्यों के लिए बढ़ती तरह से उपयोग किए जा रहे हैं जिनमें कई पीढ़ी के कॉल, उन्नत प्रॉम्प्टिंग तकनीक, नियंत्रण प्रवाह और संरचित इनपुट/आउटपुट की आवश्यकता होती है। हालांकि, इन अनुप्रयोगों के लिए कुशल प्रणालियाँ अभी भी कमी है। एसजीएलएएनजी, एक नई प्रणाली का उद्देश्य इसे संबोधित करना है जो जटिल भाषा मॉडल प्रोग्रामों के कुशल निष्पादन को प्रदान करके करती है। एसजीएलएएनजी में एक फ्रंटएंड भाषा और एक रनटाइम शामिल है। फ्रंटएंड प्रोग्रामिंग को सरल बनाता है जेनरेशन और पैरेललिज़म नियंत्रण के लिए प्रिमिटिव्स के साथ, जबकि रनटाइम निष्पादन को रेडिक्सएटेंशन जैसे नए ऑप्टिमाइजेशन के माध्यम से तेज करता है। प्रयोग यह दर्शाते हैं कि एसजीएलएएनजी राज्य-ऑफ-द-आर्ट अनुमान प्रणालियों की तुलना में विभिन्न बड़े भाषा और मल्टीमॉडल मॉडल पर 6.4 गुना अधिक थ्रूपुट प्राप्त करता है, जो एजेंट नियंत्रण, तर्कसंगत तर्क, कुछ-शॉट सीखने के बेंचमार्क, जेसन डिकोडिंग, पुनर्प्राप्ति-संवर्धित पीढ़ी पाइपलाइन, और मल्टी-टर्न चैट जैसे कार्यों को संभालता है।

हाल के वर्षों में एलएलएम क्षमताओं में सुधार ने उनकी उपयोगिता को बढ़ाया है, जिससे वे व्यापक श्रृंखला के सामान्य कार्यों को संभालने और स्वायत्त एजेंट के रूप में कार्य करने में सक्षम हो गए हैं। इन अनुप्रयोगों में, एलएलएम बाहरी वातावरण के साथ बातचीत करते हुए, बहु-दौर की योजना, तर्क और बातचीत में संलग्न होते हैं। यह उपकरण उपयोग, कई इनपुट मोडलिटी और विभिन्न प्रॉम्प्टिंग तकनीकों के माध्यम से सुविधा प्रदान करता है, जैसे कि कुछ-शॉट सीखने, स्व-संगति, कंकाल-विचार, और पेड़-विचार। इन नए उपयोग के मामलों में जटिल कार्यों को पूरा करने के लिए एलएलएम पीढ़ी के कई, अक्सर निर्भर, कॉल की आवश्यकता होती है।

यह परिवर्तन एलएलएम के सरल चैटिंग से अधिक परिष्कृत प्रोग्रामेटिक उपयोग में संक्रमण को चिह्नित करता है, जहां प्रोग्राम एलएलएम की पीढ़ी प्रक्रियाओं को अनुसूचित और नियंत्रित करते हैं। इन प्रोग्रामों को “भाषा मॉडल प्रोग्राम” (एलएम प्रोग्राम) कहा जाता है। उन्नत प्रॉम्प्टिंग तकनीक और एजेंटिक वर्कफ्लो एलएम प्रोग्रामों के दायरे में आते हैं। एलएम प्रोग्रामों की दो सामान्य विशेषताएं हैं: (1) एलएम प्रोग्राम आमतौर पर जटिल कार्यों को पूरा करने और समग्र गुणवत्ता में सुधार के लिए एलएलएम कॉल के बीच नियंत्रण प्रवाह के साथ कई एलएलएम कॉल शामिल करते हैं। (2) एलएम प्रोग्राम संरचित इनपुट प्राप्त करते हैं और संरचित आउटपुट उत्पन्न करते हैं, जिससे एलएम प्रोग्रामों की रचना और मौजूदा सॉफ्टवेयर प्रणालियों में एकीकरण संभव हो जाता है।

इस लेख में, हम एसजीएलएएनजी फ्रेमवर्क की गहराई से जांच करेंगे, इसकी वास्तुकला का विश्लेषण करेंगे, और इसके प्रदर्शन की तुलना राज्य-ऑफ-द-आर्ट फ्रेमवर्क से करेंगे। तो आइए शुरू करें।

एसजीएलएएनजी का परिचय

एलएम प्रोग्रामों के व्यापक उपयोग के बावजूद, उन्हें व्यक्त करने और निष्पादित करने के लिए वर्तमान प्रणालियाँ अकुशल हैं। एसजीएलएएनजी दो प्राथमिक चुनौतियों की पहचान करता है जो एलएम प्रोग्रामों के कुशल उपयोग से जुड़ी हैं:

प्रोग्रामिंग जटिलता: एलएम प्रोग्राम विकसित करना एलएलएम की गैर-निर्धारित प्रकृति के कारण कठिन और जटिल है। इसमें व्यापक स्ट्रिंग मैनिपुलेशन, प्रॉम्प्ट्स के प्रयोगात्मक ट्यूनिंग, नाजुक आउटपुट पार्सिंग, कई इनपुट मोडलिटी को संभालना और पैरेललिज़म तंत्र को लागू करना शामिल है। यह जटिलता甚至 सरल प्रोग्रामों की पठनीयता को भी कम कर देती है।
निष्पादन अकुशलता: एलएम प्रोग्रामों का निष्पादन अकुशल है क्योंकि इसमें अतिरिक्त गणना और मेमोरी का उपयोग होता है। राज्य-ऑफ-द-आर्ट अनुमान इंजन, जो देरी को कम करने और थ्रूपुट में सुधार करने के लिए अनुकूलित हैं, कार्यभार के बारे में सीधी जानकारी की कमी के कारण महत्वपूर्ण अकुशलता का कारण बनते हैं। एक उल्लेखनीय उदाहरण केवी कैश का पुन: उपयोग है, जो जनरेटिव अनुमान के लिए आवश्यक मध्यवर्ती टेंसर का एक पुन: उपयोग योग्य संग्रह है। वर्तमान प्रणालियों में केवी कैश को प्रभावी ढंग से साझा करने के लिए तंत्र की कमी है, जिससे अनावश्यक गणना और बर्बाद मेमोरी होती है। इसके अलावा, संरचित आउटपुट के लिए सीमित डिकोडिंग, जैसे कि जेसन मोड, उपोत्पादक है क्योंकि मौजूदा प्रणालियों में एक समय में केवल एक टोकन को डिकोड करने की क्षमता है।

इन चुनौतियों का समाधान करने के लिए, एसजीएलएएनजी एलएलएम के लिए एक संरचित पीढ़ी भाषा पेश करता है। मूल विचार एलएम प्रोग्रामों में मल्टी-कॉल संरचना का कुशलता से शोषण करना है। निम्नलिखित चित्र में, एसजीएलएएनजी के दो भाग दिखाए गए हैं: एक फ्रंटएंड भाषा और एक बैकएंड रनटाइम।

फ्रंटएंड एलएम प्रोग्रामों को सरल बनाता है, और रनटाइम उनके निष्पादन को तेज करता है। ये दोनों भाग बेहतर प्रदर्शन के लिए एक साथ काम कर सकते हैं या स्वतंत्र रूप से कार्य कर सकते हैं।

एसजीएलएएनजी पाइथन में निहित एक डोमेन-विशिष्ट भाषा है, जो पीढ़ी (जैसे विस्तार, जेन, चयन) और पैरेललिज़म नियंत्रण (जैसे फोर्क, जॉइन) के लिए प्रिमिटिव्स प्रदान करता है। यह पाइथन के नियंत्रण प्रवाह और पुस्तकालयों के साथ संगत है, जिससे उपयोगकर्ता मूल पाइथन वाक्य रचना के साथ उन्नत प्रॉम्प्टिंग वर्कफ्लो विकसित कर सकते हैं। एसजीएलएएनजी में एक इंटरप्रेटर और एक कंपाइलर शामिल है। इंटरप्रेटर प्रॉम्प्ट स्टेट को एक स्ट्रीम के रूप में प्रबंधित करता है और प्रिमिटिव ऑपरेशन को असिंक्रोनस निष्पादन के लिए स्ट्रीम में जमा करता है, जिससे सिंक्रोनाइजेशन और इंट्रा-प्रोग्राम पैरेललिज़म पर उचित नियंत्रण सुनिश्चित होता है। इसके अलावा, एसजीएलएएनजी प्रोग्रामों को ट्रेस किया जा सकता है और आगे के ऑप्टिमाइजेशन के लिए संकलित किया जा सकता है। एसजीएलएएनजी का रनटाइम एलएम प्रोग्रामों के निष्पादन को तेज करने के लिए कई नए ऑप्टिमाइजेशन प्रस्तावित करता है:

रेडिक्सएटेंशन: यह तकनीक कई पीढ़ी के कॉल के बीच केवी कैश के स्वचालित पुन: उपयोग को सक्षम बनाती है। मौजूदा अनुमान इंजनों में, एक अनुरोध के बाद केवी कैश को छोड़ दिया जाता है, जिससे कई कॉल के बीच पुन: उपयोग संभव नहीं होता है और निष्पादन को धीमा कर देता है। एसजीएलएएनजी एक एलआरयू कैश को रेडिक्स ट्री के भीतर केवी कैश के रूप में प्रबंधित करता है, जिससे केवी कैश को एक पारंपरिक कैश के रूप में प्रबंधित किया जा सकता है और रेडिक्स ट्री का उपयोग कुशल मिलान, सम्मिलन और निकासी के लिए किया जा सकता है। यह रनटाइम को विभिन्न पुन: उपयोग पैटर्न को कुशलता से संभालने की अनुमति देता है।
संकुचित फाइनाइट स्टेट मशीन: यह तकनीक संरचित आउटपुट के लिए तेजी से सीमित डिकोडिंग को सक्षम बनाती है। मौजूदा प्रणालियों में केवल अगले टोकन के लिए सीमाओं का पालन किया जाता है, जिससे एक समय में केवल एक टोकन को डिकोड किया जा सकता है। इसके बजाय, एसजीएलएएनजी सीमाओं का विश्लेषण करता है और उन्हें प्रतिनिधित्व करने के लिए एक संकुचित फाइनाइट स्टेट मशीन का निर्माण करता है, जिससे एक मल्टी-टोकन पथ को एक एकल-चरण पथ में संकुचित किया जा सकता है, जिससे एक ही समय में कई टोकन को डिकोड करने की अनुमति मिलती है।
एपीआई स्पेक्युलेटिव एक्ज़ीक्यूशन: एपीआई-ओनली मॉडल जैसे ओपनएआई के जीपीटी-4 के लिए, एसजीएलएएनजी मल्टी-कॉल प्रोग्रामों को अनुकूलित करने के लिए एपीआई स्पेक्युलेटिव एक्ज़ीक्यूशन पेश करता है।

एसजीएलएएनजी का उपयोग करके, विभिन्न एलएलएम अनुप्रयोगों को लागू किया गया, जिनमें एजेंट नियंत्रण, तर्कसंगत तर्क, कुछ-शॉट सीखने के बेंचमार्क, जेसन डिकोडिंग, पुनर्प्राप्ति-संवर्धित पीढ़ी पाइपलाइन, मल्टी-टर्न चैट, और मल्टी-मॉडल प्रोसेसिंग शामिल हैं। प्रदर्शन को लामा-7बी/70बी, मिस्ट्रल-8×7बी, एलएलएवीए-वी1.5-7बी (इमेज), और एलएलएवीए-नेक्स्ट-34बी (वीडियो) मॉडल पर एनवीडिया ए10जी और ए100 जीपीयू पर परीक्षण किया गया। प्रयोगात्मक परिणाम यह दर्शाते हैं कि एसजीएलएएनजी विभिन्न कार्यभार, मॉडल, और हार्डवेयर सेटअप पर मौजूदा प्रोग्रामिंग और अनुमान प्रणालियों की तुलना में 6.4 गुना अधिक थ्रूपुट प्राप्त करता है, जिनमें गाइडेंस, वीएलएलएम, और एलएमक्यूएल शामिल हैं।

एसजीएलएएनजी: प्रोग्रामिंग मॉडल और विधि

एसजीएलएएनजी प्रोग्रामिंग मॉडल को एक चलने वाले उदाहरण के माध्यम से पेश किया जाता है, जो इसकी भाषा प्रिमिटिव्स और निष्पादन मोड का वर्णन करता है, और रनटाइम ऑप्टिमाइजेशन अवसरों को रेखांकित करता है। यह मॉडल जटिल कार्यों को पूरा करने के लिए मल्टी-कॉल वर्कफ्लो में तेदious ऑपरेशन को सरल बनाता है, जैसे कि स्ट्रिंग मैनिपुलेशन, एपीआई कॉल, सीमा विनिर्देशन, और पैरेललिज़म। एसजीएलएएनजी पाइथन में निहित एक डोमेन-विशिष्ट भाषा है। निम्नलिखित चित्र एक प्रोग्राम दिखाता है जो एक शाखा-समाधान-विलय प्रॉम्प्टिंग विधि का उपयोग करके एक छवि के बारे में एक निबंध का मूल्यांकन करता है।

फंक्शन मल्टी-डाइमेंशनल_जज तीन तर्क लेता है: `s`, `path`, और `essay`। s प्रॉम्प्ट स्टेट को प्रबंधित करता है, path छवि फ़ाइल पथ है, और essay निबंध पाठ है। नए स्ट्रिंग और एसजीएलएएनजी प्रिमिटिव्स को स्टेट s में जोड़ा जा सकता है और += ऑपरेटर का उपयोग करके निष्पादन के लिए जोड़ा जा सकता है। पहले, फंक्शन छवि और निबंध को प्रॉम्प्ट में जोड़ता है। फिर, यह जांचता है कि क्या निबंध छवि से संबंधित है और परिणाम को s[“related”] में संग्रहीत करता है। यदि संबंधित है, तो प्रॉम्प्ट को तीन कॉपियों में विभाजित किया जाता है जो विभिन्न आयामों से मूल्यांकन के लिए पैरेलल मोड में काम करती हैं, जेन का उपयोग करके परिणामों को f[“judgment”] में संग्रहीत करता है। इसके बाद, यह निर्णयों को विलय करता है, एक सारांश उत्पन्न करता है, और एक अक्षर ग्रेड असाइन करता है। अंत में, यह परिणामों को जेसन प्रारूप में लौटाता है, जो एक नियमित अभिव्यक्ति द्वारा परिभाषित एक योजना का पालन करता है। एसजीएलएएनजी इस प्रोग्राम को बहुत सरल बनाता है, क्योंकि एक ओपनएआई एपीआई जैसे इंटरफ़ेस का उपयोग करके एक समान प्रोग्राम 2.1 गुना अधिक कोड लाइनों की आवश्यकता होगी, जो मैनुअल स्ट्रिंग मैनिपुलेशन और पैरेललिज़म नियंत्रण के कारण है।

एसजीएलएएनजी प्रॉम्प्ट स्टेट, पीढ़ी, और पैरेललिज़म नियंत्रण के लिए प्रिमिटिव्स प्रदान करता है, जो पाइथन वाक्य रचना और पुस्तकालयों के साथ उपयोग किए जा सकते हैं। यहाँ प्रिमिटिव्स हैं:

जेन: एक मॉडल को बुलाता है और परिणामों को एक नाम वाले वेरिएबल में संग्रहीत करता है, जो इसके पहले तर्क में निर्दिष्ट है। यह एक `रेगेक्स` तर्क का समर्थन करता है जो आउटपुट को एक नियमित अभिव्यक्ति द्वारा परिभाषित ग्रामर का पालन करने के लिए सीमित करता है (जैसे कि एक जेसन स्कीमा)।

चयन: एक मॉडल को बुलाता है और सूची में उच्चतम संभावना वाले विकल्प का चयन करता है।
+= या विस्तार: एक स्ट्रिंग को प्रॉम्प्ट में जोड़ता है।
[वेरिएबल_नाम]: एक पीढ़ी के परिणामों को पुनः प्राप्त करता है।
फोर्क: प्रॉम्प्ट स्टेट की पैरेलल फोर्क बनाता है।
जॉइन: प्रॉम्प्ट स्टेट को पुनः मिलाता है।
छवि और वीडियो: छवि और वीडियो इनपुट लेते हैं।

एसजीएलएएनजी प्रोग्राम को निष्पादित करने का सबसे सरल तरीका एक इंटरप्रेटर के माध्यम से है, जहां प्रॉम्प्ट को एक असिंक्रोनस स्ट्रीम के रूप में माना जाता है। प्रिमिटिव्स जैसे विस्तार, जेन, और चयन को स्ट्रीम में जमा किया जाता है और असिंक्रोनस निष्पादन के लिए जमा किया जाता है। ये नॉन-ब्लॉकिंग कॉल पाइथन कोड को निष्पादन के पूरा होने की प्रतीक्षा किए बिना आगे बढ़ने की अनुमति देते हैं, जो कि सीउडीए केर्नल लॉन्च करने के समान है। प्रत्येक प्रॉम्प्ट को एक स्ट्रीम एक्ज़ीक्यूटर द्वारा एक पृष्ठभूमि थ्रेड में प्रबंधित किया जाता है, जो इंट्रा-प्रोग्राम पैरेललिज़म को सक्षम बनाता है। पीढ़ी के परिणामों को पुनः प्राप्त करने से निष्पादन तक प्रतीक्षा की जाएगी, जो सही सिंक्रोनाइजेशन सुनिश्चित करता है। वैकल्पिक रूप से, एसजीएलएएनजी प्रोग्राम को ग्राफ़ एक्ज़ीक्यूटर के साथ निष्पादित करने के लिए कंप्यूटेशनल ग्राफ़ के रूप में संकलित किया जा सकता है, जो अधिक ऑप्टिमाइजेशन की अनुमति देता है। यह पेपर डिफ़ॉल्ट रूप से इंटरप्रेटर मोड का उपयोग करता है और एपेंडिक्स डी में कंपाइलर मोड के परिणामों पर चर्चा करता है। एसजीएलएएनजी अपने एसजीएलएएनजी रनटाइम (एसआरटी) के साथ ओपन-वेट मॉडल का समर्थन करता है, साथ ही ओपनएआई और एंथ्रोपिक जैसे एपीआई मॉडल।

एलएलएम के लिए प्रोग्रामिंग प्रणालियों को उच्च-स्तरीय (जैसे लैंगचेन, डीएसपाई) और निम्न-स्तरीय (जैसे एलएमक्यूएल, गाइडेंस, एसजीएलएएनजी) के रूप में वर्गीकृत किया जा सकता है। उच्च-स्तरीय प्रणालियाँ पूर्व-निर्धारित या स्वचालित रूप से उत्पन्न प्रॉम्प्ट प्रदान करती हैं, जैसे कि डीएसपाई का प्रॉम्प्ट ऑप्टिमाइज़र। निम्न-स्तरीय प्रणालियाँ आमतौर पर प्रॉम्प्ट को बदलने की अनुमति नहीं देती हैं, लेकिन प्रॉम्प्ट और प्रिमिटिव्स के सीधे मैनिपुलेशन की अनुमति देती हैं। एसजीएलएएनजी एलएमक्यूएल और गाइडेंस के समान एक निम्न-स्तरीय प्रणाली है। निम्नलिखित तालिका उनकी विशेषताओं की तुलना करती है।

एसजीएलएएनजी रनटाइम कुशलता पर अधिक ध्यान केंद्रित करता है और अपने साथ एक सह-डिज़ाइन किया गया रनटाइम प्रदान करता है, जो नए ऑप्टिमाइजेशन की अनुमति देता है। उच्च-स्तरीय भाषाएँ (जैसे डीएसपाई) को निम्न-स्तरीय भाषाओं (जैसे एसजीएलएएनजी) में संकलित किया जा सकता है। डीएसपाई में एसजीएलएएनजी को बैकएंड के रूप में एकीकरण करना बेहतर रनटाइम कुशलता के लिए प्रदर्शित किया गया है।

उपरोक्त उदाहरण रेडिक्सएटेंशन ऑपरेशन को नौ समय बिंदुओं पर दिखाता है, जो विभिन्न अनुरोधों के प्रति रेडिक्स ट्री के गतिशील विकास को प्रदर्शित करता है। इन अनुरोधों में दो चैट सत्र, कुछ-शॉट सीखने के प्रश्नों का एक बैच, और स्व-संगति नमूनाकरण शामिल हैं। प्रत्येक ट्री एज पर एक लेबल होता है जो एक उपसर्ग या टोकन की एक श्रृंखला को दर्शाता है। नोड्स रंग-कोडित होते हैं: नए जोड़े गए नोड्स के लिए हरा, समय बिंदु के दौरान एक्सेस किए गए कैश्ड नोड्स के लिए नीला, और निकाले गए नोड्स के लिए लाल।

चरण 1: रेडिक्स ट्री शुरू में खाली है।

चरण 2: सर्वर एक आगामी उपयोगकर्ता संदेश “हैलो” को संसाधित करता है और एलएलएम आउटपुट “हाय” के साथ प्रतिक्रिया करता है। प्रणाली प्रॉम्प्ट “आप एक सहायक सहायक हैं”, उपयोगकर्ता संदेश “हैलो!”, और एलएलएम प्रतिक्रिया “हाय!” को एक ही एज के रूप में एक नए नोड से जोड़कर ट्री में एकत्र किया जाता है।

चरण 3: एक नया प्रॉम्प्ट आता है, और सर्वर प्रॉम्प्ट (वार्ता के पहले मोड़) के उपसर्ग को रेडिक्स ट्री में पाता है और इसके केवी कैश का पुन: उपयोग करता है। नया मोड ट्री में एक नए नोड के रूप में जोड़ा जाता है।

चरण 4: एक नया चैट सत्र शुरू होता है। चरण 3 से नोड को दो नोड्स में विभाजित किया जाता है ताकि दोनों चैट सत्र प्रणाली प्रॉम्प्ट को साझा कर सकें।

चरण 5: दूसरा चैट सत्र जारी रहता है। हालांकि, मेमोरी सीमा के कारण, चरण 4 से एक नोड को निकालना आवश्यक है। नया मोड चरण 4 से शेष नोड के बाद जोड़ा जाता है।

चरण 6: सर्वर एक कुछ-शॉट सीखने का प्रश्न प्राप्त करता है, इसे संसाधित करता है, और इसे ट्री में डाल देता है। मूल नोड को विभाजित किया जाता है क्योंकि नया प्रश्न मौजूदा नोड्स के साथ कोई उपसर्ग साझा नहीं करता है।

चरण 7: सर्वर कुछ-शॉट सीखने के प्रश्नों का एक बैच प्राप्त करता है। ये प्रश्न एक ही कुछ-शॉट उदाहरणों के सेट को साझा करते हैं, इसलिए चरण 6 से एक नोड को विभाजित किया जाता है ताकि साझाकरण की अनुमति मिल सके।

चरण 8: सर्वर पहले चैट सत्र से एक नया संदेश प्राप्त करता है। यह दूसरे चैट सत्र के सभी नोड्स को निकाल देता है क्योंकि वे कम हाल ही में उपयोग किए जाते हैं।

चरण 9: सर्वर चरण 8 से एक नोड के लिए स्व-संगति प्रॉम्प्टिंग के लिए अधिक उत्तरों का नमूनाकरण करने का अनुरोध प्राप्त करता है। इन अनुरोधों के लिए स्थान बनाने के लिए, कई नोड्स को निकाल दिया जाता है।

यह उदाहरण यह दर्शाता है कि रेडिक्सएटेंशन विभिन्न अनुरोधों के प्रति नोड्स के गतिशील आवंटन और निकासी को कैसे संभालता है, जिससे केवी कैश का कुशल पुन: उपयोग और मेमोरी प्रबंधन सुनिश्चित होता है।

एसजीएलएएनजी: मूल्यांकन और परिणाम

ओपन-वेट मॉडल पर परिणाम

देरी और थ्रूपुट के परिणाम निम्नलिखित चित्रों में दिखाए गए हैं। एसजीएलएएनजी थ्रूपुट में 6.4 गुना सुधार और देरी में 3.7 गुना सुधार प्रदान करता है। ये सुधार केवी कैश के पुन: उपयोग, एक ही प्रोग्राम के भीतर पैरेललिज़म का शोषण, और तेजी से सीमित डिकोडिंग के कारण हैं।

इन बेंचमार्क पर, कैश हिट दर 50% से 99% तक है। आंकड़ा 13 (परिशिष्ट) सभी के लिए प्राप्त और इष्टतम कैश हिट दर सूचीबद्ध करता है, जो यह दर्शाता है कि एसजीएलएएनजी की कैश-जागरूक अनुसूची औसतन 96% इष्टतम हिट दर के करीब है।

टेंसर पैरेललिज़म के साथ बड़े मॉडल पर परिणाम

मिक्सट्रल-8×7बी और लामा-70बी जैसे बड़े मॉडलों का परीक्षण टेंसर पैरेललिज़म के साथ किया गया और परिणाम निम्नलिखित चित्र में रिपोर्ट किए गए हैं। बड़े मॉडल पर स्पीडअप की प्रवृत्ति छोटे मॉडल पर देखी गई प्रवृत्ति के समान है, जो यह दर्शाती है कि एसजीएलएएनजी का ऑप्टिमाइजेशन बड़े मॉडल पर भी अच्छी तरह से सामान्य है। गाइडेंस और एलएमक्यूएल को टेंसर पैरेललिज़म के कुशल कार्यान्वयन की कमी के कारण छोड़ दिया गया था।

मल्टी-मॉडल मॉडल पर परिणाम

एसजीएलएएनजी में मल्टी-मॉडल मॉडल के लिए मूल समर्थन है, जिसमें छवि और वीडियो प्रिमिटिव्स शामिल हैं। इस पेपर में वर्णित ऑप्टिमाइजेशन मल्टी-मॉडल मॉडल के साथ संगत हैं। रेडिक्सएटेंशन के लिए, इनपुट छवियों के हैश की गणना की जाती है और रेडिक्स ट्री में कुंजी के रूप में उपयोग किया जाता है, जिससे एक ही छवि से छवि टोकन के केवी कैश का पुन: उपयोग संभव हो जाता है। एलएलएवीए-वी1.5-7बी (छवि) को एलएवीए-बेंच-इन-द-वाइल्ड पर और एलएलएवीए-नेक्स्ट-34बी (वीडियो) को एक्टिविटी-नेट पर चलाया गया। क्योंकि ये मॉडल अन्य बेसलाइन प्रणालियों द्वारा अच्छी तरह से समर्थित नहीं हैं, मॉडल लेखकों का मूल कार्यान्वयन हगिंग फेस ट्रांसफॉर्मर में उपयोग किया गया था। निम्नलिखित तालिका में दिखाया गया है, एसजीएलएएनजी इन बेंचमार्क पर 6 गुना अधिक थ्रूपुट प्रदान करता है। एलएवीए-बेंच-इन-द-वाइल्ड में, एक ही छवि के बारे में कई प्रश्नों को संभाला गया, और एसजीएलएएनजी रनटाइम ने इस मामले में केवी कैश का पुन: उपयोग किया।

उत्पादन तैनाती

एसजीएलएएनजी को चैटबॉट एरीना में ओपन-वेट मॉडल की सेवा के लिए तैनात किया गया है। कुछ मॉडलों के लिए कम ट्रैफिक के कारण, प्रत्येक मॉडल के लिए केवल एक एसजीएलएएनजी वर्कर की सेवा की जाती है। एक महीने के बाद, एलएलएवीए-नेक्स्ट-34बी के लिए 52.4% रेडिक्सएटेंशन कैश हिट दर और विकुना-33बी के लिए 74.1% देखी गई। कैश हिट्स सामान्य सिस्टम संदेशों, बार-बार पुन: उपयोग किए जाने वाले उदाहरण छवियों, और मल्टी-टर्न चैट इतिहास से आए। यह पहले टोकन की देरी को विकुना-33बी के लिए औसतन 1.7 गुना कम कर देता है।

अंतिम विचार

इस लेख में, हमने एसजीएलएएनजी के बारे में बात की है, जो एक नई प्रणाली है जो जटिल भाषा मॉडल प्रोग्रामों के कुशल निष्पादन को प्रदान करने के लिए डिज़ाइन की गई है। एसजीएलएएनजी में एक फ्रंटएंड भाषा और एक रनटाइम शामिल है। फ्रंटएंड प्रोग्रामिंग को सरल बनाता है और रनटाइम निष्पादन को रेडिक्सएटेंशन और संकुचित फाइनाइट स्टेट मशीन जैसे नए ऑप्टिमाइजेशन के माध्यम से तेज करता है। प्रयोग यह दर्शाते हैं कि एसजीएलएएनजी विभिन्न बड़े भाषा और मल्टीमॉडल मॉडल पर राज्य-ऑफ-द-आर्ट अनुमान प्रणालियों की तुलना में 6.4 गुना अधिक थ्रूपुट प्राप्त करता है, जो एजेंट नियंत्रण, तर्कसंगत तर्क, कुछ-शॉट सीखने के बेंचमार्क, जेसन डिकोडिंग, पुनर्प्राप्ति-संवर्धित पीढ़ी पाइपलाइन, और मल्टी-टर्न चैट जैसे कार्यों को संभालता है।