рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
Zephyr-7B : HuggingFace рдХрд╛ рд╣рд╛рдЗрдкрд░-рдСрдкреНрдЯрд┐рдорд╛рдЗрдЬреНрдб рдПрд▓рдПрд▓рдПрдо, рдорд┐рд╕реНрдЯреНрд░рд▓ 7рдмреА рдкрд░ рдмрдирд╛рдпрд╛ рдЧрдпрд╛

परिचय
खुले बड़े भाषा मॉडल (एलएलएम) के विकास ने कृत्रिम बुद्धिमत्ता अनुसंधान समुदाय पर महत्वपूर्ण प्रभाव डाला है, विशेष रूप से चैटबॉट और इसी तरह के अनुप्रयोगों के विकास में। एलएलएमए जैसे मॉडलों की रिलीज़ के बाद, कुशल फ़ाइन-ट्यूनिंग, विस्तारित प्रॉम्प्ट हैंडलिंग, रिट्रीवल ऑगमेंटेड जेनरेशन (आरएजी), और क्वांटाइजेशन पर शोध में वृद्धि हुई है।
एलएलएमए मॉडल, उदाहरण के लिए, फ़ाइन-ट्यूनिंग और प्रॉम्प्ट संदर्भीकरण में एक नए युग की शुरुआत को चिह्नित करता है, जो इसके बाद के मॉडलों जैसे मोज़ेकएमएल के एमपीटी, टुगेदर एआई के रेडपाजामा-इनसाइट, टीआईआई के फाल्कन, और मेटा के एलएलएमए 2 के लिए मार्ग प्रशस्त करता है। प्रत्येक मॉडल अद्वितीय क्षमताएं प्रदान करता है, जो एलएलएम की कुल कार्यक्षमता और दायरे को बढ़ाता है।
मिस्ट्रल एआई, पेरिस से एक स्टार्टअप और पूर्व गूगल डीपमाइंड और मेटा कर्मचारियों द्वारा स्थापित, अपने पहले प्रस्ताव के साथ एक नाम बनाया है: मिस्ट्रल 7बी。
मिस्ट्रल 7बी का लाभ इसकी दक्षता में है, जो एलएलएमए 2 जैसे अपने समकक्षों की तुलना में समान या बेहतर क्षमताएं प्रदान करता है, लेकिन कम गणनात्मक मांग के साथ।
विशेष रूप से निर्देशात्मक कार्यों के लिए ट्यून किया गया, मिस्ट्रल 7बी निर्देश हगिंग फेस पर चमकता है, जहां यह समान आकार के अन्य मॉडलों से आगे निकल जाता है और लगभग दोगुने पैरामीटर वाले मॉडलों के साथ प्रतिस्पर्धा करता है।
इस पर बनाते हुए, हगिंग फेस ने ज़ेफिर 7बी अल्फा पेश किया, जो दिखाता है कि एक फ़ाइन-ट्यून किए गए मिस्ट्रल 7बी वास्तव में बड़े चैट मॉडलों की क्षमताओं से आगे निकल सकता है और कुछ कार्यों में, यहां तक कि जीपीटी-4 के साथ प्रतिस्पर्धा कर सकता है। “अल्फा” केवल शुरुआत थी, क्योंकि ज़ेफिर 7बी बीटा जल्द ही इसका अनुसरण किया।
इस लेख में हम ज़ेफिर 7बी का अन्वेषण करेंगे कि यह मानव निर्देश के साथ अपनी प्रतिक्रिया और संरेखण को परिष्कृत करने के लिए बड़े मॉडलों की शक्ति का लाभ कैसे उठाता है, जो ज्ञान संघनन तकनीक के माध्यम से संभव है। यह विधि बड़े मॉडलों द्वारा सीखे गए जटिल पैटर्न पर छोटे मॉडलों को प्रशिक्षित करने के लिए शामिल है, जो प्रशिक्षण की मांग को कम करते हुए भाषा मॉडलिंग क्षमताओं की बलिदान नहीं करता है। हम हगिंग फेस के ज्ञान संघनन दृष्टिकोण के विशिष्ट में गहराई से जाएंगे।
ज्ञान संघनन
ज़ेफिर-7बी जैसे मॉडलों के विकास में एक प्रमुख नवाचार ज्ञान संघनन है। ज्ञान संघनन एक मशीन लर्निंग तकनीक है जिसमें एक कॉम्पैक्ट मॉडल, जिसे “छात्र” कहा जाता है, को एक बड़े, अधिक जटिल “शिक्षक” मॉडल के प्रदर्शन को दोहराने के लिए प्रशिक्षित किया जाता है। यह तकनीक छात्र को उन कार्यों को करने में सक्षम बनाती है जो पहले उसकी क्षमता से परे थे, शिक्षक द्वारा सीखे गए जटिल पैटर्न को स्थानांतरित करके।
[कैप्शन id=”attachment_192613″ align=”aligncenter” width=”354″]
छात्र मॉडल शिक्षक मॉडल द्वारा उत्पन्न आउटपुट संभावनाओं या विशेषताओं पर प्रशिक्षित होता है, जो अंतिम भविष्यवाणियों के बजाय इन आउटपुट को मिलाने पर ध्यान केंद्रित करता है। यह छात्र को शिक्षक की सूक्ष्म निर्णय लेने की प्रक्रियाओं को सीखने में सक्षम बनाता है, जो अक्सर केवल मैदानी सच्चाई डेटा के साथ प्रशिक्षण की तुलना में बेहतर प्रदर्शन का परिणाम होता है।
हिस्टोरिकली, ज्ञान संघनन का उपयोग हिंटन के मूल संघनन नेटवर्क में किया गया है, और हाल ही में एनएलपी में मॉडल जैसे डिस्टिलबर्ट, जो बर्ट मॉडल को एक छोटे, तेज मॉडल में संघनित करता है जो अधिकांश मूल की भाषा समझने की क्षमता को बनाए रखता है। एक अन्य उदाहरण टिनीबेर्ट है, जो मोबाइल या एज डिवाइस के लिए आकार और गति को अनुकूलित करने में आगे बढ़ता है।
ज़ेफिर-7बी के मामले में, ज्ञान संघनन एक छोटे 7बी पैरामीटर मॉडल में बड़े समकक्षों की क्षमताओं को प्रदान करने के लिए उपयोग किया जाता है। ऐसा करके, ज़ेफिर-7बी प्रदर्शन और दक्षता के बीच एक संतुलन प्राप्त करता है, जो कम्प्यूटेशनल संसाधनों वाले वातावरण के लिए उपयुक्त बनाता है, बिना इंटरैक्शन और समझ की गुणवत्ता को बलिदान किए।
ज़ेफिर-7बी के विकास में, शोधकर्ताओं ने एक छोटे खुले एलएलएम को पूरी तरह से संघनन के माध्यम से संरेखित करने की चुनौती का सामना किया। उन्होंने एक दृष्टिकोण पेश किया जिसे संघनित प्रत्यक्ष वरीयता अनुकूलन (डीडीपीओ) कहा जाता है, जो शिक्षक मॉडल के एक समूह से एआई फीडबैक का उपयोग वरीयता डेटा के रूप में करता है। यह विधि मानव अनotation की आवश्यकता को कम करती है, जो मॉडल प्रशिक्षण के लिए समय और संसाधनों को काफी कम कर देती है।
ज़ेफिर-7बी का निर्माण
डीडीपीओ को मान्य करने के लिए, शोधकर्ताओं ने ज़ेफिर-7बी का निर्माण किया, जो मिस्ट्रल-7बी मॉडल का एक संरेखित संस्करण है। प्रक्रिया में तीन चरण शामिल थे:
- अल्ट्राचैट डेटासेट का उपयोग करके डीएसएफटी: संघनित पर्यवेक्षित फ़ाइन-ट्यूनिंग (डीएसएफटी) एक उन्नत विधि है जो बड़े भाषा मॉडलों (एलएलएम) को प्रशिक्षित करने के लिए बड़े, अधिक क्षमता वाले “शिक्षक” मॉडलों के आउटपुट का लाभ उठाती है। यह एक कच्चे एलएलएम से शुरू होता है जिसे उपयोगकर्ता प्रॉम्प्ट का जवाब देने के लिए प्रशिक्षित किया जाता है। पारंपरिक पर्यवेक्षित फ़ाइन-ट्यूनिंग (एसएफटी) के विपरीत, जो एक निश्चित डेटासेट का उपयोग करता है, डीएसएफटी एक गतिशील दृष्टिकोण का उपयोग करता है जहां मॉडल स्वयं निर्देश और प्रतिक्रियाओं को उत्पन्न करता है।
- अल्ट्राफीडबैक से एआई फीडबैक डेटा को शामिल करना: यह डेटा मॉडल की प्रतिक्रियाओं को परिष्कृत करने के लिए महत्वपूर्ण था। इस चरण में, मॉडल विभिन्न प्रॉम्प्ट (जैसे कि चॉकलेट ब्राउनी बनाने का वर्णन) का जवाब देता है, जो फिर जीपीटी-4 जैसे एक अधिक उन्नत मॉडल द्वारा रैंक किया जाता है।
- डीडीपीओ का अनुप्रयोग: अंतिम चरण, संघनित प्रत्यक्ष वरीयता अनुकूलन (डीडीपीओ), डीएसएफटी मॉडल को वरीयता डेटा के आधार पर प्रतिक्रियाओं को रैंक करने की संभावना को अधिकतम करके परिष्कृत करने के लिए शामिल है।

ज़ेफिर-7बी में उपयोग की जाने वाली विधि इन्सट्रक्टजीपीटी में उपयोग की जाने वाली प्रक्रियाओं को दर्शाती है।
अद्भुत रूप से, ज़ेफिर-7बी 70बी पैरामीटर मॉडल के साथ तुलनात्मक प्रदर्शन प्राप्त करता है, जो मानव फीडबैक के साथ संरेखित है, और अकादमिक बेंचमार्क और संवादात्मक क्षमताओं दोनों में उत्कृष्टता प्रदर्शित करता है, जो मॉडल विकास में वरीयता सीखने की प्रभावशीलता को दर्शाता है। आगे के अन्वेषण के लिए, मॉडल, कोड, और निर्देश हगिंग फेस के गिटहब रिपॉजिटरी पर उपलब्ध हैं।
इरादा संरेखन की चुनौती का समाधान
एलएलएम के साथ एक उल्लेखनीय चिंता मानव इरादे के साथ उनका संरेखन रहा है। पिछले मॉडल अक्सर उपयोगकर्ता वरीयताओं से मेल खाने वाले प्रतिक्रियाएं उत्पन्न करने में विफल रहे, जिससे असटीक या अप्रासंगिक उत्तर मिले। हालांकि, हाल के बेंचमार्क जैसे एमटी-बेंच और अल्पाकाएवल ने इस पहलू को मापने और सुधारने के लिए उपकरण प्रदान किए हैं, जो मानव फीडबैक के साथ प्रशिक्षित प्रोप्राइटरी मॉडल के श्रेष्ठ प्रदर्शन को दर्शाते हैं।
मूल्यांकन विधियां
ज़ेफिर 7बी का मूल्यांकन संवादात्मक क्षमताओं का आकलन करने वाले बेंचमार्क पर कठोर परीक्षण के माध्यम से किया गया था:
- एमटी-बेंच: यह मल्टी-टर्न बेंचमार्क मॉडल को आठ डोमेन में 160 प्रश्नों का जवाब देने की आवश्यकता है। प्रत्येक प्रतिक्रिया जीपीटी-4 द्वारा रेट की जाती है, और मॉडल का अंतिम स्कोर दो राउंड के प्रश्नों पर औसत को दर्शाता है।
- अल्पाकाएवल: इस सिंगल-टर्न बेंचमार्क में, मॉडल को विभिन्न विषयों पर 805 प्रश्नों का सामना करना पड़ता है। यहां ध्यान मॉडल की उपयोगिता पर है, जिसमें जीपीटी-4 द्वारा प्रतिक्रियाओं को स्कोर किया जाता है ताकि एक तुलनात्मक जीत दर निर्धारित की जा सके।
इसके अलावा, ज़ेफिर 7बी का परीक्षण ओपन एलएलएम लीडरबोर्ड पर किया गया था, जो संवादात्मक कौशल का सीधा मूल्यांकन नहीं है, लेकिन फ़ाइन-ट्यूनिंग के बाद मॉडल के तर्क और सत्यता में अंतर्दृष्टि प्रदान करता है।
ज़ेफिर 7बी की तुलना विभिन्न खुले और प्रोप्राइटरी मॉडलों से की गई, जिनमें विभिन्न आकार और संरेखन विधियों वाले मॉडल शामिल थे। यह एमटी-बेंच और अल्पाकाएवल पर 7बी मॉडल के लिए नए बेंचमार्क स्थापित करने और बड़े मॉडलों के खिलाफ प्रतिस्पर्धी प्रदर्शन प्रदर्शित करने में सफल रहा, जो प्रशिक्षण में सीधे वरीयता अनुकूलन (डीडीपीओ) की प्रभावशीलता को मान्य करता है।
एसएफटी और डीपीओ प्रशिक्षण चरणों को बार-बार अनुकूलित किया गया, जिसमें कई युगों और फ़ाइन-ट्यूनिंग लर्निंग दरों और बैच आकारों को अनुकूलित किया गया ताकि ऑप्टिमल प्रदर्शन प्राप्त किया जा सके। अंतिम ज़ेफिर मॉडल न केवल ओवरफिटिंग के प्रतिरोधी बन गए, बल्कि व्यावहारिक कार्यों और अकादमिक बेंचमार्क के साथ भी बेहतर हो गए।
डेटासेट और परिणाम
उपयोग किए गए डेटासेट
ज़ेफिर-7बी को प्रशिक्षित और परिष्कृत करने के लिए दो प्रमुख डेटासेट का उपयोग किया गया था, प्रत्येक संवाद पीढ़ी के विभिन्न पहलुओं को संबोधित करता है:
अल्ट्राचैट डेटासेट
- स्रोत: जीपीटी-3.5-टर्बो द्वारा उत्पन्न संवाद से।
- सामग्री: 30 विषयों और 20 प्रकार की पाठ सामग्री में 1.47 मिलियन मल्टी-टर्न संवाद शामिल हैं।
- परिष्करण: डेटासेट ने व्याकरण संबंधी मुद्दों को ठीक करने के लिए एक सच्चाई संवाद ह्यूरिस्टिक के माध्यम से गुजरना और प्रतिक्रियाओं की उपयोगिता बढ़ाने और अप्रासंगिक प्रीफेसिंग वाक्यांशों को समाप्त करने के लिए फिल्टर लागू किए।
अल्ट्राफीडबैक डेटासेट
- स्रोत: जीपीटी-4 द्वारा मूल्यांकित प्रॉम्प्ट शामिल हैं, जिसने निर्देश-अनुसरण, ईमानदारी और उपयोगिता के आधार पर प्रतिक्रियाओं का मूल्यांकन किया।
- सामग्री: 64,000 प्रॉम्प्ट शामिल हैं जिनमें प्रत्येक में चार प्रतिक्रियाएं हैं, जिन्हें जीपीटी-4 द्वारा रेट किया गया है।
- बाइनरी वरीयता: सबसे उच्च माध्य स्कोर वाली प्रतिक्रिया को “चुना” और शेष से यादृच्छिक रूप से चुनी गई एक कम स्कोर वाली प्रतिक्रिया को “अस्वीकृत” के रूप में चुनकर विविधता और डीपीओ प्रक्रिया की चुनौती को बढ़ाने के लिए उत्पन्न किया गया है।
दोनों डेटासेट ज़ेफिर-7बी को मानव-जैसे संवाद उत्पन्न करने और निर्देश-अनुसरण, ईमानदारी और उपयोगिता को समझने में प्रशिक्षित करने के लिए महत्वपूर्ण हैं। ये डेटासेट हगिंग फेस हब पर उपलब्ध हैं।
प्रदर्शन और परिणाम
नीचे दिए गए चार्ट में ज़ेफिर 7बी के प्रदर्शन को विभिन्न कार्य श्रेणियों में अन्य मॉडल जैसे जीपीटी-3.5-टर्बो, क्लॉड 1, जीपीटी-4, और एलएलएमए2-70बी-चैट के खिलाफ दिखाया गया है। श्रेणियां लेखन, मानविकी, भूमिका-निर्धारण, तर्क, स्टेम, निष्कर्षण, कोडिंग, और गणित में शामिल हो सकती हैं।
चार्ट से हम यह अनुमान लगा सकते हैं कि ज़ेफिर-7बी किन डोमेन में उत्कृष्ट है और किन क्षेत्रों में सुधार की आवश्यकता हो सकती है। उदाहरण के लिए, यदि ज़ेफिर की रेखा लेखन अक्ष पर अन्य मॉडलों की तुलना में आगे निकलती है, तो यह सुझाव देती है कि ज़ेफिर लिखित सामग्री के उत्पादन में विशेष रूप से मजबूत है। इसके विपरीत, यदि रेखा गणित अक्ष पर केंद्र के करीब है, तो यह गणित समस्याओं का समाधान करने में एक सापेक्ष कमजोरी का संकेत दे सकता है।
रडार चार्ट ज़ेफिर 7बी की ताकत और कमजोरियों की पहचान करने में मदद करता है, जो जीपीटी-4 और एलएलएमए2-70बी-चैट जैसे बड़े मॉडलों के साथ इसके प्रदर्शन का एक दृश्य प्रतिनिधित्व प्रदान करता है।
विभिन्न भाषा मॉडलों की तुलना एमटी-बेंच और अल्पाकाएवल पर की जा रही है। मॉडलों का मूल्यांकन उनके आकार, संरेखन विधि (जैसे डीएसएफटी या डीडीपीओ), और प्रदर्शन स्कोर के आधार पर किया जाता है। ज़ेफिर उच्च स्कोर के साथ खड़ा है, जो दोनों बेंचमार्क पर इसकी प्रभावशीलता को दर्शाता है।
निष्कर्ष
निष्कर्ष में, ज़ेफिर-7बी का विकास यह प्रदर्शित करता है कि एक बड़े भाषा मॉडल (एलएलएम) से संवादात्मक क्षमताओं का एक छोटे मॉडल पर संरेखन और संघनन संभव है बिना नमूना आधारित विधियों पर निर्भर हुए। एआई फीडबैक के साथ सीधे वरीयता अनुकूलन (डीपीओ) का उपयोग करके, ज़ेफिर-7बी मिस्ट्रल-7बी की मजबूत नींव पर 7बी पैरामीटर चैट मॉडल के लिए एक नए मानक को स्थापित करता है, जो छोटे, खुले स्रोत मॉडलों की क्षमता को प्रदर्शित करता है कि वे मानव इरादे को समझने और प्रभावी ढंग से प्रतिक्रिया देने में सक्षम हैं।
हालांकि, इस अध्ययन में सीमाएं हैं। जीपीटी-4 को बेंचमार्क के लिए मूल्यांकनकर्ता के रूप में उपयोग करने से उन मॉडलों के प्रति पक्षपात हो सकता है जो इसके आधार पर संघनित हैं, जो सटीक प्रतिक्रियाओं की तुलना में पक्षपातपूर्ण हो सकता है। इसके अलावा, इस विधि को बड़े मॉडल जैसे एलएलएमए2-70बी पर लागू करने और प्रदर्शन लाभ पर इसके प्रभाव के लिए आगे के शोध की आवश्यकता है।
आगे देखते हुए, छोटे मॉडलों की क्षमता जो बड़े समकक्षों के स्तर पर प्रदर्शन कर सकते हैं, एआई को अधिक सुलभ और कुशल बनाने की क्षमता है, जिससे विभिन्न अनुप्रयोगों में इसका उपयोग बढ़ सकता है। ज़ेफिर-7बी की सफलता खुले स्रोत मॉडलों में आगे के अन्वेषण को प्रोत्साहित करती है, जो सहयोगी अनुसंधान और विकास को तेज करने में मदद कर सकती है।












