कृत्रिम बुद्धिमत्ता

Llama 2: एक गहरा गोता खुदाई ओपन-सोर्स चैलेंजर के लिए ChatGPT

Published September 4, 2023

Updated April 28, 2026

Aayush Mittal Mittal

लार्ज लैंग्वेज मॉडल (LLMs) जो जटिल तर्क कार्यों के लिए सक्षम हैं, विशेषज्ञता के क्षेत्रों जैसे प्रोग्रामिंग और रचनात्मक लेखन में आशाजनक परिणाम दिखाए हैं। हालांकि, LLMs की दुनिया बस एक प्लग-एंड-प्ले स्वर्ग नहीं है; उपयोगिता, सुरक्षा, और गणनात्मक मांगों में चुनौतियाँ हैं। इस लेख में, हम Llama 2 की क्षमताओं में गहराई से जाएंगे, जबकि Hugging Face और T4 GPUs पर Google Colab के माध्यम से इस उच्च-प्रदर्शन LLM को सेट करने के लिए एक विस्तृत वॉकथ्रू प्रदान करेंगे।

मेटा द्वारा माइक्रोसॉफ्ट के साथ साझेदारी में, यह ओपन-सोर्स बड़ा भाषा मॉडल जनरेटिव एआई और प्राकृतिक भाषा समझ के क्षेत्रों को पुनर्परिभाषित करने का उद्देश्य रखता है। Llama 2 केवल टेराबाइट्स के डेटा पर प्रशिक्षित एक और सांख्यिकीय मॉडल नहीं है; यह एक दर्शन का प्रतिनिधित्व करता है। एक जो एआई विकास में, विशेष रूप से जनरेटिव एआई स्पेस में, ओपन-सोर्स दृष्टिकोण को जोर देता है।

Llama 2 और इसका संवाद-आधारित विकल्प, Llama 2-Chat, 70 अरब पैरामीटर तक के साथ आते हैं। वे मानव वरीयताओं के साथ जुड़ने के लिए डिज़ाइन किए गए एक फाइन-ट्यूनिंग प्रक्रिया से गुजरते हैं, जिससे वे अन्य सार्वजनिक रूप से उपलब्ध मॉडलों की तुलना में सुरक्षित और प्रभावी होते हैं। यह स्तर की बारीकी फाइन-ट्यूनिंग अक्सर बंद “उत्पाद” LLMs के लिए आरक्षित है, जैसे ChatGPT और BARD, जो आमतौर पर सार्वजनिक जांच या अनुकूलन के लिए उपलब्ध नहीं होते हैं।

ल्लामा 2 का तकनीकी गहरा गोता

Llama 2 मॉडल को प्रशिक्षित करने के लिए; इसके पूर्ववर्ती की तरह, यह एक स्व-रिग्रेसिव ट्रांसफॉर्मर आर्किटेक्चर का उपयोग करता है, जो स्व-पर्यवेक्षित डेटा के एक व्यापक संग्रह पर पूर्व-प्रशिक्षित है। हालांकि, यह मानव व्यवहार और वरीयताओं के साथ बेहतर ढंग से जुड़ने के लिए मानव प्रतिक्रिया के साथ प्रोत्साहन सीखने (RLHF) का उपयोग करके जटिलता का एक अतिरिक्त परत जोड़ता है। यह गणनात्मक रूप से महंगा है, लेकिन मॉडल की सुरक्षा और प्रभावशीलता में सुधार के लिए महत्वपूर्ण है।

मेटा ल्लामा 2 प्रशिक्षण आर्किटेक्चर

पूर्व-प्रशिक्षण और डेटा दक्षता

Llama 2 की मूलभूत नवाचार इसके पूर्व-प्रशिक्षण शासन में निहित है। मॉडल अपने पूर्ववर्ती, Llama 1 से संकेत लेता है, लेकिन इसके प्रदर्शन को बढ़ाने के लिए कई महत्वपूर्ण सुधार पेश करता है। विशेष रूप से, प्रशिक्षित टोकन की कुल संख्या में 40% की वृद्धि और संदर्भ लंबाई में दोगुनी वृद्धि उल्लेखनीय है। इसके अलावा, मॉडल स्केलेबिलिटी को बढ़ाने के लिए समूहीकृत-प्रश्न ध्यान (GQA) का लाभ उठाता है।

पर्यवेक्षित फाइन-ट्यूनिंग (SFT) और मानव प्रतिक्रिया के साथ प्रोत्साहन सीखना (RLHF)

Llama-2-Chat को पर्यवेक्षित फाइन-ट्यूनिंग (SFT) और मानव प्रतिक्रिया के साथ प्रोत्साहन सीखने (RLHF) दोनों का उपयोग करके कठोरता से फाइन-ट्यून किया गया है। इस संदर्भ में, SFT RLHF फ्रेमवर्क का एक अभिन्न अंग के रूप में कार्य करता है, मॉडल की प्रतिक्रियाओं को मानव वरीयताओं और अपेक्षाओं के साथ जोड़ने के लिए परिष्कृत करता है।

ओपनएआई ने एक प्रेरक चित्रण प्रदान किया है जो InstructGPT में उपयोग की जाने वाली SFT और RLHF विधियों को समझाता है। LLaMa 2 की तरह, InstructGPT भी अपने मॉडल के प्रदर्शन को अनुकूलित करने के लिए इन उन्नत प्रशिक्षण तकनीकों का लाभ उठाता है।

पहले चरण में नीचे दिए गए चित्र पर पर्यवेक्षित फाइन-ट्यूनिंग (SFT) पर ध्यान केंद्रित किया गया है, जबकि बाद के चरण RLHF प्रक्रिया को पूरा करते हैं।

एक आरेख जो हमारी विधि के तीन चरणों को दर्शाता है: (1) पर्यवेक्षित फाइन-ट्यूनिंग (SFT), (2) पुरस्कार मॉडल (RM) प्रशिक्षण, और (3) प्रॉक्सिमल पॉलिसी ऑप्टिमाइजेशन (PPO) इस पुरस्कार मॉडल पर।

निर्देश-GPT

पर्यवेक्षित फाइन-ट्यूनिंग (SFT) एक विशेष प्रक्रिया है जो एक पूर्व-प्रशिक्षित बड़े भाषा मॉडल (LLM) को एक विशिष्ट डाउनस्ट्रीम कार्य के लिए अनुकूलित करने के लिए है। असुपरवाइज्ड विधियों के विपरीत, जिन्हें डेटा सत्यापन की आवश्यकता नहीं है, SFT एक डेटासेट का उपयोग करता है जो पहले से ही मान्य और लेबल किया गया है।

आम तौर पर इन डेटासेट को बनाना महंगा और समय लेने वाला है। Llama 2 दृष्टिकोण गुणवत्ता पर मात्रा को प्राथमिकता देता है। केवल 27,540 एनोटेशन के साथ, मेटा की टीम ने मानव एनोटेटर के साथ प्रतिस्पर्धी प्रदर्शन स्तर हासिल किए। यह हाल के अध्ययनों के अनुरूप है जो दिखाते हैं कि सीमित लेकिन स्वच्छ डेटासेट भी उच्च गुणवत्ता वाले परिणामों को चला सकते हैं।

SFT प्रक्रिया में, पूर्व-प्रशिक्षित LLM को एक लेबल वाले डेटासेट के साथ प्रस्तुत किया जाता है, जहां पर्यवेक्षित सीखने के अल्गोरिदम खेल में आते हैं। मॉडल के आंतरिक वजन को कार्य-विशिष्ट हानि फ़ंक्शन से गणना किए गए ग्रेडिएंट के आधार पर पुनः संयोजित किया जाता है। यह अनुकूलन LLM को लेबल वाले डेटासेट में निहित जटिल पैटर्न और बारीकियों को समझने में सक्षम बनाता है। परिणामस्वरूप, मॉडल केवल एक सामान्य उपकरण नहीं है, बल्कि लक्ष्य कार्य को उच्च सटीकता के साथ करने में सक्षम एक विशेषज्ञ संपत्ति में विकसित होता है।

मानव प्रतिक्रिया के साथ प्रोत्साहन सीखना अगला कदम है, जो मॉडल के व्यवहार को मानव वरीयताओं के साथ और अधिक बारीकी से जोड़ने का लक्ष्य रखता है।

फाइन-ट्यूनिंग चरण में मानव प्रतिक्रिया के साथ प्रोत्साहन सीखने (RLHF) का लाभ उठाया गया, जिसमें महत्व नमूनाकरण और प्रॉक्सिमल पॉलिसी ऑप्टिमाइजेशन जैसी तकनीकों का उपयोग किया गया ताकि एल्गोरिदमिक शोर को पेश किया जा सके और स्थानीय ऑप्टिमा से बचा जा सके। यह पुनरावृत्ति फाइन-ट्यूनिंग न केवल मॉडल में सुधार करती है, बल्कि इसके आउटपुट को मानव अपेक्षाओं के साथ भी जोड़ती है।

Llama 2-Chat ने मानव प्राथमिकता डेटा एकत्र करने के लिए एक द्विआधारी तुलना प्रोटोकॉल का उपयोग किया, जो अधिक गुणात्मक दृष्टिकोणों की ओर एक उल्लेखनीय प्रवृत्ति को चिह्नित करता है। यह तंत्र पुरस्कार मॉडल को सूचित करता है, जो तब संवादात्मक एआई मॉडल को फाइन-ट्यून करने के लिए उपयोग किया जाता है।

भूत ध्यान: बहु-मोड़ संवाद

मेटा ने एक नई सुविधा पेश की है, जिसे भूत ध्यान (GAtt) कहा जाता है, जो Llama 2 के प्रदर्शन को बहु-मोड़ संवाद में बढ़ाने के लिए डिज़ाइन किया गया है। यह प्रभावी रूप से चल रहे संवाद में संदर्भ हानि की समस्या का समाधान करता है। GAtt एक एंकर की तरह कार्य करता है, जो प्रारंभिक निर्देशों को सभी बाद के उपयोगकर्ता संदेशों से जोड़ता है। प्रोत्साहन सीखने की तकनीकों के साथ जोड़कर, यह लंबे संवाद में संगत, प्रासंगिक और उपयोगकर्ता-संरेखित प्रतिक्रियाओं का उत्पादन करने में मदद करता है।

मेटा गिट रिपॉजिटरी से डाउनलोड.श का उपयोग करके

मेटा वेबसाइट पर जाएं: मेटा की आधिकारिक Llama 2 साइट पर नेविगेट करें और ‘मॉडल डाउनलोड करें’ पर क्लिक करें।
विवरण भरें: आगे बढ़ने के लिए शर्तों और शर्तों को पढ़ें और स्वीकार करें।
ईमेल पुष्टिकरण: फॉर्म जमा करने के बाद, आपको मेटा से एक ईमेल प्राप्त होगा जिसमें उनके गिट रिपॉजिटरी से मॉडल डाउनलोड करने के लिए एक लिंक होगा।
डाउनलोड.श निष्पादित करें: गिट रिपॉजिटरी को क्लोन करें और download.sh स्क्रिप्ट को निष्पादित करें। यह स्क्रिप्ट आपको 24 घंटों में समाप्त होने वाले मेटा के एक यूआरएल का उपयोग करके प्रमाणीकरण करने के लिए प्रेरित करेगी। आप मॉडल के आकार – 7B, 13B, या 70B – का भी चयन करेंगे।

हगिंग फेस से

स्वीकृति ईमेल प्राप्त करें: मेटा से एक्सेस प्राप्त करने के बाद, हगिंग फेस पर जाएं।
एक्सेस अनुरोध करें: अपना वांछित मॉडल चुनें और एक्सेस ग्रांट करने के लिए अनुरोध सबमिट करें।
पुष्टिकरण: 1-2 दिनों के भीतर ‘ग्रांटेड एक्सेस’ ईमेल की अपेक्षा करें।
एक्सेस टोकन जेनरेट करें: अपने हगिंग फेस अकाउंट में ‘सेटिंग्स’ पर नेविगेट करें और एक्सेस टोकन बनाएं।

ट्रांसफॉर्मर 4.31 रिलीज़ LLaMa 2 के साथ पूरी तरह से संगत है और हगिंग फेस इकोसिस्टम के भीतर कई उपकरण और कार्यक्षमताएं खोलता है। प्रशिक्षण और अनुमान स्क्रिप्ट से लेकर 4-बिट क्वांटाइजेशन के साथ बिट्सएंडबाइट्स और पैरामीटर कुशल फाइन-ट्यूनिंग (PEFT) तक, टूलकिट व्यापक है। शुरू करने के लिए, सुनिश्चित करें कि आप नवीनतम ट्रांसफॉर्मर रिलीज़ पर हैं और अपने हगिंग फेस अकाउंट में लॉग इन हैं।

यहाँ एक स्ट्रीमलाइन गाइड है जो Google Colab वातावरण में LLaMa 2 मॉडल अनुमान चलाने के लिए है, जो एक GPU रनटाइम का लाभ उठाता है:

गूगल कोलाब मॉडल – T4 GPU

पैकेज स्थापना


!pip install transformers
!huggingface-cli login

आवश्यक पाइथन लाइब्रेरी आयात करें।

from transformers import AutoTokenizer
import transformers
import torch

मॉडल और टोकनाइज़र को आरंभ करें

इस चरण में, आप जिस Llama 2 मॉडल का उपयोग करने जा रहे हैं उसे निर्दिष्ट करें। इस गाइड के लिए, हम meta-llama/Llama-2-7b-chat-hf का उपयोग करेंगे।

model = "meta-llama/Llama-2-7b-chat-hf"
tokenizer = AutoTokenizer.from_pretrained(model)

पाइपलाइन सेट अप करें

हगिंग फेस पाइपलाइन का उपयोग विशिष्ट सेटिंग्स के साथ पाठ उत्पादन के लिए करें:

pipeline = transformers.pipeline(
"text-generation",
model=model,
torch_dtype=torch.float16,
device_map="auto")

पाठ अनुक्रम उत्पन्न करें

अंत में, पाइपलाइन चलाएं और अपने इनपुट के आधार पर एक पाठ अनुक्रम उत्पन्न करें:

sequences = pipeline(
'कृत्रिम बुद्धिमत्ता के क्षेत्र में मुख्य योगदानकर्ता कौन हैं?\n',
do_sample=True,
top_k=10,
num_return_sequences=1,
eos_token_id=tokenizer.eos_token_id,
max_length=200)
for seq in sequences:
print(f"परिणाम: {seq['generated_text']}")

A16Z का LLaMa 2 के लिए यूजर इंटरफेस

Andreessen Horowitz (A16Z) ने हाल ही में Llama 2 के लिए एक उन्नत Streamlit-आधारित चैटबॉट इंटरफेस लॉन्च किया है। गिटहब पर होस्ट किया गया, यह यूजर इंटरफेस सत्र चैट इतिहास को संरक्षित करता है और कई Llama 2 API एंडपॉइंट्स का चयन करने की लचीलापन प्रदान करता है जो Replicate पर होस्ट किए गए हैं। यह यूजर-केंद्रित डिज़ाइन Llama 2 के साथ इंटरैक्ट करना विकासकर्ताओं और अंतिम उपयोगकर्ताओं दोनों के लिए एक आदर्श उपकरण बनाने का उद्देश्य रखता है। जो लोग इसे अनुभव करने में रुचि रखते हैं, उनके लिए Llama2.ai पर एक लाइव डेमो उपलब्ध है।

LLaMa2.ai

ल्लामा 2: यह जीपीटी मॉडल और इसके पूर्ववर्ती ल्लामा 1 से क्या अलग बनाता है

स्केल में विविधता

अन्य भाषा मॉडलों के विपरीत जो सीमित स्केलेबिलिटी प्रदान करते हैं, Llama 2 आपको विभिन्न पैरामीटर वाले मॉडल के लिए विभिन्न विकल्प प्रदान करता है। मॉडल 7 अरब से 70 अरब पैरामीटर तक स्केल करता है, जिससे विभिन्न गणनात्मक आवश्यकताओं के लिए विभिन्न कॉन्फ़िगरेशन प्रदान किए जाते हैं।

संदर्भ लंबाई में वृद्धि

मॉडल में Llama 1 की तुलना में 4K टोकन की बढ़ी हुई संदर्भ लंबाई है। यह अधिक जानकारी को बनाए रखने में सक्षम बनाता है, जिससे यह अधिक जटिल और व्यापक सामग्री को समझने और उत्पन्न करने में सक्षम होता है।

समूहीकृत प्रश्न ध्यान (GQA)

आर्किटेक्चर समूहीकृत प्रश्न ध्यान (GQA) की अवधारणा का उपयोग करता है, जो पिछले टोकन जोड़े को कैश करके ध्यान गणना प्रक्रिया को तेज करने के लिए डिज़ाइन किया गया है। यह प्रभावी रूप से मॉडल की अनुमान स्केलेबिलिटी में सुधार करता है और इसकी पहुंच को बढ़ाता है।

प्रदर्शन बेंचमार्क

चैटजीपीटी और अन्य प्रतियोगियों के साथ ल्लामा 2-चैट मॉडल का तुलनात्मक प्रदर्शन विश्लेषण

LLama 2 ने प्रदर्शन मेट्रिक्स में एक नया मानक स्थापित किया है। यह न केवल अपने पूर्ववर्ती, LLama 1 को पार करता है, बल्कि फाल्कन और जीपीटी-3.5 जैसे अन्य मॉडलों के लिए भी महत्वपूर्ण प्रतिस्पर्धा प्रदान करता है।

Llama 2-Chat का सबसे बड़ा मॉडल, 70B, 36% मामलों में ChatGPT को पार करता है और 31.5% मामलों में प्रदर्शन में मेल खाता है। स्रोत: पेपर

ओपन सोर्स: समुदाय की शक्ति

मेटा और माइक्रोसॉफ्ट Llama 2 को केवल एक उत्पाद के रूप में नहीं, बल्कि एक समुदाय-संचालित उपकरण के रूप में देखना चाहते हैं। Llama 2 शोध और गैर-व्यावसायिक उद्देश्यों के लिए नि:शुल्क पहुंच योग्य है। वे एआई क्षमताओं को लोकतांत्रिक बनाना चाहते हैं, इसे स्टार्टअप, शोधकर्ताओं और व्यवसायों के लिए सुलभ बना रहे हैं। एक ओपन-सोर्स परिदृश्य मॉडल की ‘भीड़-स्रोत’ ट्रoubleshooting की अनुमति देता है। विकासकर्ता और एआई नैतिकविद् तेजी से समस्याओं की पहचान कर सकते हैं और समाधान प्रदान कर सकते हैं।

हालांकि LLaMa 2 की लाइसेंस शर्तें आम तौर पर अनुमतिपूर्ण हैं, अपवाद मौजूद हैं। 700 मिलियन मासिक उपयोगकर्ताओं के साथ बड़े उद्यम, जैसे गूगल, को इसके उपयोग के लिए मेटा से विशेष अनुमति की आवश्यकता है। इसके अलावा, लाइसेंस LLaMa 2 का उपयोग अन्य भाषा मॉडल में सुधार के लिए प्रतिबंधित करता है।

वर्तमान चुनौतियाँ Llama 2 के साथ

डेटा सामान्यीकरण: Llama 2 और GPT-4 दोनों कभी-कभी विभिन्न कार्यों में एकसमान उच्च प्रदर्शन में कमी दिखा सकते हैं। डेटा की गुणवत्ता और विविधता इन परिदृश्यों में आयतन के रूप में महत्वपूर्ण हैं।
मॉडल पारदर्शिता: पिछले मॉडलों द्वारा भ्रामक आउटपुट का उत्पादन करने के बाद, इन जटिल मॉडलों के निर्णय लेने के तर्क की खोज करना महत्वपूर्ण है।

कोड ल्लामा – मेटा का नवीनतम लॉन्च

मेटा ने हाल ही में कोड ल्लामा की घोषणा की, जो प्रोग्रामिंग में विशेषज्ञता वाला एक बड़ा भाषा मॉडल है, जिसके पैरामीटर का आकार 7B से 34B तक है। ChatGPT कोड इंटरप्रेटर की तरह; कोड ल्लामा विकासकर्ता कार्य प्रवाह को सुव्यवस्थित कर सकता है और प्रोग्रामिंग को अधिक सुलभ बना सकता है। यह विभिन्न प्रोग्रामिंग भाषाओं का समर्थन करता है और विशिष्ट कार्यों के लिए विशेष संस्करणों में आता है, जैसे कि कोड ल्लामा-पाइथन पाइथन-विशिष्ट कार्यों के लिए। मॉडल विभिन्न प्रदर्शन स्तर प्रदान करता है ताकि विभिन्न विलंबता आवश्यकताओं को पूरा किया जा सके। खुले तौर पर लाइसेंस प्राप्त, कोड ल्लामा समुदाय के इनपुट के लिए आमंत्रित करता है ताकि इसके निरंतर सुधार को सुनिश्चित किया जा सके।

https://about.fb.com/news/2023/08/code-llama-ai-for-coding/

निष्कर्ष

इस लेख ने आपको हगिंग फेस और T4 GPUs पर Google Colab के माध्यम से एक Llama 2 मॉडल सेट करने के लिए एक विस्तृत वॉकथ्रू प्रदान किया है। Llama 2 का प्रदर्शन स्व-रिग्रेसिव ट्रांसफॉर्मर आर्किटेक्चर से लेकर मानव प्रतिक्रिया के साथ प्रोत्साहन सीखने तक की एक श्रृंखला के द्वारा संचालित है। इसके 70 अरब पैरामीटर और भूत ध्यान जैसी सुविधाओं के साथ, यह मॉडल वर्तमान उद्योग मानकों को पार करता है और अपनी खुली प्रकृति के साथ, यह प्राकृतिक भाषा समझ और जनरेटिव एआई के लिए एक नए युग का मार्ग प्रशस्त करता है।

Aayush Mittal

मैं पिछले पांच वर्षों से मशीन लर्निंग और डीप लर्निंग की आकर्षक दुनिया में खुद को डूबा रहा हूं। मेरा जुनून और विशेषज्ञता ने मुझे 50 से अधिक विविध सॉफ्टवेयर इंजीनियरिंग परियोजनाओं में योगदान देने के लिए प्रेरित किया है, जिसमें विशेष रूप से एआई/एमएल पर ध्यान केंद्रित किया गया है। मेरी लगातार जिज्ञासा ने मुझे प्राकृतिक भाषा प्रसंस्करण की ओर आकर्षित किया है, जो एक क्षेत्र है जिसे मैं आगे अन्वेषण करने के लिए उत्सुक हूं।