ठूंठ हगिंग फेस एलएलएम टूल्स के लिए संपूर्ण शुरुआती गाइड - यूनाइट.एआई
हमसे जुडे

एआई उपकरण 101

हगिंग फेस एलएलएम टूल्स के लिए संपूर्ण शुरुआती मार्गदर्शिका

mm
Updated on
आलिंगन करते हुए चेहरा - संपूर्ण मार्गदर्शिका

हगिंग फेस एक एआई अनुसंधान प्रयोगशाला और केंद्र है जिसने विद्वानों, शोधकर्ताओं और उत्साही लोगों का एक समुदाय बनाया है। बहुत कम समय में, हगिंग फेस ने एआई क्षेत्र में अच्छी खासी उपस्थिति हासिल कर ली है। टेक दिग्गज Google, Amazon और Nvidia सहित ने महत्वपूर्ण निवेश के साथ AI स्टार्टअप हगिंग फेस को बढ़ावा दिया है, जिससे इसका मूल्यांकन बढ़ गया है 4.5 $ अरब.

इस गाइड में, हम ट्रांसफार्मर, एलएलएम का परिचय देंगे और कैसे हगिंग फेस लाइब्रेरी एक ओपनसोर्स एआई समुदाय को बढ़ावा देने में महत्वपूर्ण भूमिका निभाती है। हम व्यावहारिक पायथन उदाहरणों के साथ हगिंग फेस की आवश्यक विशेषताओं के बारे में भी जानेंगे, जिसमें पाइपलाइन, डेटासेट, मॉडल और बहुत कुछ शामिल हैं।

एनएलपी में ट्रांसफार्मर

2017 में, कॉर्नेल यूनिवर्सिटी ने एक प्रभावशाली पेपर प्रकाशित किया जो पेश किया गया ट्रान्सफ़ॉर्मर. ये एनएलपी में उपयोग किए जाने वाले गहन शिक्षण मॉडल हैं। इस खोज ने जैसे बड़े भाषा मॉडल के विकास को बढ़ावा दिया ChatGPT.

बड़े भाषा मॉडल या एलएलएम एआई सिस्टम हैं जो मानव-जैसे पाठ को समझने और बनाने के लिए ट्रांसफार्मर का उपयोग करते हैं। हालाँकि, इन मॉडलों को बनाना महंगा है, इसके लिए अक्सर लाखों डॉलर की आवश्यकता होती है, जो बड़ी कंपनियों तक उनकी पहुंच को सीमित करता है।

गले लगना, 2016 में शुरू किया गया, इसका लक्ष्य एनएलपी मॉडल को सभी के लिए सुलभ बनाना है। एक वाणिज्यिक कंपनी होने के बावजूद, यह लोगों और संगठनों को किफायती रूप से ट्रांसफार्मर मॉडल बनाने और उपयोग करने में मदद करने के लिए ओपन-सोर्स संसाधनों की एक श्रृंखला प्रदान करती है। मशीन लर्निंग कंप्यूटर को पैटर्न पहचानकर कार्य करना सिखाने के बारे में है, जबकि डीप लर्निंग, मशीन लर्निंग का एक उपसमूह, एक नेटवर्क बनाता है जो स्वतंत्र रूप से सीखता है। ट्रांसफॉर्मर एक प्रकार का गहन शिक्षण आर्किटेक्चर है जो प्रभावी ढंग से और लचीले ढंग से इनपुट डेटा का उपयोग करता है, जिससे यह कम प्रशिक्षण समय की आवश्यकताओं के कारण बड़े भाषा मॉडल के निर्माण के लिए एक लोकप्रिय विकल्प बन जाता है।

हगिंग फेस एनएलपी और एलएलएम प्रोजेक्ट्स को कैसे सुविधाजनक बनाता है

हगिंग फेस इकोसिस्टम - मॉडल, डेटासेट, मेट्रिक्स, ट्रांसफार्मर, एक्सीलरेट, टोकननाइज़र

हगिंग फेस ने निम्नलिखित पेशकश करके एलएलएम के साथ काम करना आसान बना दिया है:

  1. चुनने के लिए पूर्व-प्रशिक्षित मॉडलों की एक श्रृंखला।
  2. इन मॉडलों को आपकी विशिष्ट आवश्यकताओं के अनुरूप तैयार करने के लिए उपकरण और उदाहरण।
  3. विभिन्न परिवेशों के लिए आसान परिनियोजन विकल्प।

हगिंग फेस के माध्यम से उपलब्ध एक बेहतरीन संसाधन है एलएलएम लीडरबोर्ड खोलें. एक व्यापक मंच के रूप में कार्य करते हुए, यह बड़े भाषा मॉडल (एलएलएम) और चैटबॉट्स के स्पेक्ट्रम की दक्षता की व्यवस्थित रूप से निगरानी, ​​रैंक और आकलन करता है, जो ओपन-सोर्स डोमेन में प्रगति का एक समझदार विश्लेषण प्रदान करता है।

एलएलएम बेंचमार्क चार मेट्रिक्स के माध्यम से मॉडल को मापता है:

  • AI2 रीज़निंग चैलेंज (25-शॉट) - प्रारंभिक विज्ञान पाठ्यक्रम से संबंधित प्रश्नों की एक श्रृंखला।
  • हेलास्वैग (10-शॉट) - एक सामान्य ज्ञान अनुमान परीक्षण, जो मनुष्यों के लिए सरल होते हुए भी अत्याधुनिक मॉडलों के लिए एक महत्वपूर्ण चुनौती है।
  • एमएमएलयू (5-शॉट) - 57 विविध डोमेन में एक टेक्स्ट मॉडल की दक्षता को छूने वाला एक बहुआयामी मूल्यांकन, जिसमें बुनियादी गणित, कानून और कंप्यूटर विज्ञान शामिल हैं।
  • सत्यवादीQA (0-शॉट) - किसी मॉडल की बार-बार सामने आने वाली ऑनलाइन गलत सूचनाओं को प्रतिध्वनित करने की प्रवृत्ति का पता लगाने के लिए एक उपकरण।

बेंचमार्क, जिन्हें "25-शॉट", "10-शॉट", "5-शॉट" और "0-शॉट" जैसे शब्दों का उपयोग करके वर्णित किया गया है, मूल्यांकन प्रक्रिया के दौरान एक मॉडल दिए गए त्वरित उदाहरणों की संख्या दर्शाते हैं। विभिन्न क्षेत्रों में इसके प्रदर्शन और तर्क क्षमताओं का आकलन करने के लिए। "कुछ-शॉट" प्रतिमानों में, मॉडलों को उनकी प्रतिक्रियाओं को निर्देशित करने में सहायता के लिए कम संख्या में उदाहरण प्रदान किए जाते हैं, जबकि "0-शॉट" सेटिंग में, मॉडलों को कोई उदाहरण नहीं मिलता है और उन्हें उचित प्रतिक्रिया देने के लिए केवल अपने पहले से मौजूद ज्ञान पर निर्भर रहना पड़ता है। .

गले मिलते चेहरे के घटक

पाइप लाइनें

'पाइपलाइनें'हगिंग फेस की ट्रांसफॉर्मर लाइब्रेरी का हिस्सा है, एक ऐसी सुविधा जो हगिंग फेस रिपॉजिटरी में उपलब्ध पूर्व-प्रशिक्षित मॉडल के आसान उपयोग में मदद करती है। यह कार्यों की एक श्रृंखला के लिए एक सहज एपीआई प्रदान करता है, जिसमें भावना विश्लेषण, प्रश्न उत्तर, मुखौटा भाषा मॉडलिंग, नामित इकाई पहचान और सारांश शामिल है।

पाइपलाइनें तीन केंद्रीय हगिंग फेस घटकों को एकीकृत करती हैं:

  1. टोकन लेने वाला: मॉडल के लिए आपके टेक्स्ट को ऐसे प्रारूप में परिवर्तित करके तैयार करता है जिसे मॉडल समझ सके।
  2. आदर्श: यह पाइपलाइन का हृदय है जहां पूर्व-संसाधित इनपुट के आधार पर वास्तविक भविष्यवाणियां की जाती हैं।
  3. पोस्ट प्रोसेसर: मॉडल की कच्ची भविष्यवाणियों को मानव-पठनीय रूप में बदल देता है।

ये पाइपलाइनें न केवल व्यापक कोडिंग को कम करती हैं बल्कि विभिन्न एनएलपी कार्यों को पूरा करने के लिए उपयोगकर्ता के अनुकूल इंटरफेस भी प्रदान करती हैं।

हगिंग फेस लाइब्रेरी का उपयोग करते हुए ट्रांसफार्मर अनुप्रयोग

हगिंग फेस लाइब्रेरी का एक मुख्य आकर्षण ट्रांसफॉर्मर्स लाइब्रेरी है, जो एक मॉडल को आवश्यक प्री और पोस्ट-प्रोसेसिंग चरणों के साथ जोड़कर, विश्लेषण प्रक्रिया को सुव्यवस्थित करके एनएलपी कार्यों को सरल बनाता है। लाइब्रेरी को स्थापित और आयात करने के लिए, निम्नलिखित कमांड का उपयोग करें:

pip install -q transformers
from transformers import pipeline

ऐसा करने के बाद, आप भावना विश्लेषण से शुरू करके एनएलपी कार्यों को निष्पादित कर सकते हैं, जो पाठ को सकारात्मक या नकारात्मक भावनाओं में वर्गीकृत करता है। लाइब्रेरी का शक्तिशाली पाइपलाइन() फ़ंक्शन अन्य पाइपलाइनों को शामिल करने वाले हब के रूप में कार्य करता है और ऑडियो, विज़न और मल्टीमॉडल डोमेन में कार्य-विशिष्ट अनुप्रयोगों को सुविधाजनक बनाता है।

व्यावहारिक अनुप्रयोगों

पाठ वर्गीकरण

हगिंग फेस के पाइपलाइन() फ़ंक्शन के साथ टेक्स्ट वर्गीकरण आसान हो जाता है। यहां बताया गया है कि आप टेक्स्ट वर्गीकरण पाइपलाइन कैसे आरंभ कर सकते हैं:

classifier = pipeline("text-classification")

व्यावहारिक अनुभव के लिए, पूर्वानुमान प्राप्त करने के लिए अपनी पाइपलाइन में एक स्ट्रिंग या स्ट्रिंग की सूची फ़ीड करें, जिसे पायथन की पांडा लाइब्रेरी का उपयोग करके बड़े करीने से देखा जा सकता है। इसे प्रदर्शित करने वाला एक पायथन स्निपेट नीचे दिया गया है:

sentences = ["I am thrilled to introduce you to the wonderful world of AI.",
"Hopefully, it won't disappoint you."]
# Get classification results for each sentence in the list
results = classifier(sentences)
# Loop through each result and print the label and score
for i, result in enumerate(results):
print(f"Result {i + 1}:")
print(f" Label: {result['label']}")
print(f" Score: {round(result['score'], 3)}\n")

उत्पादन

Result 1: 
Label: POSITIVE 
Score: 1.0 
Result 2: 
Label: POSITIVE 
Score: 0.996 

नामांकित मान्यता (एनईआर)

एनईआर वास्तविक दुनिया की वस्तुओं को पाठ से 'नामांकित इकाइयां' निकालने में महत्वपूर्ण है। इन संस्थाओं को प्रभावी ढंग से पहचानने के लिए एनईआर पाइपलाइन का उपयोग करें:

ner_tagger = pipeline("ner", aggregation_strategy="simple")
text = "Elon Musk is the CEO of SpaceX."
outputs = ner_tagger(text)
print(outputs)

उत्पादन

 Elon Musk: PER, SpaceX: ORG 

प्रश्न उत्तर देना

प्रश्न उत्तर देने में किसी दिए गए संदर्भ से विशिष्ट प्रश्नों के सटीक उत्तर निकालना शामिल है। वांछित उत्तर प्राप्त करने के लिए एक प्रश्न-उत्तर पाइपलाइन प्रारंभ करें और अपना प्रश्न और संदर्भ इनपुट करें:

reader = pipeline("question-answering")
text = "Hugging Face is a company creating tools for NLP. It is based in New York and was founded in 2016."
question = "Where is Hugging Face based?"
outputs = reader(question=question, context=text)
print(outputs)

उत्पादन

 {'score': 0.998, 'start': 51, 'end': 60, 'answer': 'New York'} 

हगिंग फेस का पाइपलाइन फ़ंक्शन पाठ वर्गीकरण, एनईआर और प्रश्न उत्तर के अलावा, विभिन्न कार्यों के लिए पूर्व-निर्मित पाइपलाइनों की एक श्रृंखला प्रदान करता है। उपलब्ध कार्यों के सबसेट पर विवरण नीचे दिया गया है:

तालिका: हगिंग फेस पाइपलाइन कार्य

कार्यDescriptionपाइपलाइन पहचानकर्ता
टेक्स्ट जनरेशनदिए गए प्रॉम्प्ट के आधार पर टेक्स्ट जेनरेट करेंपाइपलाइन(कार्य='पाठ-पीढ़ी')
संक्षिप्तीकरणकिसी लम्बे पाठ या दस्तावेज़ का सारांश बनाएँपाइपलाइन(कार्य='सारांशीकरण')
छवि वर्गीकरणएक इनपुट छवि को लेबल करेंपाइपलाइन(कार्य='छवि-वर्गीकरण')
ऑडियो वर्गीकरणऑडियो डेटा को वर्गीकृत करेंपाइपलाइन(कार्य='ऑडियो-वर्गीकरण')
दृश्य प्रश्न उत्तरछवि और प्रश्न दोनों का उपयोग करके किसी प्रश्न का उत्तर देंपाइपलाइन(कार्य=”vqa”)

 

विस्तृत विवरण और अधिक कार्यों के लिए, देखें हगिंग फेस की वेबसाइट पर पाइपलाइन दस्तावेज़ीकरण.

हगिंग फेस अपना ध्यान रस्ट पर क्यों केंद्रित कर रहा है?

हगिंग फेस सेफटेंसर और टोकननाइजर जंग

हगिंग फेस सेफटेंसर्स और टोकननाइजर गिटहब पेज

हगिंग फेस (एचएफ) पारिस्थितिकी तंत्र ने अपने पुस्तकालयों जैसे सेफसेंसर और टोकनाइज़र में रस्ट का उपयोग करना शुरू कर दिया।

हगिंग फेस ने हाल ही में एक नया मशीन-लर्निंग फ्रेमवर्क भी जारी किया है जिसका नाम है मोमबत्ती. पायथन का उपयोग करने वाले पारंपरिक ढांचे के विपरीत, कैंडल को रस्ट के साथ बनाया गया है। रस्ट का उपयोग करने के पीछे का लक्ष्य GPU संचालन का समर्थन करते हुए प्रदर्शन को बढ़ाना और उपयोगकर्ता अनुभव को सरल बनाना है।

कैंडल का मुख्य उद्देश्य सर्वर रहित अनुमान की सुविधा प्रदान करना, हल्के बाइनरी की तैनाती को संभव बनाना और उत्पादन कार्यभार से पायथन को हटाना है, जो कभी-कभी अपने ओवरहेड्स के कारण प्रक्रियाओं को धीमा कर सकता है। यह फ्रेमवर्क PyTorch जैसे पूर्ण मशीन लर्निंग फ्रेमवर्क के साथ आने वाली समस्याओं को दूर करने के लिए एक समाधान के रूप में आता है जो क्लस्टर पर इंस्टेंस बनाते समय बड़े और धीमे होते हैं।

आइए जानें कि क्यों रस्ट पाइथॉन की तुलना में अधिक पसंदीदा विकल्प बनता जा रहा है।

  1. गति और प्रदर्शन - रस्ट अपनी अविश्वसनीय गति, पायथन से बेहतर प्रदर्शन के लिए जाना जाता है, जिसका उपयोग पारंपरिक रूप से मशीन लर्निंग फ्रेमवर्क में किया जाता है। इसके ग्लोबल इंटरप्रेटर लॉक (जीआईएल) के कारण कभी-कभी पायथन का प्रदर्शन धीमा हो सकता है, लेकिन रस्ट को इस समस्या का सामना नहीं करना पड़ता है, कार्यों के तेजी से निष्पादन का वादा करता है और, बाद में, उन परियोजनाओं में बेहतर प्रदर्शन करता है जहां इसे लागू किया जाता है।
  2. सुरक्षा - जंग कचरा संग्रहकर्ता के बिना मेमोरी सुरक्षा गारंटी प्रदान करता है, एक ऐसा पहलू जो समवर्ती प्रणालियों की सुरक्षा सुनिश्चित करने के लिए आवश्यक है। यह सेफटेंसर जैसे क्षेत्रों में महत्वपूर्ण भूमिका निभाता है जहां डेटा संरचनाओं को संभालने में सुरक्षा प्राथमिकता है।

सेफटेंसर

सेफटेंसर रस्ट की गति और सुरक्षा सुविधाओं से लाभ उठाएं। सेफटेंसर्स में टेंसरों का हेरफेर शामिल है, जो एक जटिल गणितीय इकाई है, और रस्ट होने से यह सुनिश्चित होता है कि संचालन न केवल तेज़ है, बल्कि सुरक्षित भी है, सामान्य बग और सुरक्षा समस्याओं से बचा जाता है जो मेमोरी मिसहैंडलिंग से उत्पन्न हो सकते हैं।

टोकन लेने वाला

टोकन लेने वाले वाक्यों या वाक्यांशों को छोटी इकाइयों, जैसे शब्द या पद, में तोड़ने का काम संभालें। रस्ट निष्पादन समय को तेज करके इस प्रक्रिया में सहायता करता है, यह सुनिश्चित करता है कि टोकननाइजेशन प्रक्रिया न केवल सटीक है, बल्कि तेज भी है, जिससे प्राकृतिक भाषा प्रसंस्करण कार्यों की दक्षता बढ़ जाती है।

हगिंग फेस के टोकननाइजर के मूल में सबवर्ड टोकनाइजेशन की अवधारणा है, जो सूचना अवधारण और शब्दावली आकार को अनुकूलित करने के लिए शब्द और चरित्र-स्तर टोकनाइजेशन के बीच एक नाजुक संतुलन बनाता है। यह "##ing" और "##ed" जैसे उपटोकन के निर्माण के माध्यम से कार्य करता है, फूली हुई शब्दावली से बचते हुए अर्थ संबंधी समृद्धि को बनाए रखता है।

सबवर्ड टोकनाइजेशन में चरित्र और शब्द-स्तरीय टोकनाइजेशन के बीच सबसे प्रभावशाली संतुलन की पहचान करने के लिए एक प्रशिक्षण चरण शामिल होता है। यह केवल उपसर्ग और प्रत्यय नियमों से परे है, जिसके लिए एक कुशल उपशब्द टोकननाइज़र को डिज़ाइन करने के लिए व्यापक पाठ निगम में भाषा पैटर्न के व्यापक विश्लेषण की आवश्यकता होती है। जेनरेट किया गया टोकननाइज़र उच्च स्तर की अर्थ संबंधी समझ को बनाए रखते हुए, नए शब्दों को ज्ञात उपशब्दों में तोड़कर उन्हें संभालने में माहिर है।

टोकनाइजेशन घटक

टोकननाइज़र लाइब्रेरी टोकननाइजेशन प्रक्रिया को कई चरणों में विभाजित करती है, जिनमें से प्रत्येक टोकननाइजेशन के एक अलग पहलू को संबोधित करता है। आइए इन घटकों पर गौर करें:

  • नॉर्मलाइज़र: लोअरकेस रूपांतरण, यूनिकोड सामान्यीकरण और स्ट्रिपिंग जैसे आवश्यक समायोजन लागू करते हुए, इनपुट स्ट्रिंग पर प्रारंभिक परिवर्तन करता है।
  • प्रीटोकनाइज़र: इनपुट स्ट्रिंग को पूर्व-खंडों में विभाजित करने, पूर्वनिर्धारित नियमों, जैसे कि अंतरिक्ष चित्रण के आधार पर विभाजन का निर्धारण करने के लिए जिम्मेदार।
  • आदर्श: सबटोकन की खोज और निर्माण की देखरेख करता है, आपके इनपुट डेटा की विशिष्टताओं को अपनाता है और प्रशिक्षण क्षमताओं की पेशकश करता है।
  • पोस्ट प्रोसेसर: [सीएलएस] और [एसईपी] जैसे टोकन जोड़कर, बीईआरटी जैसे कई ट्रांसफार्मर-आधारित मॉडल के साथ संगतता को सुविधाजनक बनाने के लिए निर्माण सुविधाओं को बढ़ाता है।

हगिंग फेस टोकनाइज़र के साथ आरंभ करने के लिए, कमांड का उपयोग करके लाइब्रेरी स्थापित करें pip install tokenizers और इसे अपने पायथन वातावरण में आयात करें। लाइब्रेरी बहुत कम समय में बड़ी मात्रा में पाठ को टोकनाइज़ कर सकती है, जिससे मॉडल प्रशिक्षण जैसे अधिक गहन कार्यों के लिए कीमती कम्प्यूटेशनल संसाधनों की बचत होती है।

टोकननाइज़र लाइब्रेरी का उपयोग करता है जंग जो प्रोग्रामिंग भाषा डिज़ाइन में नवीन अवधारणाओं को प्रस्तुत करते हुए C++ की वाक्यात्मक समानता को विरासत में मिला है। पायथन बाइंडिंग के साथ मिलकर, यह सुनिश्चित करता है कि आप पायथन वातावरण में काम करते समय निचले स्तर की भाषा के प्रदर्शन का आनंद लें।

डेटासेट

डेटासेट एआई परियोजनाओं का आधार हैं। हगिंग फेस विभिन्न प्रकार के डेटासेट प्रदान करता है, जो एनएलपी कार्यों की एक श्रृंखला और बहुत कुछ के लिए उपयुक्त है। इनका कुशलतापूर्वक उपयोग करने के लिए इन्हें लोड करने और विश्लेषण करने की प्रक्रिया को समझना आवश्यक है। नीचे एक अच्छी तरह से टिप्पणी की गई पायथन स्क्रिप्ट है जो दर्शाती है कि हगिंग फेस पर उपलब्ध डेटासेट का पता कैसे लगाया जाए:

from datasets import load_dataset
# Load a dataset
dataset = load_dataset('squad')
# Display the first entry
print(dataset[0])

यह स्क्रिप्ट SQuAD डेटासेट को लोड करने के लिए लोड_डेटासेट फ़ंक्शन का उपयोग करती है, जो प्रश्न-उत्तर कार्यों के लिए एक लोकप्रिय विकल्प है।

पूर्व-प्रशिक्षित मॉडलों का लाभ उठाना और उन सभी को एक साथ लाना

पूर्व-प्रशिक्षित मॉडल कई गहन शिक्षण परियोजनाओं की रीढ़ बनते हैं, जो शोधकर्ताओं और डेवलपर्स को शून्य से शुरुआत किए बिना अपनी पहल शुरू करने में सक्षम बनाते हैं। हगिंग फेस पूर्व-प्रशिक्षित मॉडलों की एक विविध श्रृंखला की खोज की सुविधा प्रदान करता है, जैसा कि नीचे दिए गए कोड में दिखाया गया है:

from transformers import AutoModelForQuestionAnswering, AutoTokenizer
# Load the pre-trained model and tokenizer
model = AutoModelForQuestionAnswering.from_pretrained('bert-large-uncased-whole-word-masking-finetuned-squad')
tokenizer = AutoTokenizer.from_pretrained('bert-large-uncased-whole-word-masking-finetuned-squad')
# Display the model's architecture
print(model)

मॉडल और टोकननाइज़र लोड होने के साथ, अब हम एक फ़ंक्शन बनाने के लिए आगे बढ़ सकते हैं जो इनपुट के रूप में टेक्स्ट का एक टुकड़ा और एक प्रश्न लेता है और टेक्स्ट से निकाले गए उत्तर को लौटाता है। हम इनपुट टेक्स्ट और प्रश्न को मॉडल के साथ संगत प्रारूप में संसाधित करने के लिए टोकननाइज़र का उपयोग करेंगे, और फिर हम उत्तर प्राप्त करने के लिए इस संसाधित इनपुट को मॉडल में फीड करेंगे:

def get_answer(text, question):
    # Tokenize the input text and question
    inputs = tokenizer(question, text, return_tensors='pt', max_length=512, truncation=True)
    outputs = model(**inputs)
    # Get the start and end scores for the answer
    answer_start = torch.argmax(outputs.start_logits)
    answer_end = torch.argmax(outputs.end_logits) + 1
    answer = tokenizer.convert_tokens_to_string(tokenizer.convert_ids_to_tokens(inputs['input_ids'][0][answer_start:answer_end]))
    return answer

कोड स्निपेट में, हम ट्रांसफार्मर पैकेज से आवश्यक मॉड्यूल आयात करते हैं, फिर from_pretrained विधि का उपयोग करके एक पूर्व-प्रशिक्षित मॉडल और उसके संबंधित टोकननाइज़र को लोड करते हैं। हम SQuAD डेटासेट पर सुव्यवस्थित BERT मॉडल चुनते हैं।

आइए इस फ़ंक्शन का एक उदाहरण उपयोग मामला देखें जहां हमारे पास पाठ का एक पैराग्राफ है और हम इससे एक प्रश्न का विशिष्ट उत्तर निकालना चाहते हैं:

text = """
The Eiffel Tower, located in Paris, France, is one of the most iconic landmarks in the world. It was designed by Gustave Eiffel and completed in 1889. The tower stands at a height of 324 meters and was the tallest man-made structure in the world at the time of its completion.
"""
question = "Who designed the Eiffel Tower?"
# Get the answer to the question
answer = get_answer(text, question)
print(f"The answer to the question is: {answer}")
# Output: The answer to the question is: Gustave Eiffel

इस स्क्रिप्ट में, हम एक get_answer फ़ंक्शन बनाते हैं जो एक टेक्स्ट और एक प्रश्न लेता है, उन्हें उचित रूप से टोकनाइज़ करता है, और टेक्स्ट से उत्तर निकालने के लिए पूर्व-प्रशिक्षित BERT मॉडल का लाभ उठाता है। यह एक सरल लेकिन शक्तिशाली प्रश्न-उत्तर प्रणाली बनाने के लिए हगिंग फेस की ट्रांसफॉर्मर लाइब्रेरी के व्यावहारिक अनुप्रयोग को प्रदर्शित करता है। अवधारणाओं को अच्छी तरह से समझने के लिए, इसका उपयोग करके व्यावहारिक प्रयोग करने की अनुशंसा की जाती है गूगल कोलाब नोटबुक.

निष्कर्ष

ओपन-सोर्स टूल, पूर्व-प्रशिक्षित मॉडल और उपयोगकर्ता-अनुकूल पाइपलाइनों की अपनी विस्तृत श्रृंखला के माध्यम से, यह अनुभवी पेशेवरों और नए लोगों दोनों को आसानी और समझ के साथ एआई की विस्तृत दुनिया में प्रवेश करने में सक्षम बनाता है। इसके अलावा, रस्ट को एकीकृत करने की पहल, इसकी गति और सुरक्षा सुविधाओं के कारण, एआई अनुप्रयोगों में दक्षता और सुरक्षा सुनिश्चित करते हुए नवाचार को बढ़ावा देने के लिए हगिंग फेस की प्रतिबद्धता को रेखांकित करती है। हगिंग फेस का परिवर्तनकारी कार्य न केवल उच्च-स्तरीय एआई उपकरणों तक पहुंच को लोकतांत्रिक बनाता है, बल्कि एआई क्षेत्र में सीखने और विकास के लिए एक सहयोगी वातावरण का पोषण भी करता है, जिससे एक ऐसे भविष्य की सुविधा मिलती है जहां एआई तक पहुंच हो सके।

मैंने पिछले पांच साल मशीन लर्निंग और डीप लर्निंग की आकर्षक दुनिया में डूबने में बिताए हैं। मेरे जुनून और विशेषज्ञता ने मुझे एआई/एमएल पर विशेष ध्यान देने के साथ 50 से अधिक विविध सॉफ्टवेयर इंजीनियरिंग परियोजनाओं में योगदान करने के लिए प्रेरित किया है। मेरी निरंतर जिज्ञासा ने मुझे प्राकृतिक भाषा प्रसंस्करण की ओर भी आकर्षित किया है, एक ऐसा क्षेत्र जिसे मैं और अधिक जानने के लिए उत्सुक हूं।