ठूंठ क्वांटम स्टेट ने "बिग बैड एनएलपी डेटाबेस" जारी किया - यूनाइट.एआई
हमसे जुडे

Artificial Intelligence

क्वांटम स्टेट ने "बिग बैड एनएलपी डेटाबेस" जारी किया

Updated on

क्वांटम स्टेट ने अपना "जारी किया है"बिग बैड एनएलपी डेटाबेसप्राकृतिक भाषा प्रसंस्करण (एनएलपी) की दिशा में यह एक बड़ा कदम है। डेटाबेस में मशीन लर्निंग डेवलपर्स के उपयोग के लिए सैकड़ों विभिन्न डेटासेट शामिल हैं। 

कंपनी के अनुसार, वे एनएलपी और एआई पहल के लिए समाधान प्रदान करते हैं। वे वेब ऐप डेवलपमेंट के लिए प्रीप्रोसेसिंग, एक बहुआयामी दृष्टिकोण जिसमें मशीन लर्निंग और डीप न्यूरल नेटवर्क, चैटबॉट और डायलॉग प्रबंधन और उनके नए एनएलपी डेटाबेस शामिल हैं, जैसी सेवाओं के माध्यम से ऐसा करते हैं। 

कंपनी व्यक्तियों को उद्योगों के भीतर विकास का विश्लेषण करने में मदद करने के लिए प्राथमिक और माध्यमिक अनुसंधान भी करती है। 

एनएलपी डेटा का सेंट्रल हब

डेटाबेस बनाने का निर्णय, जो प्राकृतिक भाषा प्रसंस्करण में दुनिया की सबसे बड़ी डेटा लाइब्रेरी है, एनएलपी डेटा रखने के लिए एक केंद्रीय केंद्र की आवश्यकता से उत्पन्न हुआ। कंपनी का लक्ष्य इसे विकल्प की तुलना में अधिक आसानी से सुलभ और खोजने योग्य बनाना था, जिसके लिए अक्सर शोधकर्ताओं को कई तृतीय-पक्ष पुस्तकालयों के माध्यम से खोज करने की आवश्यकता होती है। 

कंपनी कई हफ्तों से डेटाबेस विकसित कर रही है; उनके पास वर्तमान में लगभग 200 डेटासेट हैं। केवल क्लासिक्स ही नहीं, विभिन्न प्रकार के विभिन्न डेटासेट भी हैं। कंपनी ने कॉमनक्रॉल और पेन ट्रीबैंक जैसे लोगों को शामिल किया है। 

विभिन्न डेटाबेस की श्रृंखला के साथ-साथ विभिन्न एनएलपी कार्य भी आते हैं। ऐसे भी हैं जो वर्गीकरण और प्रश्न उत्तर देने पर ध्यान केंद्रित करते हैं, लेकिन टेक्स्ट-टू-एसक्यूएल, वाक् पहचान और मल्टी-मोडल के लिए डेटासेट भी हैं। 

क्वांटम स्टेट चाहता है कि डेटाबेस उपयोगकर्ताओं के योगदान से समुदाय-संचालित हो। कंपनी ने किसी के लिए भी नया डेटासेट भेजने या बदलावों की अनुशंसा करने के लिए अपने दरवाजे खोल दिए हैं। 

एक अन्य फोकस उन डेटासेटों को जोड़ना है जो भाषा में विविधता लाते हैं, सख्ती से अंग्रेजी से दूर जाते हैं। उनका लक्ष्य पुस्तकालय को अधिक वैश्विक और दूसरों के लिए सुलभ बनाना है। 

"बिग बैड एनएलपी डेटाबेस" में प्रवेश करने पर, उपयोगकर्ता को एक साफ और व्यवस्थित लेआउट का सामना करना पड़ेगा। डेटासेट का नाम सूचीबद्ध है, उसके बाद भाषा और विस्तृत विवरण दिया गया है। इसमें उदाहरण, प्रारूप, कार्य, निर्मित वर्ष और निर्माता को भी सूचीबद्ध किया गया है। प्रत्येक डेटाबेस में अनुसरण करने के लिए एक डाउनलोड लिंक होता है। 

विभिन्न डेटाबेस

किसी को ऐतिहासिक समाचार पत्र दैनिक विश्व समय श्रृंखला डेटासेट जैसे डेटाबेस का सामना करना पड़ेगा, जिसमें 1836 से 1922 तक अमेरिका और ब्रिटेन के समाचार पत्रों की दैनिक सामग्री शामिल है; SciQ डेटासेट, जिसमें भौतिकी, जीवविज्ञान और रसायन विज्ञान के क्षेत्रों में 13,679 क्राउडसोर्स्ड विज्ञान परीक्षा प्रश्न शामिल हैं; कॉमनक्रॉल, जिसमें 25 अरब वेब पेजों का डेटा शामिल है; और MovieLens, एक डेटासेट जिसमें 22,000,000 उपयोगकर्ताओं द्वारा 580,000 फिल्मों के लिए 33,000 रेटिंग और 240,000 टैग शामिल हैं। 

क्वांटम स्टेट का प्रभावशाली डेटाबेस ऐसे समय में आया है जब गहन शिक्षण में प्रगति के कारण शोधकर्ताओं को बड़े और अधिक विविध डेटासेट की आवश्यकता होती है। मानव भाषा में मौजूद डेटा की भारी मात्रा के कारण, प्रत्येक अद्वितीय डेटासेट इसे संसाधित करना थोड़ा आसान बनाता है। एनएलपी की प्रगति इन डेटाबेस पर निर्भर करती है, और क्वांटम स्टेट ने एक ही स्थान पर इतने सारे डेटासेट एकत्र करके उस प्रगति को तेज करने में योगदान दिया है। 

एनएलपी समाज के कई पहलुओं में महत्वपूर्ण होगा। यह इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड और रोगी के भाषण के आधार पर बीमारियों की भविष्यवाणी करने में मदद कर सकता है, कंपनियों को यह पता लगाने में मदद कर सकता है कि ग्राहक किसी उत्पाद के बारे में क्या कह रहे हैं, और ऐसी दुनिया में नकली समाचारों की पहचान करने में मदद कर सकता है जहां यह बड़े पैमाने पर चलता है। 

प्रौद्योगिकी बहुत तेजी से आगे बढ़ रही है, और इन जटिल अनुप्रयोगों से निपटने में सक्षम होने में ज्यादा समय नहीं लगेगा। 

 

एलेक्स मैकफ़ारलैंड एक एआई पत्रकार और लेखक हैं जो कृत्रिम बुद्धिमत्ता में नवीनतम विकास की खोज कर रहे हैं। उन्होंने दुनिया भर में कई एआई स्टार्टअप और प्रकाशनों के साथ सहयोग किया है।