Refresh

This website www.unite.ai/hi/the-evolving-landscape-of-generative-ai-a-survey-of-mixture-of-experts-multimodality-and-the-quest-for-agi/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

ठूंठ जनरेटिव एआई का विकसित परिदृश्य: विशेषज्ञों के मिश्रण का एक सर्वेक्षण, बहुविधता, और एजीआई की खोज - यूनाइट.एआई
हमसे जुडे

आर्टिफिशियल जनरल इंटेलिजेंस

जनरेटिव एआई का विकसित परिदृश्य: विशेषज्ञों के मिश्रण का एक सर्वेक्षण, बहुविधता, और एजीआई की खोज

mm

प्रकाशित

 on

कृत्रिम बुद्धिमत्ता (एआई) के क्षेत्र में 2023 में जबरदस्त वृद्धि देखी गई है। जेनेरेटिव एआई, जो छवियों, ऑडियो, वीडियो और टेक्स्ट जैसी यथार्थवादी सामग्री बनाने पर केंद्रित है, इन प्रगति में सबसे आगे रहा है। DALL-E 3, स्टेबल डिफ्यूजन और ChatGPT जैसे मॉडलों ने नई रचनात्मक क्षमताओं का प्रदर्शन किया है, लेकिन नैतिकता, पूर्वाग्रहों और दुरुपयोग के बारे में चिंताएं भी उठाई हैं।

जैसे-जैसे जेनेरिक एआई तीव्र गति से विकसित हो रहा है, विशेषज्ञों (एमओई), मल्टीमॉडल लर्निंग और कृत्रिम सामान्य बुद्धिमत्ता (एजीआई) के प्रति आकांक्षाओं का मिश्रण अनुसंधान और अनुप्रयोगों की अगली सीमाओं को आकार देने के लिए तैयार दिख रहा है। यह लेख जेनेरिक एआई की वर्तमान स्थिति और भविष्य के प्रक्षेपवक्र का एक व्यापक सर्वेक्षण प्रदान करेगा, जिसमें विश्लेषण किया जाएगा कि कैसे Google के जेमिनी जैसे नवाचार और ओपनएआई के क्यू* जैसी प्रत्याशित परियोजनाएं परिदृश्य को बदल रही हैं। यह स्वास्थ्य देखभाल, वित्त, शिक्षा और अन्य क्षेत्रों में वास्तविक दुनिया के निहितार्थों की जांच करेगा, जबकि अनुसंधान की गुणवत्ता और मानवीय मूल्यों के साथ एआई संरेखण के आसपास उभरती चुनौतियों का सामना करेगा।

2022 के अंत में चैटजीपीटी की रिलीज ने विशेष रूप से एआई के आसपास नए उत्साह और चिंताओं को जन्म दिया, इसकी प्रभावशाली प्राकृतिक भाषा कौशल से लेकर गलत सूचना फैलाने की क्षमता तक। इस बीच, Google का नया जेमिनी मॉडल स्पाइक-एंड-स्लैब ध्यान जैसी प्रगति के माध्यम से LaMDA जैसे पूर्ववर्तियों की तुलना में काफी बेहतर बातचीत क्षमता प्रदर्शित करता है। ओपनएआई के क्यू* जैसी अफवाह वाली परियोजनाएं सुदृढीकरण सीखने के साथ संवादी एआई के संयोजन का संकेत देती हैं।

ये नवाचार मल्टीमॉडल, बहुमुखी जेनरेटर मॉडल की ओर बढ़ती प्राथमिकता का संकेत देते हैं। जिम्मेदार एआई विकास में सीमाओं को आगे बढ़ाने की होड़ में Google, मेटा, एंथ्रोपिक और कोहेरे जैसी कंपनियों के बीच प्रतिस्पर्धा भी बढ़ती जा रही है।

एआई अनुसंधान का विकास

जैसे-जैसे क्षमताएं बढ़ी हैं, अनुसंधान के रुझान और प्राथमिकताएं भी बदल गई हैं, जो अक्सर तकनीकी मील के पत्थर के अनुरूप होती हैं। गहन शिक्षा के उदय ने तंत्रिका नेटवर्क में रुचि को फिर से जगाया प्राकृतिक भाषा प्रसंस्करण ChatGPT-स्तर के मॉडल के साथ वृद्धि हुई। इस बीच, तेजी से प्रगति के बीच नैतिकता पर ध्यान निरंतर प्राथमिकता के रूप में बना हुआ है।

arXiv जैसे प्रीप्रिंट रिपॉजिटरी ने भी AI सबमिशन में तेजी से वृद्धि देखी है, जिससे त्वरित प्रसार संभव हो गया है लेकिन सहकर्मी समीक्षा कम हो गई है और अनियंत्रित त्रुटियों या पूर्वाग्रहों का खतरा बढ़ गया है। अनुसंधान और वास्तविक दुनिया के प्रभाव के बीच परस्पर क्रिया जटिल बनी हुई है, जिससे प्रगति को आगे बढ़ाने के लिए अधिक समन्वित प्रयासों की आवश्यकता होती है।

MoE और मल्टीमॉडल सिस्टम - जेनरेटिव AI की अगली लहर

विविध अनुप्रयोगों में अधिक बहुमुखी, परिष्कृत एआई को सक्षम करने के लिए, दो दृष्टिकोण प्रमुखता प्राप्त कर रहे हैं विशेषज्ञों का मिश्रण (एमओई) और मल्टीमॉडल लर्निंग।

MoE आर्किटेक्चर विभिन्न कार्यों या डेटा प्रकारों के लिए अनुकूलित कई विशेष तंत्रिका नेटवर्क "विशेषज्ञों" को जोड़ता है। Google का जेमिनी लंबी बातचीत के आदान-प्रदान और संक्षिप्त प्रश्न उत्तर देने में महारत हासिल करने के लिए MoE का उपयोग करता है। MoE मॉडल आकार को बढ़ाए बिना इनपुट की एक विस्तृत श्रृंखला को संभालने में सक्षम बनाता है।

Google के जेमिनी जैसे मल्टीमॉडल सिस्टम केवल टेक्स्ट से परे विभिन्न तौर-तरीकों को संसाधित करके नए मानक स्थापित कर रहे हैं। हालाँकि, मल्टीमॉडल एआई की क्षमता को समझने के लिए प्रमुख तकनीकी बाधाओं और नैतिक चुनौतियों पर काबू पाना आवश्यक है।

मिथुन: मल्टीमॉडलिटी में बेंचमार्क को फिर से परिभाषित करना

जेमिनी एक मल्टीमॉडल कन्वर्सेशनल एआई है, जिसे टेक्स्ट, इमेज, ऑडियो और वीडियो के बीच कनेक्शन को समझने के लिए डिज़ाइन किया गया है। इसकी दोहरी एनकोडर संरचना, क्रॉस-मोडल ध्यान और मल्टीमॉडल डिकोडिंग परिष्कृत प्रासंगिक समझ को सक्षम बनाती है। माना जाता है कि दृश्य क्षेत्रों के साथ पाठ अवधारणाओं को जोड़ने में जेमिनी एकल एनकोडर सिस्टम से आगे है। संरचित ज्ञान और विशेष प्रशिक्षण को एकीकृत करके, जेमिनी निम्नलिखित में GPT-3 और GPT-4 जैसे पूर्ववर्तियों से आगे निकल गया है:

  • ऑडियो और वीडियो सहित, संभाले गए तौर-तरीकों की व्यापकता
  • बड़े पैमाने पर मल्टीटास्क भाषा समझ जैसे बेंचमार्क पर प्रदर्शन
  • सभी प्रोग्रामिंग भाषाओं में कोड जनरेशन
  • जेमिनी अल्ट्रा और नैनो जैसे अनुकूलित संस्करणों के माध्यम से स्केलेबिलिटी
  • आउटपुट के औचित्य के माध्यम से पारदर्शिता

मल्टीमॉडल सिस्टम में तकनीकी बाधाएँ

मजबूत मल्टीमॉडल एआई को साकार करने के लिए डेटा विविधता, स्केलेबिलिटी, मूल्यांकन और व्याख्यात्मकता में मुद्दों को हल करने की आवश्यकता है। असंतुलित डेटासेट और एनोटेशन विसंगतियां पूर्वाग्रह को जन्म देती हैं। एकाधिक डेटा स्ट्रीम को संसाधित करने से संसाधनों की गणना पर दबाव पड़ता है, जिससे अनुकूलित मॉडल आर्किटेक्चर की मांग होती है। विरोधाभासी मल्टीमॉडल इनपुट को एकीकृत करने के लिए ध्यान तंत्र और एल्गोरिदम में प्रगति की आवश्यकता है। व्यापक कम्प्यूटेशनल ओवरहेड के कारण स्केलेबिलिटी संबंधी समस्याएं बनी रहती हैं। व्यापक बेंचमार्क के माध्यम से मूल्यांकन मेट्रिक्स को परिष्कृत करना महत्वपूर्ण है। समझाने योग्य एआई के माध्यम से उपयोगकर्ता का विश्वास बढ़ाना भी महत्वपूर्ण है। इन तकनीकी बाधाओं को दूर करना मल्टीमॉडल एआई की क्षमताओं को अनलॉक करने की कुंजी होगी।

स्व-पर्यवेक्षित शिक्षण, मेटा-लर्निंग और फाइन-ट्यूनिंग जैसी उन्नत शिक्षण तकनीकें एआई अनुसंधान में सबसे आगे हैं, जो एआई मॉडल की स्वायत्तता, दक्षता और बहुमुखी प्रतिभा को बढ़ाती हैं।

स्व-पर्यवेक्षित शिक्षण: मॉडल प्रशिक्षण में स्वायत्तता

स्व-पर्यवेक्षित शिक्षण बिना लेबल वाले डेटा का उपयोग करके स्वायत्त मॉडल प्रशिक्षण पर जोर देता है, जिससे मैन्युअल लेबलिंग प्रयासों और मॉडल पूर्वाग्रहों को कम किया जा सकता है। इसमें डेटा वितरण सीखने और इनपुट पुनर्निर्माण के लिए ऑटोएन्कोडर्स और GANs जैसे जेनरेटिव मॉडल शामिल हैं, और सकारात्मक और नकारात्मक नमूना जोड़े के बीच अंतर करने के लिए SimCLR और MoCo जैसे विपरीत तरीकों का उपयोग किया जाता है। एनएलपी से प्रेरित और हाल के विज़न ट्रांसफॉर्मर्स द्वारा संवर्धित स्व-भविष्यवाणी रणनीतियाँ, एआई की स्वायत्त प्रशिक्षण क्षमताओं को आगे बढ़ाने में अपनी क्षमता का प्रदर्शन करते हुए, स्व-पर्यवेक्षित शिक्षण में महत्वपूर्ण भूमिका निभाती हैं।

मेटा-लर्निंग

मेटा-लर्निंग, या 'सीखना सीखना', एआई मॉडल को सीमित डेटा नमूनों का उपयोग करके नए कार्यों को तेजी से अनुकूलित करने की क्षमता से लैस करने पर केंद्रित है। सीमित डेटा उपलब्धता वाली स्थितियों में यह तकनीक महत्वपूर्ण है, जिससे यह सुनिश्चित होता है कि मॉडल विभिन्न कार्यों में तेजी से अनुकूलन और प्रदर्शन कर सकते हैं। यह कुछ-शॉट सामान्यीकरण पर जोर देता है, एआई को न्यूनतम डेटा के साथ कार्यों की एक विस्तृत श्रृंखला को संभालने में सक्षम बनाता है, जो बहुमुखी और अनुकूलनीय एआई सिस्टम विकसित करने में इसके महत्व को रेखांकित करता है।

फ़ाइन-ट्यूनिंग: विशिष्ट आवश्यकताओं के लिए AI को अनुकूलित करना

फ़ाइन-ट्यूनिंग में पूर्व-प्रशिक्षित मॉडल को विशिष्ट डोमेन या उपयोगकर्ता प्राथमिकताओं के अनुसार अनुकूलित करना शामिल है। इसके दो प्राथमिक दृष्टिकोणों में एंड-टू-एंड फाइन-ट्यूनिंग शामिल है, जो एनकोडर और क्लासिफायरियर के सभी वजन को समायोजित करता है, और फीचर-एक्सट्रैक्शन फाइन-ट्यूनिंग, जहां एनकोडर वजन डाउनस्ट्रीम वर्गीकरण के लिए जमे हुए हैं। यह तकनीक सुनिश्चित करती है कि जेनरेटिव मॉडल विशिष्ट उपयोगकर्ता आवश्यकताओं या डोमेन आवश्यकताओं के लिए प्रभावी ढंग से अनुकूलित होते हैं, जिससे विभिन्न संदर्भों में उनकी प्रयोज्यता बढ़ जाती है।

मानव मूल्य संरेखण: एआई को नैतिकता के साथ सुसंगत बनाना

मानव मूल्य संरेखण एआई मॉडल को मानवीय नैतिकता और मूल्यों के साथ संरेखित करने पर ध्यान केंद्रित करता है, जिससे यह सुनिश्चित होता है कि उनके निर्णय सामाजिक मानदंडों और नैतिक मानकों को प्रतिबिंबित करते हैं। यह पहलू उन परिदृश्यों में महत्वपूर्ण है जहां एआई मनुष्यों के साथ निकटता से बातचीत करता है, जैसे स्वास्थ्य देखभाल और व्यक्तिगत सहायकों में, यह सुनिश्चित करने के लिए कि एआई सिस्टम नैतिक और सामाजिक रूप से जिम्मेदार निर्णय लेते हैं।

एजीआई विकास

एजीआई मानव संज्ञानात्मक क्षमताओं के साथ तालमेल बिठाते हुए समग्र समझ और जटिल तर्क की क्षमता के साथ एआई विकसित करने पर ध्यान केंद्रित करता है। यह दीर्घकालिक आकांक्षा लगातार एआई अनुसंधान और विकास की सीमाओं को आगे बढ़ाती है। एजीआई सुरक्षा और रोकथाम उन्नत एआई सिस्टम से जुड़े संभावित जोखिमों को संबोधित करते हैं, कठोर सुरक्षा प्रोटोकॉल और मानवीय मूल्यों और सामाजिक मानदंडों के साथ नैतिक संरेखण की आवश्यकता पर जोर देते हैं।

इनोवेटिव एमओई

विशेषज्ञों का मिश्रण (एमओई) मॉडल आर्किटेक्चर ट्रांसफार्मर-आधारित भाषा मॉडल में एक महत्वपूर्ण प्रगति का प्रतिनिधित्व करता है, जो अद्वितीय स्केलेबिलिटी और दक्षता प्रदान करता है। स्विच ट्रांसफार्मर और मिक्सट्रल जैसे MoE मॉडल, विभिन्न भाषा कार्यों में मॉडल पैमाने और प्रदर्शन को तेजी से फिर से परिभाषित कर रहे हैं।

मूल अवधारणा

MoE मॉडल कई विशेषज्ञ नेटवर्क और एक प्रशिक्षण योग्य गेटिंग तंत्र के साथ विरलता-संचालित वास्तुकला का उपयोग करते हैं, कम्प्यूटेशनल संसाधनों को अनुकूलित करते हैं और कार्य जटिलता को अपनाते हैं। वे प्रीट्रेनिंग गति में पर्याप्त लाभ प्रदर्शित करते हैं लेकिन फाइन-ट्यूनिंग में चुनौतियों का सामना करते हैं और अनुमान लगाने के लिए काफी मेमोरी की आवश्यकता होती है।

MoE मॉडल अपनी बेहतर प्रीट्रेनिंग गति के लिए जाने जाते हैं, जिसमें डीपस्पीड-MoE जैसे नवाचार बेहतर विलंबता और लागत दक्षता प्राप्त करने के लिए अनुमान को अनुकूलित करते हैं। हाल की प्रगति ने सभी-से-सभी संचार बाधाओं को प्रभावी ढंग से निपटाया है, प्रशिक्षण और अनुमान दक्षता को बढ़ाया है।

आर्टिफिशियल जनरल इंटेलिजेंस के लिए बिल्डिंग ब्लॉक्स को असेंबल करना

एजीआई किसी भी क्षेत्र में एआई के मिलान या मानव बुद्धि से अधिक की काल्पनिक संभावना का प्रतिनिधित्व करता है। जबकि आधुनिक AI संकीर्ण कार्यों में उत्कृष्टता प्राप्त करता है, AGI अपने संभावित जोखिमों को देखते हुए बहुत दूर और विवादास्पद बना हुआ है।

हालाँकि, जैसे क्षेत्रों में वृद्धिशील प्रगति सीखने का स्थानांतरण, मल्टीटास्क प्रशिक्षण, बातचीत की क्षमता और अमूर्तता एजीआई की उदात्त दृष्टि के करीब है। ओपनएआई की सट्टा क्यू* परियोजना का लक्ष्य एक और कदम के रूप में एलएलएम में सुदृढीकरण सीखने को एकीकृत करना है।

नैतिक सीमाएँ और एआई मॉडल में हेरफेर के जोखिम

जेलब्रेक हमलावरों को एआई की फाइन-ट्यूनिंग प्रक्रिया के दौरान निर्धारित नैतिक सीमाओं को पार करने की अनुमति देता है। इसके परिणामस्वरूप गलत सूचना, घृणास्पद भाषण, फ़िशिंग ईमेल और दुर्भावनापूर्ण कोड जैसी हानिकारक सामग्री उत्पन्न होती है, जो बड़े पैमाने पर व्यक्तियों, संगठनों और समाज के लिए जोखिम पैदा करती है। उदाहरण के लिए, एक जेलब्रेक मॉडल ऐसी सामग्री तैयार कर सकता है जो विभाजनकारी कथाओं को बढ़ावा देती है या साइबर आपराधिक गतिविधियों का समर्थन करती है। (और पढ़ें)

हालाँकि अभी तक जेलब्रेकिंग का उपयोग करके किसी भी साइबर हमले की सूचना नहीं मिली है, कई प्रूफ़-ऑफ़-कॉन्सेप्ट जेलब्रेक ऑनलाइन और डार्क वेब पर बिक्री के लिए आसानी से उपलब्ध हैं। ये उपकरण चैटजीपीटी जैसे एआई मॉडल में हेरफेर करने के लिए डिज़ाइन किए गए संकेत प्रदान करते हैं, जो संभावित रूप से हैकर्स को कंपनी चैटबॉट्स के माध्यम से संवेदनशील जानकारी लीक करने में सक्षम बनाते हैं। साइबर अपराध मंचों जैसे प्लेटफार्मों पर इन उपकरणों का प्रसार इस खतरे से निपटने की तात्कालिकता पर प्रकाश डालता है। (विस्तार में पढ़ें)

जेलब्रेक जोखिमों को कम करना

इन खतरों का मुकाबला करने के लिए बहुआयामी दृष्टिकोण आवश्यक है:

  1. मजबूत फाइन-ट्यूनिंग: फाइन-ट्यूनिंग प्रक्रिया में विविध डेटा को शामिल करने से प्रतिकूल हेरफेर के प्रति मॉडल के प्रतिरोध में सुधार होता है।
  2. प्रतिकूल प्रशिक्षण: प्रतिकूल उदाहरणों के साथ प्रशिक्षण मॉडल की हेरफेर किए गए इनपुट को पहचानने और उसका विरोध करने की क्षमता को बढ़ाता है।
  3. नियमित मूल्यांकन: आउटपुट की लगातार निगरानी करने से नैतिक दिशानिर्देशों से विचलन का पता लगाने में मदद मिलती है।
  4. मानव निरीक्षण: मानव समीक्षकों को शामिल करने से सुरक्षा की एक अतिरिक्त परत जुड़ जाती है।

एआई-संचालित खतरे: मतिभ्रम शोषण

एआई मतिभ्रम, जहां मॉडल अपने प्रशिक्षण डेटा पर आधारित आउटपुट उत्पन्न नहीं करते हैं, को हथियार बनाया जा सकता है। उदाहरण के लिए, हमलावरों ने गैर-मौजूद पैकेजों की अनुशंसा करने के लिए ChatGPT में हेरफेर किया, जिससे दुर्भावनापूर्ण सॉफ़्टवेयर का प्रसार हुआ। यह इस तरह के शोषण के खिलाफ निरंतर सतर्कता और मजबूत जवाबी उपायों की आवश्यकता पर प्रकाश डालता है। (आगे का अन्वेषण करें)

जबकि एजीआई को आगे बढ़ाने की नैतिकता जोखिम भरी बनी हुई है, इसकी आकांक्षात्मक खोज जेनेरिक एआई अनुसंधान दिशाओं को प्रभावित करती रहती है - चाहे मौजूदा मॉडल मानव-स्तर एआई के रास्ते में कदम रखने वाले पत्थरों या चक्करों से मिलते जुलते हों।

मैंने पिछले पांच साल मशीन लर्निंग और डीप लर्निंग की आकर्षक दुनिया में डूबने में बिताए हैं। मेरे जुनून और विशेषज्ञता ने मुझे एआई/एमएल पर विशेष ध्यान देने के साथ 50 से अधिक विविध सॉफ्टवेयर इंजीनियरिंग परियोजनाओं में योगदान करने के लिए प्रेरित किया है। मेरी निरंतर जिज्ञासा ने मुझे प्राकृतिक भाषा प्रसंस्करण की ओर भी आकर्षित किया है, एक ऐसा क्षेत्र जिसे मैं और अधिक जानने के लिए उत्सुक हूं।