Connect with us

рдЧреВрдЧрд▓ рдХрд╛ рдорд▓реНрдЯреАрдореЙрдбрд▓ рдПрдЖрдИ рдЬреЗрдорд┐рдиреА – рдПрдХ рддрдХрдиреАрдХреА рдЧрд╣рд░рд╛ рдЧреЛрддрд╛

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рдЧреВрдЧрд▓ рдХрд╛ рдорд▓реНрдЯреАрдореЙрдбрд▓ рдПрдЖрдИ рдЬреЗрдорд┐рдиреА – рдПрдХ рддрдХрдиреАрдХреА рдЧрд╣рд░рд╛ рдЧреЛрддрд╛

mm
Google's First Multimodal Model: Gemini

सुंदर पिचाई, गूगल के सीईओ, डेमिस हासाबिस के साथ गूगल डीपमाइंड से, दिसंबर 2023 में जेमिनी की शुरुआत की। यह नया बड़ा भाषा मॉडल गूगल के विशाल उत्पादों के साथ एकीकृत है, जो सेवाओं और उपकरणों में सुधार प्रदान करता है जिनका उपयोग लाखों लोगों द्वारा किया जाता है।

जेमिनी, गूगल का उन्नत मल्टीमॉडल एआई, एकीकृत डीपमाइंड और ब्रेन एआई लैब्स के सहयोगी प्रयासों से पैदा हुआ है। जेमिनी अपने पूर्ववर्तियों के कंधों पर खड़ा है, जो एक अधिक जुड़ा हुआ और बुद्धिमान अनुप्रयोगों के सूट को वितरित करने का वादा करता है।

गूगल जेमिनी की घोषणा, बार्ड, ड्यूट एआई और पीएलएम 2 एलएलएम के प्रीमियर के तुरंत बाद, गूगल से प्रतिस्पर्धा करने और एआई क्रांति में अग्रणी बनने के लिए एक स्पष्ट इरादे को चिह्नित करती है।

किसी भी एआई सर्दी की धारणा के विपरीत, जेमिनी के लॉन्च से एक समृद्ध एआई वसंत का संकेत मिलता है, जो संभावनाओं और विकास से भरा हुआ है। जैसा कि हम चैटजीपीटी के उदय के एक साल को याद करते हैं, जो खुद एआई के लिए एक ग्राउंडब्रेकिंग पल था, गूगल का कदम यह दर्शाता है कि उद्योग का विस्तार अभी तक समाप्त नहीं हुआ है; वास्तव में, यह गति पकड़ सकता है।

जेमिनी क्या है?

गूगल का जेमिनी मॉडल विभिन्न प्रकार के डेटा जैसे कि पाठ, छवियों, ऑडियो और वीडियो को संसाधित करने में सक्षम है। यह तीन संस्करणों में आता है – अल्ट्रा, प्रो और नैनो – प्रत्येक विशिष्ट अनुप्रयोगों के लिए तैयार किया गया है, जटिल तर्क से लेकर डिवाइस पर उपयोग तक। अल्ट्रा जटिल कार्यों में उत्कृष्ट है और यह बार्ड एडवांस्ड पर उपलब्ध होगा, जबकि प्रो प्रदर्शन और संसाधन दक्षता के बीच संतुलन प्रदान करता है, जो पहले से ही बार्ड में टेक्स्ट प्रॉम्प्ट के लिए एकीकृत है। नैनो, डिवाइस पर तैनाती के लिए अनुकूलित, दो आकारों में आता है और ऑफलाइन उपयोग के लिए पिक्सेल 8 प्रो जैसे डिवाइसों में 4-बिट क्वांटाइजेशन जैसे हार्डवेयर अनुकूलन सुविधाएँ प्रदान करता है।

जेमिनी का आर्किटेक्चर अपनी मूल मल्टीमॉडल आउटपुट क्षमता में अद्वितीय है, जो छवि पीढ़ी के लिए विवेकपूर्ण छवि टोकन का उपयोग करता है और सूक्ष्म ऑडियो समझ के लिए यूनिवर्सल स्पीच मॉडल से ऑडियो सुविधाओं को एकीकृत करता है। इसकी क्षमता वीडियो डेटा को अनुक्रमिक छवियों के रूप में संभालने की, जो पाठ या ऑडियो इनपुट के साथ बुनी जाती है, इसकी मल्टीमॉडल पrowess को प्रदर्शित करती है।

рдЬреЗрдорд┐рдиреА рдкрд╛рда, рдЫрд╡рд┐, рдСрдбрд┐рдпреЛ рдФрд░ рд╡реАрдбрд┐рдпреЛ рдХреЗ рдЕрдиреБрдХреНрд░рдо рдХреЛ рдЗрдирдкреБрдЯ рдХреЗ рд░реВрдк рдореЗрдВ рд╕рдорд░реНрдерди рдХрд░рддрд╛ рд╣реИ

जेमिनी पाठ, छवि, ऑडियो और वीडियो के अनुक्रम को इनपुट के रूप में समर्थन करता है

जेमिनी तक पहुंच

जेमिनी 1.0 गूगल के पूरे इकोसिस्टम में रोल आउट हो रहा है, जिसमें बार्ड भी शामिल है, जो अब जेमिनी प्रो की परिष्कृत क्षमताओं से लाभान्वित हो रहा है। गूगल ने जेमिनी को अपने सर्च, विज्ञापन और ड्यूट सेवाओं में भी एकीकृत किया है, जो उपयोगकर्ता अनुभव को तेजी से और अधिक सटीक प्रतिक्रियाओं के साथ बढ़ाता है।

जेमिनी की क्षमताओं का लाभ उठाने के इच्छुक लोगों के लिए, गूगल एआई स्टूडियो और गूगल क्लाउड वर्टेक्स जेमिनी प्रो तक पहुंच प्रदान करते हैं, जिसमें बाद वाला अधिक अनुकूलन और सुरक्षा सुविधाएं प्रदान करता है।

बार्ड द्वारा संचालित जेमिनी प्रो की उन्नत क्षमताओं का अनुभव करने के लिए, उपयोगकर्ता निम्नलिखित सरल चरणों का पालन कर सकते हैं:

  1. बार्ड पर नेविगेट करें: अपने पसंदीदा वेब ब्राउज़र खोलें और बार्ड वेबसाइट पर जाएं।
  2. सुरक्षित लॉगिन: अपने गूगल अकाउंट के साथ सेवा तक पहुंच प्राप्त करें, जो एक सुरक्षित और सुरक्षित अनुभव सुनिश्चित करता है।
  3. इंटरएक्टिव चैट: अब आप बार्ड का उपयोग कर सकते हैं, जहां जेमिनी प्रो की उन्नत सुविधाएं चुनी जा सकती हैं।

मल्टीमॉडलिटी की शक्ति:

जेमिनी का मूल एक ट्रांसफॉर्मर-आधारित आर्किटेक्चर पर निर्भर करता है, जो जीपीटी-3 जैसे सफल एनएलपी मॉडल में नियोजित लोगों के समान है। हालांकि, जेमिनी की अनोखापन इसकी मल्टीमॉडल डेटा प्रकारों जैसे पाठ, छवियों और कोड को संसाधित और एकीकृत करने की क्षमता में निहित है। यह एक नए तकनीक के माध्यम से प्राप्त किया जाता है जिसे क्रॉस-मॉडल अटेंशन कहा जाता है, जो मॉडल को विभिन्न प्रकार के डेटा के बीच संबंधों और निर्भरताओं को सीखने की अनुमति देता है।

जेमिनी के मुख्य घटकों का विवरण यहां दिया गया है:

  • मल्टीमॉडल एनकोडर: यह मॉड्यूल प्रत्येक मॉडल (जैसे पाठ, छवि) से इनपुट डेटा को स्वतंत्र रूप से संसाधित करता है, प्रासंगिक विशेषताओं को निकालता है और व्यक्तिगत प्रतिनिधित्व उत्पन्न करता है।
  • क्रॉस-मॉडल अटेंशन नेटवर्क: यह नेटवर्क जेमिनी का हृदय है। यह मॉडल को विभिन्न प्रतिनिधित्वों के बीच संबंधों और निर्भरताओं को सीखने की अनुमति देता है, उन्हें “बात” करने और अपनी समझ को समृद्ध करने में सक्षम बनाता है।
  • मल्टीमॉडल डिकोडर: यह मॉड्यूल क्रॉस-मॉडल अटेंशन नेटवर्क द्वारा उत्पन्न समृद्ध प्रतिनिधित्वों का उपयोग विभिन्न कार्यों को करने के लिए करता है, जैसे कि छवि कैप्शनिंग, पाठ-से-छवि पीढ़ी और कोड पीढ़ी।

जेमिनी मॉडल केवल पाठ या छवियों को समझने के बारे में नहीं है – यह विभिन्न प्रकार की जानकारी को एकीकृत करने के बारे में है जो हमारे द्वारा दुनिया को समझने के तरीके के बहुत करीब है। जेमिनी छवियों के एक अनुक्रम को देख सकता है और वस्तुओं के तार्किक या स्थानिक क्रम का निर्धारण कर सकता है। यह वस्तुओं की डिज़ाइन सुविधाओं का विश्लेषण करके निर्णय ले सकता है, जैसे कि कौन सी कार अधिक एयरोडायनामिक आकार की है।

लेकिन जेमिनी की प्रतिभा केवल दृश्य समझ से परे है। यह निर्देशों के एक सेट को कोड में बदल सकता है, व्यावहारिक उपकरण बना सकता है जो न केवल निर्देशित के रूप में कार्य करता है बल्कि प्रेरक इमोजी जैसे रचनात्मक तत्वों को भी शामिल करता है ताकि उपयोगकर्ता इंटरैक्शन को बढ़ाया जा सके। यह कार्यों को संभालने की क्षमता को दर्शाता है जो रचनात्मकता और कार्यक्षमता के मिश्रण की आवश्यकता होती है – कौशल जो अक्सर विशिष्ट रूप से मानवीय माने जाते हैं।

рдЬреЗрдорд┐рдиреА рдХреА рдХреНрд╖рдорддрд╛рдПрдВ : рд╕реНрдерд╛рдирд┐рдХ рддрд░реНрдХ

जेमिनी की क्षमताएं : स्थानिक तर्क (स्रोत)

 

рдЬреЗрдорд┐рдиреА рдХреА рдХреНрд╖рдорддрд╛рдПрдВ рдкреНрд░реЛрдЧреНрд░рд╛рдорд┐рдВрдЧ рдХрд╛рд░реНрдпреЛрдВ рдХреЛ рдирд┐рд╖реНрдкрд╛рджрд┐рдд рдХрд░рдиреЗ рддрдХ рд╡рд┐рд╕реНрддрд╛рд░рд┐рдд рд╣реИрдВ

जेमिनी की क्षमताएं प्रोग्रामिंग कार्यों को निष्पादित करने तक विस्तारित हैं(स्रोत)

जेमिनी का परिष्कृत डिज़ाइन तंत्रिका नेटवर्क अनुसंधान के एक समृद्ध इतिहास पर आधारित है और प्रशिक्षण के लिए गूगल की कटिंग-एज टीपीयू प्रौद्योगिकी का लाभ उठाता है। जेमिनी अल्ट्रा, विशेष रूप से, विभिन्न एआई डोमेन में नए बेंचमार्क स्थापित कर चुका है, जो मल्टीमॉडल तर्क कार्यों में उल्लेखनीय प्रदर्शन लिफ्ट प्रदर्शित करता है।

जेमिनी की क्षमता जटिल डेटा को विश्लेषण और समझने में सक्षम होने के कारण, यह वास्तविक दुनिया के अनुप्रयोगों के लिए समाधान प्रदान करता है, विशेष रूप से शिक्षा में। यह समस्याओं के समाधानों का विश्लेषण और सुधार कर सकता है, जैसे कि भौतिकी में, हस्तलिखित नोट्स को समझने और सटीक गणितीय टाइपसेटिंग प्रदान करने के द्वारा। ऐसी क्षमताएं एक भविष्य की ओर संकेत करती हैं जहां एआई शैक्षिक सेटिंग्स में सहायता प्रदान करता है, छात्रों और शिक्षकों को सीखने और समस्या-समाधान के लिए उन्नत उपकरण प्रदान करता है।

जेमिनी का लाभ अल्फाकोड 2 जैसे एजेंटों को बनाने के लिए उठाया गया है, जो प्रतिस्पर्धी प्रोग्रामिंग समस्याओं में उत्कृष्टता प्राप्त करता है। यह जेमिनी की क्षमता को प्रदर्शित करता है कि यह एक सामान्य एआई के रूप में कार्य कर सकता है, जो जटिल, बहु-चरण की समस्याओं को संभालने में सक्षम है।

जेमिनी नैनो एआई की शक्ति को दैनिक उपकरणों तक ले जाता है, सारांश और पठन समझ जैसे कार्यों में प्रभावशाली क्षमता प्रदर्शित करता है, साथ ही साथ कोडिंग और एसटीईएम से संबंधित चुनौतियों में। ये छोटे मॉडल उच्च गुणवत्ता वाली एआई कार्यक्षमता प्रदान करने के लिए कम-मेमोरी डिवाइसों पर अनुकूलित हैं।

जेमिनी के विकास में प्रशिक्षण एल्गोरिदम और इन्फ्रास्ट्रक्चर में नवाचार शामिल थे, जिसमें गूगल के नवीनतम टीपीयू का उपयोग किया गया था। यह कुशल स्केलिंग और मजबूत प्रशिक्षण प्रक्रियाओं की अनुमति देता है, यह सुनिश्चित करता है कि यहां तक कि सबसे छोटे मॉडल भी असाधारण प्रदर्शन प्रदान करते हैं।

जेमिनी के लिए प्रशिक्षण डेटासेट उतना ही विविध है जितनी इसकी क्षमताएं, जिसमें वेब दस्तावेज़, पुस्तकें, कोड, छवियां, ऑडियो और वीडियो शामिल हैं। यह मल्टीमॉडल और बहुभाषी डेटासेट यह सुनिश्चित करता है कि जेमिनी मॉडल विभिन्न प्रकार की सामग्री को प्रभावी ढंग से समझ और संसाधित कर सकते हैं।

जेमिनी और जीपीटी-4

अन्य मॉडलों के उदय के बावजूद, हर किसी के मन में यह सवाल है कि गूगल का जेमिनी उद्योग के बेंचमार्क जीपीटी-4 के साथ कैसे तुलना करता है। गूगल के डेटा सुझाव देते हैं कि जबकि जीपीटी-4 सामान्य ज्ञान तर्क कार्यों में उत्कृष्टता प्राप्त कर सकता है, जेमिनी अल्ट्रा लगभग हर अन्य क्षेत्र में शीर्ष पर है।

рдЬреЗрдорд┐рдиреА рд╡реАрдПрд╕ рдЬреАрдкреАрдЯреА-4

जेमिनी वीएस जीपीटी-4

उपरोक्त बेंचमार्किंग तालिका विभिन्न कार्यों में गूगल के जेमिनी एआई का प्रभावशाली प्रदर्शन दिखाती है। विशेष रूप से, जेमिनी अल्ट्रा ने एमएमएलयू बेंचमार्क में 90.04% सटीकता हासिल की है, जो मल्टीपल-चॉइस प्रश्नों में इसकी श्रेष्ठ समझ को दर्शाता है जो 57 विषयों पर आधारित है।

जीएसएम8के में, जो ग्रेड-स्कूल गणित प्रश्नों का मूल्यांकन करता है, जेमिनी अल्ट्रा 94.4% स्कोर प्राप्त करता है, जो इसकी उन्नत अंकगणित प्रसंस्करण कौशल को प्रदर्शित करता है। कोडिंग बेंचमार्क में, जेमिनी अल्ट्रा पायथन कोड जेनरेशन में ह्यूमनइवल में 74.4% स्कोर प्राप्त करता है, जो इसकी मजबूत प्रोग्रामिंग भाषा समझ को दर्शाता है।

ड्रॉप बेंचमार्क, जो पढ़ने की समझ का परीक्षण करता है, जेमिनी अल्ट्रा को 82.4% स्कोर के साथ देखता है। जबकि सामान्य ज्ञान तर्क परीक्षण हेलास्वाग में, जेमिनी अल्ट्रा प्रभावशाली प्रदर्शन करता है, हालांकि यह जीपीटी-4 द्वारा निर्धारित बेंचमार्क को पार नहीं करता है।

निष्कर्ष

जेमिनी का अनोखा आर्किटेक्चर, गूगल की कटिंग-एज टेक्नोलॉजी द्वारा संचालित, इसे एआई क्षेत्र में एक प्रमुख खिलाड़ी के रूप में स्थापित करता है, जो जीपीटी-4 जैसे मॉडलों द्वारा निर्धारित मौजूदा बेंचमार्क को चुनौती देता है। इसके संस्करण – अल्ट्रा, प्रो और नैनो – प्रत्येक विशिष्ट आवश्यकताओं को पूरा करते हैं, जटिल तर्क से लेकर कुशल डिवाइस अनुप्रयोगों तक, गूगल की उन्नत एआई को विभिन्न प्लेटफार्मों और डिवाइसों पर सुलभ बनाने की प्रतिबद्धता को प्रदर्शित करते हैं।

जेमिनी का गूगल के इकोसिस्टम में एकीकरण, बार्ड से लेकर गूगल क्लाउड वर्टेक्स तक, इसकी उपयोगकर्ता अनुभवों को बेहतर बनाने की क्षमता को रेखांकित करता है। यह न केवल मौजूदा अनुप्रयोगों को परिष्कृत करने का वादा करता है, बल्कि व्यक्तिगत सहायता, रचनात्मक प्रयासों या व्यवसायिक विश्लेषण में एआई-संचालित समाधानों के लिए नए अवसर भी प्रदान करता है।

जैसा कि हम आगे बढ़ते हैं, जेमिनी जैसे एआई मॉडल में निरंतर प्रगति एआई अनुसंधान और विकास के महत्व को रेखांकित करती है। ऐसे जटिल मॉडलों को प्रशिक्षित करने और उनके नैतिक और जिम्मेदार उपयोग को सुनिश्चित करने की चुनौतियां चर्चा के केंद्र में बनी रहती हैं।

рдореИрдВ рдкрд┐рдЫрд▓реЗ рдкрд╛рдВрдЪ рд╡рд░реНрд╖реЛрдВ рд╕реЗ рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдФрд░ рдбреАрдк рд▓рд░реНрдирд┐рдВрдЧ рдХреА рдЖрдХрд░реНрд╖рдХ рджреБрдирд┐рдпрд╛ рдореЗрдВ рдЦреБрдж рдХреЛ рдбреВрдмрд╛ рд░рд╣рд╛ рд╣реВрдВред рдореЗрд░рд╛ рдЬреБрдиреВрди рдФрд░ рд╡рд┐рд╢реЗрд╖рдЬреНрдЮрддрд╛ рдиреЗ рдореБрдЭреЗ 50 рд╕реЗ рдЕрдзрд┐рдХ рд╡рд┐рд╡рд┐рдз рд╕реЙрдлреНрдЯрд╡реЗрдпрд░ рдЗрдВрдЬреАрдирд┐рдпрд░рд┐рдВрдЧ рдкрд░рд┐рдпреЛрдЬрдирд╛рдУрдВ рдореЗрдВ рдпреЛрдЧрджрд╛рди рджреЗрдиреЗ рдХреЗ рд▓рд┐рдП рдкреНрд░реЗрд░рд┐рдд рдХрд┐рдпрд╛ рд╣реИ, рдЬрд┐рд╕рдореЗрдВ рд╡рд┐рд╢реЗрд╖ рд░реВрдк рд╕реЗ рдПрдЖрдИ/рдПрдордПрд▓ рдкрд░ рдзреНрдпрд╛рди рдХреЗрдВрджреНрд░рд┐рдд рдХрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИред рдореЗрд░реА рд▓рдЧрд╛рддрд╛рд░ рдЬрд┐рдЬреНрдЮрд╛рд╕рд╛ рдиреЗ рдореБрдЭреЗ рдкреНрд░рд╛рдХреГрддрд┐рдХ рднрд╛рд╖рд╛ рдкреНрд░рд╕рдВрд╕реНрдХрд░рдг рдХреА рдУрд░ рдЖрдХрд░реНрд╖рд┐рдд рдХрд┐рдпрд╛ рд╣реИ, рдЬреЛ рдПрдХ рдХреНрд╖реЗрддреНрд░ рд╣реИ рдЬрд┐рд╕реЗ рдореИрдВ рдЖрдЧреЗ рдЕрдиреНрд╡реЗрд╖рдг рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдЙрддреНрд╕реБрдХ рд╣реВрдВред