Connect with us

рдПрдЖрдИ рдХреЛ рдПрдкреНрдкрд▓ рдХреЗ рд░рд┐рдпрд▓рдо рдХреЗ рд╕рд╛рде рдХреНрд░рд╛рдВрддрд┐рдХрд╛рд░реА рдмрдирд╛рдирд╛: рдмреБрджреНрдзрд┐рдорд╛рди рд╕рд╣рд╛рдпрдХреЛрдВ рдХрд╛ рднрд╡рд┐рд╖реНрдп

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рдПрдЖрдИ рдХреЛ рдПрдкреНрдкрд▓ рдХреЗ рд░рд┐рдпрд▓рдо рдХреЗ рд╕рд╛рде рдХреНрд░рд╛рдВрддрд┐рдХрд╛рд░реА рдмрдирд╛рдирд╛: рдмреБрджреНрдзрд┐рдорд╛рди рд╕рд╣рд╛рдпрдХреЛрдВ рдХрд╛ рднрд╡рд┐рд╖реНрдп

mm
AppleтАЩs New ReALM AI Model

कृत्रिम बुद्धिमत्ता के लगातार विकसित होते परिदृश्य में, एप्पल ने एक नए युग की शुरुआत की है जो हमारे आईफ़ोन के साथ बातचीत करने के तरीके को पुनः परिभाषित कर सकती है। रियलम, या रेफरेंस रिज़ॉल्यूशन एज़ लैंग्वेज मॉडलिंग, एक एआई मॉडल है जो संदर्भ जागरूकता और सहज सहायता का एक नया स्तर लाने का वादा करता है।

जबकि तकनीकी दुनिया ओपनएआई के जीपीटी-4 और अन्य बड़े भाषा मॉडल (एलएलएम) पर उत्साहित है, एप्पल का रियलम एक नए विचार की ओर संकेत करता है – क्लाउड-आधारित एआई पर पूरी तरह से निर्भर रहने के बजाय एक अधिक व्यक्तिगत, डिवाइस-पर-दृष्टिकोण की ओर। लक्ष्य? एक बुद्धिमान सहायक बनाना जो वास्तव में आपको समझता है, आपकी दुनिया को समझता है, और आपके दैनिक डिजिटल इंटरैक्शन के जटिल ताने-बाने को समझता है।

रियलम के केंद्र में संदर्भों को हल करने की क्षमता है – वे अस्पष्ट सर्वनाम जैसे “यह,” “वे,” या “वह” जिन्हें मानव संदर्भ संकेतों के कारण आसानी से नेविगेट किया जा सकता है। एआई सहायकों के लिए, हालांकि, यह लंबे समय से एक बाधा रही है, जिससे निराशाजनक गलतफहमी और एक टूटी हुई उपयोगकर्ता अनुभव होता है।

एक ऐसी स्थिति की कल्पना करें जहां आप सिरी से “मुझे एक स्वस्थ नुस्खा ढूंढें जो मेरे फ्रिज में है, लेकिन मशरूम को छोड़ दें – मुझे उनसे नफरत है।” रियलम के साथ, आपका आईफ़ोन न केवल स्क्रीन पर जानकारी (आपके फ्रिज की सामग्री) के संदर्भों को समझेगा, बल्कि आपकी व्यक्तिगत पसंद (मशरूम से नफरत) और नुस्खा खोजने के व्यापक संदर्भ को भी याद रखेगा।

यह संदर्भ जागरूकता का स्तर वर्तमान एआई सहायकों के कीवर्ड-मिलान दृष्टिकोण से एक क्वांटम कूद है। तीन मुख्य डोमेन – वार्तालाप, स्क्रीन, और पृष्ठभूमि – में संदर्भों को हल करने के लिए एलएलएम को प्रशिक्षित करके, रियलम एक वास्तविक बुद्धिमान डिजिटल साथी बनाने का लक्ष्य रखता है जो कम रोबोटिक वॉयस असिस्टेंट और अधिक अपनी सोच प्रक्रिया का विस्तार महसूस होता है।

वार्तालाप डोमेन: पहले की बातों को याद रखना

वार्तालाप एआई, रियलम एक लंबे समय से चली आ रही चुनौती का सामना करता है: कई बार की बातचीत में संगति और स्मृति को बनाए रखना। अपनी चल रही बातचीत के भीतर संदर्भों को हल करने की अपनी क्षमता के साथ, रियलम अंततः एक प्राकृतिक, आगे-पीछे की बातचीत का वादा पूरा कर सकता है।

एक ऐसी स्थिति की कल्पना करें जहां आप सिरी से “मुझे शुक्रवार को जब मुझे वेतन मिलेगा तो मेरी छुट्टी के लिए टिकट बुक करने के लिए याद दिलाएं।” रियलम के साथ, सिरी न केवल आपकी छुट्टी की योजनाओं (संभावित रूप से एक पिछली बातचीत या स्क्रीन पर जानकारी से) के संदर्भ को समझेगा, बल्कि “वेतन” को आपके नियमित वेतन दिवस दिनचर्या से जोड़ने के लिए जागरूकता भी रखेगा।

यह स्तर की वार्तालाप बुद्धिमत्ता वास्तविक प्रगति की तरह लगता है, जो बिना संदर्भ को फिर से समझाने या खुद को दोहराने के बिना सहज बहु-मोड़ वार्ता को सक्षम बनाता है।

स्क्रीन डोमेन: आपके सहायक को आंखें देना

हालांकि, रियलम का सबसे क्रांतिकारी पहलू इसकी स्क्रीन पर संस्थाओं के संदर्भों को हल करने की क्षमता में निहित है – एक वास्तविक हाथों-हाथ, वॉयस-निर्देशित उपयोगकर्ता अनुभव बनाने के लिए एक महत्वपूर्ण कदम।

एप्पल के शोध पत्र में एक नए तरीके का वर्णन किया गया है जिसमें आपके डिवाइस की स्क्रीन से दृश्य जानकारी को एलएलएम द्वारा संसाधित किए जाने वाले प्रारूप में एन्कोड किया जाता है। अपनी स्क्रीन के लेआउट को एक पाठ-आधारित प्रतिनिधित्व में पुनः निर्माण करके, रियलम स्क्रीन पर तत्वों के बीच स्थानिक संबंधों को “देख” और समझ सकता है।

एक ऐसी स्थिति की कल्पना करें जहां आप रेस्तरां की सूची देख रहे हैं और सिरी से “मुख्य स्ट्रीट पर स्थित रेस्तरां के लिए दिशा-निर्देश प्राप्त करें।” रियलम के साथ, आपका आईफ़ोन न केवल एक विशिष्ट स्थान के संदर्भ को समझेगा, बल्कि इसे प्रासंगिक स्क्रीन संस्था – विवरण से मेल खाने वाली रेस्तरां सूची से भी जोड़ेगा।

यह स्तर की दृश्य समझ संभावनाओं का एक नया दुनिया खोलता है, जिसमें ऐप्स और वेबसाइटों के भीतर संदर्भों पर कार्रवाई करना, भविष्य के एआर इंटरफेस के साथ एकीकरण, और यहां तक कि आपके डिवाइस के कैमरे के माध्यम से वास्तविक दुनिया की वस्तुओं और पर्यावरण को महसूस करना और प्रतिक्रिया देना शामिल है।

शोध पत्र रियलम मॉडल के विस्तृत विवरण में स्क्रीन संस्थाओं को एन्कोड करने और विभिन्न संदर्भों में संदर्भों को हल करने के तरीके के बारे में बात करता है। यहाँ पत्र में दिए गए एल्गोरिदम और उदाहरणों की एक सरलीकृत व्याख्या है:

  1. स्क्रीन संस्थाओं को एन्कोड करना: पत्र विभिन्न रणनीतियों का अन्वेषण करता है जिसमें स्क्रीन तत्वों को एक पाठ-आधारित प्रारूप में एन्कोड किया जाता है जिसे एक बड़े भाषा मॉडल (एलएलएम) द्वारा संसाधित किया जा सकता है। एक दृष्टिकोण आसपास की वस्तुओं को उनकी स्थानिक निकटता के आधार पर समूहीकृत करना और इन समूहीकृत वस्तुओं को शामिल करने वाले प्रॉम्प्ट उत्पन्न करना शामिल है। हालांकि, यह दृष्टिकोण अधिक संस्थाओं के साथ अत्यधिक लंबे प्रॉम्प्ट का कारण बन सकता है।

अंतिम दृष्टिकोण जो शोधकर्ताओं ने अपनाया है वह स्क्रीन को ऊपर से नीचे और बाएं से दाएं क्रम में पार्स करना है, जिसमें लेआउट को एक पाठ-आधारित प्रारूप में प्रस्तुत किया जाता है। यह एल्गोरिदम 2 के माध्यम से प्राप्त किया जाता है, जो केंद्र समन्वय के आधार पर स्क्रीन पर वस्तुओं को सॉर्ट करता है, एक निश्चित मार्जिन के भीतर वस्तुओं को समूहीकृत करके ऊर्ध्वाधर स्तर निर्धारित करता है, और स्क्रीन पार्स का निर्माण इन स्तरों को टैब के साथ अलग-अलग पंक्तियों पर वस्तुओं के साथ जोड़कर करता है।

प्रासंगिक संस्थाओं (इस मामले में फोन नंबर) को पाठ-आधारित प्रतिनिधित्व में इंजेक्ट करके, एलएलएम स्क्रीन संदर्भ को समझ सकता है और संदर्भों को उचित रूप से हल कर सकता है।

  1. संदर्भ समाधान के उदाहरण: पत्र विभिन्न संदर्भों में संदर्भों को हल करने की रियलम मॉडल की क्षमता को प्रदर्शित करने के लिए कई उदाहरण प्रदान करता है:

a. वार्तालाप संदर्भ: “सिरी, मुझे एक स्वस्थ नुस्खा ढूंढें जो मेरे फ्रिज में है, लेकिन मशरूम को छोड़ दें – मुझे उनसे नफरत है,” जैसे अनुरोध के लिए रियलम स्क्रीन संदर्भ (फ्रिज की सामग्री), वार्तालाप संदर्भ (नुस्खा खोजना), और उपयोगकर्ता की पसंद (मशरूम से नफरत) को समझ सकता है।

b. पृष्ठभूमि संदर्भ: “सिरी, उस गीत को बजाएं जो पहले सुपरमार्केट में बज रहा था,” जैसे उदाहरण में, रियलम संभावित रूप से परिवेशी ऑडियो स्निपेट्स को पकड़ और पहचान सकता है ताकि गीत के संदर्भ को हल किया जा सके।

c. स्क्रीन संदर्भ: “सिरी, मुझे याद दिलाएं कि जब मैं शुक्रवार को वेतन प्राप्त करूं तो छुट्टी के लिए टिकट बुक करूं,” जैसे अनुरोध के लिए रियलम उपयोगकर्ता की दिनचर्या (वेतन दिवस), स्क्रीन पर बातचीत या वेबसाइट (छुट्टी की योजना), और कैलेंडर को समझ और अनुरोध पर कार्रवाई कर सकता है।

इन उदाहरणों से रियलम की क्षमता का पता चलता है कि वार्तालाप, स्क्रीन, और पृष्ठभूमि संदर्भों में संदर्भों को हल करने की क्षमता है, जो एक अधिक प्राकृतिक और सहज इंटरैक्शन को सक्षम बनाता है।

पृष्ठभूमि डोमेन

केवल वार्तालाप और स्क्रीन संदर्भों से परे जाकर, रियलम पृष्ठभूमि संस्थाओं के संदर्भों को हल करने की क्षमता का भी अन्वेषण करता है – वे परिधीय घटनाएं और प्रक्रियाएं जो अक्सर हमारे वर्तमान एआई सहायकों द्वारा अनदेखी की जाती हैं।

एक ऐसी स्थिति की कल्पना करें जहां आप सिरी से “मुझे वह गीत बजाएं जो पहले सुपरमार्केट में बज रहा था।” रियलम के साथ, आपका आईफ़ोन संभावित रूप से परिवेशी ऑडियो स्निपेट्स को पकड़ और पहचान सकता है, जिससे सिरी आपके दिमाग में गीत को आसानी से खोज और बजा सकता है।

यह स्तर की पृष्ठभूमि जागरूकता वास्तविक रूप से सर्वव्यापी संदर्भ-जागरूक एआई सहायता की ओर पहला कदम लगता है – एक डिजिटल साथी जो न केवल आपके शब्दों को समझता है, बल्कि आपके दैनिक अनुभवों के समृद्ध ताने-बाने को भी समझता है।

ऑन-डिवाइस एआई का वादा: गोपनीयता और व्यक्तिगतीकरण

जबकि रियलम की क्षमताएं निश्चित रूप से प्रभावशाली हैं, शायद इसका सबसे महत्वपूर्ण लाभ एप्पल की दीर्घकालिक प्रतिबद्धता में निहित है – ऑन-डिवाइस एआई और उपयोगकर्ता गोपनीयता के प्रति।

क्लाउड-आधारित एआई मॉडल के विपरीत जो उपयोगकर्ता डेटा को दूरस्थ सर्वर पर प्रसंस्करण के लिए भेजने पर निर्भर करते हैं, रियलम पूरी तरह से आपके आईफ़ोन या अन्य एप्पल डिवाइस पर संचालित करने के लिए डिज़ाइन किया गया है। यह न केवल डेटा गोपनीयता के चिंताओं को संबोधित करता है, बल्कि वास्तव में आपके रूप में एक व्यक्ति के रूप में अनुकूलन के लिए नए अवसर भी खोलता है।

आपके ऑन-डिवाइस डेटा – आपकी बातचीत, ऐप उपयोग पैटर्न, और यहां तक कि परिवेशी संवेदी इनपुट से सीखने के द्वारा, रियलम संभावित रूप से आपकी विशिष्ट आवश्यकताओं, पसंद, और दैनिक दिनचर्या के अनुरूप एक अत्यधिक व्यक्तिगत डिजिटल सहायक बना सकता है।

यह स्तर का व्यक्तिगतीकरण वर्तमान एआई सहायकों के एक-आकार-फिट-सभी दृष्टिकोण से एक मॉडल की तरह लगता है, जो अक्सर व्यक्तिगत उपयोगकर्ताओं की विशिष्टताओं और संदर्भों के अनुकूल होने के लिए संघर्ष करते हैं।

रियलम-250एम मॉडल प्रभावशाली परिणाम प्राप्त करता है:

    • वार्तालाप समझ: 97.8
    • सिंथेटिक कार्य समझ: 99.8
    • स्क्रीन कार्य प्रदर्शन: 90.6
    • अदृश्य डोमेन हैंडलिंग: 97.2

नैतिक विचार

निश्चित रूप से, इतने उच्च स्तर के व्यक्तिगतीकरण और संदर्भ जागरूकता के साथ, गोपनीयता, पारदर्शिता, और एआई प्रणाली द्वारा उपयोगकर्ता व्यवहार को प्रभावित करने या यहां तक कि मैनिपुलेट करने की संभावना के बारे में नैतिक विचारों का एक समूह आता है।

जैसे ही रियलम आपके दैनिक जीवन को गहराई से समझता है – आपकी खाने की आदतें, मीडिया की खपत पैटर्न, सामाजिक इंटरैक्शन, और व्यक्तिगत पसंद – इस प्रौद्योगिकी का उपयोग ऐसे तरीकों से किया जा सकता है जो उपयोगकर्ता विश्वास का उल्लंघन करते हैं या नैतिक सीमाओं को पार करते हैं।

एप्पल के शोधकर्ता इस तनाव से अच्छी तरह वाकिफ हैं, और अपने पत्र में उपयोगकर्ता गोपनीयता और एजेंसी का सम्मान करते हुए एक वास्तविक रूप से सहायक एआई अनुभव प्रदान करने के लिए सावधानी से संतुलन बनाने की आवश्यकता को स्वीकार करते हैं।

यह चुनौती एप्पल या रियलम तक सीमित नहीं है – यह पूरे तकनीकी उद्योग के लिए एक चर्चा है जिसे एआई प्रणालियां जितनी अधिक परिष्कृत और हमारे दैनिक जीवन में एकीकृत होती जा रही हैं।

एक स्मार्टर, अधिक प्राकृतिक एआई अनुभव की ओर

जैसे ही एप्पल रियलम जैसे मॉडल के साथ ऑन-डिवाइस एआई की सीमाओं को आगे बढ़ाता है, एक वास्तविक रूप से बुद्धिमान, संदर्भ-जागरूक डिजिटल सहायक का वादा पहले से कभी भी अधिक लगता है।

एक ऐसी दुनिया की कल्पना करें जहां सिरी (या भविष्य में यह एआई सहायक जो भी कहा जा सकता है) एक दूरस्थ क्लाउड से आवाज की तरह कम और आपकी सोच प्रक्रिया का विस्तार अधिक लगता है – एक साथी जो न केवल आपके शब्दों को समझता है, बल्कि आपके डिजिटल जीवन, दैनिक दिनचर्या, और विशिष्ट पसंद और संदर्भों के समृद्ध ताने-बाने को भी समझता है।

ऐप्स और वेबसाइटों के भीतर संदर्भों पर कार्रवाई करने से लेकर आपके स्थान, गतिविधि, और परिवेशी संवेदी इनपुट के आधार पर आपकी जरूरतों का पूर्वानुमान लगाने तक, रियलम एक अधिक प्राकृतिक, सहज एआई अनुभव की ओर एक महत्वपूर्ण कदम का प्रतिनिधित्व करता है जो हमारे डिजिटल और भौतिक दुनिया के बीच की रेखाओं को धुंधला करता है।

निश्चित रूप से, इस दृष्टि को साकार करने के लिए तकनीकी नवाचार से अधिक की आवश्यकता होगी – यह एक सोच-समझकर, नैतिक दृष्टिकोण से एआई विकास की भी आवश्यकता होगी जो उपयोगकर्ता गोपनीयता, पारदर्शिता, और एजेंसी को प्राथमिकता देता है।

जैसे ही एप्पल रियलम की क्षमताओं को परिष्कृत और विस्तारित करता है, तकनीकी दुनिया सांस रोककर देख रही होगी कि यह ग्राउंडब्रेकिंग एआई मॉडल बुद्धिमान सहायकों और वास्तविक रूप से व्यक्तिगत, संदर्भ-जागरूक कंप्यूटिंग के युग को कैसे आकार देता है।

चाहे रियलम शक्तिशाली जीपीटी-4 को पार करने के अपने वादे पर खरा उतरे या नहीं, यह देखना बाकी है। लेकिन एक बात निश्चित है: वास्तविक रूप से बुद्धिमान एआई सहायकों का युग जो हमें – हमारे शब्दों, हमारी दुनिया, और हमारे दैनिक जीवन के समृद्ध ताने-बाने को समझता है – अच्छी तरह से शुरू हो गया है, और एप्पल की नवीनतम नवाचार इसके अग्रभाग में हो सकता है।

рдореИрдВ рдкрд┐рдЫрд▓реЗ рдкрд╛рдВрдЪ рд╡рд░реНрд╖реЛрдВ рд╕реЗ рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдФрд░ рдбреАрдк рд▓рд░реНрдирд┐рдВрдЧ рдХреА рдЖрдХрд░реНрд╖рдХ рджреБрдирд┐рдпрд╛ рдореЗрдВ рдЦреБрдж рдХреЛ рдбреВрдмрд╛ рд░рд╣рд╛ рд╣реВрдВред рдореЗрд░рд╛ рдЬреБрдиреВрди рдФрд░ рд╡рд┐рд╢реЗрд╖рдЬреНрдЮрддрд╛ рдиреЗ рдореБрдЭреЗ 50 рд╕реЗ рдЕрдзрд┐рдХ рд╡рд┐рд╡рд┐рдз рд╕реЙрдлреНрдЯрд╡реЗрдпрд░ рдЗрдВрдЬреАрдирд┐рдпрд░рд┐рдВрдЧ рдкрд░рд┐рдпреЛрдЬрдирд╛рдУрдВ рдореЗрдВ рдпреЛрдЧрджрд╛рди рджреЗрдиреЗ рдХреЗ рд▓рд┐рдП рдкреНрд░реЗрд░рд┐рдд рдХрд┐рдпрд╛ рд╣реИ, рдЬрд┐рд╕рдореЗрдВ рд╡рд┐рд╢реЗрд╖ рд░реВрдк рд╕реЗ рдПрдЖрдИ/рдПрдордПрд▓ рдкрд░ рдзреНрдпрд╛рди рдХреЗрдВрджреНрд░рд┐рдд рдХрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИред рдореЗрд░реА рд▓рдЧрд╛рддрд╛рд░ рдЬрд┐рдЬреНрдЮрд╛рд╕рд╛ рдиреЗ рдореБрдЭреЗ рдкреНрд░рд╛рдХреГрддрд┐рдХ рднрд╛рд╖рд╛ рдкреНрд░рд╕рдВрд╕реНрдХрд░рдг рдХреА рдУрд░ рдЖрдХрд░реНрд╖рд┐рдд рдХрд┐рдпрд╛ рд╣реИ, рдЬреЛ рдПрдХ рдХреНрд╖реЗрддреНрд░ рд╣реИ рдЬрд┐рд╕реЗ рдореИрдВ рдЖрдЧреЗ рдЕрдиреНрд╡реЗрд╖рдг рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдЙрддреНрд╕реБрдХ рд╣реВрдВред