Connect with us

SAM 2 рдХрд╛ рдЕрдирд╛рд╡рд░рдг: рдореЗрдЯрд╛ рдХрд╛ рдирдпрд╛ рдУрдкрди-рд╕реЛрд░реНрд╕ рдлрд╛рдЙрдВрдбреЗрд╢рди рдореЙрдбрд▓ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рд╕рдордп рдореЗрдВ рд╡реАрдбрд┐рдпреЛ рдФрд░ рдЫрд╡рд┐рдпреЛрдВ рдореЗрдВ рд╡рд╕реНрддреБ рд╕реЗрдЧрдореЗрдВрдЯреЗрд╢рди рдХреЗ рд▓рд┐рдП

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

SAM 2 рдХрд╛ рдЕрдирд╛рд╡рд░рдг: рдореЗрдЯрд╛ рдХрд╛ рдирдпрд╛ рдУрдкрди-рд╕реЛрд░реНрд╕ рдлрд╛рдЙрдВрдбреЗрд╢рди рдореЙрдбрд▓ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рд╕рдордп рдореЗрдВ рд╡реАрдбрд┐рдпреЛ рдФрд░ рдЫрд╡рд┐рдпреЛрдВ рдореЗрдВ рд╡рд╕реНрддреБ рд╕реЗрдЧрдореЗрдВрдЯреЗрд╢рди рдХреЗ рд▓рд┐рдП

mm

पिछले कुछ वर्षों में, एआई की दुनिया में टेक्स्ट प्रोसेसिंग के लिए फाउंडेशन एआई में उल्लेखनीय प्रगति देखी गई है, जिसके साथ उद्योगों को ग्राहक सेवा से लेकर कानूनी विश्लेषण तक बदल दिया गया है। लेकिन जब छवि प्रसंस्करण की बात आती है, तो हम केवल सतह को खरोंच रहे हैं। दृश्य डेटा की जटिलता और मॉडल को सटीक रूप से व्याख्या करने और छवियों का विश्लेषण करने के लिए प्रशिक्षित करने की चुनौतियों ने महत्वपूर्ण बाधाओं का पresentation किया है। जब शोधकर्ता छवि और वीडियो के लिए फाउंडेशन एआई की खोज जारी रखते हैं, तो एआई में छवि प्रसंस्करण का भविष्य स्वास्थ्य सेवा, स्वायत्त वाहनों और उससे परे नवाचारों की संभावना रखता है।

वस्तु सेगमेंटेशन, जिसमें छवि में रुचि की वस्तु के सटीक पिक्सल को इंगित करना शामिल है, कंप्यूटर दृष्टि में एक महत्वपूर्ण कार्य है। परंपरागत रूप से, इसके लिए विशेषज्ञता वाले एआई मॉडल बनाने की आवश्यकता होती है, जिसके लिए व्यापक बुनियादी ढांचे और बड़ी मात्रा में एनोटेटेड डेटा की आवश्यकता होती है। पिछले वर्ष में, मेटा ने सेगमेंट एनीथिंग मॉडल (एसएएम) पेश किया, एक फाउंडेशन एआई मॉडल जो इस प्रक्रिया को सरल बनाता है ताकि उपयोगकर्ता एक सरल प्रॉम्प्ट के साथ छवियों को सेगमेंट कर सकें। इस नवाचार ने विशेषज्ञता और व्यापक कंप्यूटिंग संसाधनों की आवश्यकता को कम कर दिया, जिससे छवि सेगमेंटेशन अधिक सुलभ हो गया।

अब, मेटा इसे एक और कदम आगे ले जा रहा है एसएएम 2 के साथ। यह नई पीढ़ी न केवल एसएएम की मौजूदा छवि सेगमेंटेशन क्षमताओं को बढ़ाती है, बल्कि वीडियो प्रसंस्करण तक भी इसका विस्तार करती है। एसएएम 2 छवियों और वीडियो दोनों में किसी भी वस्तु को सेगमेंट कर सकता है, यहां तक कि जिन्हें यह पहले नहीं देखा है। यह प्रगति कंप्यूटर दृष्टि और छवि प्रसंस्करण के क्षेत्र में एक बड़ा कदम है, जो दृश्य सामग्री का विश्लेषण करने के लिए एक अधिक बहुमुखी और शक्तिशाली उपकरण प्रदान करता है। नीचे, हम एसएएम 2 की रोमांचक प्रगति और इसके कंप्यूटर दृष्टि के क्षेत्र को फिर से परिभाषित करने की इसकी क्षमता का अन्वेषण करते हैं।

सेगमेंट एनीथिंग मॉडल (एसएएम) का परिचय

पारंपरिक सेगमेंटेशन विधियों में या तो मैनुअल रिफाइनमेंट की आवश्यकता होती है, जिसे इंटरएक्टिव सेगमेंटेशन कहा जाता है, या पूर्वनिर्धारित श्रेणियों में स्वचालित सेगमेंटेशन के लिए व्यापक एनोटेटेड डेटा की आवश्यकता होती है। एसएएम एक फाउंडेशन एआई मॉडल है जो विविध प्रॉम्प्ट्स जैसे क्लिक, बॉक्स या टेक्स्ट इनपुट का उपयोग करके इंटरएक्टिव सेगमेंटेशन का समर्थन करता है। इसे न्यूनतम डेटा और कंप्यूटिंग संसाधनों के साथ स्वचालित सेगमेंटेशन के लिए भी फाइन-ट्यून किया जा सकता है। 10 अरब से अधिक विविध छवि एनोटेशन पर प्रशिक्षित, एसएएम नए वस्तुओं और छवियों को संभाल सकता है बिना कस्टम डेटा संग्रह या फाइन-ट्यूनिंग की आवश्यकता के।

एसएएम दो मुख्य घटकों के साथ काम करता है: एक छवि एनकोडर जो छवि को संसाधित करता है और एक प्रॉम्प्ट एनकोडर जो क्लिक या टेक्स्ट जैसे इनपुट को संभालता है। ये घटक एक हल्के डिकोडर के साथ मिलकर सेगमेंटेशन मास्क की भविष्यवाणी करने के लिए एक साथ आते हैं। एक बार छवि संसाधित हो जाने के बाद, एसएएम केवल 50 मिलीसेकंड में वेब ब्राउज़र में एक सेगमेंट बना सकता है, जिससे यह वास्तविक समय, इंटरएक्टिव कार्यों के लिए एक शक्तिशाली उपकरण बन जाता है। एसएएम बनाने के लिए, शोधकर्ताओं ने एक तीन-चरण डेटा संग्रह प्रक्रिया विकसित की: मॉडल-सहायता प्राप्त एनोटेशन, स्वचालित और सहायता प्राप्त एनोटेशन का मिश्रण, और पूरी तरह से स्वचालित मास्क निर्माण। इस प्रक्रिया के परिणामस्वरूप एसए-1बी डेटासेट बना, जिसमें 11 मिलियन लाइसेंस प्राप्त, गोपनीयता-संरक्षण छवियों पर 1.1 अरब से अधिक मास्क शामिल हैं – जो किसी भी मौजूदा डेटासेट की तुलना में 400 गुना बड़ा है।

एसएएम 2: छवि से वीडियो सेगमेंटेशन में एक कदम

एसएएम की नींव पर बने, एसएएम 2 वास्तविक समय में छवियों और वीडियो में प्रॉम्प्टेबल ऑब्जेक्ट सेगमेंटेशन के लिए डिज़ाइन किया गया है। एसएएम के विपरीत, जो केवल स्थिर छवियों पर केंद्रित है, एसएएम 2 वीडियो को प्रत्येक फ्रेम को एक निरंतर क्रम के हिस्से के रूप में संसाधित करता है। यह गतिशील दृश्यों और बदलते सामग्री को अधिक प्रभावी ढंग से संभालने में सक्षम बनाता है। छवि सेगमेंटेशन के लिए, एसएएम 2 न केवल एसएएम की क्षमताओं में सुधार करता है, बल्कि इंटरएक्टिव कार्यों में तीन गुना तेजी से काम करता है।

एसएएम 2 एसएएम की समान वास्तुकला बनाए रखता है लेकिन वीडियो प्रसंस्करण के लिए एक मेमोरी मैकेनिज्म पेश करता है। यह सुविधा एसएएम 2 को पिछले फ्रेम्स से जानकारी को बनाए रखने की अनुमति देती है, जिससे गति, प्रकाश या अवरोधन में परिवर्तन के बावजूद संगत वस्तु सेगमेंटेशन सुनिश्चित होता है। पिछले फ्रेम्स को संदर्भित करके, एसएएम 2 पूरे वीडियो में अपनी मास्क पूर्वानुमान को परिष्कृत कर सकता है।

मॉडल को एसए-वी डेटासेट पर प्रशिक्षित किया गया है, जिसमें 47 देशों के 51,000 वीडियो पर 600,000 से अधिक मास्कलेट एनोटेशन शामिल हैं। यह विविध डेटासेट पूरे वस्तुओं और उनके हिस्सों दोनों को कवर करता है, जो वास्तविक दुनिया के वीडियो सेगमेंटेशन में एसएएम 2 की सटीकता को बढ़ाता है।

एसएएम 2 एपाचे 2.0 लाइसेंस के तहत एक ओपन-सोर्स मॉडल के रूप में उपलब्ध है, जिससे यह विभिन्न उपयोगों के लिए सुलभ है। मेटा ने एसएएम 2 के लिए उपयोग किए गए डेटासेट को सीसी बाय 4.0 लाइसेंस के तहत साझा किया है। इसके अलावा, एक वेब-आधारित डेमो है जो उपयोगकर्ताओं को मॉडल का अन्वेषण करने और देखने की अनुमति देता है कि यह कैसा प्रदर्शन करता है।

संभावित उपयोग के मामले

एसएएम 2 की छवियों और वीडियो में वास्तविक समय में प्रॉम्प्टेबल ऑब्जेक्ट सेगमेंटेशन क्षमताओं ने विभिन्न क्षेत्रों में कई नवीन अनुप्रयोगों को अनलॉक किया है। उदाहरण के लिए, कुछ ऐसे अनुप्रयोग हैं:

  • स्वास्थ्य सेवा निदान: एसएएम 2 ऑपरेटिंग रूम में लाइव वीडियो फीड में शारीरिक संरचनाओं को सेगमेंट करके और असामान्यताओं की पहचान करके वास्तविक समय में सर्जिकल सहायता में काफी सुधार कर सकता है। यह चिकित्सा इमेजिंग विश्लेषण को भी बेहतर बना सकता है ताकि मेडिकल स्कैन में अंगों या ट्यूमर का सटीक सेगमेंटेशन हो सके।
  • स्वायत्त वाहन: एसएएम 2 स्वायत्त वाहन प्रणालियों में वस्तु का पता लगाने की सटीकता में सुधार कर सकता है जो वीडियो फ्रेम में पैदल यात्रियों, वाहनों और सड़क संकेतों को सेगमेंट और ट्रैक करता है। इसकी गतिशील दृश्यों को संभालने की क्षमता भी अनुकूली नेविगेशन और टक्कर से बचाव प्रणाली का समर्थन करती है जो वास्तविक समय में पर्यावरणीय परिवर्तनों को पहचान और प्रतिक्रिया देती है।
  • इंटरएक्टिव मीडिया और मनोरंजन: एसएएम 2 ऑगमेंटेड रियलिटी (एआर) अनुप्रयोगों में वस्तुओं को वास्तविक समय में सेगमेंट करके उन्हें वास्तविक दुनिया के साथ मिलाने में मदद कर सकता है। यह वीडियो संपादन को भी लाभान्वित करता है जो फुटेज में वस्तुओं को स्वचालित रूप से सेगमेंट करके पृष्ठभूमि हटाने और वस्तु प्रतिस्थापन जैसी प्रक्रियाओं को सरल बनाता है।
  • पर्यावरण निगरानी: एसएएम 2 वीडियो फुटेज में जानवरों को सेगमेंट और ट्रैक करके वन्यजीव ट्रैकिंग में सहायता कर सकता है, जो प्रजाति अनुसंधान और आवास अध्ययन का समर्थन करता है। आपदा प्रतिक्रिया में, यह प्रभावित क्षेत्रों और वस्तुओं को वीडियो फीड में सटीक रूप से सेगमेंट करके नुकसान का मूल्यांकन कर सकता है और प्रतिक्रिया प्रयासों का मार्गदर्शन कर सकता है।
  • रिटेल और ई-कॉमर्स: एसएएम 2 ई-कॉमर्स में उत्पाद दृश्यीकरण को बढ़ा सकता है जो छवियों और वीडियो में उत्पादों को इंटरएक्टिव रूप से सेगमेंट करके ग्राहकों को विभिन्न कोणों और संदर्भों में आइटम देखने की क्षमता प्रदान करता है। इन्वेंट्री प्रबंधन के लिए, यह खुदरा विक्रेताओं को अलमारियों पर उत्पादों को वास्तविक समय में सेगमेंट करके स्टॉक लेने और सामान्य इन्वेंट्री नियंत्रण में सुधार करने में मदद करता है।

एसएएम 2 की सीमाओं को पार करना: व्यावहारिक समाधान और भविष्य के सुधार

जबकि एसएएम 2 छवियों और लघु वीडियो के साथ अच्छा प्रदर्शन करता है, इसके व्यावहारिक उपयोग के लिए कुछ सीमाएं हैं। यह महत्वपूर्ण दृश्य परिवर्तन, लंबे समय तक अवरोधन, या भीड़भाड़ वाले दृश्यों में, विशेष रूप से लंबे वीडियो में वस्तुओं को ट्रैक करने में संघर्ष कर सकता है। मैनुअल सुधार इंटरएक्टिव क्लिक के साथ इन मुद्दों को संबोधित करने में मदद कर सकता है।

भीड़भाड़ वाले वातावरण में समान दिखने वाली वस्तुओं के साथ, एसएएम 2 कभी-कभी लक्ष्यों की गलत पहचान कर सकता है, लेकिन बाद के फ्रेम में अतिरिक्त प्रॉम्प्ट इसे हल कर सकते हैं। हालांकि एसएएम 2 एक से अधिक वस्तुओं को सेगमेंट कर सकता है, इसकी कार्यक्षमता कम हो जाती है क्योंकि यह प्रत्येक वस्तु को अलग से संसाधित करता है। भविष्य के अपडेट साझा संदर्भ जानकारी को एकीकृत करके प्रदर्शन में सुधार कर सकते हैं।

एसएएम 2 तेजी से चलती वस्तुओं के साथ विस्तृत विवरण को याद कर सकता है, और फ्रेम के पूर्वानुमान अस्थिर हो सकते हैं। हालांकि, इस सीमा को आगे के प्रशिक्षण से संबोधित किया जा सकता है। हालांकि स्वचालित एनोटेशन का जनरेशन बेहतर हो गया है, मानव एनोटेटर्स अभी भी गुणवत्ता जांच और फ्रेम चयन के लिए आवश्यक हैं, और आगे के स्वचालन से दक्षता में सुधार हो सकता है।

नीचे की पंक्ति

एसएएम 2 वास्तविक समय में छवियों और वीडियो में वस्तु सेगमेंटेशन में एक महत्वपूर्ण कदम का प्रतिनिधित्व करता है, जो अपने पूर्ववर्ती द्वारा रखी गई नींव पर बनता है। अपनी क्षमताओं को बढ़ाने और गतिशील वीडियो सामग्री तक इसके विस्तार के साथ, एसएएम 2 स्वास्थ्य सेवा, स्वायत्त वाहनों और इंटरएक्टिव मीडिया जैसे क्षेत्रों में क्रांति लाने का वादा करता है। जबकि चुनौतियां बनी हुई हैं, विशेष रूप से जटिल और भीड़भाड़ वाले दृश्यों में, एसएएम 2 की ओपन-सोर्स प्रकृति निरंतर सुधार और अनुकूलन को प्रोत्साहित करती है। अपने शक्तिशाली प्रदर्शन और सुलभता के साथ, एसएएम 2 कंप्यूटर दृष्टि और उससे परे में नवाचार को बढ़ावा देने के लिए तैयार है।

рдбреЙ. рддрд╣рд╕реАрди рдЬрд╝рд┐рдпрд╛ рдХреЛрдореНрд╕реИрдЯреНрд╕ рдпреВрдирд┐рд╡рд░реНрд╕рд┐рдЯреА рдЗрд╕реНрд▓рд╛рдорд╛рдмрд╛рдж рдореЗрдВ рдПрдХ рдЯреЗрдиреНрдпреЛрд░реНрдб рдПрд╕реЛрд╕рд┐рдПрдЯ рдкреНрд░реЛрдлреЗрд╕рд░ рд╣реИрдВ, рдЬреЛ рдСрд╕реНрдЯреНрд░рд┐рдпрд╛ рдХреА рд╡рд┐рдпрдирд╛ рдЯреЗрдХреНрдиреЛрд▓реЙрдЬреА рдпреВрдирд┐рд╡рд░реНрд╕рд┐рдЯреА рд╕реЗ рдПрдЖрдИ рдореЗрдВ рдкреАрдПрдЪрдбреА рд░рдЦрддреЗ рд╣реИрдВред рдЖрд░реНрдЯрд┐рдлрд┐рд╢рд┐рдпрд▓ рдЗрдВрдЯреЗрд▓рд┐рдЬреЗрдВрд╕, рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ, рдбреЗрдЯрд╛ рд╕рд╛рдЗрдВрд╕ рдФрд░ рдХрдВрдкреНрдпреВрдЯрд░ рд╡рд┐рдЬрди рдореЗрдВ рд╡рд┐рд╢реЗрд╖рдЬреНрдЮрддрд╛, рдЙрдиреНрд╣реЛрдВрдиреЗ рдкреНрд░рддрд┐рд╖реНрдард┐рдд рд╡реИрдЬреНрдЮрд╛рдирд┐рдХ рдкрддреНрд░рд┐рдХрд╛рдУрдВ рдореЗрдВ рдкреНрд░рдХрд╛рд╢рди рдХреЗ рд╕рд╛рде рдорд╣рддреНрд╡рдкреВрд░реНрдг рдпреЛрдЧрджрд╛рди рджрд┐рдпрд╛ рд╣реИред рдбреЙ. рддрд╣рд╕реАрди рдиреЗ рдкреНрд░рд┐рдВрд╕рд┐рдкрд▓ рдЗрдиреНрд╡реЗрд╕реНрдЯрд┐рдЧреЗрдЯрд░ рдХреЗ рд░реВрдк рдореЗрдВ рд╡рд┐рднрд┐рдиреНрди рдФрджреНрдпреЛрдЧрд┐рдХ рдкрд░рд┐рдпреЛрдЬрдирд╛рдУрдВ рдХрд╛ рдиреЗрддреГрддреНрд╡ рдХрд┐рдпрд╛ рд╣реИ рдФрд░ рдПрдХ рдПрдЖрдИ рд╕рд▓рд╛рд╣рдХрд╛рд░ рдХреЗ рд░реВрдк рдореЗрдВ рдХрд╛рд░реНрдп рдХрд┐рдпрд╛ рд╣реИред