कृत्रिम बुद्धिमत्ता

SAM 2 का अनावरण: मेटा का नया ओपन-सोर्स फाउंडेशन मॉडल वास्तविक समय में वीडियो और छवियों में वस्तु सेगमेंटेशन के लिए

Published August 1, 2024

Updated April 27, 2026

Dr. Tehseen Zia

पिछले कुछ वर्षों में, एआई की दुनिया में टेक्स्ट प्रोसेसिंग के लिए फाउंडेशन एआई में उल्लेखनीय प्रगति देखी गई है, जिसके साथ उद्योगों को ग्राहक सेवा से लेकर कानूनी विश्लेषण तक बदल दिया गया है। लेकिन जब छवि प्रसंस्करण की बात आती है, तो हम केवल सतह को खरोंच रहे हैं। दृश्य डेटा की जटिलता और मॉडल को सटीक रूप से व्याख्या करने और छवियों का विश्लेषण करने के लिए प्रशिक्षित करने की चुनौतियों ने महत्वपूर्ण बाधाओं का पresentation किया है। जब शोधकर्ता छवि और वीडियो के लिए फाउंडेशन एआई की खोज जारी रखते हैं, तो एआई में छवि प्रसंस्करण का भविष्य स्वास्थ्य सेवा, स्वायत्त वाहनों और उससे परे नवाचारों की संभावना रखता है।

वस्तु सेगमेंटेशन, जिसमें छवि में रुचि की वस्तु के सटीक पिक्सल को इंगित करना शामिल है, कंप्यूटर दृष्टि में एक महत्वपूर्ण कार्य है। परंपरागत रूप से, इसके लिए विशेषज्ञता वाले एआई मॉडल बनाने की आवश्यकता होती है, जिसके लिए व्यापक बुनियादी ढांचे और बड़ी मात्रा में एनोटेटेड डेटा की आवश्यकता होती है। पिछले वर्ष में, मेटा ने सेगमेंट एनीथिंग मॉडल (एसएएम) पेश किया, एक फाउंडेशन एआई मॉडल जो इस प्रक्रिया को सरल बनाता है ताकि उपयोगकर्ता एक सरल प्रॉम्प्ट के साथ छवियों को सेगमेंट कर सकें। इस नवाचार ने विशेषज्ञता और व्यापक कंप्यूटिंग संसाधनों की आवश्यकता को कम कर दिया, जिससे छवि सेगमेंटेशन अधिक सुलभ हो गया।

अब, मेटा इसे एक और कदम आगे ले जा रहा है एसएएम 2 के साथ। यह नई पीढ़ी न केवल एसएएम की मौजूदा छवि सेगमेंटेशन क्षमताओं को बढ़ाती है, बल्कि वीडियो प्रसंस्करण तक भी इसका विस्तार करती है। एसएएम 2 छवियों और वीडियो दोनों में किसी भी वस्तु को सेगमेंट कर सकता है, यहां तक कि जिन्हें यह पहले नहीं देखा है। यह प्रगति कंप्यूटर दृष्टि और छवि प्रसंस्करण के क्षेत्र में एक बड़ा कदम है, जो दृश्य सामग्री का विश्लेषण करने के लिए एक अधिक बहुमुखी और शक्तिशाली उपकरण प्रदान करता है। नीचे, हम एसएएम 2 की रोमांचक प्रगति और इसके कंप्यूटर दृष्टि के क्षेत्र को फिर से परिभाषित करने की इसकी क्षमता का अन्वेषण करते हैं।

सेगमेंट एनीथिंग मॉडल (एसएएम) का परिचय

पारंपरिक सेगमेंटेशन विधियों में या तो मैनुअल रिफाइनमेंट की आवश्यकता होती है, जिसे इंटरएक्टिव सेगमेंटेशन कहा जाता है, या पूर्वनिर्धारित श्रेणियों में स्वचालित सेगमेंटेशन के लिए व्यापक एनोटेटेड डेटा की आवश्यकता होती है। एसएएम एक फाउंडेशन एआई मॉडल है जो विविध प्रॉम्प्ट्स जैसे क्लिक, बॉक्स या टेक्स्ट इनपुट का उपयोग करके इंटरएक्टिव सेगमेंटेशन का समर्थन करता है। इसे न्यूनतम डेटा और कंप्यूटिंग संसाधनों के साथ स्वचालित सेगमेंटेशन के लिए भी फाइन-ट्यून किया जा सकता है। 10 अरब से अधिक विविध छवि एनोटेशन पर प्रशिक्षित, एसएएम नए वस्तुओं और छवियों को संभाल सकता है बिना कस्टम डेटा संग्रह या फाइन-ट्यूनिंग की आवश्यकता के।

एसएएम दो मुख्य घटकों के साथ काम करता है: एक छवि एनकोडर जो छवि को संसाधित करता है और एक प्रॉम्प्ट एनकोडर जो क्लिक या टेक्स्ट जैसे इनपुट को संभालता है। ये घटक एक हल्के डिकोडर के साथ मिलकर सेगमेंटेशन मास्क की भविष्यवाणी करने के लिए एक साथ आते हैं। एक बार छवि संसाधित हो जाने के बाद, एसएएम केवल 50 मिलीसेकंड में वेब ब्राउज़र में एक सेगमेंट बना सकता है, जिससे यह वास्तविक समय, इंटरएक्टिव कार्यों के लिए एक शक्तिशाली उपकरण बन जाता है। एसएएम बनाने के लिए, शोधकर्ताओं ने एक तीन-चरण डेटा संग्रह प्रक्रिया विकसित की: मॉडल-सहायता प्राप्त एनोटेशन, स्वचालित और सहायता प्राप्त एनोटेशन का मिश्रण, और पूरी तरह से स्वचालित मास्क निर्माण। इस प्रक्रिया के परिणामस्वरूप एसए-1बी डेटासेट बना, जिसमें 11 मिलियन लाइसेंस प्राप्त, गोपनीयता-संरक्षण छवियों पर 1.1 अरब से अधिक मास्क शामिल हैं – जो किसी भी मौजूदा डेटासेट की तुलना में 400 गुना बड़ा है।

एसएएम 2: छवि से वीडियो सेगमेंटेशन में एक कदम

एसएएम की नींव पर बने, एसएएम 2 वास्तविक समय में छवियों और वीडियो में प्रॉम्प्टेबल ऑब्जेक्ट सेगमेंटेशन के लिए डिज़ाइन किया गया है। एसएएम के विपरीत, जो केवल स्थिर छवियों पर केंद्रित है, एसएएम 2 वीडियो को प्रत्येक फ्रेम को एक निरंतर क्रम के हिस्से के रूप में संसाधित करता है। यह गतिशील दृश्यों और बदलते सामग्री को अधिक प्रभावी ढंग से संभालने में सक्षम बनाता है। छवि सेगमेंटेशन के लिए, एसएएम 2 न केवल एसएएम की क्षमताओं में सुधार करता है, बल्कि इंटरएक्टिव कार्यों में तीन गुना तेजी से काम करता है।

एसएएम 2 एसएएम की समान वास्तुकला बनाए रखता है लेकिन वीडियो प्रसंस्करण के लिए एक मेमोरी मैकेनिज्म पेश करता है। यह सुविधा एसएएम 2 को पिछले फ्रेम्स से जानकारी को बनाए रखने की अनुमति देती है, जिससे गति, प्रकाश या अवरोधन में परिवर्तन के बावजूद संगत वस्तु सेगमेंटेशन सुनिश्चित होता है। पिछले फ्रेम्स को संदर्भित करके, एसएएम 2 पूरे वीडियो में अपनी मास्क पूर्वानुमान को परिष्कृत कर सकता है।

मॉडल को एसए-वी डेटासेट पर प्रशिक्षित किया गया है, जिसमें 47 देशों के 51,000 वीडियो पर 600,000 से अधिक मास्कलेट एनोटेशन शामिल हैं। यह विविध डेटासेट पूरे वस्तुओं और उनके हिस्सों दोनों को कवर करता है, जो वास्तविक दुनिया के वीडियो सेगमेंटेशन में एसएएम 2 की सटीकता को बढ़ाता है।

एसएएम 2 एपाचे 2.0 लाइसेंस के तहत एक ओपन-सोर्स मॉडल के रूप में उपलब्ध है, जिससे यह विभिन्न उपयोगों के लिए सुलभ है। मेटा ने एसएएम 2 के लिए उपयोग किए गए डेटासेट को सीसी बाय 4.0 लाइसेंस के तहत साझा किया है। इसके अलावा, एक वेब-आधारित डेमो है जो उपयोगकर्ताओं को मॉडल का अन्वेषण करने और देखने की अनुमति देता है कि यह कैसा प्रदर्शन करता है।

संभावित उपयोग के मामले

एसएएम 2 की छवियों और वीडियो में वास्तविक समय में प्रॉम्प्टेबल ऑब्जेक्ट सेगमेंटेशन क्षमताओं ने विभिन्न क्षेत्रों में कई नवीन अनुप्रयोगों को अनलॉक किया है। उदाहरण के लिए, कुछ ऐसे अनुप्रयोग हैं:

स्वास्थ्य सेवा निदान: एसएएम 2 ऑपरेटिंग रूम में लाइव वीडियो फीड में शारीरिक संरचनाओं को सेगमेंट करके और असामान्यताओं की पहचान करके वास्तविक समय में सर्जिकल सहायता में काफी सुधार कर सकता है। यह चिकित्सा इमेजिंग विश्लेषण को भी बेहतर बना सकता है ताकि मेडिकल स्कैन में अंगों या ट्यूमर का सटीक सेगमेंटेशन हो सके।
स्वायत्त वाहन: एसएएम 2 स्वायत्त वाहन प्रणालियों में वस्तु का पता लगाने की सटीकता में सुधार कर सकता है जो वीडियो फ्रेम में पैदल यात्रियों, वाहनों और सड़क संकेतों को सेगमेंट और ट्रैक करता है। इसकी गतिशील दृश्यों को संभालने की क्षमता भी अनुकूली नेविगेशन और टक्कर से बचाव प्रणाली का समर्थन करती है जो वास्तविक समय में पर्यावरणीय परिवर्तनों को पहचान और प्रतिक्रिया देती है।
इंटरएक्टिव मीडिया और मनोरंजन: एसएएम 2 ऑगमेंटेड रियलिटी (एआर) अनुप्रयोगों में वस्तुओं को वास्तविक समय में सेगमेंट करके उन्हें वास्तविक दुनिया के साथ मिलाने में मदद कर सकता है। यह वीडियो संपादन को भी लाभान्वित करता है जो फुटेज में वस्तुओं को स्वचालित रूप से सेगमेंट करके पृष्ठभूमि हटाने और वस्तु प्रतिस्थापन जैसी प्रक्रियाओं को सरल बनाता है।
पर्यावरण निगरानी: एसएएम 2 वीडियो फुटेज में जानवरों को सेगमेंट और ट्रैक करके वन्यजीव ट्रैकिंग में सहायता कर सकता है, जो प्रजाति अनुसंधान और आवास अध्ययन का समर्थन करता है। आपदा प्रतिक्रिया में, यह प्रभावित क्षेत्रों और वस्तुओं को वीडियो फीड में सटीक रूप से सेगमेंट करके नुकसान का मूल्यांकन कर सकता है और प्रतिक्रिया प्रयासों का मार्गदर्शन कर सकता है।
रिटेल और ई-कॉमर्स: एसएएम 2 ई-कॉमर्स में उत्पाद दृश्यीकरण को बढ़ा सकता है जो छवियों और वीडियो में उत्पादों को इंटरएक्टिव रूप से सेगमेंट करके ग्राहकों को विभिन्न कोणों और संदर्भों में आइटम देखने की क्षमता प्रदान करता है। इन्वेंट्री प्रबंधन के लिए, यह खुदरा विक्रेताओं को अलमारियों पर उत्पादों को वास्तविक समय में सेगमेंट करके स्टॉक लेने और सामान्य इन्वेंट्री नियंत्रण में सुधार करने में मदद करता है।

एसएएम 2 की सीमाओं को पार करना: व्यावहारिक समाधान और भविष्य के सुधार

जबकि एसएएम 2 छवियों और लघु वीडियो के साथ अच्छा प्रदर्शन करता है, इसके व्यावहारिक उपयोग के लिए कुछ सीमाएं हैं। यह महत्वपूर्ण दृश्य परिवर्तन, लंबे समय तक अवरोधन, या भीड़भाड़ वाले दृश्यों में, विशेष रूप से लंबे वीडियो में वस्तुओं को ट्रैक करने में संघर्ष कर सकता है। मैनुअल सुधार इंटरएक्टिव क्लिक के साथ इन मुद्दों को संबोधित करने में मदद कर सकता है।

भीड़भाड़ वाले वातावरण में समान दिखने वाली वस्तुओं के साथ, एसएएम 2 कभी-कभी लक्ष्यों की गलत पहचान कर सकता है, लेकिन बाद के फ्रेम में अतिरिक्त प्रॉम्प्ट इसे हल कर सकते हैं। हालांकि एसएएम 2 एक से अधिक वस्तुओं को सेगमेंट कर सकता है, इसकी कार्यक्षमता कम हो जाती है क्योंकि यह प्रत्येक वस्तु को अलग से संसाधित करता है। भविष्य के अपडेट साझा संदर्भ जानकारी को एकीकृत करके प्रदर्शन में सुधार कर सकते हैं।

एसएएम 2 तेजी से चलती वस्तुओं के साथ विस्तृत विवरण को याद कर सकता है, और फ्रेम के पूर्वानुमान अस्थिर हो सकते हैं। हालांकि, इस सीमा को आगे के प्रशिक्षण से संबोधित किया जा सकता है। हालांकि स्वचालित एनोटेशन का जनरेशन बेहतर हो गया है, मानव एनोटेटर्स अभी भी गुणवत्ता जांच और फ्रेम चयन के लिए आवश्यक हैं, और आगे के स्वचालन से दक्षता में सुधार हो सकता है।

नीचे की पंक्ति

एसएएम 2 वास्तविक समय में छवियों और वीडियो में वस्तु सेगमेंटेशन में एक महत्वपूर्ण कदम का प्रतिनिधित्व करता है, जो अपने पूर्ववर्ती द्वारा रखी गई नींव पर बनता है। अपनी क्षमताओं को बढ़ाने और गतिशील वीडियो सामग्री तक इसके विस्तार के साथ, एसएएम 2 स्वास्थ्य सेवा, स्वायत्त वाहनों और इंटरएक्टिव मीडिया जैसे क्षेत्रों में क्रांति लाने का वादा करता है। जबकि चुनौतियां बनी हुई हैं, विशेष रूप से जटिल और भीड़भाड़ वाले दृश्यों में, एसएएम 2 की ओपन-सोर्स प्रकृति निरंतर सुधार और अनुकूलन को प्रोत्साहित करती है। अपने शक्तिशाली प्रदर्शन और सुलभता के साथ, एसएएम 2 कंप्यूटर दृष्टि और उससे परे में नवाचार को बढ़ावा देने के लिए तैयार है।