कृत्रिम बुद्धिमत्ता

TinySAM : सेगमेंट एनीथिंग मॉडल के लिए सीमाओं को आगे बढ़ाना

Published February 8, 2024

Updated April 4, 2026

Kunal Kejriwal

TinySAM : Pushing the Boundaries for Segment Anything Model

वस्तु विभाजन आधुनिक कंप्यूटर दृष्टि में एक मूलभूत और महत्वपूर्ण क्षेत्र है। यह व्यापक दृश्य घटकों वाले अनुप्रयोगों में एक महत्वपूर्ण भूमिका निभाता है, जैसे कि वस्तु स्थानीयकरण और पहचान, और वास्तविक समय, तेज़, और सटीक विभाजन की मांग करता है। इस महत्व ने वस्तु विभाजन को एक लगातार गर्म अनुसंधान विषय बना दिया है, जिसमें इंस्टेंस विभाजन, सेमेंटिक विभाजन, और पैनोप्टिक विभाजन जैसे क्षेत्रों में महत्वपूर्ण काम किया गया है।

वस्तु विभाजन के विकास के साथ, सेगमेंट एनीथिंग मॉडल (एसएएम) एक उल्लेखनीय उपकरण के रूप में उभरा है, जो उत्कृष्ट विभाजन क्षमताओं का प्रदर्शन करता है और विभिन्न कंप्यूटर दृष्टि अनुप्रयोगों में तेजी से अपनाया जा रहा है। पूर्व-प्रशिक्षित एसएएम वास्तुकला का उपयोग करने वाले फ्रेमवर्क ने डाउनस्ट्रीम दृष्टि कार्यों में प्रभावशाली प्रदर्शन हासिल किया है। हालांकि, इसकी क्षमताओं और विभाजन कार्यों में उच्च सटीकता के बावजूद, एसएएम की जटिल और भारी वास्तुकला को महत्वपूर्ण गणना शक्ति की आवश्यकता होती है, जो इसे गणनात्मक रूप से सीमित उपकरणों पर लागू करने से रोकता है।

एसएएम की गणनात्मक चुनौतियों का समाधान करते हुए, शोधकर्ताओं ने टिनी सेगमेंट एनीथिंग मॉडल (टिनीसैम) विकसित किया है, जो मूल फ्रेमवर्क के शून्य-शॉट प्रदर्शन को बनाए रखते हुए अधिक हल्का है। टिनीसैम एक पूर्ण-चरण ज्ञान संक्षेपण विधि का उपयोग करता है जिसमें ऑनलाइन हार्ड प्रॉम्प्ट्स के साथ एक अधिक कुशल छात्र मॉडल बनाने के लिए। पोस्ट-ट्रेनिंग क्वांटीकरण को प्रॉम्प्टेबल सेगमेंटेशन कार्यों के लिए अनुकूलित किया जाता है, जो गणनात्मक आवश्यकताओं को और कम करता है। इसके अलावा, टिनीसैम का डिज़ाइन हाइरार्किकल सेगमेंटेशन के लिए है, जो लगभग दोगुनी अनुमान गति को बढ़ाता है बिना प्रदर्शन को समझौता किए।

इस लेख में टिनीसैम फ्रेमवर्क की खोज की जाती है, इसके मूलभूत सिद्धांतों, वास्तुकला, और अन्य राज्य-ऑफ-द-आर्ट सेगमेंटेशन फ्रेमवर्क के साथ इसके प्रदर्शन की तुलना की जाती है। आइए इन पहलुओं को विस्तार से देखें।

टिनीसैम : कुशल सेगमेंट एनीथिंग मॉडल

सेगमेंट एनीथिंग मॉडल ने कई कंप्यूटर दृष्टि अनुप्रयोगों में तेजी से प्रगति में मदद की है, जो इसकी प्रशंसनीय सेगमेंटेशन क्षमताओं और एक विशाल सेगमेंटेशन डेटासेट के कारण है, जिसमें 11 मिलियन से अधिक छवियां और 1 अरब से अधिक छवि मास्क हैं। इसकी असाधारण प्रदर्शन के कारण यह फ्रेमवर्क डाउनस्ट्रीम कार्यों जैसे कि छवि इनपेंटिंग, वस्तु ट्रैकिंग, 3डी दृष्टि, और अधिक के लिए आधार बनता है। इसके अलावा, सेगमेंट एनीथिंग मॉडल शून्य-शॉट सेगमेंटेशन प्रदर्शन प्रदान करता है, जो सीमित डेटा वाले उद्योगों जैसे कि चिकित्सा अनुसंधान और चिकित्सा इमेजिंग उद्योगों को लाभान्वित करता है।

हालांकि सेगमेंट एनीथिंग मॉडल की उल्लेखनीय सेगमेंटेशन क्षमताओं पर सवाल नहीं उठाया जा सकता है, लेकिन इसका एक नकारात्मक पक्ष है – जटिल वास्तुकला ओवरलोड, उच्च गणनात्मक आवश्यकताएं, और महत्वपूर्ण परिचालन लागतें। एक आधुनिक जीपीयू पर चलने वाली प्रणाली के लिए, एसएएम मॉडल का अनुमान समय 1024×1024 छवि के लिए 2 सेकंड तक हो सकता है। इसका परिणाम यह है कि यह सीमित गणनात्मक क्षमता वाले उपकरणों पर एसएएम अनुप्रयोगों को लागू करना एक कठिन कार्य है। इस बाधा को पार करने के लिए, हाल के कार्यों जैसे कि मोबाइलएसएएम और फास्टएसएएम ने एक अधिक गणनात्मक रूप से कुशल एसएएम मॉडल विकसित करने का प्रयास किया है। मोबाइलएसएएम फ्रेमवर्क छवि एनकोडर में भारी घटक को टिनीवीआईटी फ्रेमवर्क की वास्तुकला से बदलने का प्रयास करता है, जबकि फास्टएसएएम मॉडल योलोव8 मॉडल के साथ एक श्रेणी के साथ एक उदाहरण विभाजन कार्य में सेगमेंट कार्य को स्थानांतरित करता है। हालांकि इन विधियों ने गणनात्मक आवश्यकताओं को कम करने में कुछ सफलता प्राप्त की, लेकिन वे शून्य-शॉट डाउनस्ट्रीम कार्यों पर प्रदर्शन को बनाए नहीं रख सकीं।

टिनीसैम या टिनी सेगमेंट एनीथिंग मॉडल वर्तमान एसएएम मॉडल की गणनात्मक आवश्यकताओं को कम करने का प्रयास है, बिना शून्य-शॉट डाउनस्ट्रीम कार्यों पर प्रदर्शन को प्रभावित किए। इसके अलावा, टिनीसैम फ्रेमवर्क अपनी वास्तुकला में एक पूर्ण-चरण ज्ञान संक्षेपण विधि का प्रस्ताव करता है, जिसका उद्देश्य कompact छात्र नेटवर्क की क्षमता में सुधार करना है। टिनीसैम फ्रेमवर्क छात्र नेटवर्क को एक से एक तरीके से शिक्षक नेटवर्क की देखरेख में distills करता है। प्रदर्शन को और बढ़ाने के लिए, फ्रेमवर्क ज्ञान संक्षेपण प्रक्रिया को ऑनलाइन हार्ड प्रॉम्प्ट सैंपलिंग रणनीति के माध्यम से कठिन उदाहरणों पर अधिक ध्यान केंद्रित करने की अनुमति देता है। इसके अलावा, गणनात्मक लागत को और कम करने के लिए, टिनीसैम फ्रेमवर्क पोस्ट-ट्रेनिंग क्वांटीकरण को प्रॉम्प्टेबल सेगमेंटेशन कार्यों के लिए अनुकूलित करता है।

सेगमेंट एनीथिंग मॉडल की मुख्य गणनात्मक आवश्यकता ग्रिड प्रॉम्प्ट बिंदुओं से छवि में सब कुछ विभाजित करने के लिए विशाल मास्क उत्पन्न करने के कारण है। इस सेगमेंटेशन रणनीति की गणनात्मक आवश्यकता को पार करने के लिए, टिनीसैम फ्रेमवर्क एक हाइरार्किकल सेगमेंट_everything रणनीति का उपयोग करता है, जो अनुमान गति को लगभग दोगुना करता है बिना प्रदर्शन को प्रभावित किए। इन विधियों को अपनी वास्तुकला में नियोजित करने से, टिनीसैम फ्रेमवर्क महत्वपूर्ण गणनात्मक आवश्यकताओं में कमी लाता है और कुशल सेगमेंट_anything कार्यों के लिए नए सीमाएं निर्धारित करता है।

टिनीसैम : वास्तुकला और विधि

टिनीसैम फ्रेमवर्क की वास्तुकला और विधि पर चर्चा करने से पहले, इसके पूर्ववर्ती, एसएएम फ्रेमवर्क पर एक नज़र डालना महत्वपूर्ण है। एसएएम की शुरुआत के बाद से, सेगमेंट एनीथिंग मॉडल ने विभिन्न डाउनस्ट्रीम दृष्टि और वस्तु विभाजन कार्यों में उल्लेखनीय प्रदर्शन, बहुमुखी प्रतिभा, और सामान्यीकरण क्षमता प्रदर्शित की है।

एसएएम मॉडल का मूल तीन उप-नेटवर्क होते हैं: प्रॉम्प्ट एनकोडर, छवि एनकोडर, और मास्क डिकोडर। प्रॉम्प्ट एनकोडर का मुख्य उद्देश्य यादृच्छिक आकार के मास्क, इनपुट बिंदुओं और बॉक्स, और मुक्त रूप से पाठ को स्थानीय जानकारी के साथ एनकोड करना है। छवि एनकोडर एक भारी वीआईटी या दृष्टि ट्रांसफॉर्मर आधारित नेटवर्क है जो इनपुट छवि को एम्बेडिंग में परिवर्तित करता है। मॉडल ज्यामितीय और पाठ प्रॉम्प्ट्स को संसाधित करने के लिए अलग-अलग नेटवर्क का उपयोग करता है। अंत में, मास्क डिकोडर में एक दो-तरफ़ा ट्रांसफॉर्मर होता है जो प्रॉम्प्ट और छवि एनकोडर के आउटपुट को प्राप्त करता है और अंतिम मास्क पूर्वानुमान उत्पन्न करता है। डेटासेट के साथ, एसएएम फ्रेमवर्क वस्तुओं के लिए उच्च गुणवत्ता वाली सेगमेंटेशन क्षमता प्रदर्शित करता है, चाहे उनका आकार या श्रेणी कुछ भी हो। इसके अलावा, सेगमेंट एनीथिंग मॉडल शून्य-शॉट डाउनस्ट्रीम दृष्टि कार्यों में उल्लेखनीय प्रदर्शन और दक्षता प्रदर्शित करता है, जिसमें वस्तु प्रस्ताव, एज डिटेक्शन, पाठ से मास्क पूर्वानुमान, और इंस्टेंस विभाजन शामिल हैं। इसकी उच्च गुणवत्ता वाली सेगमेंटेशन क्षमताओं और लचीले प्रॉम्प्ट ऑफ़रिंग के कारण, एसएएम फ्रेमवर्क दृष्टि अनुप्रयोगों के लिए आधार बनता है। इसके साथ ही, पारंपरिक एसएएम वास्तुकला की उच्च गणनात्मक आवश्यकता को नजरअंदाज नहीं किया जा सकता है, जो विकासकर्ताओं के लिए सीमित संसाधनों वाले उपकरणों पर एसएएम आधारित अनुप्रयोगों को लागू करना मुश्किल बना देता है।

ज्ञान संक्षेपण

ज्ञान संक्षेपण कompact नेटवर्क के प्रदर्शन को बढ़ाने के लिए एक महत्वपूर्ण दृष्टिकोण है। ज्ञान संक्षेपण विधि शिक्षक नेटवर्क के आउटपुट का उपयोग करके हल्के छात्र नेटवर्क को प्रशिक्षित करने के लिए किया जाता है। ज्ञान संक्षेपण विधि को दो उपश्रेणियों में विभाजित किया जा सकता है: मध्यवर्ती विशेषताओं के लिए संक्षेपण, और नेटवर्क आउटपुट के लिए संक्षेपण, जिसमें अधिकांश शोध कार्य छवि वर्गीकरण कार्यों पर केंद्रित है।

टिनीसैम फ्रेमवर्क की सामान्य वास्तुकला और शून्य-शॉट इंस्टेंस विभाजन कार्यों पर प्रदर्शन की समीक्षा निम्नलिखित चित्र में दिखाई गई है।

पहले चरण में, टिनीसैम फ्रेमवर्क एसएएम फ्रेमवर्क के लिए विशेष रूप से डिज़ाइन किए गए ज्ञान संक्षेपण को लागू करता है, और ज्ञान संक्षेपण प्रक्रिया को और बढ़ाने के लिए, मॉडल ऑनलाइन हार्ड प्रॉम्प्ट सैंपलिंग रणनीति का उपयोग करता है। दूसरे चरण में, टिनीसैम फ्रेमवर्क पोस्ट-ट्रेनिंग क्वांटीकरण विधि को प्रॉम्प्टेबल सेगमेंटेशन कार्यों के लिए अनुकूलित करता है और इसे हल्के छात्र नेटवर्क पर लागू करता है। अंत में, मॉडल हाइरार्किकल सेगमेंट_everything अनुमान मोड को लागू करता है, जो अनुमान गति को लगभग दोगुना करता है बिना प्रदर्शन को प्रभावित किए।

पूर्ण-चरण ज्ञान संक्षेपण

जैसा कि पहले उल्लेख किया गया है, सेगमेंट एनीथिंग मॉडल में तीन उप-नेटवर्क होते हैं: प्रॉम्प्ट एनकोडर, छवि एनकोडर, और मास्क डिकोडर, जिसमें छवि एनकोडर घटक एक दृष्टि ट्रांसफॉर्मर पर आधारित होता है और उच्च गणनात्मक आवश्यकता होती है। इस समस्या को हल करने के लिए, मोबाइलएसएएम फ्रेमवर्क ने दृष्टि ट्रांसफॉर्मर को टिनीवीआईटी फ्रेमवर्क की वास्तुकला से बदल दिया, हालांकि प्रतिस्थापन प्रभावी नहीं था क्योंकि महत्वपूर्ण प्रदर्शन गिरावट थी। प्रदर्शन गिरावट को सुनिश्चित करने के लिए, टिनीसैम फ्रेमवर्क एक पूर्ण-चरण ज्ञान संक्षेपण विधि को लागू करता है जो हल्के छवि एनकोडर को शिक्षा स्तर से बहु-ज्ञान स्तर तक मार्गदर्शन करता है। इसके अलावा, टिनीसैम फ्रेमवर्क विभिन्न चरणों में कई संक्षेपण हानियों को पेश करता है, जैसा कि निम्नलिखित चित्र में दिखाया गया है।

क्वांटीकरण

मॉडल क्वांटीकरण कंप्यूटर दृष्टि फ्रेमवर्क में एक लोकप्रिय दृष्टिकोण है, और इसका उपयोग मॉडल को संकुचित करने के लिए किया जाता है bằng उच्च बैंडविड्थ से निम्न बैंडविड्थ में वजन या सक्रियण को क्वांटाइज़ करके गणनात्मक जटिलता और भंडारण आवश्यकताओं को कम करने का प्रयास किया जाता है।

टिनीसैम में क्वांटीकरण का मुख्य उद्देश्य फ्लोटिंग पॉइंट टेंसर को बिट पूर्णांक टेंसर में परियोजना करना है एक स्केलिंग फैक्टर का उपयोग करके, जिसमें मैट्रिक्स गुणन और क्वांटाइज़ मैट्रिक्स के बीच दूरी को मापने वाले मीट्रिक का स्केलिंग फैक्टर को अनुकूलित करने में एक महत्वपूर्ण भूमिका होती है।

हाइरार्किकल सेगमेंट एनीथिंग

सेगमेंट एनीथिंग मॉडल एक स्वचालित मास्क जनरेटर का प्रस्ताव करता है जो छवि में सब कुछ विभाजित करने के लिए ग्रिड बिंदुओं का नमूना लेता है। हालांकि, यह संकेत दिया गया है कि घने बिंदु ग्रिड का उपयोग करने से अधिक महीन विभाजन आउटपुट होते हैं और यह प्रक्रिया महत्वपूर्ण गणनात्मक आवश्यकताओं और उच्च परिचालन लागतों की आवश्यकता होती है। इसके अलावा, एक छोर पर, वस्तु के विभिन्न खंडों को अलग-अलग मास्क के रूप में विभाजित किया जा सकता है, जबकि दूसरी ओर, सब कुछ मोड अनुमान का समय मुख्य रूप से छवि एनकोडर को महत्वपूर्ण रूप से कम करने के कारण होता है। सब कुछ मोड की परिचालन लागत को कम करने के लिए, टिनीसैम फ्रेमवर्क एक हाइरार्किकल मास्क जनरेशन दृष्टिकोण का उपयोग करता है, जिसमें मूल एसएएम फ्रेमवर्क के साथ रणनीति में अंतर निम्नलिखित छवि में दिखाया गया है।

मूल एसएएम फ्रेमवर्क के विपरीत, टिनीसैम मॉडल केवल 25% बिंदुओं का उपयोग करता है प्रत्येक पक्ष पर, जिससे यह मूल सेटिंग में उपलब्ध बिंदुओं का केवल 1/16 उपयोग करता है। मॉडल तब मास्क डिकोडर और प्रॉम्प्ट एनकोडर के साथ इन प्रॉम्प्ट्स के साथ आउटपुट प्राप्त करता है। मॉडल तब कुछ मास्कों को फिल्टर करता है जो एक निश्चित सीमा से अधिक विश्वास के साथ, और संबंधित स्थानों को संभावित अंतिम पूर्वानुमान के क्षेत्र के रूप में मास्क करता है। चूंकि मॉडल इन क्षेत्रों को उच्च विश्वास के साथ उदाहरणों के विभाजन परिणाम के रूप में मानता है, इसलिए यह बिंदु प्रॉम्प्ट्स को उत्पन्न करने की आवश्यकता नहीं है। यह रणनीति न केवल वस्तु के अधिक महीन विभाजन को रोकने में मदद करती है, बल्कि यह परिचालन लागत और गणनात्मक आवश्यकताओं को भी महत्वपूर्ण रूप से कम करती है। फ्रेमवर्क तब इन दो राउंड के परिणामों को मर्ज और पोस्ट-प्रोसेस करता है ताकि अंतिम मास्क प्राप्त किया जा सके।

टिनीसैम : प्रयोग और परिणाम

ज्ञान संक्षेपण प्रक्रिया को तेज करने के लिए, टिनीसैम फ्रेमवर्क शिक्षक नेटवर्क से छवि एम्बेडिंग को अग्रिम रूप से गणना और संग्रहीत करता है, जिसके कारण मॉडल को प्रशिक्षण चरण के दौरान शिक्षक नेटवर्क के भारी छवि एनकोडर को बार-बार गणना करने की आवश्यकता नहीं होती है। पोस्ट-ट्रेनिंग क्वांटीकरण के लिए, टिनीसैम फ्रेमवर्क मैट्रिक्स गुणा परतों, कन्वोल्यूशन परतों, डीकनवोल्यूशन परतों, और रेखीय परतों को क्वांटाइज़ करता है, जिसमें मॉडल चैनल-वार स्केलिंग फैक्टर्स का उपयोग कन्वोल्यूशन और डीकनवोल्यूशन परतों के लिए करता है। मैट्रिक्स गुणा परतों के लिए, मॉडल हेड-वार स्केलिंग फैक्टर्स का उपयोग करता है, जबकि रेखीय परतों के लिए, मॉडल लीनियर-वार स्केलिंग फैक्टर्स का उपयोग करता है। मॉडल शून्य-शॉट डाउनस्ट्रीम कार्यों पर मूल्यांकन भी करता है।

शून्य-शॉट इंस्टेंस विभाजन कार्यों के लिए, टिनीसैम फ्रेमवर्क अपने पूर्ववर्ती, सेगमेंट एनीथिंग मॉडल के प्रयोगात्मक सेटिंग्स का अनुसरण करता है और इंस्टेंस विभाजन के लिए विजन ट्रांसफॉर्मर डेट-एच या विटडेट-एच फ्रेमवर्क के वस्तु पता लगाने के परिणामों का उपयोग करता है। जैसा कि निम्नलिखित छवि में दिखाया गया है, टिनीसैम फ्रेमवर्क मौजूदा विधियों को इंस्टेंस विभाजन सटीकता और फ्लॉप्स स्कोर दोनों में पार करता है।

इसके अलावा, टिनीसैम मॉडल का गुणात्मक प्रदर्शन शून्य-शॉट इंस्टेंस विभाजन के लिए निम्नलिखित छवि में दिखाया गया है, जिसमें हरा बॉक्स बॉक्स प्रॉम्प्ट्स का प्रतिनिधित्व करता है।

शून्य-शॉट बिंदु वैध मास्क मूल्यांकन में, टिनीसैम मॉडल मोबाइलएसएएम फ्रेमवर्क को महत्वपूर्ण रूप से पार करता है विभिन्न डेटासेट पर, और जब फ्रेमवर्क द्वारा कम संख्या में बिंदुओं का उपयोग किया जाता है तो यह महत्वपूर्ण रूप से बेहतर परिणाम प्रदान करता है।

इसके अलावा, निम्नलिखित तालिका हाइरार्किकल सब कुछ मोड रणनीति के परिणामस्वरूप त्वरण और गणनात्मक आवश्यकताओं में कमी को सारांशित करती है। मॉडल एक ही रणनीति के साथ एक ही स्थिरता स्कोर और थ्रेशोल्ड मान का उपयोग करता है ताकि एक निष्पक्ष तुलना की जा सके। परिणाम निम्नलिखित हैं।

अंतिम विचार

इस लेख में, हमने टिनीसैम के बारे में चर्चा की है, जो सेगमेंट_anything कार्यों के लिए सीमाओं को आगे बढ़ाने वाला एक प्रस्तावित फ्रेमवर्क है, और एक कुशल मॉडल वास्तुकला प्राप्त करता है जिसमें कम गणनात्मक आवश्यकताएं होती हैं और मूल एसएएम फ्रेमवर्क के साथ तुलनीय सटीकता होती है। टिनीसैम या टिनी सेगमेंट एनीथिंग मॉडल मूल फ्रेमवर्क के शून्य-शॉट प्रदर्शन को बनाए रखते हुए एक अधिक हल्का मॉडल प्रदान करता है। टिनीसैम फ्रेमवर्क पहले एक पूर्ण-चरण ज्ञान संक्षेपण विधि को लागू करता है जो ऑनलाइन हार्ड प्रॉम्प्ट्स का उपयोग करके एक अधिक कुशल छात्र मॉडल को संक्षेपित करता है। टिनीसैम फ्रेमवर्क तब पोस्ट-ट्रेनिंग क्वांटीकरण को प्रॉम्प्टेबल सेगमेंटेशन कार्यों के लिए अनुकूलित करता है, जो गणनात्मक आवश्यकताओं को और कम करता है। इसके अलावा, फ्रेमवर्क हाइरार्किकल सेगमेंट_everything का लक्ष्य रखता है, जो अनुमान गति को लगभग दोगुना करता है बिना प्रदर्शन को प्रभावित किए। इन विधियों को अपनी वास्तुकला में नियोजित करने से, टिनीसैम फ्रेमवर्क महत्वपूर्ण गणनात्मक आवश्यकताओं में कमी लाता है और कुशल सेगमेंट_anything कार्यों के लिए नए सीमाएं निर्धारित करता है।

Kunal Kejriwal

एक इंजीनियर पेशे से, एक लेखक दिल से। कुनाल एक तकनीकी लेखक हैं जिन्हें एआई और एमएल के प्रति गहरा प्यार और समझ है, जो अपने आकर्षक और जानकारीपूर्ण दस्तावेज़ के माध्यम से इन क्षेत्रों में जटिल अवधारणाओं को सरल बनाने के लिए समर्पित हैं।