कृत्रिम बुद्धिमत्ता

DiffSeg : अनसुपरवाइज्ड जीरो-शॉट सेगमेंटेशन स्टेबल डिफ्यूजन का उपयोग करके

Published December 26, 2023

Updated April 27, 2026

Kunal Kejriwal

DiffSeg : Unsupervised Zero-Shot Segmentation using Stable Diffusion

कंप्यूटर विजन-आधारित मॉडल्स में एक मुख्य चुनौती उच्च-गुणवत्ता वाले सेगमेंटेशन मास्क का उत्पादन करना है। हाल के वर्षों में बड़े पैमाने पर पर्यवेक्षित प्रशिक्षण में प्रगति ने विभिन्न छवि शैलियों में शून्य-शॉट सेगमेंटेशन को सक्षम किया है। इसके अलावा, अनसुपरवाइज्ड प्रशिक्षण ने व्यापक एनोटेशन की आवश्यकता के बिना सेगमेंटेशन को सरल बना दिया है। इन विकासों के बावजूद, एक कंप्यूटर विजन फ्रेमवर्क का निर्माण जो बिना एनोटेशन के शून्य-शॉट सेटिंग में किसी भी चीज़ को सेगमेंट कर सकता है, एक जटिल कार्य बना हुआ है। सेमेंटिक सेगमेंटेशन, कंप्यूटर विजन मॉडल्स में एक मूलभूत अवधारणा, एक छवि को छोटे क्षेत्रों में विभाजित करने के लिए शामिल है जो समान अर्थों को साझा करते हैं। यह तकनीक कई डाउनस्ट्रीम कार्यों के लिए आधार तैयार करती है, जैसे कि मेडिकल इमेजिंग, इमेज एडिटिंग, स्वायत्त ड्राइविंग, और अधिक।

कंप्यूटर विजन मॉडल्स के विकास को आगे बढ़ाने के लिए, यह महत्वपूर्ण है कि छवि सेगमेंटेशन को एक निश्चित डेटासेट के साथ सीमित न किया जाए जिसमें सीमित श्रेणियां हों। इसके बजाय, यह विभिन्न अन्य अनुप्रयोगों के लिए एक बहुमुखी आधारभूत कार्य के रूप में कार्य करना चाहिए। हालांकि, प्रति पिक्सेल आधार पर लेबल एकत्र करने की उच्च लागत एक महत्वपूर्ण चुनौती प्रस्तुत करती है, जो शून्य-शॉट और पर्यवेक्षित सेगमेंटेशन विधियों की प्रगति को सीमित करती है जिन्हें कोई एनोटेशन की आवश्यकता नहीं होती है और लक्ष्य तक पहले से पहुंच नहीं होती है। यह लेख बताएगा कि स्टेबल डिफ्यूजन मॉडल्स में स्व-ध्यान層 कैसे एक मॉडल के निर्माण को सुविधाजनक बना सकते हैं जो शून्य-शॉट सेटिंग में किसी भी इनपुट को सेगमेंट कर सकता है, यहां तक कि उचित एनोटेशन के बिना भी। ये स्व-ध्यान层 स्वाभाविक रूप से एक पूर्व-प्रशिक्षित स्टेबल डिफ्यूजन मॉडल द्वारा सीखे गए वस्तु अवधारणाओं को समझते हैं।

DiffSeg : एक उन्नत शून्य-शॉट सेगमेंटेशन एल्गोरिदम

सेमेंटिक सेगमेंटेशन एक प्रक्रिया है जो एक छवि को विभिन्न खंडों में विभाजित करती है, जिसमें प्रत्येक खंड समान अर्थों को साझा करता है। यह तकनीक कई डाउनस्ट्रीम कार्यों के लिए आधार तैयार करती है। पारंपरिक रूप से, शून्य-शॉट कंप्यूटर विजन कार्यों ने पर्यवेक्षित सेमेंटिक सेगमेंटेशन पर निर्भर किया है, जिसमें बड़े डेटासेट के साथ एनोटेटेड और लेबल वाली श्रेणियां होती हैं। हालांकि, शून्य-शॉट सेटिंग में अनसुपरवाइज्ड सेमेंटिक सेगमेंटेशन को लागू करना अभी भी एक चुनौती है। जबकि पारंपरिक पर्यवेक्षित विधियां प्रभावी होती हैं, उनकी प्रति पिक्सेल लेबलिंग लागत अक्सर निषेधात्मक होती है, जो कम प्रतिबंधात्मक शून्य-शॉट सेटिंग में अनसुपरवाइज्ड सेगमेंटेशन विधियों के विकास की आवश्यकता को रेखांकित करती है, जहां मॉडल को एनोटेटेड डेटा या डेटा की पूर्व ज्ञान की आवश्यकता नहीं होती है।

इस सीमा को दूर करने के लिए, DiffSeg एक नई पोस्ट-प्रोसेसिंग रणनीति पेश करता है, जो स्टेबल डिफ्यूजन फ्रेमवर्क की क्षमताओं का लाभ उठाकर एक सामान्य सेगमेंटेशन मॉडल बनाने के लिए जो किसी भी छवि पर शून्य-शॉट ट्रांसफर कर सकता है। स्टेबल डिफ्यूजन फ्रेमवर्क उच्च-रिज़ॉल्यूशन वाली छवियों को प्रॉम्प्ट स्थितियों के आधार पर उत्पन्न करने में अपनी प्रभावशीलता का प्रदर्शन कर चुके हैं। उत्पन्न छवियों के लिए, ये फ्रेमवर्क संबंधित पाठ प्रॉम्प्ट्स का उपयोग करके सेगमेंटेशन मास्क उत्पन्न कर सकते हैं, जिनमें आमतौर पर केवल प्रमुख फोरग्राउंड वस्तुएं शामिल होती हैं।

इसके विपरीत, DiffSeg एक नवाचारी पोस्ट-प्रोसेसिंग विधि है जो सेगमेंटेशन मास्क बनाने के लिए एक डिफ्यूजन मॉडल में स्व-ध्यान層 से ध्यान टेंसर का उपयोग करती है। DiffSeg एल्गोरिदम में तीन मुख्य घटक होते हैं: पुनरावृत्ति ध्यान मिलान, ध्यान संग्रह, और गैर-आधिकतम दमन, जैसा कि निम्नलिखित छवि में दिखाया गया है।

DiffSeg एल्गोरिदम मultiple रिज़ॉल्यूशन पर दृश्य जानकारी को संरक्षित करता है ध्यान टेंसर को स्थानिक संगति के साथ समाहित करके, और एक पुनरावृत्ति मिलान प्रक्रिया का उपयोग करके एंकर बिंदुओं का नमूना लेता है। ये एंकर समान वस्तु एंकर को अंततः अवशोषित करने के लिए मिलाने वाले ध्यान मास्क के लिए लॉन्चपैड के रूप में कार्य करते हैं। DiffSeg फ्रेमवर्क KL विचलन विधि का उपयोग करके ध्यान मिलान प्रक्रिया को नियंत्रित करता है ध्यान मानचित्रों के बीच समानता को मापने के लिए।

क्लस्टरिंग-आधारित अनसुपरवाइज्ड सेगमेंटेशन विधियों की तुलना में, डेवलपर्स को DiffSeg एल्गोरिदम में पहले से क्लस्टर की संख्या निर्दिष्ट करने की आवश्यकता नहीं होती है, और यहां तक कि किसी भी पूर्व ज्ञान के बिना, DiffSeg एल्गोरिदम सेगमेंटेशन उत्पन्न कर सकता है बिना किसी अतिरिक्त संसाधनों का उपयोग किए। समग्र रूप से, DiffSeg एल्गोरिदम “एक नवाचारी अनसुपरवाइज्ड और शून्य-शॉट सेगमेंटेशन विधि है जो एक पूर्व-प्रशिक्षित स्टेबल डिफ्यूजन मॉडल का उपयोग करती है, और किसी भी अतिरिक्त संसाधनों या पूर्व ज्ञान के बिना छवियों को सेगमेंट कर सकती है।”

DiffSeg : मूलभूत अवधारणाएं

DiffSeg एक नवाचारी एल्गोरिदम है जो डिफ्यूजन मॉडल्स, अनसुपरवाइज्ड सेगमेंटेशन, और शून्य-शॉट सेगमेंटेशन के ज्ञान पर आधारित है।

डिफ्यूजन मॉडल्स

DiffSeg एल्गोरिदम पूर्व-प्रशिक्षित डिफ्यूजन मॉडल्स से सीखे गए ज्ञान पर आधारित है। डिफ्यूजन मॉडल्स कंप्यूटर विजन मॉडल्स के लिए सबसे लोकप्रिय उत्पन्न फ्रेमवर्क हैं, और वे एक नमूने से इसोट्रोपिक गाउसियन नॉइज़ छवि तक आगे और उल्टे डिफ्यूजन प्रक्रिया को सीखते हैं। स्टेबल डिफ्यूजन डिफ्यूजन मॉडल्स का सबसे लोकप्रिय संस्करण है, और इसका उपयोग पर्यवेक्षित सेगमेंटेशन, शून्य-शॉट वर्गीकरण, सेमेंटिक-संवाद मिलान, लेबल-कुशल सेगमेंटेशन, और ओपन-वोकेबुलरी सेगमेंटेशन जैसे विभिन्न कार्यों के लिए किया जाता है। हालांकि, डिफ्यूजन मॉडल्स के साथ एकमात्र समस्या यह है कि वे उच्च-आयामी दृश्य विशेषताओं पर निर्भर करते हैं और अक्सर इन विशेषताओं का पूरा लाभ उठाने के लिए अतिरिक्त प्रशिक्षण की आवश्यकता होती है।

अनसुपरवाइज्ड सेगमेंटेशन

DiffSeg एल्गोरिदम अनसुपरवाइज्ड सेगमेंटेशन से密त से संबंधित है, जो एक आधुनिक एआई अभ्यास है जो किसी भी एनोटेशन का उपयोग किए बिना घने सेगमेंटेशन मास्क उत्पन्न करने का लक्ष्य रखता है। हालांकि, अच्छा प्रदर्शन देने के लिए, अनसुपरवाइज्ड सेगमेंटेशन मॉडल्स को लक्ष्य डेटासेट पर कुछ पूर्व अनसुपरवाइज्ड प्रशिक्षण की आवश्यकता होती है। अनसुपरवाइज्ड सेगमेंटेशन आधारित एआई फ्रेमवर्क को दो श्रेणियों में वर्गीकृत किया जा सकता है: पूर्व-प्रशिक्षित मॉडल्स का उपयोग करके क्लस्टरिंग, और अक्षरांश में आधारित क्लस्टरिंग। पहली श्रेणी में, फ्रेमवर्क पूर्व-प्रशिक्षित मॉडल्स द्वारा सीखे गए विभेदक विशेषताओं का उपयोग सेगमेंटेशन मास्क उत्पन्न करने के लिए करते हैं, जबकि दूसरी श्रेणी में फ्रेमवर्क एक सामान्य क्लस्टरिंग एल्गोरिदम का उपयोग करते हैं जो दो छवियों के बीच परस्पर जानकारी को tối ưu करता है ताकि छवियों को सेमेंटिक क्लस्टर में विभाजित किया जा सके और अवक्षयी सेगमेंटेशन से बचा जा सके।

शून्य-शॉट सेगमेंटेशन

DiffSeg एल्गोरिदम शून्य-शॉट सेगमेंटेशन फ्रेमवर्क से密त से संबंधित है, जो किसी भी पूर्व प्रशिक्षण या ज्ञान के बिना किसी भी वस्तु को सेगमेंट करने में सक्षम है। शून्य-शॉट सेगमेंटेशन मॉडल्स ने हाल के समय में असाधारण शून्य-शॉट ट्रांसफर क्षमता का प्रदर्शन किया है, हालांकि उन्हें कुछ पाठ इनपुट और प्रॉम्प्ट्स की आवश्यकता होती है। इसके विपरीत, DiffSeg एल्गोरिदम एक डिफ्यूजन मॉडल का उपयोग करके सेगमेंटेशन उत्पन्न करता है बिना किसी प्रश्न या सिंथेटिक छवियों के संयोजन के, और बिना वस्तु की सामग्री को जानते हुए।

DiffSeg : विधि और वास्तुकला

DiffSeg एल्गोरिदम एक पूर्व-प्रशिक्षित स्टेबल डिफ्यूजन मॉडल में स्व-ध्यान層 का उपयोग करके उच्च-गुणवत्ता वाले सेगमेंटेशन कार्यों को उत्पन्न करता है।

स्टेबल डिफ्यूजन मॉडल

स्टेबल डिफ्यूजन DiffSeg फ्रेमवर्क में एक मूलभूत अवधारणा है। स्टेबल डिफ्यूजन एक उत्पन्न एआई फ्रेमवर्क है, और सबसे लोकप्रिय डिफ्यूजन मॉडल्स में से एक है। डिफ्यूजन मॉडल की एक मुख्य विशेषता एक आगे और एक उल्टा पास है। आगे पास में, एक छवि में प्रत्येक समय चरण में एक छोटी मात्रा में गाउसियन नॉइज़ जोड़ा जाता है जब तक कि छवि एक इसोट्रोपिक गाउसियन नॉइज़ छवि नहीं बन जाती। उल्टे पास में, डिफ्यूजन मॉडल इसोट्रोपिक गाउसियन नॉइज़ छवि में नॉइज़ को हटाता है ताकि मूल छवि को गाउसियन नॉइज़ के बिना पुनर्प्राप्त किया जा सके।

स्टेबल डिफ्यूजन फ्रेमवर्क एक एनकोडर-डिकोडर और एक यू-नेट डिज़ाइन का उपयोग करता है जिसमें स्व-ध्यान層 होता है, जहां यह एक एनकोडर का उपयोग करके पहले एक छवि को एक लेटेंट स्पेस में छोटे स्थानिक आयामों के साथ संकुचित करता है, और डिकोडर का उपयोग करके छवि को वापस प्राप्त करने के लिए। यू-नेट आर्किटेक्चर में मॉड्यूलर ब्लॉक्स का एक स्टैक होता है, जहां प्रत्येक ब्लॉक या तो एक ट्रांसफॉर्मर लेयर या एक रेसनेट लेयर से बना होता है।

घटक और वास्तुकला

डिफ्यूजन मॉडल्स में स्व-ध्यान層 स्थानिक ध्यान मानचित्रों के रूप में वस्तुओं की जानकारी को समूहित करते हैं, और DiffSeg एक नवाचारी पोस्ट-प्रोसेसिंग विधि है जो ध्यान टेंसर को एक वैध सेगमेंटेशन मास्क में मिलाने के लिए। पाइपलाइन में तीन मुख्य घटक होते हैं: ध्यान संग्रह, गैर-आधिकतम दमन, और पुनरावृत्ति ध्यान।

ध्यान संग्रह

एक इनपुट छवि जो यू-नेट लेयर्स और एनकोडर से गुजरती है, स्टेबल डिफ्यूजन मॉडल 16 ध्यान टेंसर उत्पन्न करता है, जिसमें प्रत्येक आयाम के लिए 5 टेंसर होते हैं। 16 टेंसर उत्पन्न करने का मुख्य उद्देश्य इन टेंसर को विभिन्न रिज़ॉल्यूशन के साथ एक टेंसर में समाहित करना है जिसमें सबसे उच्च संभव रिज़ॉल्यूशन हो। इसे प्राप्त करने के लिए, DiffSeg एल्गोरिदम 4 आयामों को एक दूसरे से अलग तरह से व्यवहार करता है।

चार आयामों में से, ध्यान सेंसर के अंतिम 2 आयामों में विभिन्न रिज़ॉल्यूशन होते हैं लेकिन वे स्थानिक रूप से संगत होते हैं क्योंकि 2डी स्थानिक मानचित्र DiffSeg फ्रेमवर्क के स्थानों और स्थानिक स्थितियों के बीच संबंध को दर्शाता है। परिणामस्वरूप, DiffSeg फ्रेमवर्क इन दोनों आयामों को सभी ध्यान मानचित्रों के लिए सबसे उच्च रिज़ॉल्यूशन, 64 x 64 तक नमूना लेता है। दूसरी ओर, पहले 2 आयाम ध्यान मानचित्रों के स्थान संदर्भ को दर्शाते हैं, जैसा कि निम्नलिखित छवि में दिखाया गया है।

क्योंकि ये आयाम ध्यान मानचित्रों के स्थान को संदर्भित करते हैं, ध्यान मानचित्रों को तदनुसार समाहित किया जाना चाहिए। इसके अलावा, यह सुनिश्चित करने के लिए कि समाहित ध्यान मानचित्र में एक वैध वितरण है, फ्रेमवर्क समाहिति के बाद वितरण को सामान्य करता है, प्रत्येक ध्यान मानचित्र को उसके रिज़ॉल्यूशन के अनुपात में एक वजन सौंपा जाता है।

पुनरावृत्ति ध्यान मिलान

जबकि ध्यान संग्रह का मुख्य उद्देश्य एक ध्यान टेंसर की गणना करना था, मुख्य उद्देश्य ध्यान मानचित्रों को एक वस्तु प्रस्ताव के स्टैक में मिलाना है जहां प्रत्येक प्रस्ताव में या तो स्टफ श्रेणी या एकल वस्तु की सक्रियता होती है। इसे प्राप्त करने के लिए प्रस्तावित समाधान एक के-मीन्स एल्गोरिदम को टेंसर के वैध वितरण पर लागू करना है ताकि वस्तुओं के क्लस्टर को खोजा जा सके। हालांकि, के-मीन्स का उपयोग करना सबसे अच्छा समाधान नहीं है क्योंकि के-मीन्स क्लस्टरिंग के लिए उपयोगकर्ता को पहले से क्लस्टर की संख्या निर्दिष्ट करने की आवश्यकता होती है। इसके अलावा, के-मीन्स एल्गोरिदम को लागू करने से एक ही छवि के लिए विभिन्न परिणाम हो सकते हैं क्योंकि यह स्टोचastically प्रारंभिक मानों पर निर्भर करता है। इस बाधा को दूर करने के लिए, DiffSeg फ्रेमवर्क प्रस्तावों को बनाने के लिए एक नमूना ग्रिड उत्पन्न करने का प्रस्ताव करता है ध्यान मानचित्रों को पुनरावृत्ति रूप से मिलाने के लिए।

गैर-आधिकतम दमन

पिछले चरण में पुनरावृत्ति ध्यान मिलान एक वस्तु प्रस्ताव की सूची उत्पन्न करता है जिसमें प्रत्येक वस्तु प्रस्ताव में वस्तु की सक्रियता होती है। फ्रेमवर्क गैर-आधिकतम दमन का उपयोग करके वस्तु प्रस्तावों की सूची को एक वैध सेगमेंटेशन मास्क में परिवर्तित करता है, और यह प्रक्रिया एक प्रभावी दृष्टिकोण है क्योंकि सूची में प्रत्येक तत्व पहले से ही एक संभावना वितरण मानचित्र है। प्रत्येक स्थानिक स्थिति में सभी मानचित्रों के लिए, एल्गोरिदम सबसे बड़ी संभावना के सूचकांक को लेता है और संबंधित मानचित्र के सूचकांक के आधार पर एक सदस्यता सौंपता है।

DiffSeg : प्रयोग और परिणाम

अनसुपरवाइज्ड सेगमेंटेशन पर काम करने वाले फ्रेमवर्क दो सेगमेंटेशन बेंचमार्क का उपयोग करते हैं: सिटीस्केप्स और कोको-स्टफ-27। सिटीस्केप्स बेंचमार्क एक स्व-ड्राइविंग डेटासेट है जिसमें 27 मध्य-स्तरीय श्रेणियां हैं, जबकि कोको-स्टफ-27 बेंचमार्क मूल कोको-स्टफ डेटासेट का एक क्यूरेटेड संस्करण है जो 80 चीजों और 91 श्रेणियों को 27 श्रेणियों में मिलाता है। इसके अलावा, सेगमेंटेशन प्रदर्शन का विश्लेषण करने के लिए, DiffSeg फ्रेमवर्क मीन इंटरसेक्शन ओवर यूनियन या मआईओयू और पिक्सेल सटीकता या एसी का उपयोग करता है, और चूंकि DiffSeg एल्गोरिदम एक सेमेंटिक लेबल प्रदान नहीं कर सकता है, यह हंगेरियन मिलान एल्गोरिदम का उपयोग करके एक ग्राउंड ट्रुथ मास्क को प्रत्येक पूर्वानुमानित मास्क के साथ सौंपता है। यदि पूर्वानुमानित मास्क की संख्या ग्राउंड ट्रुथ मास्क की संख्या से अधिक है, तो फ्रेमवर्क असमान पूर्वानुमानित कार्यों को झूठे नकारात्मक के रूप में मानता है।

इसके अलावा, DiffSeg फ्रेमवर्क भाषा निर्भरता या एलडी, अनसुपरवाइज्ड अनुकूलन या यूए, और सहायक छवि या एएक्स पर जोर देता है ताकि हस्तक्षेप चलाया जा सके। भाषा निर्भरता का अर्थ है कि विधि को छवि के लिए सेगमेंटेशन सुविधा प्रदान करने के लिए विवरणात्मक पाठ इनपुट की आवश्यकता होती है, अनसुपरवाइज्ड अनुकूलन का अर्थ है कि विधि को लक्ष्य डेटासेट पर अनसुपरवाइज्ड प्रशिक्षण की आवश्यकता होती है, जबकि सहायक छवि का अर्थ है कि विधि को सिंथेटिक छवियों या संदर्भ छवियों के पूल के रूप में अतिरिक्त इनपुट की आवश्यकता होती है।

परिणाम

कोको बेंचमार्क पर, DiffSeg फ्रेमवर्क में दो के-मीन्स बेसलाइन शामिल हैं: के-मीन्स-एस और के-मीन्स-सी। के-मीन्स-सी बेसलाइन में 6 क्लस्टर होते हैं जो मूल्यांकन की जाने वाली छवियों में वस्तुओं की संख्या को औसत करके गणना की जाती है, जबकि के-मीन्स-एस बेसलाइन प्रत्येक छवि के लिए ग्राउंड ट्रुथ में मौजूद वस्तुओं की संख्या के आधार पर एक विशिष्ट संख्या में क्लस्टर का उपयोग करती है, और दोनों बेसलाइन पर परिणाम निम्नलिखित छवि में दिखाए गए हैं।

जैसा कि देखा जा सकता है, के-मीन्स बेसलाइन मौजूदा विधियों को पार करती है, जो स्व-ध्यान टेंसर का उपयोग करने के लाभ को प्रदर्शित करती है। दिलचस्प बात यह है कि के-मीन्स-एस बेसलाइन के-मीन्स-सी बेसलाइन को पार करती है, जो यह दर्शाती है कि क्लस्टर की संख्या एक मूलभूत हाइपरपैरामीटर है, और इसका समायोजन प्रत्येक छवि के लिए महत्वपूर्ण है। इसके अलावा, यहां तक कि जब समान ध्यान टेंसर पर निर्भर करते हुए, DiffSeg फ्रेमवर्क के-मीन्स बेसलाइन को पार करता है, जो DiffSeg फ्रेमवर्क की क्षमता को साबित करता है न केवल बेहतर सेगमेंटेशन प्रदान करने के लिए, बल्कि के-मीन्स बेसलाइन के द्वारा प्रस्तुत नुकसान से बचने के लिए भी।

सिटीस्केप्स डेटासेट पर, DiffSeg फ्रेमवर्क 320-रिज़ॉल्यूशन इनपुट वाले फ्रेमवर्क के समान परिणाम प्रदान करता है, जबकि 512-रिज़ॉल्यूशन इनपुट वाले फ्रेमवर्क को पार करता है सटीकता और मआईओयू पर।

जैसा कि पहले उल्लेख किया गया है, DiffSeg फ्रेमवर्क में कई हाइपरपैरामीटर होते हैं, जैसा कि निम्नलिखित छवि में दिखाया गया है।

ध्यान संग्रह DiffSeg फ्रेमवर्क में एक मूलभूत अवधारणा है, और विभिन्न संग्रह वजनों का उपयोग करने के प्रभाव को निम्नलिखित छवि में दिखाया गया है, छवि के रिज़ॉल्यूशन को स्थिर रखा गया है।

जैसा कि देखा जा सकता है, उच्च-रिज़ॉल्यूशन मानचित्र (बी) 64 x 64 मानचित्रों में सबसे विस्तृत सेगमेंटेशन प्रदान करते हैं, हालांकि सेगमेंटेशन में कुछ दृश्य दरारें हो सकती हैं। निम्न-रिज़ॉल्यूशन 32 x 32 मानचित्र विवरणों को अधिक सेगमेंट करते हैं, हालांकि वे बेहतर सुसंगत सेगमेंटेशन प्रदान करते हैं। चित्र (डी) में, निम्न-रिज़ॉल्यूशन मानचित्र कोई सेगमेंटेशन उत्पन्न नहीं करते हैं क्योंकि पूरी छवि एक ही वस्तु में मिल जाती है मौजूदा हाइपरपैरामीटर सेटिंग्स के साथ। अंत में, चित्र (ए) जो एक आनुपातिक संग्रह रणनीति का उपयोग करता है, विस्तार और सुसंगतता के बीच संतुलन प्रदान करता है।

अंतिम विचार

शून्य-शॉट अनसुपरवाइज्ड सेगमेंटेशन अभी भी कंप्यूटर विजन फ्रेमवर्क के लिए एक बड़ी चुनौती है, और मौजूदा मॉडल्स या तो गैर-शून्य-शॉट अनसुपरवाइज्ड अनुकूलन या बाहरी संसाधनों पर निर्भर करते हैं। इस बाधा को दूर करने के लिए, हमने बताया है कि स्टेबल डिफ्यूजन मॉडल्स में स्व-ध्यान層 कैसे एक मॉडल के निर्माण को सुविधाजनक बना सकते हैं जो शून्य-शॉट सेटिंग में किसी भी इनपुट को सेगमेंट कर सकता है बिना उचित एनोटेशन के। हमने DiffSeg के बारे में भी बताया, जो एक नवाचारी पोस्ट-प्रोसेसिंग रणनीति है जो स्टेबल डिफ्यूजन फ्रेमवर्क की क्षमताओं का लाभ उठाकर एक सामान्य सेगमेंटेशन मॉडल बनाने का लक्ष्य रखती है जो किसी भी छवि पर शून्य-शॉट ट्रांसफर कर सकता है। एल्गोरिदम इंटर-ध्यान समानता और इन्ट्रा-ध्यान समानता का उपयोग करके ध्यान मानचित्रों को पुनरावृत्ति रूप से मिलाने के लिए वैध सेगमेंटेशन मास्क में परिवर्तित करने के लिए।

Kunal Kejriwal

एक इंजीनियर पेशे से, एक लेखक दिल से। कुनाल एक तकनीकी लेखक हैं जिन्हें एआई और एमएल के प्रति गहरा प्यार और समझ है, जो अपने आकर्षक और जानकारीपूर्ण दस्तावेज़ के माध्यम से इन क्षेत्रों में जटिल अवधारणाओं को सरल बनाने के लिए समर्पित हैं।