рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
рд╕реИрдкрд┐рдпрдиреНрд╕: рдорд╛рдирд╡ рджреГрд╖реНрдЯрд┐ рдореЙрдбрд▓ рдореЗрдВ рдПрдХ рдирдП рдпреБрдЧ рдХреА рд╢реБрд░реБрдЖрдд
भाषा मॉडलिंग के लिए बड़े पैमाने पर प्रीट्रेनिंग के बाद टास्क-विशिष्ट फाइन-ट्यूनिंग की सफलता ने इस दृष्टिकोण को एक मानक अभ्यास के रूप में स्थापित किया है। इसी तरह, कंप्यूटर विजन विधियां व्यापक डेटा स्केल के लिए प्रीट्रेनिंग को अपना रही हैं। बड़े डेटासेट जैसे कि LAION5B, Instagram-3.5B, JFT-300M, LVD142M, Visual Genome, और YFCC100M के उद्भव ने पारंपरिक बेंचमार्क के दायरे से परे एक डेटा निगम की खोज को सक्षम किया है। इस क्षेत्र में उल्लेखनीय कार्य में DINOv2, MAWS, और AIM शामिल हैं। DINOv2 LDV-142M डेटासेट पर कंट्रास्टिव iBot विधि को स्केल करके स्व-पर्यवेक्षित विशेषताओं के उत्पादन में राज्य-कला प्रदर्शन प्राप्त करता है। MAWS अरबों छवियों पर मास्केड-ऑटोएनकोडर्स (MAE) के स्केलिंग का अध्ययन करता है। AIM दृष्टि ट्रांसफॉर्मर के लिए बERT के समान ऑटोरेग्रेसिव दृश्य प्रीट्रेनिंग की स्केलेबिलिटी का अन्वेषण करता है। इन विधियों के विपरीत, जो मुख्य रूप से सामान्य छवि प्रीट्रेनिंग या शून्य-शॉट छवि वर्गीकरण पर केंद्रित हैं, सैपियन्स एक विशिष्ट मानव-केंद्रित दृष्टिकोण अपनाता है: सैपियन्स के मॉडल एक विशाल संग्रह का लाभ उठाते हैं। मानव छवियों के लिए प्रीट्रेनिंग, बाद में मानव-संबंधित कार्यों के एक श्रृंखला के लिए फाइन-ट्यूनिंग। कंप्यूटर विजन में बड़े पैमाने पर 3D मानव डिजिटलीकरण अभी भी एक प्रमुख लक्ष्य बना हुआ है।
नियंत्रित या स्टूडियो वातावरण में महत्वपूर्ण प्रगति की गई है, लेकिन असीमित वातावरण में इन विधियों को बढ़ाने में चुनौतियां बनी हुई हैं। इन चुनौतियों का सामना करने के लिए, कई मूलभूत कार्यों जैसे कि कीपोइंट अनुमान, शरीर के अंग विभाजन, गहराई अनुमान, और सतह सामान्य अनुमान जैसे कार्यों के लिए सक्षम मॉडल विकसित करना आवश्यक है। सैपियन्स का उद्देश्य इन मानव दृष्टि कार्यों के लिए मॉडल विकसित करना है जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। वर्तमान में, सबसे बड़े सार्वजनिक रूप से उपलब्ध भाषा मॉडल में 100B पैरामीटर होते हैं, जबकि अधिक सामान्य भाषा मॉडल में लगभग 7B पैरामीटर होते हैं। इसके विपरीत, विजन ट्रांसफॉर्मर (ViT),尽管 उन्होंने एक समान वास्तुकला साझा की है, उन्हें इस सीमा तक सफलतापूर्वक स्केल नहीं किया गया है। जबकि इस दिशा में उल्लेखनीय प्रयास हैं, जिनमें एक घने ViT-4B का विकास शामिल है जो पाठ और छवियों दोनों पर प्रशिक्षित है, और ViT-22B के स्थिर प्रशिक्षण के लिए तकनीकों का गठन, सामान्य रूप से उपयोग किए जाने वाले दृष्टि बैकबोन 300M से 600M पैरामीटर के बीच होते हैं और मुख्य रूप से लगभग 224 पिक्सल के छवि रिज़ॉल्यूशन पर प्रीट्रेन किए जाते हैं। इसी तरह, मौजूदा ट्रांसफॉर्मर-आधारित छवि पीढ़ी मॉडल, जैसे कि DiT, 700M पैरामीटर से कम का उपयोग करते हैं और एक अत्यधिक संकुचित लेटेंट स्पेस पर काम करते हैं। इस अंतर को पाटने के लिए, सैपियन्स ने मिलियन मानव छवियों पर 1024-पिक्सेल छवि रिज़ॉल्यूशन पर प्रीट्रेन किए गए बड़े, उच्च-रिज़ॉल्यूशन ViT मॉडलों का एक संग्रह प्रस्तुत किया है।
सैपियन्स मानव-केंद्रित दृष्टि मॉडल के लिए एक नए युग की शुरुआत का प्रतिनिधित्व करता है, जो मानव दृष्टि कार्यों के लिए एक मॉडल प्रदान करता है जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स के मॉडल मानव छवियों के एक विशाल संग्रह पर प्रीट्रेन किए जाते हैं और फिर मानव-संबंधित कार्यों के लिए फाइन-ट्यून किए जाते हैं। सैपियन्स का उद्देश्य मानव दृष्टि कार्यों के लिए मॉडल विकसित करना है जो जंगली सेटिंग्स में सामान्यीकृत होते हैं।
सैपियन्स के मॉडल मानव दृष्टि कार्यों के लिए एक मॉडल प्रदान करते हैं जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स के मॉडल मानव छवियों के एक विशाल संग्रह पर प्रीट्रेन किए जाते हैं और फिर मानव-संबंधित कार्यों के लिए फाइन-ट्यून किए जाते हैं। सैपियन्स का उद्देश्य मानव दृष्टि कार्यों के लिए मॉडल विकसित करना है जो जंगली सेटिंग्स में सामान्यीकृत होते हैं।
सैपियन्स के मॉडल मानव दृष्टि कार्यों के लिए एक मॉडल प्रदान करते हैं जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स के मॉडल मानव छवियों के एक विशाल संग्रह पर प्रीट्रेन किए जाते हैं और फिर मानव-संबंधित कार्यों के लिए फाइन-ट्यून किए जाते हैं। सैपियन्स का उद्देश्य मानव दृष्टि कार्यों के लिए मॉडल विकसित करना है जो जंगली सेटिंग्स में सामान्यीकृत होते हैं।
सैपियन्स: मानव दृष्टि मॉडल में एक नए युग की शुरुआत
हाल के वर्षों में 2D और 3D में फोटोरियलिस्टिक मानव उत्पादन की दिशा में उल्लेखनीय प्रगति हुई है। इन विधियों की सफलता विभिन्न संपत्तियों जैसे कि 2D कीपोइंट, शरीर के अंग विभाजन, गहराई, और सतह सामान्य के मजबूत अनुमान के लिए जिम्मेदार है। हालांकि, इन संपत्तियों का सटीक अनुमान अभी भी एक सक्रिय अनुसंधान क्षेत्र बना हुआ है, और व्यक्तिगत कार्यों के लिए प्रदर्शन को बढ़ाने के लिए जटिल प्रणालियां व्यापक अपनाने में बाधा डालती हैं। इसके अलावा, जंगली में सटीक मूल्यांकन लेबल प्राप्त करना पैमाने पर चुनौतीपूर्ण है। सैपियन्स का उद्देश्य इन संपत्तियों को जंगली में अनुमान लगाने के लिए एक एकीकृत फ्रेमवर्क और मॉडल प्रदान करना है, जो विभिन्न मानव-केंद्रित अनुप्रयोगों को सभी के लिए खोलता है।
सैपियन्स का तर्क है कि ऐसे मानव-केंद्रित मॉडल को तीन मानदंडों को संतुष्ट करना चाहिए: सामान्यीकरण, व्यापक अनुप्रयोग, और उच्च विश्वसनीयता। सामान्यीकरण अनदेखी परिस्थितियों में मजबूती सुनिश्चित करता है, जिससे मॉडल विभिन्न वातावरण में लगातार प्रदर्शन कर सकता है। व्यापक अनुप्रयोग मॉडल की बहुमुखी प्रतिभा को दर्शाता है, जिससे यह विभिन्न कार्यों के लिए उपयुक्त हो जाता है जिसमें न्यूनतम समायोजन की आवश्यकता होती है। उच्च विश्वसनीयता मॉडल की क्षमता को दर्शाती है जो सटीक, उच्च-रिज़ॉल्यूशन आउटपुट उत्पन्न कर सकता है, जो विश्वासपूर्ण मानव उत्पादन कार्यों के लिए आवश्यक है। इस पेपर में इन विशेषताओं वाले मॉडलों के विकास का विवरण दिया गया है, जिन्हें सामूहिक रूप से सैपियन्स कहा जाता है।
इनसाइट्स के बाद, सैपियन्स बड़े डेटासेट और स्केलेबल मॉडल आर्किटेक्चर का लाभ उठाता है, जो सामान्यीकरण के लिए महत्वपूर्ण हैं। व्यापक अनुप्रयोग के लिए, सैपियन्स प्रीट्रेन-फाइनट्यून दृष्टिकोण को अपनाता है, जो विशिष्ट कार्यों के लिए न्यूनतम समायोजन के साथ पोस्ट-प्रीट्रेनिंग अनुकूलन को सक्षम बनाता है। यह दृष्टिकोण एक महत्वपूर्ण प्रश्न उठाता है: प्रीट्रेनिंग के लिए सबसे प्रभावी डेटा प्रकार क्या है? गणनात्मक सीमाओं को देखते हुए, क्या प्रीट्रेनिंग के लिए मानव छवियों को इकट्ठा करने पर जोर देना चाहिए, या क्या वास्तविक दुनिया की विविधता को बेहतर ढंग से प्रतिबिंबित करने के लिए एक कम क्यूरेटेड सेट पर प्रीट्रेनिंग करना बेहतर है? मौजूदा विधियां अक्सर डाउनस्ट्रीम कार्यों के संदर्भ में प्रीट्रेनिंग डेटा वितरण को नजरअंदाज कर देती हैं। सैपियन्स 300 मिलियन विविध मानव छवियों वाले ह्यूमन्स-300एम डेटासेट को इकट्ठा करता है, जो बिना लेबल वाली छवियों का उपयोग करके विजन ट्रांसफॉर्मर के एक परिवार को स्क्रैच से प्रीट्रेन करने के लिए किया जाता है, जिनकी पैरामीटर गिनती 300M से 2B तक होती है।
विभिन्न स्व-पर्यवेक्षित प्रशिक्षण विधियों में से, सैपियन्स मास्केड-ऑटोएनकोडर (MAE) दृष्टिकोण को अपनाता है, जो अपनी सरलता और बड़े डेटासेट पर प्रीट्रेनिंग के लिए कुशलता के लिए जाना जाता है। MAE, जिसमें एक एकल-पास इन्फरेंस मॉडल होता है, कंट्रास्टिव या मल्टी-इन्फरेंस रणनीतियों की तुलना में एक ही गणनात्मक संसाधनों के साथ अधिक छवियों को संसाधित करने की अनुमति देता है। उच्च विश्वसनीयता के लिए, पूर्व विधियों के विपरीत, सैपियन्स प्रीट्रेनिंग के लिए मूल छवि रिज़ॉल्यूशन को 1024 पिक्सल तक बढ़ाता है, जिससे मौजूदा सबसे बड़े दृष्टि बैकबोन की तुलना में लगभग 4× वृद्धि होती है। प्रत्येक मॉडल को 1.2 ट्रिलियन टोकन पर प्रीट्रेन किया जाता है। मानव-केंद्रित कार्यों के लिए फाइन-ट्यूनिंग के लिए, सैपियन्स एक सुसंगत एनकोडर-डिकोडर आर्किटेक्चर का उपयोग करता है। एनकोडर को प्रीट्रेनिंग से वजन के साथ आरंभ किया जाता है, जबकि डिकोडर, एक हल्का और कार्य-विशिष्ट हेड, यादृच्छिक रूप से आरंभ किया जाता है। दोनों घटकों को फिर से एक साथ फाइन-ट्यून किया जाता है। सैपियन्स चार प्रमुख कार्यों पर केंद्रित है: 2D पोज़ अनुमान, शरीर के अंग विभाजन, गहराई, और सतह सामान्य अनुमान, जैसा कि निम्नलिखित चित्र में दिखाया गया है।

पूर्व अध्ययनों के अनुरूप, सैपियन्स लेबल की गुणवत्ता के मॉडल के जंगली प्रदर्शन पर महत्वपूर्ण प्रभाव की पुष्टि करता है। सार्वजनिक बेंचमार्क अक्सर शोर लेबल वाले होते हैं, जो फाइन-ट्यूनिंग के दौरान असंगत पर्यवेक्षी संकेत प्रदान करते हैं। सैपियन्स के प्राथमिक लक्ष्य को प्राप्त करने के लिए, 3D मानव डिजिटलीकरण के लिए सटीक और विस्तृत लेबल का उपयोग करना आवश्यक है। इस उद्देश्य से, सैपियन्स पोज़ अनुमान के लिए 2D पूरे शरीर के कीपोइंट का एक घना सेट और शरीर के अंग विभाजन के लिए एक विस्तृत वर्ग वोकेबुलरी प्रस्तुत करता है। विशेष रूप से, सैपियन्स 308 कीपोइंट्स का एक व्यापक संग्रह प्रस्तुत करता है, जिसमें शरीर, हाथ, पैर, सतह, और चेहरे शामिल हैं। इसके अलावा, सैपियन्स शरीर के अंग विभाजन के लिए वर्ग वोकेबुलरी को 28 वर्गों तक विस्तारित करता है, जिसमें बाल, जीभ, दांत, ऊपरी/निचला होंठ, और टोर्सो जैसे शरीर के अंग शामिल हैं। लेबल की गुणवत्ता और संगति को सुनिश्चित करने और स्वचालन की एक उच्च डिग्री के लिए, सैपियन्स पोज़ और विभाजन लेबल को इकट्ठा करने के लिए एक मल्टी-व्यू कैप्चर सेटअप का उपयोग करता है। सैपियन्स गहराई और सतह सामान्य अनुमान के लिए मानव-केंद्रित सिंथेटिक डेटा का भी उपयोग करता है, जिसमें रेंडरपीपल से 600 विस्तृत स्कैन शामिल हैं जो उच्च-रिज़ॉल्यूशन गहराई मानचित्र और सतह सामान्य उत्पन्न करते हैं। सैपियन्स यह प्रदर्शित करता है कि डोमेन-विशिष्ट बड़े पैमाने पर प्रीट्रेनिंग और सीमित, लेकिन उच्च-गुणवत्ता वाले लेबल के संयोजन से जंगली में मजबूत सामान्यीकरण होता है।

सैपियन्स: विधि और आर्किटेक्चर
सैपियन्स मास्केड-ऑटोएनकोडर (MAE) दृष्टिकोण का पालन करता है। मॉडल को आंशिक अवलोकन से मूल मानव छवि को पुनर्निर्माण करने के लिए प्रशिक्षित किया जाता है। सभी ऑटोएनकोडर्स की तरह, सैपियन्स के मॉडल में एक एनकोडर होता है जो दृश्य छवि को एक लेटेंट प्रतिनिधित्व में मैप करता है और एक डिकोडर होता है जो इस लेटेंट प्रतिनिधित्व से मूल छवि को पुनर्निर्माण करता है। प्रीट्रेनिंग डेटासेट में एकल और मल्टी-ह्यूमन छवियां शामिल हैं, जिन्हें एक निश्चित आकार में एक वर्ग आकार के अनुपात में बदल दिया जाता है। विटी की तरह, छवि को नियमित गैर-ओवरलैपिंग पैच में विभाजित किया जाता है, जिसमें एक निश्चित पैच आकार होता है। इन पैचों में से एक उपसेट को यादृच्छिक रूप से चुना जाता है और मास्क किया जाता है, शेष को दृश्य छोड़ दिया जाता है। मास्क किए गए पैचों का अनुपात दृश्य पैचों के लिए, जिसे मास्किंग अनुपात के रूप में जाना जाता है, प्रशिक्षण के दौरान स्थिर रहता है।
सैपियन्स के मॉडल विभिन्न छवि विशेषताओं में सामान्यीकरण प्रदर्शित करते हैं, जिनमें स्केल, क्रॉप, विषयों की आयु और जातीयता, और विषयों की संख्या शामिल हैं। प्रत्येक पैच टोकन मॉडल में 0.02% छवि क्षेत्र के लिए जिम्मेदार होता है, जो मानक विटी में 0.4% की तुलना में 16× कम है। यह मॉडल के लिए बारीक अंतर-टोकन तर्क प्रदान करता है। यहां तक कि 95% मास्किंग अनुपात के साथ, सैपियन्स का मॉडल जंगली में मानव शारीरिक रचना का एक संभावित पुनर्निर्माण प्रदर्शित करता है। निम्नलिखित छवि में सैपियन्स के प्रीट्रेन किए गए मॉडल का पुनर्निर्माण दिखाया गया है।

इसके अलावा, सैपियन्स एक बड़े गोपनीय डेटासेट का उपयोग प्रीट्रेनिंग के लिए करता है, जिसमें लगभग 1 बिलियन जंगली छवियां शामिल हैं, जो विशेष रूप से मानव छवियों पर केंद्रित हैं। प्रीप्रोसेसिंग में पानी के निशान, पाठ, कलात्मक चित्रण, या अस्वाभाविक तत्वों वाली छवियों को हटाना शामिल है। सैपियन्स फिर एक ऑफ-द-शेल्फ पर्सन बाउंडिंग-बॉक्स डिटेक्टर का उपयोग छवियों को फिल्टर करने के लिए करता है, जिसमें 0.9 से अधिक का पता लगाने वाला स्कोर और 300 पिक्सल से अधिक का बाउंडिंग-बॉक्स आयाम होता है। डेटासेट में 248 मिलियन से अधिक छवियां हैं जिनमें कई विषय हैं।
2D पोज़ अनुमान
सैपियन्स फ्रेमवर्क पी में एनकोडर और डिकोडर को फाइनट्यून करता है, जिसमें कई कंकाल शामिल हैं, जिनमें के = 17 [67], के = 133 [55] और एक नई विस्तृत कंकाल, के = 308, शामिल है, जैसा कि निम्नलिखित चित्र में दिखाया गया है।

मौजूदा प्रारूपों की तुलना में जो अधिकतम 68 चेहरे के कीपोइंट्स का उपयोग करते हैं, सैपियन्स के लेबल में 243 चेहरे के कीपोइंट्स शामिल हैं, जिनमें आंखों, होंठों, नाक, और कानों के चारों ओर प्रतिनिधि बिंदु शामिल हैं। यह डिज़ाइन वास्तविक दुनिया में चेहरे के भावों के सूक्ष्म विवरण को बारीकी से पकड़ने के लिए तैयार किया गया है। इन कीपोइंट्स के साथ, सैपियन्स फ्रेमवर्क ने 4K रिज़ॉल्यूशन पर 1 मिलियन छवियों को मैन्युअल रूप से लेबल किया, जो एक इनडोर कैप्चर सेटअप से ली गई थीं। इसी तरह के पिछले कार्यों की तरह, हमने नॉर्मल एस्टिमेटर एन के डिकोडर आउटपुट चैनलों को 3 में सेट किया, जो प्रत्येक पिक्सेल पर नॉर्मल वेक्टर के xyz घटकों के अनुरूप है। सिंथेटिक डेटा का भी सतह सामान्य अनुमान के लिए पर्यवेक्षण के रूप में उपयोग किया जाता है।

सैपियन्स: प्रयोग और परिणाम
सैपियन्स-2बी को 1024 ए100 जीपीयू पर 18 दिनों के लिए पाइथन के साथ प्रीट्रेन किया जाता है। सैपियन्स सभी प्रयोगों के लिए एडमडब्ल्यू ऑप्टिमाइज़र का उपयोग करता है। लर्निंग शेड्यूल में एक संक्षिप्त रेखीय वार्म-अप शामिल है, जिसके बाद प्रीट्रेनिंग के लिए कोसाइन एनीलिंग और फाइनट्यूनिंग के लिए रेखीय डिके होता है। सभी मॉडल 1024 × 1024 रिज़ॉल्यूशन पर प्रीट्रेन किए जाते हैं और 16 के पैच आकार के साथ। फाइनट्यूनिंग के लिए, इनपुट छवि को 4:3 अनुपात में बदल दिया जाता है, यानी 1024 × 768। सैपियन्स मानक ऑगमेंटेशन लागू करता है, जैसे कि क्रॉपिंग, स्केलिंग, फ्लिपिंग, और फोटोमेट्रिक विकृति। गैर-मानव कोको छवियों से एक यादृच्छिक पृष्ठभूमि को विभाजन, गहराई, और सामान्य अनुमान कार्यों के लिए जोड़ा जाता है। महत्वपूर्ण रूप से, सैपियन्स सामान्यीकरण को बनाए रखने के लिए अलग-अलग लर्निंग दरों का उपयोग करता है, जिसमें प्रारंभिक परतों के लिए कम लर्निंग दरें और बाद की परतों के लिए अधिक दरें होती हैं। परत-वार लर्निंग दर गिरावट 0.85 पर सेट की जाती है और एनकोडर के लिए वजन क्षय 0.1 पर सेट किया जाता है।
सैपियन्स के डिज़ाइन विशिष्टताएं निम्नलिखित तालिका में विस्तृत हैं। एक विशिष्ट दृष्टिकोण का पालन करते हुए, सैपियन्स मॉडलों को चौड़ाई से गहराई की तुलना में स्केल करने पर जोर देता है। उल्लेखनीय रूप से, सैपियन्स-0.3बी मॉडल, जो पारंपरिक विटी-लार्ज के समान आर्किटेक्चर है, उच्च रिज़ॉल्यूशन के कारण बीस गुना अधिक फ्लॉप्स है।

सैपियन्स को उच्च-विश्वसनीयता वाले लेबल का उपयोग करके चेहरे, शरीर, पैर, और हाथ (के = 308) पोज़ अनुमान के लिए फाइनट्यून किया जाता है। प्रशिक्षण के लिए, सैपियन्स 1 मिलियन छवियों वाले प्रशिक्षण सेट का उपयोग करता है, और मूल्यांकन के लिए, यह ह्यूमन्स5के नामक 5,000 छवियों वाले परीक्षण सेट का उपयोग करता है। मूल्यांकन एक शीर्ष-नीचे दृष्टिकोण का पालन करता है, जहां सैपियन्स एक ऑफ-द-शेल्फ डिटेक्टर का उपयोग बाउंडिंग बॉक्स के लिए करता है और एकल मानव पोज़ अनुमान करता है। तालिका 3 सैपियन्स मॉडलों और मौजूदा विधियों के बीच पूरे शरीर पोज़ अनुमान के लिए एक तुलना दिखाती है। सभी विधियों का मूल्यांकन सैपियन्स के 308 कीपोइंट वोकेबुलरी और कोको-wholebody के 133 कीपोइंट वोकेबुलरी के बीच 114 सामान्य कीपोइंट्स पर किया जाता है। सैपियन्स-0.6बी वर्तमान राज्य-कला डीडब्ल्यूपोज़-एल को +2.8 एपी से पार करता है। डीडब्ल्यूपोज़ के विपरीत, जो कार्य के लिए एक जटिल छात्र-शिक्षक फ्रेमवर्क का उपयोग करता है, सैपियन्स एक सामान्य एनकोडर-डिकोडर आर्किटेक्चर का उपयोग करता है जिसमें बड़े पैमाने पर मानव-केंद्रित प्रीट्रेनिंग होती है।
दिलचस्प बात यह है कि समान पैरामीटर गिनती के साथ भी, सैपियन्स मॉडल अपने समकक्षों की तुलना में बेहतर प्रदर्शन प्रदर्शित करते हैं। उदाहरण के लिए, सैपियन्स-0.3बी विटपोज़+-एल को +5.6 एपी से पार करता है, और सैपियन्स-0.6बी विटपोज़+-एच को +7.9 एपी से पार करता है। सैपियन्स परिवार के भीतर, परिणाम मॉडल के आकार और प्रदर्शन के बीच एक सीधा संबंध दिखाते हैं। सैपियन्स-2बी एक नए राज्य-कला को 61.1 एपी के साथ स्थापित करता है, जो पिछले कला से +7.6 एपी की एक महत्वपूर्ण वृद्धि है। इंडोर कैप्चर स्टूडियो से लेबल का उपयोग करके फाइनट्यून किए जाने के बावजूद, सैपियन्स वास्तविक दुनिया की स्थितियों में मजबूत सामान्यीकरण प्रदर्शित करता है, जैसा कि निम्नलिखित चित्र में दिखाया गया है।

सैपियन्स को 28 वर्गों के विभाजन वोकेबुलरी का उपयोग करके फाइनट्यून और मूल्यांकित किया जाता है। प्रशिक्षण सेट में 100,000 छवियां शामिल हैं, जबकि परीक्षण सेट, ह्यूमन्स-2के, में 2,000 छवियां शामिल हैं। सैपियन्स की तुलना मौजूदा शरीर के अंग विभाजन विधियों से की जाती है, जो समान प्रशिक्षण सेट पर फाइनट्यून की जाती हैं और प्रत्येक विधि द्वारा सुझाए गए प्रीट्रेन किए गए चेकपॉइंट्स का उपयोग करके प्रारंभिकरण किया जाता है। पोज़ अनुमान के समान, सैपियन्स विभाजन में सामान्यीकरण प्रदर्शित करता है, जैसा कि निम्नलिखित तालिका में दिखाया गया है।

दिलचस्प बात यह है कि सबसे छोटा मॉडल, सैपियन्स-0.3बी, मौजूदा राज्य-कला विभाजन विधियों जैसे मास्क2फॉर्मर और डीपलैबवी3+ को 12.6 मआईओयू से पार करता है, जो इसके उच्च रिज़ॉल्यूशन और बड़े पैमाने पर मानव-केंद्रित प्रीट्रेनिंग के कारण है। इसके अलावा, मॉडल के आकार को बढ़ाने से विभाजन प्रदर्शन में और सुधार होता है। सैपियन्स-2बी सर्वश्रेष्ठ प्रदर्शन प्राप्त करता है, जिसमें परीक्षण सेट पर 81.2 मआईओयू और 89.4 एमएएसी है, जैसा कि निम्नलिखित चित्र में दिखाया गया है।

निष्कर्ष
सैपियन्स मानव-केंद्रित दृष्टि मॉडल में एक नए युग की शुरुआत का प्रतिनिधित्व करता है, जो जंगली सेटिंग्स में सामान्यीकृत होने वाले मानव दृष्टि कार्यों के लिए मॉडल प्रदान करता है। सैपियन्स के मॉडल मानव छवियों के एक विशाल संग्रह पर प्रीट्रेन किए जाते हैं और फिर मानव-संबंधित कार्यों के लिए फाइन-ट्यून किए जाते हैं। सैपियन्स का उद्देश्य मानव दृष्टि कार्यों के लिए मॉडल विकसित करना है जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स मॉडल मानव दृष्टि कार्यों के लिए एक मॉडल प्रदान करते हैं जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स के मॉडल मानव छवियों के एक विशाल संग्रह पर प्रीट्रेन किए जाते हैं और फिर मानव-संबंधित कार्यों के लिए फाइन-ट्यून किए जाते हैं। सैपियन्स का उद्देश्य मानव दृष्टि कार्यों के लिए मॉडल विकसित करना है जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स मॉडल मानव दृष्टि कार्यों के लिए एक मॉडल प्रदान करते हैं जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स के मॉडल मानव छवियों के एक विशाल संग्रह पर प्रीट्रेन किए जाते हैं और फिर मानव-संबंधित कार्यों के लिए फाइन-ट्यून किए जाते हैं। सैपियन्स का उद्देश्य मानव दृष्टि कार्यों के लिए मॉडल विकसित करना है जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स मॉडल मानव दृष्टि कार्यों के लिए एक मॉडल प्रदान करते हैं जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स के मॉडल मानव छवियों के एक विशाल संग्रह पर प्रीट्रेन किए जाते हैं और फिर मानव-संबंधित कार्यों के लिए फाइन-ट्यून किए जाते हैं। सैपियन्स का उद्देश्य मानव दृष्टि कार्यों के लिए मॉडल विकसित करना है जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स मॉडल मानव दृष्टि कार्यों के लिए एक मॉडल प्रदान करते हैं जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स के मॉडल मानव छवियों के एक विशाल संग्रह पर प्रीट्रेन किए जाते हैं और फिर मानव-संबंधित कार्यों के लिए फाइन-ट्यून किए जाते हैं। सैपियन्स का उद्देश्य मानव दृष्टि कार्यों के लिए मॉडल विकसित करना है जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स मॉडल मानव दृष्टि कार्यों के लिए एक मॉडल प्रदान करते हैं जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स के मॉडल मानव छवियों के एक विशाल संग्रह पर प्रीट्रेन किए जाते हैं और फिर मानव-संबंधित कार्यों के लिए फाइन-ट्यून किए जाते हैं। सैपियन्स का उद्देश्य मानव दृष्टि कार्यों के लिए मॉडल विकसित करना है जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स मॉडल मानव दृष्टि कार्यों के लिए एक मॉडल प्रदान करते हैं जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स के मॉडल मानव छवियों के एक विशाल संग्रह पर प्रीट्रेन किए जाते हैं और फिर मानव-संबंधित कार्यों के लिए फाइन-ट्यून किए जाते हैं। सैपियन्स का उद्देश्य मानव दृष्टि कार्यों के लिए मॉडल विकसित करना है जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स मॉडल मानव दृष्टि कार्यों के लिए एक मॉडल प्रदान करते हैं जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स के मॉडल मानव छवियों के एक विशाल संग्रह पर प्रीट्रेन किए जाते हैं और फिर मानव-संबंधित कार्यों के लिए फाइन-ट्यून किए जाते हैं। सैपियन्स का उद्देश्य मानव दृष्टि कार्यों के लिए मॉडल विकसित करना है जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स मॉडल मानव दृष्टि कार्यों के लिए एक मॉडल प्रदान करते हैं जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स के मॉडल मानव छवियों के एक विशाल संग्रह पर प्रीट्रेन किए जाते हैं और फिर मानव-संबंधित कार्यों के लिए फाइन-ट्यून किए जाते हैं। सैपियन्स का उद्देश्य मानव दृष्टि कार्यों के लिए मॉडल विकसित करना है जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स मॉडल मानव दृष्टि कार्यों के लिए एक मॉडल प्रदान करते हैं जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स के मॉडल मानव छवियों के एक विशाल संग्रह पर प्रीट्रेन किए जाते हैं और फिर मानव-संबंधित कार्यों के लिए फाइन-ट्यून किए जाते हैं। सैपियन्स का उद्देश्य मानव दृष्टि कार्यों के लिए मॉडल विकसित करना है जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स मॉडल मानव दृष्टि कार्यों के लिए एक मॉडल प्रदान करते हैं जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स के मॉडल मानव छवियों के एक विशाल संग्रह पर प्रीट्रेन किए जाते हैं और फिर मानव-संबंधित कार्यों के लिए फाइन-ट्यून किए जाते हैं। सैपियन्स का उद्देश्य मानव दृष्टि कार्यों के लिए मॉडल विकसित करना है जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स मॉडल मानव दृष्टि कार्यों के लिए एक मॉडल प्रदान करते हैं जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स के मॉडल मानव छवियों के एक विशाल संग्रह पर प्रीट्रेन किए जाते हैं और फिर मानव-संबंधित कार्यों के लिए फाइन-ट्यून किए जाते हैं। सैपियन्स का उद्देश्य मानव दृष्टि कार्यों के लिए मॉडल विकसित करना है जो जंगली सेटिंग्स में सामान्यीकृत होते हैं।












