рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рд╕реИрдкрд┐рдпрдиреНрд╕: рдорд╛рдирд╡ рджреГрд╖реНрдЯрд┐ рдореЙрдбрд▓ рдореЗрдВ рдПрдХ рдирдП рдпреБрдЧ рдХреА рд╢реБрд░реБрдЖрдд

mm
Sapiens: Foundation for Human Vision Models

भाषा मॉडलिंग के लिए बड़े पैमाने पर प्रीट्रेनिंग के बाद टास्क-विशिष्ट फाइन-ट्यूनिंग की सफलता ने इस दृष्टिकोण को एक मानक अभ्यास के रूप में स्थापित किया है। इसी तरह, कंप्यूटर विजन विधियां व्यापक डेटा स्केल के लिए प्रीट्रेनिंग को अपना रही हैं। बड़े डेटासेट जैसे कि LAION5B, Instagram-3.5B, JFT-300M, LVD142M, Visual Genome, और YFCC100M के उद्भव ने पारंपरिक बेंचमार्क के दायरे से परे एक डेटा निगम की खोज को सक्षम किया है। इस क्षेत्र में उल्लेखनीय कार्य में DINOv2, MAWS, और AIM शामिल हैं। DINOv2 LDV-142M डेटासेट पर कंट्रास्टिव iBot विधि को स्केल करके स्व-पर्यवेक्षित विशेषताओं के उत्पादन में राज्य-कला प्रदर्शन प्राप्त करता है। MAWS अरबों छवियों पर मास्केड-ऑटोएनकोडर्स (MAE) के स्केलिंग का अध्ययन करता है। AIM दृष्टि ट्रांसफॉर्मर के लिए बERT के समान ऑटोरेग्रेसिव दृश्य प्रीट्रेनिंग की स्केलेबिलिटी का अन्वेषण करता है। इन विधियों के विपरीत, जो मुख्य रूप से सामान्य छवि प्रीट्रेनिंग या शून्य-शॉट छवि वर्गीकरण पर केंद्रित हैं, सैपियन्स एक विशिष्ट मानव-केंद्रित दृष्टिकोण अपनाता है: सैपियन्स के मॉडल एक विशाल संग्रह का लाभ उठाते हैं। मानव छवियों के लिए प्रीट्रेनिंग, बाद में मानव-संबंधित कार्यों के एक श्रृंखला के लिए फाइन-ट्यूनिंग। कंप्यूटर विजन में बड़े पैमाने पर 3D मानव डिजिटलीकरण अभी भी एक प्रमुख लक्ष्य बना हुआ है।

नियंत्रित या स्टूडियो वातावरण में महत्वपूर्ण प्रगति की गई है, लेकिन असीमित वातावरण में इन विधियों को बढ़ाने में चुनौतियां बनी हुई हैं। इन चुनौतियों का सामना करने के लिए, कई मूलभूत कार्यों जैसे कि कीपोइंट अनुमान, शरीर के अंग विभाजन, गहराई अनुमान, और सतह सामान्य अनुमान जैसे कार्यों के लिए सक्षम मॉडल विकसित करना आवश्यक है। सैपियन्स का उद्देश्य इन मानव दृष्टि कार्यों के लिए मॉडल विकसित करना है जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। वर्तमान में, सबसे बड़े सार्वजनिक रूप से उपलब्ध भाषा मॉडल में 100B पैरामीटर होते हैं, जबकि अधिक सामान्य भाषा मॉडल में लगभग 7B पैरामीटर होते हैं। इसके विपरीत, विजन ट्रांसफॉर्मर (ViT),尽管 उन्होंने एक समान वास्तुकला साझा की है, उन्हें इस सीमा तक सफलतापूर्वक स्केल नहीं किया गया है। जबकि इस दिशा में उल्लेखनीय प्रयास हैं, जिनमें एक घने ViT-4B का विकास शामिल है जो पाठ और छवियों दोनों पर प्रशिक्षित है, और ViT-22B के स्थिर प्रशिक्षण के लिए तकनीकों का गठन, सामान्य रूप से उपयोग किए जाने वाले दृष्टि बैकबोन 300M से 600M पैरामीटर के बीच होते हैं और मुख्य रूप से लगभग 224 पिक्सल के छवि रिज़ॉल्यूशन पर प्रीट्रेन किए जाते हैं। इसी तरह, मौजूदा ट्रांसफॉर्मर-आधारित छवि पीढ़ी मॉडल, जैसे कि DiT, 700M पैरामीटर से कम का उपयोग करते हैं और एक अत्यधिक संकुचित लेटेंट स्पेस पर काम करते हैं। इस अंतर को पाटने के लिए, सैपियन्स ने मिलियन मानव छवियों पर 1024-पिक्सेल छवि रिज़ॉल्यूशन पर प्रीट्रेन किए गए बड़े, उच्च-रिज़ॉल्यूशन ViT मॉडलों का एक संग्रह प्रस्तुत किया है।

सैपियन्स मानव-केंद्रित दृष्टि मॉडल के लिए एक नए युग की शुरुआत का प्रतिनिधित्व करता है, जो मानव दृष्टि कार्यों के लिए एक मॉडल प्रदान करता है जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स के मॉडल मानव छवियों के एक विशाल संग्रह पर प्रीट्रेन किए जाते हैं और फिर मानव-संबंधित कार्यों के लिए फाइन-ट्यून किए जाते हैं। सैपियन्स का उद्देश्य मानव दृष्टि कार्यों के लिए मॉडल विकसित करना है जो जंगली सेटिंग्स में सामान्यीकृत होते हैं।

सैपियन्स के मॉडल मानव दृष्टि कार्यों के लिए एक मॉडल प्रदान करते हैं जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स के मॉडल मानव छवियों के एक विशाल संग्रह पर प्रीट्रेन किए जाते हैं और फिर मानव-संबंधित कार्यों के लिए फाइन-ट्यून किए जाते हैं। सैपियन्स का उद्देश्य मानव दृष्टि कार्यों के लिए मॉडल विकसित करना है जो जंगली सेटिंग्स में सामान्यीकृत होते हैं।

सैपियन्स के मॉडल मानव दृष्टि कार्यों के लिए एक मॉडल प्रदान करते हैं जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स के मॉडल मानव छवियों के एक विशाल संग्रह पर प्रीट्रेन किए जाते हैं और फिर मानव-संबंधित कार्यों के लिए फाइन-ट्यून किए जाते हैं। सैपियन्स का उद्देश्य मानव दृष्टि कार्यों के लिए मॉडल विकसित करना है जो जंगली सेटिंग्स में सामान्यीकृत होते हैं।

सैपियन्स: मानव दृष्टि मॉडल में एक नए युग की शुरुआत

हाल के वर्षों में 2D और 3D में फोटोरियलिस्टिक मानव उत्पादन की दिशा में उल्लेखनीय प्रगति हुई है। इन विधियों की सफलता विभिन्न संपत्तियों जैसे कि 2D कीपोइंट, शरीर के अंग विभाजन, गहराई, और सतह सामान्य के मजबूत अनुमान के लिए जिम्मेदार है। हालांकि, इन संपत्तियों का सटीक अनुमान अभी भी एक सक्रिय अनुसंधान क्षेत्र बना हुआ है, और व्यक्तिगत कार्यों के लिए प्रदर्शन को बढ़ाने के लिए जटिल प्रणालियां व्यापक अपनाने में बाधा डालती हैं। इसके अलावा, जंगली में सटीक मूल्यांकन लेबल प्राप्त करना पैमाने पर चुनौतीपूर्ण है। सैपियन्स का उद्देश्य इन संपत्तियों को जंगली में अनुमान लगाने के लिए एक एकीकृत फ्रेमवर्क और मॉडल प्रदान करना है, जो विभिन्न मानव-केंद्रित अनुप्रयोगों को सभी के लिए खोलता है।

सैपियन्स का तर्क है कि ऐसे मानव-केंद्रित मॉडल को तीन मानदंडों को संतुष्ट करना चाहिए: सामान्यीकरण, व्यापक अनुप्रयोग, और उच्च विश्वसनीयता। सामान्यीकरण अनदेखी परिस्थितियों में मजबूती सुनिश्चित करता है, जिससे मॉडल विभिन्न वातावरण में लगातार प्रदर्शन कर सकता है। व्यापक अनुप्रयोग मॉडल की बहुमुखी प्रतिभा को दर्शाता है, जिससे यह विभिन्न कार्यों के लिए उपयुक्त हो जाता है जिसमें न्यूनतम समायोजन की आवश्यकता होती है। उच्च विश्वसनीयता मॉडल की क्षमता को दर्शाती है जो सटीक, उच्च-रिज़ॉल्यूशन आउटपुट उत्पन्न कर सकता है, जो विश्वासपूर्ण मानव उत्पादन कार्यों के लिए आवश्यक है। इस पेपर में इन विशेषताओं वाले मॉडलों के विकास का विवरण दिया गया है, जिन्हें सामूहिक रूप से सैपियन्स कहा जाता है।

इनसाइट्स के बाद, सैपियन्स बड़े डेटासेट और स्केलेबल मॉडल आर्किटेक्चर का लाभ उठाता है, जो सामान्यीकरण के लिए महत्वपूर्ण हैं। व्यापक अनुप्रयोग के लिए, सैपियन्स प्रीट्रेन-फाइनट्यून दृष्टिकोण को अपनाता है, जो विशिष्ट कार्यों के लिए न्यूनतम समायोजन के साथ पोस्ट-प्रीट्रेनिंग अनुकूलन को सक्षम बनाता है। यह दृष्टिकोण एक महत्वपूर्ण प्रश्न उठाता है: प्रीट्रेनिंग के लिए सबसे प्रभावी डेटा प्रकार क्या है? गणनात्मक सीमाओं को देखते हुए, क्या प्रीट्रेनिंग के लिए मानव छवियों को इकट्ठा करने पर जोर देना चाहिए, या क्या वास्तविक दुनिया की विविधता को बेहतर ढंग से प्रतिबिंबित करने के लिए एक कम क्यूरेटेड सेट पर प्रीट्रेनिंग करना बेहतर है? मौजूदा विधियां अक्सर डाउनस्ट्रीम कार्यों के संदर्भ में प्रीट्रेनिंग डेटा वितरण को नजरअंदाज कर देती हैं। सैपियन्स 300 मिलियन विविध मानव छवियों वाले ह्यूमन्स-300एम डेटासेट को इकट्ठा करता है, जो बिना लेबल वाली छवियों का उपयोग करके विजन ट्रांसफॉर्मर के एक परिवार को स्क्रैच से प्रीट्रेन करने के लिए किया जाता है, जिनकी पैरामीटर गिनती 300M से 2B तक होती है।

विभिन्न स्व-पर्यवेक्षित प्रशिक्षण विधियों में से, सैपियन्स मास्केड-ऑटोएनकोडर (MAE) दृष्टिकोण को अपनाता है, जो अपनी सरलता और बड़े डेटासेट पर प्रीट्रेनिंग के लिए कुशलता के लिए जाना जाता है। MAE, जिसमें एक एकल-पास इन्फरेंस मॉडल होता है, कंट्रास्टिव या मल्टी-इन्फरेंस रणनीतियों की तुलना में एक ही गणनात्मक संसाधनों के साथ अधिक छवियों को संसाधित करने की अनुमति देता है। उच्च विश्वसनीयता के लिए, पूर्व विधियों के विपरीत, सैपियन्स प्रीट्रेनिंग के लिए मूल छवि रिज़ॉल्यूशन को 1024 पिक्सल तक बढ़ाता है, जिससे मौजूदा सबसे बड़े दृष्टि बैकबोन की तुलना में लगभग 4× वृद्धि होती है। प्रत्येक मॉडल को 1.2 ट्रिलियन टोकन पर प्रीट्रेन किया जाता है। मानव-केंद्रित कार्यों के लिए फाइन-ट्यूनिंग के लिए, सैपियन्स एक सुसंगत एनकोडर-डिकोडर आर्किटेक्चर का उपयोग करता है। एनकोडर को प्रीट्रेनिंग से वजन के साथ आरंभ किया जाता है, जबकि डिकोडर, एक हल्का और कार्य-विशिष्ट हेड, यादृच्छिक रूप से आरंभ किया जाता है। दोनों घटकों को फिर से एक साथ फाइन-ट्यून किया जाता है। सैपियन्स चार प्रमुख कार्यों पर केंद्रित है: 2D पोज़ अनुमान, शरीर के अंग विभाजन, गहराई, और सतह सामान्य अनुमान, जैसा कि निम्नलिखित चित्र में दिखाया गया है।

पूर्व अध्ययनों के अनुरूप, सैपियन्स लेबल की गुणवत्ता के मॉडल के जंगली प्रदर्शन पर महत्वपूर्ण प्रभाव की पुष्टि करता है। सार्वजनिक बेंचमार्क अक्सर शोर लेबल वाले होते हैं, जो फाइन-ट्यूनिंग के दौरान असंगत पर्यवेक्षी संकेत प्रदान करते हैं। सैपियन्स के प्राथमिक लक्ष्य को प्राप्त करने के लिए, 3D मानव डिजिटलीकरण के लिए सटीक और विस्तृत लेबल का उपयोग करना आवश्यक है। इस उद्देश्य से, सैपियन्स पोज़ अनुमान के लिए 2D पूरे शरीर के कीपोइंट का एक घना सेट और शरीर के अंग विभाजन के लिए एक विस्तृत वर्ग वोकेबुलरी प्रस्तुत करता है। विशेष रूप से, सैपियन्स 308 कीपोइंट्स का एक व्यापक संग्रह प्रस्तुत करता है, जिसमें शरीर, हाथ, पैर, सतह, और चेहरे शामिल हैं। इसके अलावा, सैपियन्स शरीर के अंग विभाजन के लिए वर्ग वोकेबुलरी को 28 वर्गों तक विस्तारित करता है, जिसमें बाल, जीभ, दांत, ऊपरी/निचला होंठ, और टोर्सो जैसे शरीर के अंग शामिल हैं। लेबल की गुणवत्ता और संगति को सुनिश्चित करने और स्वचालन की एक उच्च डिग्री के लिए, सैपियन्स पोज़ और विभाजन लेबल को इकट्ठा करने के लिए एक मल्टी-व्यू कैप्चर सेटअप का उपयोग करता है। सैपियन्स गहराई और सतह सामान्य अनुमान के लिए मानव-केंद्रित सिंथेटिक डेटा का भी उपयोग करता है, जिसमें रेंडरपीपल से 600 विस्तृत स्कैन शामिल हैं जो उच्च-रिज़ॉल्यूशन गहराई मानचित्र और सतह सामान्य उत्पन्न करते हैं। सैपियन्स यह प्रदर्शित करता है कि डोमेन-विशिष्ट बड़े पैमाने पर प्रीट्रेनिंग और सीमित, लेकिन उच्च-गुणवत्ता वाले लेबल के संयोजन से जंगली में मजबूत सामान्यीकरण होता है।

सैपियन्स: विधि और आर्किटेक्चर

सैपियन्स मास्केड-ऑटोएनकोडर (MAE) दृष्टिकोण का पालन करता है। मॉडल को आंशिक अवलोकन से मूल मानव छवि को पुनर्निर्माण करने के लिए प्रशिक्षित किया जाता है। सभी ऑटोएनकोडर्स की तरह, सैपियन्स के मॉडल में एक एनकोडर होता है जो दृश्य छवि को एक लेटेंट प्रतिनिधित्व में मैप करता है और एक डिकोडर होता है जो इस लेटेंट प्रतिनिधित्व से मूल छवि को पुनर्निर्माण करता है। प्रीट्रेनिंग डेटासेट में एकल और मल्टी-ह्यूमन छवियां शामिल हैं, जिन्हें एक निश्चित आकार में एक वर्ग आकार के अनुपात में बदल दिया जाता है। विटी की तरह, छवि को नियमित गैर-ओवरलैपिंग पैच में विभाजित किया जाता है, जिसमें एक निश्चित पैच आकार होता है। इन पैचों में से एक उपसेट को यादृच्छिक रूप से चुना जाता है और मास्क किया जाता है, शेष को दृश्य छोड़ दिया जाता है। मास्क किए गए पैचों का अनुपात दृश्य पैचों के लिए, जिसे मास्किंग अनुपात के रूप में जाना जाता है, प्रशिक्षण के दौरान स्थिर रहता है।

सैपियन्स के मॉडल विभिन्न छवि विशेषताओं में सामान्यीकरण प्रदर्शित करते हैं, जिनमें स्केल, क्रॉप, विषयों की आयु और जातीयता, और विषयों की संख्या शामिल हैं। प्रत्येक पैच टोकन मॉडल में 0.02% छवि क्षेत्र के लिए जिम्मेदार होता है, जो मानक विटी में 0.4% की तुलना में 16× कम है। यह मॉडल के लिए बारीक अंतर-टोकन तर्क प्रदान करता है। यहां तक कि 95% मास्किंग अनुपात के साथ, सैपियन्स का मॉडल जंगली में मानव शारीरिक रचना का एक संभावित पुनर्निर्माण प्रदर्शित करता है। निम्नलिखित छवि में सैपियन्स के प्रीट्रेन किए गए मॉडल का पुनर्निर्माण दिखाया गया है।

इसके अलावा, सैपियन्स एक बड़े गोपनीय डेटासेट का उपयोग प्रीट्रेनिंग के लिए करता है, जिसमें लगभग 1 बिलियन जंगली छवियां शामिल हैं, जो विशेष रूप से मानव छवियों पर केंद्रित हैं। प्रीप्रोसेसिंग में पानी के निशान, पाठ, कलात्मक चित्रण, या अस्वाभाविक तत्वों वाली छवियों को हटाना शामिल है। सैपियन्स फिर एक ऑफ-द-शेल्फ पर्सन बाउंडिंग-बॉक्स डिटेक्टर का उपयोग छवियों को फिल्टर करने के लिए करता है, जिसमें 0.9 से अधिक का पता लगाने वाला स्कोर और 300 पिक्सल से अधिक का बाउंडिंग-बॉक्स आयाम होता है। डेटासेट में 248 मिलियन से अधिक छवियां हैं जिनमें कई विषय हैं।

2D पोज़ अनुमान

सैपियन्स फ्रेमवर्क पी में एनकोडर और डिकोडर को फाइनट्यून करता है, जिसमें कई कंकाल शामिल हैं, जिनमें के = 17 [67], के = 133 [55] और एक नई विस्तृत कंकाल, के = 308, शामिल है, जैसा कि निम्नलिखित चित्र में दिखाया गया है।

मौजूदा प्रारूपों की तुलना में जो अधिकतम 68 चेहरे के कीपोइंट्स का उपयोग करते हैं, सैपियन्स के लेबल में 243 चेहरे के कीपोइंट्स शामिल हैं, जिनमें आंखों, होंठों, नाक, और कानों के चारों ओर प्रतिनिधि बिंदु शामिल हैं। यह डिज़ाइन वास्तविक दुनिया में चेहरे के भावों के सूक्ष्म विवरण को बारीकी से पकड़ने के लिए तैयार किया गया है। इन कीपोइंट्स के साथ, सैपियन्स फ्रेमवर्क ने 4K रिज़ॉल्यूशन पर 1 मिलियन छवियों को मैन्युअल रूप से लेबल किया, जो एक इनडोर कैप्चर सेटअप से ली गई थीं। इसी तरह के पिछले कार्यों की तरह, हमने नॉर्मल एस्टिमेटर एन के डिकोडर आउटपुट चैनलों को 3 में सेट किया, जो प्रत्येक पिक्सेल पर नॉर्मल वेक्टर के xyz घटकों के अनुरूप है। सिंथेटिक डेटा का भी सतह सामान्य अनुमान के लिए पर्यवेक्षण के रूप में उपयोग किया जाता है।

सैपियन्स: प्रयोग और परिणाम

सैपियन्स-2बी को 1024 ए100 जीपीयू पर 18 दिनों के लिए पाइथन के साथ प्रीट्रेन किया जाता है। सैपियन्स सभी प्रयोगों के लिए एडमडब्ल्यू ऑप्टिमाइज़र का उपयोग करता है। लर्निंग शेड्यूल में एक संक्षिप्त रेखीय वार्म-अप शामिल है, जिसके बाद प्रीट्रेनिंग के लिए कोसाइन एनीलिंग और फाइनट्यूनिंग के लिए रेखीय डिके होता है। सभी मॉडल 1024 × 1024 रिज़ॉल्यूशन पर प्रीट्रेन किए जाते हैं और 16 के पैच आकार के साथ। फाइनट्यूनिंग के लिए, इनपुट छवि को 4:3 अनुपात में बदल दिया जाता है, यानी 1024 × 768। सैपियन्स मानक ऑगमेंटेशन लागू करता है, जैसे कि क्रॉपिंग, स्केलिंग, फ्लिपिंग, और फोटोमेट्रिक विकृति। गैर-मानव कोको छवियों से एक यादृच्छिक पृष्ठभूमि को विभाजन, गहराई, और सामान्य अनुमान कार्यों के लिए जोड़ा जाता है। महत्वपूर्ण रूप से, सैपियन्स सामान्यीकरण को बनाए रखने के लिए अलग-अलग लर्निंग दरों का उपयोग करता है, जिसमें प्रारंभिक परतों के लिए कम लर्निंग दरें और बाद की परतों के लिए अधिक दरें होती हैं। परत-वार लर्निंग दर गिरावट 0.85 पर सेट की जाती है और एनकोडर के लिए वजन क्षय 0.1 पर सेट किया जाता है।

सैपियन्स के डिज़ाइन विशिष्टताएं निम्नलिखित तालिका में विस्तृत हैं। एक विशिष्ट दृष्टिकोण का पालन करते हुए, सैपियन्स मॉडलों को चौड़ाई से गहराई की तुलना में स्केल करने पर जोर देता है। उल्लेखनीय रूप से, सैपियन्स-0.3बी मॉडल, जो पारंपरिक विटी-लार्ज के समान आर्किटेक्चर है, उच्च रिज़ॉल्यूशन के कारण बीस गुना अधिक फ्लॉप्स है।

सैपियन्स को उच्च-विश्वसनीयता वाले लेबल का उपयोग करके चेहरे, शरीर, पैर, और हाथ (के = 308) पोज़ अनुमान के लिए फाइनट्यून किया जाता है। प्रशिक्षण के लिए, सैपियन्स 1 मिलियन छवियों वाले प्रशिक्षण सेट का उपयोग करता है, और मूल्यांकन के लिए, यह ह्यूमन्स5के नामक 5,000 छवियों वाले परीक्षण सेट का उपयोग करता है। मूल्यांकन एक शीर्ष-नीचे दृष्टिकोण का पालन करता है, जहां सैपियन्स एक ऑफ-द-शेल्फ डिटेक्टर का उपयोग बाउंडिंग बॉक्स के लिए करता है और एकल मानव पोज़ अनुमान करता है। तालिका 3 सैपियन्स मॉडलों और मौजूदा विधियों के बीच पूरे शरीर पोज़ अनुमान के लिए एक तुलना दिखाती है। सभी विधियों का मूल्यांकन सैपियन्स के 308 कीपोइंट वोकेबुलरी और कोको-wholebody के 133 कीपोइंट वोकेबुलरी के बीच 114 सामान्य कीपोइंट्स पर किया जाता है। सैपियन्स-0.6बी वर्तमान राज्य-कला डीडब्ल्यूपोज़-एल को +2.8 एपी से पार करता है। डीडब्ल्यूपोज़ के विपरीत, जो कार्य के लिए एक जटिल छात्र-शिक्षक फ्रेमवर्क का उपयोग करता है, सैपियन्स एक सामान्य एनकोडर-डिकोडर आर्किटेक्चर का उपयोग करता है जिसमें बड़े पैमाने पर मानव-केंद्रित प्रीट्रेनिंग होती है।

दिलचस्प बात यह है कि समान पैरामीटर गिनती के साथ भी, सैपियन्स मॉडल अपने समकक्षों की तुलना में बेहतर प्रदर्शन प्रदर्शित करते हैं। उदाहरण के लिए, सैपियन्स-0.3बी विटपोज़+-एल को +5.6 एपी से पार करता है, और सैपियन्स-0.6बी विटपोज़+-एच को +7.9 एपी से पार करता है। सैपियन्स परिवार के भीतर, परिणाम मॉडल के आकार और प्रदर्शन के बीच एक सीधा संबंध दिखाते हैं। सैपियन्स-2बी एक नए राज्य-कला को 61.1 एपी के साथ स्थापित करता है, जो पिछले कला से +7.6 एपी की एक महत्वपूर्ण वृद्धि है। इंडोर कैप्चर स्टूडियो से लेबल का उपयोग करके फाइनट्यून किए जाने के बावजूद, सैपियन्स वास्तविक दुनिया की स्थितियों में मजबूत सामान्यीकरण प्रदर्शित करता है, जैसा कि निम्नलिखित चित्र में दिखाया गया है।

सैपियन्स को 28 वर्गों के विभाजन वोकेबुलरी का उपयोग करके फाइनट्यून और मूल्यांकित किया जाता है। प्रशिक्षण सेट में 100,000 छवियां शामिल हैं, जबकि परीक्षण सेट, ह्यूमन्स-2के, में 2,000 छवियां शामिल हैं। सैपियन्स की तुलना मौजूदा शरीर के अंग विभाजन विधियों से की जाती है, जो समान प्रशिक्षण सेट पर फाइनट्यून की जाती हैं और प्रत्येक विधि द्वारा सुझाए गए प्रीट्रेन किए गए चेकपॉइंट्स का उपयोग करके प्रारंभिकरण किया जाता है। पोज़ अनुमान के समान, सैपियन्स विभाजन में सामान्यीकरण प्रदर्शित करता है, जैसा कि निम्नलिखित तालिका में दिखाया गया है।

दिलचस्प बात यह है कि सबसे छोटा मॉडल, सैपियन्स-0.3बी, मौजूदा राज्य-कला विभाजन विधियों जैसे मास्क2फॉर्मर और डीपलैबवी3+ को 12.6 मआईओयू से पार करता है, जो इसके उच्च रिज़ॉल्यूशन और बड़े पैमाने पर मानव-केंद्रित प्रीट्रेनिंग के कारण है। इसके अलावा, मॉडल के आकार को बढ़ाने से विभाजन प्रदर्शन में और सुधार होता है। सैपियन्स-2बी सर्वश्रेष्ठ प्रदर्शन प्राप्त करता है, जिसमें परीक्षण सेट पर 81.2 मआईओयू और 89.4 एमएएसी है, जैसा कि निम्नलिखित चित्र में दिखाया गया है।

निष्कर्ष

सैपियन्स मानव-केंद्रित दृष्टि मॉडल में एक नए युग की शुरुआत का प्रतिनिधित्व करता है, जो जंगली सेटिंग्स में सामान्यीकृत होने वाले मानव दृष्टि कार्यों के लिए मॉडल प्रदान करता है। सैपियन्स के मॉडल मानव छवियों के एक विशाल संग्रह पर प्रीट्रेन किए जाते हैं और फिर मानव-संबंधित कार्यों के लिए फाइन-ट्यून किए जाते हैं। सैपियन्स का उद्देश्य मानव दृष्टि कार्यों के लिए मॉडल विकसित करना है जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स मॉडल मानव दृष्टि कार्यों के लिए एक मॉडल प्रदान करते हैं जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स के मॉडल मानव छवियों के एक विशाल संग्रह पर प्रीट्रेन किए जाते हैं और फिर मानव-संबंधित कार्यों के लिए फाइन-ट्यून किए जाते हैं। सैपियन्स का उद्देश्य मानव दृष्टि कार्यों के लिए मॉडल विकसित करना है जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स मॉडल मानव दृष्टि कार्यों के लिए एक मॉडल प्रदान करते हैं जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स के मॉडल मानव छवियों के एक विशाल संग्रह पर प्रीट्रेन किए जाते हैं और फिर मानव-संबंधित कार्यों के लिए फाइन-ट्यून किए जाते हैं। सैपियन्स का उद्देश्य मानव दृष्टि कार्यों के लिए मॉडल विकसित करना है जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स मॉडल मानव दृष्टि कार्यों के लिए एक मॉडल प्रदान करते हैं जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स के मॉडल मानव छवियों के एक विशाल संग्रह पर प्रीट्रेन किए जाते हैं और फिर मानव-संबंधित कार्यों के लिए फाइन-ट्यून किए जाते हैं। सैपियन्स का उद्देश्य मानव दृष्टि कार्यों के लिए मॉडल विकसित करना है जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स मॉडल मानव दृष्टि कार्यों के लिए एक मॉडल प्रदान करते हैं जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स के मॉडल मानव छवियों के एक विशाल संग्रह पर प्रीट्रेन किए जाते हैं और फिर मानव-संबंधित कार्यों के लिए फाइन-ट्यून किए जाते हैं। सैपियन्स का उद्देश्य मानव दृष्टि कार्यों के लिए मॉडल विकसित करना है जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स मॉडल मानव दृष्टि कार्यों के लिए एक मॉडल प्रदान करते हैं जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स के मॉडल मानव छवियों के एक विशाल संग्रह पर प्रीट्रेन किए जाते हैं और फिर मानव-संबंधित कार्यों के लिए फाइन-ट्यून किए जाते हैं। सैपियन्स का उद्देश्य मानव दृष्टि कार्यों के लिए मॉडल विकसित करना है जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स मॉडल मानव दृष्टि कार्यों के लिए एक मॉडल प्रदान करते हैं जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स के मॉडल मानव छवियों के एक विशाल संग्रह पर प्रीट्रेन किए जाते हैं और फिर मानव-संबंधित कार्यों के लिए फाइन-ट्यून किए जाते हैं। सैपियन्स का उद्देश्य मानव दृष्टि कार्यों के लिए मॉडल विकसित करना है जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स मॉडल मानव दृष्टि कार्यों के लिए एक मॉडल प्रदान करते हैं जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स के मॉडल मानव छवियों के एक विशाल संग्रह पर प्रीट्रेन किए जाते हैं और फिर मानव-संबंधित कार्यों के लिए फाइन-ट्यून किए जाते हैं। सैपियन्स का उद्देश्य मानव दृष्टि कार्यों के लिए मॉडल विकसित करना है जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स मॉडल मानव दृष्टि कार्यों के लिए एक मॉडल प्रदान करते हैं जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स के मॉडल मानव छवियों के एक विशाल संग्रह पर प्रीट्रेन किए जाते हैं और फिर मानव-संबंधित कार्यों के लिए फाइन-ट्यून किए जाते हैं। सैपियन्स का उद्देश्य मानव दृष्टि कार्यों के लिए मॉडल विकसित करना है जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स मॉडल मानव दृष्टि कार्यों के लिए एक मॉडल प्रदान करते हैं जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स के मॉडल मानव छवियों के एक विशाल संग्रह पर प्रीट्रेन किए जाते हैं और फिर मानव-संबंधित कार्यों के लिए फाइन-ट्यून किए जाते हैं। सैपियन्स का उद्देश्य मानव दृष्टि कार्यों के लिए मॉडल विकसित करना है जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स मॉडल मानव दृष्टि कार्यों के लिए एक मॉडल प्रदान करते हैं जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स के मॉडल मानव छवियों के एक विशाल संग्रह पर प्रीट्रेन किए जाते हैं और फिर मानव-संबंधित कार्यों के लिए फाइन-ट्यून किए जाते हैं। सैपियन्स का उद्देश्य मानव दृष्टि कार्यों के लिए मॉडल विकसित करना है जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स मॉडल मानव दृष्टि कार्यों के लिए एक मॉडल प्रदान करते हैं जो जंगली सेटिंग्स में सामान्यीकृत होते हैं। सैपियन्स के मॉडल मानव छवियों के एक विशाल संग्रह पर प्रीट्रेन किए जाते हैं और फिर मानव-संबंधित कार्यों के लिए फाइन-ट्यून किए जाते हैं। सैपियन्स का उद्देश्य मानव दृष्टि कार्यों के लिए मॉडल विकसित करना है जो जंगली सेटिंग्स में सामान्यीकृत होते हैं।

рдПрдХ рдЗрдВрдЬреАрдирд┐рдпрд░ рдкреЗрд╢реЗ рд╕реЗ, рдПрдХ рд▓реЗрдЦрдХ рджрд┐рд▓ рд╕реЗред рдХреБрдирд╛рд▓ рдПрдХ рддрдХрдиреАрдХреА рд▓реЗрдЦрдХ рд╣реИрдВ рдЬрд┐рдиреНрд╣реЗрдВ рдПрдЖрдИ рдФрд░ рдПрдордПрд▓ рдХреЗ рдкреНрд░рддрд┐ рдЧрд╣рд░рд╛ рдкреНрдпрд╛рд░ рдФрд░ рд╕рдордЭ рд╣реИ, рдЬреЛ рдЕрдкрдиреЗ рдЖрдХрд░реНрд╖рдХ рдФрд░ рдЬрд╛рдирдХрд╛рд░реАрдкреВрд░реНрдг рджрд╕реНрддрд╛рд╡реЗрдЬрд╝ рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рдЗрди рдХреНрд╖реЗрддреНрд░реЛрдВ рдореЗрдВ рдЬрдЯрд┐рд▓ рдЕрд╡рдзрд╛рд░рдгрд╛рдУрдВ рдХреЛ рд╕рд░рд▓ рдмрдирд╛рдиреЗ рдХреЗ рд▓рд┐рдП рд╕рдорд░реНрдкрд┐рдд рд╣реИрдВред