Connect with us

рд╕реИрдкрд┐рдпрдиреНрд╕: рдорд╛рдирд╡ рджреГрд╖реНрдЯрд┐ рдореЙрдбрд▓ рдХреЗ рд▓рд┐рдП рдлрд╛рдЙрдВрдбреЗрд╢рди

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рд╕реИрдкрд┐рдпрдиреНрд╕: рдорд╛рдирд╡ рджреГрд╖реНрдЯрд┐ рдореЙрдбрд▓ рдХреЗ рд▓рд┐рдП рдлрд╛рдЙрдВрдбреЗрд╢рди

mm
Sapiens: Foundation for Human Vision Models

भाषा मॉडलिंग के लिए बड़े पैमाने पर प्रीट्रेनिंग के बाद कार्य-विशिष्ट फाइन-ट्यूनिंग की उल्लेखनीय सफलता ने इस दृष्टिकोण को एक मानक अभ्यास के रूप में स्थापित किया है। इसी तरह, कंप्यूटर विजन विधियां धीरे-धीरे प्रीट्रेनिंग के लिए व्यापक डेटा स्केल को अपना रही हैं। बड़े डेटासेट जैसे कि LAION5B, Instagram-3.5B, JFT-300M, LVD142M, Visual Genome, और YFCC100M के उद्भव ने पारंपरिक बेंचमार्क के दायरे से परे एक डेटा कॉर्पस की खोज को सक्षम किया है। इस डोमेन में प्रमुख कार्य में DINOv2, MAWS, और AIM शामिल हैं। DINOv2 LDV-142M डेटासेट पर कंट्रास्टिव iBot विधि को स्केल करके स्व-पर्यवेक्षित विशेषताओं के उत्पादन में राज्य-ऑफ-द-आर्ट प्रदर्शन प्राप्त करता है। MAWS अरबों छवियों पर मास्क्ड-ऑटोएनकोडर्स (MAE) के स्केलिंग का अध्ययन करता है। AIM दृष्टि ट्रांसफॉर्मर के लिए BERT के समान ऑटोरेग्रेसिव दृश्य प्रीट्रेनिंग की स्केलेबिलिटी का अन्वेषण करता है। इन विधियों के विपरीत, जो मुख्य रूप से सामान्य छवि प्रीट्रेनिंग या शून्य-शॉट छवि वर्गीकरण पर केंद्रित हैं, सैपियन्स एक विशिष्ट मानव-केंद्रित दृष्टिकोण लेता है: सैपियन्स के मॉडल मानव छवियों के एक विशाल संग्रह का लाभ उठाते हैं प्रीट्रेनिंग के लिए, बाद में मानव-संबंधित कार्यों की एक श्रृंखला के लिए फाइन-ट्यूनिंग करते हैं। बड़े पैमाने पर 3D मानव डिजिटलीकरण कंप्यूटर विजन में एक प्रमुख लक्ष्य बना हुआ है।

नियंत्रित या स्टूडियो वातावरण के भीतर महत्वपूर्ण प्रगति की गई है, लेकिन असीमित वातावरण में इन विधियों को बढ़ाने में चुनौतियां बनी हुई हैं। इन चुनौतियों का सामना करने के लिए, कई मूलभूत कार्यों जैसे कि कुंजी पॉपॉइंट अनुमान, शरीर-भाग सेगमेंटेशन, गहराई अनुमान, और सतह सामान्य अनुमान जैसे कार्यों के लिए सक्षम मॉडल विकसित करना आवश्यक है। इस कार्य में, सैपियन्स का उद्देश्य प्राकृतिक सेटिंग्स में छवियों से इन संपत्तियों का अनुमान लगाने के लिए मॉडल विकसित करना है। वर्तमान में, सबसे बड़े सार्वजनिक रूप से सुलभ भाषा मॉडल में 100B पैरामीटर होते हैं, जबकि अधिक सामान्य रूप से उपयोग किए जाने वाले भाषा मॉडल में लगभग 7B पैरामीटर होते हैं। इसके विपरीत, विजन ट्रांसफॉर्मर (ViT),尽管 उन्होंने एक समान वास्तुकला साझा की है, उन्हें इस सीमा तक सफलतापूर्वक स्केल नहीं किया गया है। जबकि इस दिशा में उल्लेखनीय प्रयास हैं, जिनमें एक घने ViT-4B का विकास शामिल है जो पाठ और छवियों दोनों पर प्रशिक्षित है, और एक ViT-22B के स्थिर प्रशिक्षण के लिए तकनीकों का गठन, सामान्य रूप से उपयोग किए जाने वाले दृष्टि बैकबोन 300M से 600M पैरामीटर के बीच होते हैं और मुख्य रूप से लगभग 224 पिक्सेल के छवि रिज़ॉल्यूशन पर प्रीट्रेन किए जाते हैं। इसी तरह, मौजूदा ट्रांसफॉर्मर-आधारित छवि पीढ़ी मॉडल, जैसे कि DiT, 700M पैरामीटर से कम का उपयोग करते हैं और एक अत्यधिक संकुचित लेटेंट स्पेस पर काम करते हैं। इस अंतर को पाटने के लिए, सैपियन्स मिलियन मानव छवियों पर 1024-पिक्सेल छवि रिज़ॉल्यूशन पर स्वदेशी रूप से प्रीट्रेन किए गए उच्च-रिज़ॉल्यूशन ViT मॉडल का एक संग्रह प्रस्तुत करता है।

सैपियन्स 2D पोज़ अनुमान, शरीर-भाग सेगमेंटेशन, गहराई अनुमान, और सतह सामान्य अनुमान जैसे चार मूलभूत मानव-केंद्रित दृष्टि कार्यों के लिए मॉडल का एक परिवार प्रस्तुत करता है। सैपियन्स मॉडल 1K उच्च-रिज़ॉल्यूशन अंतर्दृष्टि का मूल रूप से समर्थन करते हैं और व्यक्तिगत कार्यों के लिए मॉडल को फाइन-ट्यून करने के लिए अत्यधिक आसान हैं, जो 300 मिलियन से अधिक इन-द-वाइल्ड मानव छवियों पर प्रीट्रेन किए जाते हैं। सैपियन्स यह देखता है कि एक ही गणना बजट दिए जाने पर, एक क्यूरेटेड मानव छवियों के डेटासेट पर स्व-पर्यवेक्षित प्रीट्रेनिंग विभिन्न मानव-केंद्रित कार्यों के लिए प्रदर्शन में काफी वृद्धि करती है। परिणामी मॉडल इन-द-वाइल्ड डेटा पर उल्लेखनीय सामान्यीकरण प्रदर्शित करते हैं, यहां तक कि जब लेबल वाला डेटा दुर्लभ या पूरी तरह से सिंथेटिक होता है। सरल मॉडल डिज़ाइन भी स्केलेबिलिटी लाता है – मॉडल का प्रदर्शन कार्यों में 0.3 से 2 अरब पैरामीटर तक स्केल करते समय बेहतर होता है। सैपियन्स विभिन्न मानव-केंद्रित बेंचमार्क पर मौजूदा बेसलाइन को लगातार पार करता है, पिछले राज्य-ऑफ-द-आर्ट परिणामों पर महत्वपूर्ण सुधार करता है: 7.6 mAP ह्यूमन्स-5K (पोज़), 17.1 mIoU ह्यूमन्स-2K (पार्ट-सेग), 22.4% रिलेटिव RMSE हाई4डी (गहराई), और 53.5% रिलेटिव एंगल त्रुटि THuman2 (सामान्य)।

सैपियन्स : मानव दृष्टि मॉडल में प्रगति

हाल के वर्षों में 2D और 3D में फोटोरियलिस्टिक मानव उत्पादन की ओर उल्लेखनीय प्रगति हुई है। इन विधियों की सफलता विभिन्न संपत्तियों जैसे 2D कुंजी बिंदुओं, महीन शरीर-भाग सेगमेंटेशन, गहराई, और सतह सामान्य के मजबूत अनुमान से बहुत अधिक है। हालांकि, इन संपत्तियों का सटीक और सटीक अनुमान एक सक्रिय अनुसंधान क्षेत्र बना हुआ है, और व्यक्तिगत कार्यों के लिए प्रदर्शन को बढ़ाने के लिए जटिल प्रणाली अक्सर व्यापक अपनाने में बाधा डालती हैं। इसके अलावा, इन-द-वाइल्ड में सटीक ग्राउंड-ट्रुथ एनोटेशन प्राप्त करना पैमाने पर करना कठिन है। सैपियन्स का लक्ष्य इन संपत्तियों को इन-द-वाइल्ड में अनुमान लगाने के लिए एक एकीकृत फ्रेमवर्क और मॉडल प्रदान करना है, जो मानव-केंद्रित अनुप्रयोगों की एक विस्तृत श्रृंखला को अनलॉक करता है।

सैपियन्स यह तर्क देता है कि ऐसे मानव-केंद्रित मॉडल को तीन मानदंडों को पूरा करना चाहिए: सामान्यीकरण, व्यापक अनुप्रयोग, और उच्च विश्वास। सामान्यीकरण मॉडल को अनदेखे परिस्थितियों में लचीलापन प्रदान करता है, जिससे यह विभिन्न वातावरण में स्थिर रूप से प्रदर्शन कर सकता है। व्यापक अनुप्रयोग मॉडल की बहुमुखी प्रतिभा को दर्शाता है, जिससे यह विभिन्न कार्यों के लिए उपयुक्त हो जाता है जिसमें न्यूनतम संशोधनों की आवश्यकता होती है। उच्च विश्वास मॉडल की क्षमता को दर्शाता है कि यह सटीक और उच्च-रिज़ॉल्यूशन आउटपुट प्रदान कर सकता है, जो विश्वासपूर्ण मानव पीढ़ी कार्यों के लिए आवश्यक है। इस पत्र में उन मॉडलों का विकास विस्तार से बताया गया है जो इन विशेषताओं को प्रदर्शित करते हैं, जिन्हें सामूहिक रूप से सैपियन्स कहा जाता है।

अनुसंधान के बाद, सैपियन्स बड़े डेटासेट और स्केलेबल मॉडल आर्किटेक्चर का लाभ उठाता है, जो सामान्यीकरण के लिए महत्वपूर्ण है। व्यापक अनुप्रयोग के लिए, सैपियन्स प्रीट्रेन-थेन-फाइनट्यून दृष्टिकोण को अपनाता है, जो पोस्ट-प्रीट्रेनिंग को विशिष्ट कार्यों के लिए न्यूनतम समायोजन के साथ अनुकूलित करने में सक्षम बनाता है। यह दृष्टिकोण एक महत्वपूर्ण प्रश्न उठाता है: प्रीट्रेनिंग के लिए सबसे प्रभावी डेटा का प्रकार क्या है? गणना सीमाओं को देखते हुए, क्या जोर इतनी सारी मानव छवियों को इकट्ठा करने पर होना चाहिए, या यह अधिक क्यूरेटेड सेट पर प्रीट्रेन करना बेहतर है ताकि वास्तविक दुनिया की विविधता को बेहतर ढंग से प्रतिबिंबित किया जा सके? मौजूदा विधियां अक्सर डाउनस्ट्रीम कार्यों के संदर्भ में प्रीट्रेनिंग डेटा वितरण को नजरअंदाज कर देती हैं। प्रीट्रेनिंग डेटा वितरण के मानव-विशिष्ट कार्यों पर प्रभाव का अध्ययन करने के लिए, सैपियन्स 300 मिलियन विविध मानव छवियों वाले ह्यूमन्स-300मी डेटासेट को इकट्ठा करता है। इन अनलेबल्ड छवियों का उपयोग स्क्रैच से विजन ट्रांसफॉर्मर के एक परिवार को प्रीट्रेन करने के लिए किया जाता है, जिसमें 300M से 2B पैरामीटर तक की संख्या होती है।

विभिन्न स्व-पर्यवेक्षित विधियों में से सामान्य-उद्देश्य दृश्य विशेषताओं को बड़े डेटासेट से सीखने के लिए, सैपियन्स मास्क्ड-ऑटोएनकोडर (MAE) दृष्टिकोण को अपनाता है, जो प्रीट्रेनिंग में इसकी सादगी और दक्षता के कारण है। MAE, जिसमें एक ही पास इन्फरेंस मॉडल होता है जो कंट्रास्टिव या मल्टी-इन्फरेंस रणनीतियों की तुलना में होता है, एक ही गणना संसाधनों के साथ अधिक छवियों को संसाधित करने की अनुमति देता है। उच्च विश्वास के लिए, पिछली विधियों के विपरीत, सैपियन्स अपनी प्रीट्रेनिंग के लिए मूल इनपुट रिज़ॉल्यूशन को 1024 पिक्सेल तक बढ़ाता है, जिससे मौजूदा सबसे बड़े दृष्टि बैकबोन की तुलना में लगभग 4× वृद्धि होती है। प्रत्येक मॉडल को 1.2 ट्रिलियन टोकन पर प्रीट्रेन किया जाता है। मानव-केंद्रित कार्यों के लिए फाइन-ट्यूनिंग के लिए, सैपियन्स एक सुसंगत एनकोडर-डिकोडर आर्किटेक्चर का उपयोग करता है। एनकोडर को प्रीट्रेनिंग से वजन के साथ आरंभ किया जाता है, जबकि डिकोडर, एक हल्का और कार्य-विशिष्ट हेड, यादृच्छिक रूप से आरंभ किया जाता है। दोनों घटकों को फिर से अंत से अंत तक फाइन-ट्यून किया जाता है। सैपियन्स चार प्रमुख कार्यों पर केंद्रित है: 2D पोज़ अनुमान, शरीर-भाग सेगमेंटेशन, गहराई, और सामान्य अनुमान, जैसा कि निम्नलिखित चित्र में दिखाया गया है।

पिछले अध्ययनों के अनुरूप, सैपियन्स लेबल की गुणवत्ता के मॉडल के इन-द-वाइल्ड प्रदर्शन पर महत्वपूर्ण प्रभाव की पुष्टि करता है। सार्वजनिक बेंचमार्क अक्सर शोर लेबल वाले होते हैं, जो मॉडल फाइन-ट्यूनिंग के दौरान असंगत पर्यवेक्षी संकेत प्रदान करते हैं। साथ ही, सैपियन्स के प्राथमिक लक्ष्य के अनुरूप 3D मानव डिजिटलीकरण के लिए सटीक और विस्तृत एनोटेशन का उपयोग करना आवश्यक है। इस उद्देश्य से, सैपियन्स पोज़ अनुमान के लिए 2D पूरे शरीर के कुंजी बिंदुओं का एक महत्वपूर्ण रूप से घना सेट और शरीर-भाग सेगमेंटेशन के लिए एक विस्तृत वर्ग वोकेबुलरी प्रस्तावित करता है, जो पिछले डेटासेट के दायरे से परे है। विशेष रूप से, सैपियन्स 308 कुंजी बिंदुओं का एक व्यापक संग्रह प्रस्तुत करता है जो शरीर, हाथ, पैर, सतह, और चेहरे को शामिल करता है। इसके अलावा, सैपियन्स सेगमेंटेशन वर्ग वोकेबुलरी को 28 वर्गों तक विस्तारित करता है, जिसमें बाल, जीभ, दांत, ऊपरी/निचला होंठ, और टोर्सो जैसे शरीर के अंग शामिल हैं। एनोटेशन की गुणवत्ता और संगति की गारंटी के लिए और उच्च स्तर के स्वचालन के लिए, सैपियन्स पोज़ और सेगमेंटेशन एनोटेशन एकत्र करने के लिए एक मल्टी-व्यू कैप्चर सेटअप का उपयोग करता है। सैपियन्स गहराई और सामान्य अनुमान के लिए मानव-केंद्रित सिंथेटिक डेटा का भी उपयोग करता है, जिसमें रेंडरपीपल से 600 विस्तृत स्कैन शामिल हैं जो उच्च-रिज़ॉल्यूशन गहराई मानचित्र और सतह सामान्य उत्पन्न करते हैं। सैपियन्स यह प्रदर्शित करता है कि डोमेन-विशिष्ट बड़े पैमाने पर प्रीट्रेनिंग और सीमित, लेकिन उच्च-गुणवत्ता वाले एनोटेशन के संयोजन से इन-द-वाइल्ड सामान्यीकरण को मजबूती से बढ़ावा मिलता है। कुल मिलाकर, सैपियन्स की विधि वास्तविक दुनिया की स्थितियों में उच्च सटीकता वाले विभेदक मॉडल विकसित करने के लिए एक प्रभावी रणनीति प्रदान करती है, जिसमें महंगे और विविध एनोटेशन सेट को इकट्ठा करने की आवश्यकता नहीं होती है।

सैपियन्स : विधि और आर्किटेक्चर

सैपियन्स मास्क्ड-ऑटोएनकोडर (MAE) दृष्टिकोण का पालन करता है प्रीट्रेनिंग के लिए। मॉडल को आंशिक अवलोकन से मूल मानव छवि को पुनर्निर्माण करने के लिए प्रशिक्षित किया जाता है। सभी ऑटोएनकोडर्स की तरह, सैपियन्स के मॉडल में एक एनकोडर होता है जो दृश्य छवि को एक लेटेंट प्रतिनिधित्व में मैप करता है और एक डिकोडर होता है जो इस लेटेंट प्रतिनिधित्व से मूल छवि को पुनर्निर्माण करता है। प्रीट्रेनिंग डेटासेट में एकल और बहु-मानव छवियां शामिल हैं, प्रत्येक छवि को एक निश्चित आकार में समान आकार के अनुपात में बदल दिया जाता है। विटी की तरह, छवि को नियमित गैर-ओवरलैपिंग पैच में विभाजित किया जाता है जिसमें एक निश्चित पैच आकार होता है। इन पैचों में से एक उपसेट यादृच्छिक रूप से चुना जाता है और मास्क किया जाता है, शेष दृश्यमान रहते हैं। मास्क किए गए पैचों का अनुपात दृश्यमान लोगों के लिए, जिसे मास्किंग अनुपात के रूप में जाना जाता है, पूरे प्रशिक्षण के दौरान स्थिर रहता है।

सैपियन्स के मॉडल विभिन्न छवि विशेषताओं में सामान्यीकरण प्रदर्शित करते हैं, जिनमें स्केल, फसल, विषय की आयु और जातीयता, और विषयों की संख्या शामिल है। मॉडल में प्रत्येक पैच टोकन छवि क्षेत्र का 0.02% हिस्सा होता है, जो मानक विटी में 0.4% की तुलना में 16× कम होता है – मॉडल के लिए बारीक अंतर-टोकन तर्क प्रदान करता है। यहां तक कि 95% मास्किंग अनुपात के साथ, सैपियन्स का मॉडल मानव शरीर रचना विज्ञान पर ध्यान देने योग्य पुनर्निर्माण प्राप्त करता है। सैपियन्स के प्रीट्रेन्ड मॉडल का पुनर्निर्माण अनदेखी मानव छवियों पर निम्नलिखित छवि में प्रदर्शित किया गया है।

इसके अलावा, सैपियन्स एक बड़े प्रोप्राइटरी डेटासेट का उपयोग प्रीट्रेनिंग के लिए करता है, जिसमें लगभग 1 अरब इन-द-वाइल्ड छवियां होती हैं, जो विशेष रूप से मानव छवियों पर केंद्रित होती हैं। प्रीप्रोसेसिंग में वॉटरमार्क, पाठ, कलात्मक चित्रण, या अस्वाभाविक तत्वों वाली छवियों को हटाना शामिल है। सैपियन्स फिर एक ऑफ-द-शेल्फ पर्सन बाउंडिंग-बॉक्स डिटेक्टर का उपयोग छवियों को फिल्टर करने के लिए करता है, जो 0.9 से अधिक की डिटेक्शन स्कोर वाली छवियों को बनाए रखता है और 300 पिक्सेल से अधिक के बाउंडिंग बॉक्स आयाम वाली छवियों को बनाए रखता है। डेटासेट में 248 मिलियन से अधिक छवियां एक से अधिक विषयों को दर्शाती हैं।

2D पोज़ अनुमान

सैपियन्स फ्रेमवर्क को पी में विभिन्न कंकालों पर फाइनट्यून किया जाता है, जिनमें K = 17 [67], K = 133 [55] और एक नए, अत्यधिक विस्तृत कंकाल, K = 308 शामिल हैं, जैसा कि निम्नलिखित चित्र में दिखाया गया है।

मौजूदा प्रारूपों की तुलना में जो अधिकतम 68 चेहरे के कुंजी बिंदुओं का उपयोग करते हैं, सैपियन्स की एनोटेशन में 243 चेहरे के कुंजी बिंदु शामिल हैं, जिनमें आंखों, होंठ, नाक, और कान के आसपास के प्रतिनिधि बिंदु शामिल हैं। यह डिज़ाइन वास्तविक दुनिया में चेहरे के भावों की बारीकियों को बारीकी से पकड़ने के लिए तैयार किया गया है। इन कुंजी बिंदुओं के साथ, सैपियन्स फ्रेमवर्क ने 4K रिज़ॉल्यूशन पर 1 मिलियन छवियों को मैन्युअल रूप से एनोटेट किया, जो एक इनडोर कैप्चर सेटअप से ली गई थीं। इसी तरह के पिछले कार्यों की तरह, हम नॉर्मल एस्टिमेटर एन के डिकोडर आउटपुट चैनलों को xyz घटकों के साथ 3 तक सेट करते हैं प्रत्येक पिक्सेल पर सामान्य वेक्टर। सिंथेटिक डेटा का उत्पादन भी सतह सामान्य अनुमान के लिए पर्यवेक्षण के रूप में उपयोग किया जाता है।

सैपियन्स : प्रयोग और परिणाम

सैपियन्स-2B को 1024 A100 जीपीयू का उपयोग करके 18 दिनों के लिए पाइथन के साथ प्रीट्रेन किया जाता है। सैपियन्स सभी प्रयोगों के लिए एडमडब्ल्यू ऑप्टिमाइज़र का उपयोग करता है। लर्निंग शेड्यूल में एक संक्षिप्त रैखिक वार्म-अप शामिल है, जिसके बाद प्रीट्रेनिंग के लिए कोसाइन एनीलिंग और फाइनट्यूनिंग के लिए रैखिक क्षय होता है। सभी मॉडल 1024 × 1024 रिज़ॉल्यूशन पर प्रीट्रेन किए जाते हैं और 16 के पैच आकार के साथ स्क्रैच से प्रीट्रेन किए जाते हैं। फाइनट्यूनिंग के लिए, इनपुट छवि को 4:3 अनुपात में बदल दिया जाता है, अर्थात 1024 × 768। सैपियन्स मानक ऑगमेंटेशन जैसे कि क्रॉपिंग, स्केलिंग, फ्लिपिंग, और फोटोमेट्रिक विकृतियों को लागू करता है। गैर-मानव सीओसीओ छवियों से एक यादृच्छिक पृष्ठभूमि सेगमेंटेशन, गहराई, और सामान्य अनुमान कार्यों के लिए जोड़ा जाता है। महत्वपूर्ण रूप से, सैपियन्स सामान्यीकरण को संरक्षित करने के लिए डिफरेंशियल लर्निंग रेट का उपयोग करता है, जिसमें प्रारंभिक परतों के लिए कम लर्निंग रेट और बाद की परतों के लिए बढ़ते दर होते हैं। परत-वार लर्निंग रेट डिके को 0.85 पर सेट किया जाता है और वजन क्षय 0.1 पर सेट किया जाता है एनकोडर के लिए।

सैपियन्स के डिज़ाइन विशिष्टताएं निम्नलिखित तालिका में विस्तार से दी गई हैं। एक विशिष्ट दृष्टिकोण का पालन करते हुए, सैपियन्स मॉडलों को गहराई की तुलना में चौड़ाई से स्केल करने पर जोर देता है। उल्लेखनीय रूप से, सैपियन्स-0.3B मॉडल, जो वास्तुकला के रूप से पारंपरिक ViT-लार्ज के समान है, अपने उच्च रिज़ॉल्यूशन के कारण二十 गुना अधिक FLOPs है।

सैपियन्स को उच्च-विश्वास वाली एनोटेशन का उपयोग करके चेहरे, शरीर, पैर, और हाथ (K = 308) पोज़ अनुमान के लिए फाइनट्यून किया जाता है। प्रशिक्षण के लिए, सैपियन्स 1M छवियों वाले प्रशिक्षण सेट का उपयोग करता है, और मूल्यांकन के लिए, यह ह्यूमन्स5K नामक परीक्षण सेट का उपयोग करता है, जिसमें 5K छवियां हैं। मूल्यांकन एक शीर्ष-नीचे की दृष्टि से किया जाता है, जहां सैपियन्स एक ऑफ-द-शेल्फ डिटेक्टर का उपयोग बाउंडिंग बॉक्स के लिए करता है और एकल मानव पोज़ अनुमान करता है। तालिका 3 सैपियन्स मॉडलों की तुलना मौजूदा विधियों से करती है पूरे शरीर के पोज़ अनुमान के लिए। सभी विधियों का मूल्यांकन सैपियन्स के 308 कुंजी बिंदु वोकेबुलरी और सीओसीओ-व्होलबॉडी के 133 कुंजी बिंदु वोकेबुलरी के बीच 114 सामान्य कुंजी बिंदुओं पर किया जाता है। सैपियन्स-0.6B वर्तमान राज्य-ऑफ-द-आर्ट, डीडब्ल्यूपोज़-एल को +2.8 एपी से पार करता है। डीडब्ल्यूपोज़ के विपरीत, जो कार्य के लिए विशिष्ट एक जटिल छात्र-शिक्षक फ्रेमवर्क का उपयोग करता है जिसमें सुविधा स्थिरता शामिल है, सैपियन्स एक सामान्य एनकोडर-डिकोडर आर्किटेक्चर को अपनाता है जो बड़े मानव-केंद्रित प्रीट्रेनिंग पर निर्भर करता है।

दिलचस्प बात यह है कि यहां तक कि एक ही पैरामीटर गणना के साथ, सैपियन्स मॉडल अपने समकक्षों की तुलना में बेहतर प्रदर्शन प्रदर्शित करते हैं। उदाहरण के लिए, सैपियन्स-0.3B विटपोज़+-एल से +5.6 एपी तक आगे निकल जाता है, और सैपियन्स-0.6B विटपोज़+-एच से +7.9 एपी तक आगे निकल जाता है। सैपियन्स परिवार के भीतर, परिणाम मॉडल आकार और प्रदर्शन के बीच एक सीधा संबंध दर्शाते हैं। सैपियन्स-2B एक नए राज्य-ऑफ-द-आर्ट के साथ 61.1 एपी स्थापित करता है, जो पिछले कला से +7.6 एपी की महत्वपूर्ण वृद्धि है। इंडोर कैप्चर स्टूडियो से एनोटेशन के साथ फाइन-ट्यून होने के बावजूद, सैपियन्स वास्तविक दुनिया की स्थितियों में लचीलापन प्रदर्शित करता है, जैसा कि निम्नलिखित चित्र में दिखाया गया है।

सैपियन्स को 28 वर्गों के सेगमेंटेशन वोकेबुलरी का उपयोग करके फाइनट्यून और मूल्यांकन किया जाता है। प्रशिक्षण सेट में 100K छवियां होती हैं, जबकि परीक्षण सेट, ह्यूमन्स-2K, में 2K छवियां होती हैं। सैपियन्स की तुलना मौजूदा शरीर-भाग सेगमेंटेशन विधियों से की जाती है जो एक ही प्रशिक्षण सेट पर फाइनट्यून की जाती हैं और प्रत्येक विधि द्वारा सुझाए गए प्रीट्रेन्ड चेकपॉइंट्स का उपयोग करती हैं। पोज़ अनुमान के समान, सैपियन्स सेगमेंटेशन में सामान्यीकरण प्रदर्शित करता है, जैसा कि निम्नलिखित तालिका में दिखाया गया है।

दिलचस्प बात यह है कि सबसे छोटा मॉडल, सैपियन्स-0.3B, मास्क2फॉर्मर और डीपलैबवी3+ जैसे मौजूदा राज्य-ऑफ-द-आर्ट सेगमेंटेशन विधियों को 12.6 mIoU से पार करता है, जो इसके उच्च रिज़ॉल्यूशन और बड़े मानव-केंद्रित प्रीट्रेनिंग के कारण है। इसके अलावा, मॉडल के आकार को बढ़ाने से सेगमेंटेशन प्रदर्शन में और सुधार होता है। सैपियन्स-2B परीक्षण सेट पर 81.2 mIoU और 89.4 mAcc प्राप्त करता है, जैसा कि निम्नलिखित चित्र में दिखाया गया है सैपियन्स मॉडलों के गुणात्मक परिणाम।

निष्कर्ष

सैपियन्स मानव-केंद्रित दृष्टि मॉडल को फाउंडेशन मॉडल के क्षेत्र में एक महत्वपूर्ण कदम का प्रतिनिधित्व करता है। सैपियन्स मॉडल विभिन्न मानव-केंद्रित कार्यों में मजबूत सामान्यीकरण क्षमता प्रदर्शित करते हैं। राज्य-ऑफ-द-आर्ट प्रदर्शन को मानव-केंद्रित डेटासेट पर बड़े पैमाने पर प्रीट्रेनिंग, उच्च-रिज़ॉल्यूशन और उच्च-क्षमता वाले दृष्टि ट्रांसफॉर्मर बैकबोन, और स्टूडियो और सिंथेटिक डेटा पर उच्च-गुणवत्ता वाले एनोटेशन से जोड़ा जा सकता है। सैपियन्स मॉडल विभिन्न डाउनस्ट्रीम कार्यों के लिए एक महत्वपूर्ण बिल्डिंग ब्लॉक बन सकते हैं और उच्च-गुणवत्ता वाले दृष्टि बैकबोन को समुदाय के एक महत्वपूर्ण हिस्से तक पहुंचा सकते हैं।

рдПрдХ рдЗрдВрдЬреАрдирд┐рдпрд░ рдкреЗрд╢реЗ рд╕реЗ, рдПрдХ рд▓реЗрдЦрдХ рджрд┐рд▓ рд╕реЗред рдХреБрдирд╛рд▓ рдПрдХ рддрдХрдиреАрдХреА рд▓реЗрдЦрдХ рд╣реИрдВ рдЬрд┐рдиреНрд╣реЗрдВ рдПрдЖрдИ рдФрд░ рдПрдордПрд▓ рдХреЗ рдкреНрд░рддрд┐ рдЧрд╣рд░рд╛ рдкреНрдпрд╛рд░ рдФрд░ рд╕рдордЭ рд╣реИ, рдЬреЛ рдЕрдкрдиреЗ рдЖрдХрд░реНрд╖рдХ рдФрд░ рдЬрд╛рдирдХрд╛рд░реАрдкреВрд░реНрдг рджрд╕реНрддрд╛рд╡реЗрдЬрд╝ рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рдЗрди рдХреНрд╖реЗрддреНрд░реЛрдВ рдореЗрдВ рдЬрдЯрд┐рд▓ рдЕрд╡рдзрд╛рд░рдгрд╛рдУрдВ рдХреЛ рд╕рд░рд▓ рдмрдирд╛рдиреЗ рдХреЗ рд▓рд┐рдП рд╕рдорд░реНрдкрд┐рдд рд╣реИрдВред