рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
рд╕реИрдкрд┐рдпрдиреНрд╕: рдорд╛рдирд╡ рджреГрд╖реНрдЯрд┐ рдореЙрдбрд▓ рдХреЗ рд▓рд┐рдП рдлрд╛рдЙрдВрдбреЗрд╢рди
भाषा मॉडलिंग के लिए बड़े पैमाने पर प्रीट्रेनिंग के बाद कार्य-विशिष्ट फाइन-ट्यूनिंग की उल्लेखनीय सफलता ने इस दृष्टिकोण को एक मानक अभ्यास के रूप में स्थापित किया है। इसी तरह, कंप्यूटर विजन विधियां धीरे-धीरे प्रीट्रेनिंग के लिए व्यापक डेटा स्केल को अपना रही हैं। बड़े डेटासेट जैसे कि LAION5B, Instagram-3.5B, JFT-300M, LVD142M, Visual Genome, और YFCC100M के उद्भव ने पारंपरिक बेंचमार्क के दायरे से परे एक डेटा कॉर्पस की खोज को सक्षम किया है। इस डोमेन में प्रमुख कार्य में DINOv2, MAWS, और AIM शामिल हैं। DINOv2 LDV-142M डेटासेट पर कंट्रास्टिव iBot विधि को स्केल करके स्व-पर्यवेक्षित विशेषताओं के उत्पादन में राज्य-ऑफ-द-आर्ट प्रदर्शन प्राप्त करता है। MAWS अरबों छवियों पर मास्क्ड-ऑटोएनकोडर्स (MAE) के स्केलिंग का अध्ययन करता है। AIM दृष्टि ट्रांसफॉर्मर के लिए BERT के समान ऑटोरेग्रेसिव दृश्य प्रीट्रेनिंग की स्केलेबिलिटी का अन्वेषण करता है। इन विधियों के विपरीत, जो मुख्य रूप से सामान्य छवि प्रीट्रेनिंग या शून्य-शॉट छवि वर्गीकरण पर केंद्रित हैं, सैपियन्स एक विशिष्ट मानव-केंद्रित दृष्टिकोण लेता है: सैपियन्स के मॉडल मानव छवियों के एक विशाल संग्रह का लाभ उठाते हैं प्रीट्रेनिंग के लिए, बाद में मानव-संबंधित कार्यों की एक श्रृंखला के लिए फाइन-ट्यूनिंग करते हैं। बड़े पैमाने पर 3D मानव डिजिटलीकरण कंप्यूटर विजन में एक प्रमुख लक्ष्य बना हुआ है।
नियंत्रित या स्टूडियो वातावरण के भीतर महत्वपूर्ण प्रगति की गई है, लेकिन असीमित वातावरण में इन विधियों को बढ़ाने में चुनौतियां बनी हुई हैं। इन चुनौतियों का सामना करने के लिए, कई मूलभूत कार्यों जैसे कि कुंजी पॉपॉइंट अनुमान, शरीर-भाग सेगमेंटेशन, गहराई अनुमान, और सतह सामान्य अनुमान जैसे कार्यों के लिए सक्षम मॉडल विकसित करना आवश्यक है। इस कार्य में, सैपियन्स का उद्देश्य प्राकृतिक सेटिंग्स में छवियों से इन संपत्तियों का अनुमान लगाने के लिए मॉडल विकसित करना है। वर्तमान में, सबसे बड़े सार्वजनिक रूप से सुलभ भाषा मॉडल में 100B पैरामीटर होते हैं, जबकि अधिक सामान्य रूप से उपयोग किए जाने वाले भाषा मॉडल में लगभग 7B पैरामीटर होते हैं। इसके विपरीत, विजन ट्रांसफॉर्मर (ViT),尽管 उन्होंने एक समान वास्तुकला साझा की है, उन्हें इस सीमा तक सफलतापूर्वक स्केल नहीं किया गया है। जबकि इस दिशा में उल्लेखनीय प्रयास हैं, जिनमें एक घने ViT-4B का विकास शामिल है जो पाठ और छवियों दोनों पर प्रशिक्षित है, और एक ViT-22B के स्थिर प्रशिक्षण के लिए तकनीकों का गठन, सामान्य रूप से उपयोग किए जाने वाले दृष्टि बैकबोन 300M से 600M पैरामीटर के बीच होते हैं और मुख्य रूप से लगभग 224 पिक्सेल के छवि रिज़ॉल्यूशन पर प्रीट्रेन किए जाते हैं। इसी तरह, मौजूदा ट्रांसफॉर्मर-आधारित छवि पीढ़ी मॉडल, जैसे कि DiT, 700M पैरामीटर से कम का उपयोग करते हैं और एक अत्यधिक संकुचित लेटेंट स्पेस पर काम करते हैं। इस अंतर को पाटने के लिए, सैपियन्स मिलियन मानव छवियों पर 1024-पिक्सेल छवि रिज़ॉल्यूशन पर स्वदेशी रूप से प्रीट्रेन किए गए उच्च-रिज़ॉल्यूशन ViT मॉडल का एक संग्रह प्रस्तुत करता है।
सैपियन्स 2D पोज़ अनुमान, शरीर-भाग सेगमेंटेशन, गहराई अनुमान, और सतह सामान्य अनुमान जैसे चार मूलभूत मानव-केंद्रित दृष्टि कार्यों के लिए मॉडल का एक परिवार प्रस्तुत करता है। सैपियन्स मॉडल 1K उच्च-रिज़ॉल्यूशन अंतर्दृष्टि का मूल रूप से समर्थन करते हैं और व्यक्तिगत कार्यों के लिए मॉडल को फाइन-ट्यून करने के लिए अत्यधिक आसान हैं, जो 300 मिलियन से अधिक इन-द-वाइल्ड मानव छवियों पर प्रीट्रेन किए जाते हैं। सैपियन्स यह देखता है कि एक ही गणना बजट दिए जाने पर, एक क्यूरेटेड मानव छवियों के डेटासेट पर स्व-पर्यवेक्षित प्रीट्रेनिंग विभिन्न मानव-केंद्रित कार्यों के लिए प्रदर्शन में काफी वृद्धि करती है। परिणामी मॉडल इन-द-वाइल्ड डेटा पर उल्लेखनीय सामान्यीकरण प्रदर्शित करते हैं, यहां तक कि जब लेबल वाला डेटा दुर्लभ या पूरी तरह से सिंथेटिक होता है। सरल मॉडल डिज़ाइन भी स्केलेबिलिटी लाता है – मॉडल का प्रदर्शन कार्यों में 0.3 से 2 अरब पैरामीटर तक स्केल करते समय बेहतर होता है। सैपियन्स विभिन्न मानव-केंद्रित बेंचमार्क पर मौजूदा बेसलाइन को लगातार पार करता है, पिछले राज्य-ऑफ-द-आर्ट परिणामों पर महत्वपूर्ण सुधार करता है: 7.6 mAP ह्यूमन्स-5K (पोज़), 17.1 mIoU ह्यूमन्स-2K (पार्ट-सेग), 22.4% रिलेटिव RMSE हाई4डी (गहराई), और 53.5% रिलेटिव एंगल त्रुटि THuman2 (सामान्य)।
सैपियन्स : मानव दृष्टि मॉडल में प्रगति
हाल के वर्षों में 2D और 3D में फोटोरियलिस्टिक मानव उत्पादन की ओर उल्लेखनीय प्रगति हुई है। इन विधियों की सफलता विभिन्न संपत्तियों जैसे 2D कुंजी बिंदुओं, महीन शरीर-भाग सेगमेंटेशन, गहराई, और सतह सामान्य के मजबूत अनुमान से बहुत अधिक है। हालांकि, इन संपत्तियों का सटीक और सटीक अनुमान एक सक्रिय अनुसंधान क्षेत्र बना हुआ है, और व्यक्तिगत कार्यों के लिए प्रदर्शन को बढ़ाने के लिए जटिल प्रणाली अक्सर व्यापक अपनाने में बाधा डालती हैं। इसके अलावा, इन-द-वाइल्ड में सटीक ग्राउंड-ट्रुथ एनोटेशन प्राप्त करना पैमाने पर करना कठिन है। सैपियन्स का लक्ष्य इन संपत्तियों को इन-द-वाइल्ड में अनुमान लगाने के लिए एक एकीकृत फ्रेमवर्क और मॉडल प्रदान करना है, जो मानव-केंद्रित अनुप्रयोगों की एक विस्तृत श्रृंखला को अनलॉक करता है।
सैपियन्स यह तर्क देता है कि ऐसे मानव-केंद्रित मॉडल को तीन मानदंडों को पूरा करना चाहिए: सामान्यीकरण, व्यापक अनुप्रयोग, और उच्च विश्वास। सामान्यीकरण मॉडल को अनदेखे परिस्थितियों में लचीलापन प्रदान करता है, जिससे यह विभिन्न वातावरण में स्थिर रूप से प्रदर्शन कर सकता है। व्यापक अनुप्रयोग मॉडल की बहुमुखी प्रतिभा को दर्शाता है, जिससे यह विभिन्न कार्यों के लिए उपयुक्त हो जाता है जिसमें न्यूनतम संशोधनों की आवश्यकता होती है। उच्च विश्वास मॉडल की क्षमता को दर्शाता है कि यह सटीक और उच्च-रिज़ॉल्यूशन आउटपुट प्रदान कर सकता है, जो विश्वासपूर्ण मानव पीढ़ी कार्यों के लिए आवश्यक है। इस पत्र में उन मॉडलों का विकास विस्तार से बताया गया है जो इन विशेषताओं को प्रदर्शित करते हैं, जिन्हें सामूहिक रूप से सैपियन्स कहा जाता है।
अनुसंधान के बाद, सैपियन्स बड़े डेटासेट और स्केलेबल मॉडल आर्किटेक्चर का लाभ उठाता है, जो सामान्यीकरण के लिए महत्वपूर्ण है। व्यापक अनुप्रयोग के लिए, सैपियन्स प्रीट्रेन-थेन-फाइनट्यून दृष्टिकोण को अपनाता है, जो पोस्ट-प्रीट्रेनिंग को विशिष्ट कार्यों के लिए न्यूनतम समायोजन के साथ अनुकूलित करने में सक्षम बनाता है। यह दृष्टिकोण एक महत्वपूर्ण प्रश्न उठाता है: प्रीट्रेनिंग के लिए सबसे प्रभावी डेटा का प्रकार क्या है? गणना सीमाओं को देखते हुए, क्या जोर इतनी सारी मानव छवियों को इकट्ठा करने पर होना चाहिए, या यह अधिक क्यूरेटेड सेट पर प्रीट्रेन करना बेहतर है ताकि वास्तविक दुनिया की विविधता को बेहतर ढंग से प्रतिबिंबित किया जा सके? मौजूदा विधियां अक्सर डाउनस्ट्रीम कार्यों के संदर्भ में प्रीट्रेनिंग डेटा वितरण को नजरअंदाज कर देती हैं। प्रीट्रेनिंग डेटा वितरण के मानव-विशिष्ट कार्यों पर प्रभाव का अध्ययन करने के लिए, सैपियन्स 300 मिलियन विविध मानव छवियों वाले ह्यूमन्स-300मी डेटासेट को इकट्ठा करता है। इन अनलेबल्ड छवियों का उपयोग स्क्रैच से विजन ट्रांसफॉर्मर के एक परिवार को प्रीट्रेन करने के लिए किया जाता है, जिसमें 300M से 2B पैरामीटर तक की संख्या होती है।
विभिन्न स्व-पर्यवेक्षित विधियों में से सामान्य-उद्देश्य दृश्य विशेषताओं को बड़े डेटासेट से सीखने के लिए, सैपियन्स मास्क्ड-ऑटोएनकोडर (MAE) दृष्टिकोण को अपनाता है, जो प्रीट्रेनिंग में इसकी सादगी और दक्षता के कारण है। MAE, जिसमें एक ही पास इन्फरेंस मॉडल होता है जो कंट्रास्टिव या मल्टी-इन्फरेंस रणनीतियों की तुलना में होता है, एक ही गणना संसाधनों के साथ अधिक छवियों को संसाधित करने की अनुमति देता है। उच्च विश्वास के लिए, पिछली विधियों के विपरीत, सैपियन्स अपनी प्रीट्रेनिंग के लिए मूल इनपुट रिज़ॉल्यूशन को 1024 पिक्सेल तक बढ़ाता है, जिससे मौजूदा सबसे बड़े दृष्टि बैकबोन की तुलना में लगभग 4× वृद्धि होती है। प्रत्येक मॉडल को 1.2 ट्रिलियन टोकन पर प्रीट्रेन किया जाता है। मानव-केंद्रित कार्यों के लिए फाइन-ट्यूनिंग के लिए, सैपियन्स एक सुसंगत एनकोडर-डिकोडर आर्किटेक्चर का उपयोग करता है। एनकोडर को प्रीट्रेनिंग से वजन के साथ आरंभ किया जाता है, जबकि डिकोडर, एक हल्का और कार्य-विशिष्ट हेड, यादृच्छिक रूप से आरंभ किया जाता है। दोनों घटकों को फिर से अंत से अंत तक फाइन-ट्यून किया जाता है। सैपियन्स चार प्रमुख कार्यों पर केंद्रित है: 2D पोज़ अनुमान, शरीर-भाग सेगमेंटेशन, गहराई, और सामान्य अनुमान, जैसा कि निम्नलिखित चित्र में दिखाया गया है।

पिछले अध्ययनों के अनुरूप, सैपियन्स लेबल की गुणवत्ता के मॉडल के इन-द-वाइल्ड प्रदर्शन पर महत्वपूर्ण प्रभाव की पुष्टि करता है। सार्वजनिक बेंचमार्क अक्सर शोर लेबल वाले होते हैं, जो मॉडल फाइन-ट्यूनिंग के दौरान असंगत पर्यवेक्षी संकेत प्रदान करते हैं। साथ ही, सैपियन्स के प्राथमिक लक्ष्य के अनुरूप 3D मानव डिजिटलीकरण के लिए सटीक और विस्तृत एनोटेशन का उपयोग करना आवश्यक है। इस उद्देश्य से, सैपियन्स पोज़ अनुमान के लिए 2D पूरे शरीर के कुंजी बिंदुओं का एक महत्वपूर्ण रूप से घना सेट और शरीर-भाग सेगमेंटेशन के लिए एक विस्तृत वर्ग वोकेबुलरी प्रस्तावित करता है, जो पिछले डेटासेट के दायरे से परे है। विशेष रूप से, सैपियन्स 308 कुंजी बिंदुओं का एक व्यापक संग्रह प्रस्तुत करता है जो शरीर, हाथ, पैर, सतह, और चेहरे को शामिल करता है। इसके अलावा, सैपियन्स सेगमेंटेशन वर्ग वोकेबुलरी को 28 वर्गों तक विस्तारित करता है, जिसमें बाल, जीभ, दांत, ऊपरी/निचला होंठ, और टोर्सो जैसे शरीर के अंग शामिल हैं। एनोटेशन की गुणवत्ता और संगति की गारंटी के लिए और उच्च स्तर के स्वचालन के लिए, सैपियन्स पोज़ और सेगमेंटेशन एनोटेशन एकत्र करने के लिए एक मल्टी-व्यू कैप्चर सेटअप का उपयोग करता है। सैपियन्स गहराई और सामान्य अनुमान के लिए मानव-केंद्रित सिंथेटिक डेटा का भी उपयोग करता है, जिसमें रेंडरपीपल से 600 विस्तृत स्कैन शामिल हैं जो उच्च-रिज़ॉल्यूशन गहराई मानचित्र और सतह सामान्य उत्पन्न करते हैं। सैपियन्स यह प्रदर्शित करता है कि डोमेन-विशिष्ट बड़े पैमाने पर प्रीट्रेनिंग और सीमित, लेकिन उच्च-गुणवत्ता वाले एनोटेशन के संयोजन से इन-द-वाइल्ड सामान्यीकरण को मजबूती से बढ़ावा मिलता है। कुल मिलाकर, सैपियन्स की विधि वास्तविक दुनिया की स्थितियों में उच्च सटीकता वाले विभेदक मॉडल विकसित करने के लिए एक प्रभावी रणनीति प्रदान करती है, जिसमें महंगे और विविध एनोटेशन सेट को इकट्ठा करने की आवश्यकता नहीं होती है।

सैपियन्स : विधि और आर्किटेक्चर
सैपियन्स मास्क्ड-ऑटोएनकोडर (MAE) दृष्टिकोण का पालन करता है प्रीट्रेनिंग के लिए। मॉडल को आंशिक अवलोकन से मूल मानव छवि को पुनर्निर्माण करने के लिए प्रशिक्षित किया जाता है। सभी ऑटोएनकोडर्स की तरह, सैपियन्स के मॉडल में एक एनकोडर होता है जो दृश्य छवि को एक लेटेंट प्रतिनिधित्व में मैप करता है और एक डिकोडर होता है जो इस लेटेंट प्रतिनिधित्व से मूल छवि को पुनर्निर्माण करता है। प्रीट्रेनिंग डेटासेट में एकल और बहु-मानव छवियां शामिल हैं, प्रत्येक छवि को एक निश्चित आकार में समान आकार के अनुपात में बदल दिया जाता है। विटी की तरह, छवि को नियमित गैर-ओवरलैपिंग पैच में विभाजित किया जाता है जिसमें एक निश्चित पैच आकार होता है। इन पैचों में से एक उपसेट यादृच्छिक रूप से चुना जाता है और मास्क किया जाता है, शेष दृश्यमान रहते हैं। मास्क किए गए पैचों का अनुपात दृश्यमान लोगों के लिए, जिसे मास्किंग अनुपात के रूप में जाना जाता है, पूरे प्रशिक्षण के दौरान स्थिर रहता है।
सैपियन्स के मॉडल विभिन्न छवि विशेषताओं में सामान्यीकरण प्रदर्शित करते हैं, जिनमें स्केल, फसल, विषय की आयु और जातीयता, और विषयों की संख्या शामिल है। मॉडल में प्रत्येक पैच टोकन छवि क्षेत्र का 0.02% हिस्सा होता है, जो मानक विटी में 0.4% की तुलना में 16× कम होता है – मॉडल के लिए बारीक अंतर-टोकन तर्क प्रदान करता है। यहां तक कि 95% मास्किंग अनुपात के साथ, सैपियन्स का मॉडल मानव शरीर रचना विज्ञान पर ध्यान देने योग्य पुनर्निर्माण प्राप्त करता है। सैपियन्स के प्रीट्रेन्ड मॉडल का पुनर्निर्माण अनदेखी मानव छवियों पर निम्नलिखित छवि में प्रदर्शित किया गया है।

इसके अलावा, सैपियन्स एक बड़े प्रोप्राइटरी डेटासेट का उपयोग प्रीट्रेनिंग के लिए करता है, जिसमें लगभग 1 अरब इन-द-वाइल्ड छवियां होती हैं, जो विशेष रूप से मानव छवियों पर केंद्रित होती हैं। प्रीप्रोसेसिंग में वॉटरमार्क, पाठ, कलात्मक चित्रण, या अस्वाभाविक तत्वों वाली छवियों को हटाना शामिल है। सैपियन्स फिर एक ऑफ-द-शेल्फ पर्सन बाउंडिंग-बॉक्स डिटेक्टर का उपयोग छवियों को फिल्टर करने के लिए करता है, जो 0.9 से अधिक की डिटेक्शन स्कोर वाली छवियों को बनाए रखता है और 300 पिक्सेल से अधिक के बाउंडिंग बॉक्स आयाम वाली छवियों को बनाए रखता है। डेटासेट में 248 मिलियन से अधिक छवियां एक से अधिक विषयों को दर्शाती हैं।
2D पोज़ अनुमान
सैपियन्स फ्रेमवर्क को पी में विभिन्न कंकालों पर फाइनट्यून किया जाता है, जिनमें K = 17 [67], K = 133 [55] और एक नए, अत्यधिक विस्तृत कंकाल, K = 308 शामिल हैं, जैसा कि निम्नलिखित चित्र में दिखाया गया है।

मौजूदा प्रारूपों की तुलना में जो अधिकतम 68 चेहरे के कुंजी बिंदुओं का उपयोग करते हैं, सैपियन्स की एनोटेशन में 243 चेहरे के कुंजी बिंदु शामिल हैं, जिनमें आंखों, होंठ, नाक, और कान के आसपास के प्रतिनिधि बिंदु शामिल हैं। यह डिज़ाइन वास्तविक दुनिया में चेहरे के भावों की बारीकियों को बारीकी से पकड़ने के लिए तैयार किया गया है। इन कुंजी बिंदुओं के साथ, सैपियन्स फ्रेमवर्क ने 4K रिज़ॉल्यूशन पर 1 मिलियन छवियों को मैन्युअल रूप से एनोटेट किया, जो एक इनडोर कैप्चर सेटअप से ली गई थीं। इसी तरह के पिछले कार्यों की तरह, हम नॉर्मल एस्टिमेटर एन के डिकोडर आउटपुट चैनलों को xyz घटकों के साथ 3 तक सेट करते हैं प्रत्येक पिक्सेल पर सामान्य वेक्टर। सिंथेटिक डेटा का उत्पादन भी सतह सामान्य अनुमान के लिए पर्यवेक्षण के रूप में उपयोग किया जाता है।

सैपियन्स : प्रयोग और परिणाम
सैपियन्स-2B को 1024 A100 जीपीयू का उपयोग करके 18 दिनों के लिए पाइथन के साथ प्रीट्रेन किया जाता है। सैपियन्स सभी प्रयोगों के लिए एडमडब्ल्यू ऑप्टिमाइज़र का उपयोग करता है। लर्निंग शेड्यूल में एक संक्षिप्त रैखिक वार्म-अप शामिल है, जिसके बाद प्रीट्रेनिंग के लिए कोसाइन एनीलिंग और फाइनट्यूनिंग के लिए रैखिक क्षय होता है। सभी मॉडल 1024 × 1024 रिज़ॉल्यूशन पर प्रीट्रेन किए जाते हैं और 16 के पैच आकार के साथ स्क्रैच से प्रीट्रेन किए जाते हैं। फाइनट्यूनिंग के लिए, इनपुट छवि को 4:3 अनुपात में बदल दिया जाता है, अर्थात 1024 × 768। सैपियन्स मानक ऑगमेंटेशन जैसे कि क्रॉपिंग, स्केलिंग, फ्लिपिंग, और फोटोमेट्रिक विकृतियों को लागू करता है। गैर-मानव सीओसीओ छवियों से एक यादृच्छिक पृष्ठभूमि सेगमेंटेशन, गहराई, और सामान्य अनुमान कार्यों के लिए जोड़ा जाता है। महत्वपूर्ण रूप से, सैपियन्स सामान्यीकरण को संरक्षित करने के लिए डिफरेंशियल लर्निंग रेट का उपयोग करता है, जिसमें प्रारंभिक परतों के लिए कम लर्निंग रेट और बाद की परतों के लिए बढ़ते दर होते हैं। परत-वार लर्निंग रेट डिके को 0.85 पर सेट किया जाता है और वजन क्षय 0.1 पर सेट किया जाता है एनकोडर के लिए।
सैपियन्स के डिज़ाइन विशिष्टताएं निम्नलिखित तालिका में विस्तार से दी गई हैं। एक विशिष्ट दृष्टिकोण का पालन करते हुए, सैपियन्स मॉडलों को गहराई की तुलना में चौड़ाई से स्केल करने पर जोर देता है। उल्लेखनीय रूप से, सैपियन्स-0.3B मॉडल, जो वास्तुकला के रूप से पारंपरिक ViT-लार्ज के समान है, अपने उच्च रिज़ॉल्यूशन के कारण二十 गुना अधिक FLOPs है।

सैपियन्स को उच्च-विश्वास वाली एनोटेशन का उपयोग करके चेहरे, शरीर, पैर, और हाथ (K = 308) पोज़ अनुमान के लिए फाइनट्यून किया जाता है। प्रशिक्षण के लिए, सैपियन्स 1M छवियों वाले प्रशिक्षण सेट का उपयोग करता है, और मूल्यांकन के लिए, यह ह्यूमन्स5K नामक परीक्षण सेट का उपयोग करता है, जिसमें 5K छवियां हैं। मूल्यांकन एक शीर्ष-नीचे की दृष्टि से किया जाता है, जहां सैपियन्स एक ऑफ-द-शेल्फ डिटेक्टर का उपयोग बाउंडिंग बॉक्स के लिए करता है और एकल मानव पोज़ अनुमान करता है। तालिका 3 सैपियन्स मॉडलों की तुलना मौजूदा विधियों से करती है पूरे शरीर के पोज़ अनुमान के लिए। सभी विधियों का मूल्यांकन सैपियन्स के 308 कुंजी बिंदु वोकेबुलरी और सीओसीओ-व्होलबॉडी के 133 कुंजी बिंदु वोकेबुलरी के बीच 114 सामान्य कुंजी बिंदुओं पर किया जाता है। सैपियन्स-0.6B वर्तमान राज्य-ऑफ-द-आर्ट, डीडब्ल्यूपोज़-एल को +2.8 एपी से पार करता है। डीडब्ल्यूपोज़ के विपरीत, जो कार्य के लिए विशिष्ट एक जटिल छात्र-शिक्षक फ्रेमवर्क का उपयोग करता है जिसमें सुविधा स्थिरता शामिल है, सैपियन्स एक सामान्य एनकोडर-डिकोडर आर्किटेक्चर को अपनाता है जो बड़े मानव-केंद्रित प्रीट्रेनिंग पर निर्भर करता है।
दिलचस्प बात यह है कि यहां तक कि एक ही पैरामीटर गणना के साथ, सैपियन्स मॉडल अपने समकक्षों की तुलना में बेहतर प्रदर्शन प्रदर्शित करते हैं। उदाहरण के लिए, सैपियन्स-0.3B विटपोज़+-एल से +5.6 एपी तक आगे निकल जाता है, और सैपियन्स-0.6B विटपोज़+-एच से +7.9 एपी तक आगे निकल जाता है। सैपियन्स परिवार के भीतर, परिणाम मॉडल आकार और प्रदर्शन के बीच एक सीधा संबंध दर्शाते हैं। सैपियन्स-2B एक नए राज्य-ऑफ-द-आर्ट के साथ 61.1 एपी स्थापित करता है, जो पिछले कला से +7.6 एपी की महत्वपूर्ण वृद्धि है। इंडोर कैप्चर स्टूडियो से एनोटेशन के साथ फाइन-ट्यून होने के बावजूद, सैपियन्स वास्तविक दुनिया की स्थितियों में लचीलापन प्रदर्शित करता है, जैसा कि निम्नलिखित चित्र में दिखाया गया है।

सैपियन्स को 28 वर्गों के सेगमेंटेशन वोकेबुलरी का उपयोग करके फाइनट्यून और मूल्यांकन किया जाता है। प्रशिक्षण सेट में 100K छवियां होती हैं, जबकि परीक्षण सेट, ह्यूमन्स-2K, में 2K छवियां होती हैं। सैपियन्स की तुलना मौजूदा शरीर-भाग सेगमेंटेशन विधियों से की जाती है जो एक ही प्रशिक्षण सेट पर फाइनट्यून की जाती हैं और प्रत्येक विधि द्वारा सुझाए गए प्रीट्रेन्ड चेकपॉइंट्स का उपयोग करती हैं। पोज़ अनुमान के समान, सैपियन्स सेगमेंटेशन में सामान्यीकरण प्रदर्शित करता है, जैसा कि निम्नलिखित तालिका में दिखाया गया है।

दिलचस्प बात यह है कि सबसे छोटा मॉडल, सैपियन्स-0.3B, मास्क2फॉर्मर और डीपलैबवी3+ जैसे मौजूदा राज्य-ऑफ-द-आर्ट सेगमेंटेशन विधियों को 12.6 mIoU से पार करता है, जो इसके उच्च रिज़ॉल्यूशन और बड़े मानव-केंद्रित प्रीट्रेनिंग के कारण है। इसके अलावा, मॉडल के आकार को बढ़ाने से सेगमेंटेशन प्रदर्शन में और सुधार होता है। सैपियन्स-2B परीक्षण सेट पर 81.2 mIoU और 89.4 mAcc प्राप्त करता है, जैसा कि निम्नलिखित चित्र में दिखाया गया है सैपियन्स मॉडलों के गुणात्मक परिणाम।

निष्कर्ष
सैपियन्स मानव-केंद्रित दृष्टि मॉडल को फाउंडेशन मॉडल के क्षेत्र में एक महत्वपूर्ण कदम का प्रतिनिधित्व करता है। सैपियन्स मॉडल विभिन्न मानव-केंद्रित कार्यों में मजबूत सामान्यीकरण क्षमता प्रदर्शित करते हैं। राज्य-ऑफ-द-आर्ट प्रदर्शन को मानव-केंद्रित डेटासेट पर बड़े पैमाने पर प्रीट्रेनिंग, उच्च-रिज़ॉल्यूशन और उच्च-क्षमता वाले दृष्टि ट्रांसफॉर्मर बैकबोन, और स्टूडियो और सिंथेटिक डेटा पर उच्च-गुणवत्ता वाले एनोटेशन से जोड़ा जा सकता है। सैपियन्स मॉडल विभिन्न डाउनस्ट्रीम कार्यों के लिए एक महत्वपूर्ण बिल्डिंग ब्लॉक बन सकते हैं और उच्च-गुणवत्ता वाले दृष्टि बैकबोन को समुदाय के एक महत्वपूर्ण हिस्से तक पहुंचा सकते हैं।












