ठूंठ फिटनेस एप्लीकेशन में एआई पोज़ अनुमान - Unite.AI
हमसे जुडे

हेल्थकेयर

फिटनेस एप्लीकेशन में एआई पोज़ अनुमान

mm

प्रकाशित

 on

मैक्सीम टाटारिएंट्स द्वारा, डेटा साइंस इंजीनियर मोबिदेव.

मानव मुद्रा अनुमान एक ऐसी तकनीक को संदर्भित करता है - जो काफी नई है, फिर भी तेजी से विकसित हो रही है - जो फिटनेस और नृत्य अनुप्रयोगों में महत्वपूर्ण भूमिका निभा रही है, जो हमें डिजिटल सामग्री को वास्तविक दुनिया में रखने की अनुमति देती है।

संक्षेप में, मानव मुद्रा अनुमान की अवधारणा एक कंप्यूटर दृष्टि-आधारित तकनीक है जो मानव मुद्रा का पता लगाने और संसाधित करने में सक्षम है। इस तकनीक का सबसे महत्वपूर्ण और केंद्रीय हिस्सा मानव शरीर मॉडलिंग है। वर्तमान मानव मुद्रा आकलन प्रणालियों में तीन शरीर मॉडल सबसे प्रमुख हैं - कंकाल-आधारित, समोच्च-आधारित, और आयतन-आधारित।

कंकाल-आधारित मॉडल

यह मॉडल जोड़ों (मुख्य बिंदुओं) के एक सेट से बना है, जैसे घुटने, टखने, कलाई, कोहनी, कंधे और शरीर के अंगों का उन्मुखीकरण। यह मॉडल अपने लचीलेपन के लिए उल्लेखनीय है, और इस प्रकार यह 3-आयामी और 2-आयामी मानव मुद्रा आकलन दोनों के लिए उपयुक्त है। 3-आयामी मॉडलिंग के साथ, समाधान एक आरजीबी छवि का उपयोग करता है और जोड़ों के एक्स, वाई और जेड निर्देशांक पाता है। 2-आयामी मॉडलिंग के साथ, यह RGB छवि का समान विश्लेषण है, लेकिन X और Y निर्देशांक का उपयोग करता है।

कंटूर-आधारित मॉडल

यह मॉडल शरीर के धड़ और अंगों की आकृति के साथ-साथ उनकी खुरदुरी चौड़ाई का भी उपयोग करता है। यहां, समाधान शरीर के फ्रेम के सिल्हूट को लेता है और उस ढांचे के भीतर शरीर के हिस्सों को आयतों और सीमाओं के रूप में प्रस्तुत करता है।

वॉल्यूम-आधारित मॉडल

यह मॉडल आम तौर पर शरीर के आकार को पकड़ने के लिए 3-आयामी स्कैन की एक श्रृंखला का उपयोग करता है और इसे आकृतियों और ज्यामितीय जालों के ढांचे में परिवर्तित करता है। ये आकृतियाँ पोज़ और शारीरिक प्रतिनिधित्व की एक 3D श्रृंखला बनाती हैं।

3डी मानव मुद्रा आकलन कैसे काम करता है

फिटनेस अनुप्रयोग 3-आयामी मानव मुद्रा अनुमान पर निर्भर करते हैं। इन ऐप्स के लिए, मानव मुद्रा के बारे में जितनी अधिक जानकारी होगी, उतना बेहतर होगा। इस तकनीक से ऐप का उपयोगकर्ता किसी व्यायाम या वर्कआउट रूटीन में भाग लेते हुए खुद को रिकॉर्ड करेगा। इसके बाद ऐप उपयोगकर्ता के शरीर की गतिविधियों का विश्लेषण करेगा और गलतियों या अशुद्धियों के लिए सुधार की पेशकश करेगा।

इस प्रकार के ऐप का फ़्लोचार्ट आमतौर पर इस पैटर्न का अनुसरण करता है:

  • सबसे पहले, व्यायाम करते समय उपयोगकर्ता की गतिविधियों पर डेटा इकट्ठा करें।
  • इसके बाद, निर्धारित करें कि उपयोगकर्ता की हरकतें कितनी सही या गलत थीं।
  • अंत में, उपयोगकर्ता को इंटरफ़ेस के माध्यम से दिखाएं कि उन्होंने क्या गलतियाँ की होंगी।

अभी, मानव मुद्रा प्रौद्योगिकी में मानक है COCO टोपोलॉजी. COCO टोपोलॉजी पूरे शरीर में 17 स्थलों से बनी है, जिसमें चेहरे से लेकर हाथ और पैर तक शामिल हैं। ध्यान दें कि COCO एकमात्र मानव शरीर मुद्रा ढाँचा नहीं है, केवल सबसे अधिक उपयोग किया जाने वाला ढाँचा है।

इस प्रकार की प्रक्रिया आम तौर पर उपयोगकर्ता की मुद्रा का अनुमान लगाने में जोड़ों को निकालने के लिए गहरी मशीन लर्निंग तकनीक का उपयोग करती है। फिर यह जो पाया गया है उसे समझने के लिए ज्यामिति-आधारित एल्गोरिदम का उपयोग करता है (पता लगाए गए जोड़ों की सापेक्ष स्थिति का विश्लेषण करता है)। अपने स्रोत डेटा के रूप में एक गतिशील वीडियो का उपयोग करते समय, सिस्टम अपने मुख्य बिंदुओं को कैप्चर करने के लिए केवल एक छवि नहीं, बल्कि फ़्रेमों की एक श्रृंखला का उपयोग कर सकता है। परिणाम उपयोगकर्ता की वास्तविक गतिविधियों का कहीं अधिक सटीक प्रतिपादन है क्योंकि सिस्टम वर्तमान फ्रेम में मानव शरीर की स्थिति के संबंध में किसी भी अनिश्चितता को हल करने के लिए आसन्न फ्रेम से जानकारी का उपयोग कर सकता है।

फिटनेस अनुप्रयोगों में 3डी पोज़ अनुमान का उपयोग करने की मौजूदा तकनीकों में से, सबसे सटीक तरीका यह है कि पहले 2डी कीपॉइंट्स का पता लगाने के लिए एक मॉडल लागू किया जाए और बाद में उन्हें 2डी कीपॉइंट भविष्यवाणियों में परिवर्तित करने के लिए दूसरे मॉडल के साथ 3डी डिटेक्शन को संसाधित किया जाए। 

में अनुसंधान हमने हाल ही में पोस्ट किया था, एक एकल वीडियो स्रोत का उपयोग किया गया था, जिसमें 2डी -> 3डी कीपॉइंट रूपांतरण करने के लिए विस्तारित टेम्पोरल कनवल्शन के साथ कन्वेन्शनल न्यूरल नेटवर्क का उपयोग किया गया था।

वर्तमान में मौजूद मॉडलों का विश्लेषण करने के बाद, हमने निर्धारित किया कि VideoPose3D अधिकांश AI-संचालित फिटनेस अनुप्रयोगों की आवश्यकताओं के अनुरूप सर्वोत्तम समाधान है। इस प्रणाली का उपयोग करने वाले इनपुट को मुख्य बिंदुओं के 2डी सेट का पता लगाने की अनुमति देनी चाहिए, जहां COCO 2017 डेटासेट पर पूर्व-प्रशिक्षित एक मॉडल को एक के रूप में लागू किया जाता है 2डी डिटेक्टर. 

वर्तमान जोड़ या कीपॉइंट की स्थिति की सबसे सटीक भविष्यवाणी के लिए, VideoPose3D 2D पोज़ जानकारी उत्पन्न करने के लिए थोड़े समय के अनुक्रम में कई फ़्रेमों का उपयोग कर सकता है। 

3डी पोज़ अनुमान की सटीकता को और बढ़ाने के लिए, एक से अधिक कैमरे एक ही व्यायाम या दिनचर्या करने वाले उपयोगकर्ता के वैकल्पिक दृष्टिकोण एकत्र कर सकते हैं। हालाँकि, ध्यान दें कि एकाधिक वीडियो स्ट्रीम इनपुट से निपटने के लिए अधिक प्रसंस्करण शक्ति के साथ-साथ विशेष मॉडल आर्किटेक्चर की आवश्यकता होती है।

हाल ही में, Google अनावरण किया उनका ब्लेज़पोज़ सिस्टम, विश्लेषण किए गए कीपॉइंट्स की संख्या को 33 तक बढ़ाकर मानव मुद्रा का अनुमान लगाने के लिए एक मोबाइल डिवाइस-उन्मुख मॉडल, सीओसीओ कीपॉइंट सेट का एक सुपरसेट और दो अन्य टोपोलॉजी - ब्लेज़पाम और ब्लेज़फेस। परिणामस्वरूप, ब्लेज़पोज़ मॉडल शरीर के शब्दार्थ को व्यक्त करके हाथ मॉडल और चेहरे के मॉडल के अनुरूप मुद्रा भविष्यवाणी परिणाम उत्पन्न कर सकता है।

मशीन-लर्निंग-आधारित मानव मुद्रा अनुमान प्रणाली के प्रत्येक घटक को तेज़ होना चाहिए, मुद्रा का पता लगाने और मॉडल को ट्रैक करने के लिए प्रति फ्रेम अधिकतम कुछ मिलीसेकंड का समय लेना चाहिए। 

इस तथ्य के कारण कि ब्लेज़पोज़ पाइपलाइन (जिसमें पोज़ अनुमान और ट्रैकिंग घटक शामिल हैं) को वास्तविक समय में विभिन्न मोबाइल उपकरणों पर काम करना पड़ता है, पाइपलाइन के प्रत्येक व्यक्तिगत हिस्से को बहुत कम्प्यूटेशनल रूप से कुशल और 200-1000 एफपीएस पर चलाने के लिए डिज़ाइन किया गया है। .

वीडियो में अनुमान लगाना और ट्रैकिंग करना जहां यह ज्ञात नहीं है कि व्यक्ति कहां और कहां मौजूद है, आमतौर पर दो चरणों में किया जाता है। 

पहले चरण में, मानव की उपस्थिति का पता लगाने या उनकी अनुपस्थिति की पहचान करने के लिए एक ऑब्जेक्ट डिटेक्शन मॉडल चलाया जाता है। व्यक्ति का पता लगने के बाद, पोज़ अनुमान मॉड्यूल व्यक्ति वाले स्थानीय क्षेत्र को संसाधित कर सकता है और मुख्य बिंदुओं की स्थिति का अनुमान लगा सकता है।

इस सेटअप का नकारात्मक पक्ष यह है कि इसमें प्रत्येक फ्रेम के लिए ऑब्जेक्ट डिटेक्शन और पोज़ अनुमान मॉड्यूल दोनों की आवश्यकता होती है जो अतिरिक्त कम्प्यूटेशनल संसाधनों का उपभोग करता है। हालाँकि, ब्लेज़पोज़ के लेखकों ने इस समस्या से निपटने का एक चतुर तरीका तैयार किया और इसे अन्य कीपॉइंट डिटेक्शन मॉड्यूल जैसे कुशलतापूर्वक उपयोग किया। फेसमेश और मीडियापाइप हाथ.

विचार यह है कि एक ऑब्जेक्ट डिटेक्शन मॉड्यूल (ब्लेज़पोज़ के मामले में फेस डिटेक्टर) का उपयोग केवल पहले फ्रेम में पोज़ ट्रैकिंग को किकस्टार्ट करने के लिए किया जा सकता है, जबकि व्यक्ति की बाद की ट्रैकिंग कुछ पोज़ संरेखण के बाद विशेष रूप से पोज़ भविष्यवाणियों का उपयोग करके की जा सकती है। जिन मापदंडों के लिए पोज़ अनुमान मॉडल का उपयोग करके भविष्यवाणी की जाती है।

दिखने में अपेक्षाकृत छोटे अंतर और इसकी विशेषताओं में उच्च विपरीतता के परिणामस्वरूप, चेहरा तंत्रिका नेटवर्क के लिए धड़ की स्थिति के बारे में सबसे मजबूत संकेत उत्पन्न करता है। नतीजतन, इस विचार पर आधारित उचित धारणाओं की एक श्रृंखला के माध्यम से मुद्रा का पता लगाने के लिए एक त्वरित, कम-ओवरहेड प्रणाली बनाना संभव है कि मानव सिर हर व्यक्तिगत उपयोग के मामले में पता लगाने योग्य होगा।

मानव मुद्रा आकलन की चुनौतियों पर काबू पाना

फिटनेस ऐप्स में मुद्रा आकलन का उपयोग करने से मानव मुद्राओं की व्यापक रेंज की चुनौती का सामना करना पड़ता है, उदाहरण के लिए, अधिकांश योग पद्धतियों में सैकड़ों आसन। 

इसके अलावा, शरीर कभी-कभी कुछ अंगों को अवरुद्ध कर देता है जैसा कि किसी दिए गए कैमरे द्वारा कैद किया गया है, उपयोगकर्ता शरीर की विशेषताओं और व्यक्तिगत दिखावट को अस्पष्ट करने वाले विभिन्न परिधान पहन सकते हैं।

किसी भी पूर्व-प्रशिक्षित मॉडल का उपयोग करते समय, ध्यान दें कि असामान्य शारीरिक गतिविधियां या अजीब कैमरा कोण पैदा हो सकते हैं मानव मुद्रा आकलन में त्रुटियाँ. हम 3डी मानव शरीर मॉडल रेंडर से सिंथेटिक डेटा का उपयोग करके, या संबंधित डोमेन के लिए विशिष्ट डेटा के साथ फ़ाइन-ट्यूनिंग करके इस समस्या को कुछ हद तक कम कर सकते हैं।

अच्छी खबर यह है कि हम अधिकांश कमजोरियों से बच सकते हैं या उन्हें कम कर सकते हैं। ऐसा करने की कुंजी सही प्रशिक्षण डेटा और मॉडल आर्किटेक्चर का चयन करना है। इसके अलावा, मानव मुद्रा अनुमान प्रौद्योगिकी के क्षेत्र में विकास की प्रवृत्ति से पता चलता है कि जिन मुद्दों का हम अभी सामना कर रहे हैं उनमें से कुछ आने वाले वर्षों में कम प्रासंगिक होंगे।

अंतिम शब्द

मानव मुद्रा का अनुमान फिटनेस ऐप्स और मानव गतिविधियों पर नज़र रखने के क्षेत्र के बाहर गेमिंग से एनीमेशन तक संवर्धित वास्तविकता से रोबोटिक्स तक विभिन्न प्रकार के संभावित भविष्य के उपयोग को दर्शाता है। यह संभावनाओं की पूरी सूची का प्रतिनिधित्व नहीं करता है, लेकिन कुछ सबसे संभावित क्षेत्रों पर प्रकाश डालता है जहां मानव मुद्रा का अनुमान हमारे डिजिटल परिदृश्य में योगदान देगा।

मैक्सीम डेटा साइंस और मशीन लर्निंग में नई अंतर्दृष्टि और अनुभव प्राप्त करने का इच्छुक है। वह विशेष रूप से डीप लर्निंग-आधारित प्रौद्योगिकियों और व्यावसायिक उपयोग के मामलों में उनके अनुप्रयोग में रुचि रखते हैं।