رطم تقدير وضع الذكاء الاصطناعي في تطبيق اللياقة - Unite.AI
اتصل بنا للحصول على مزيد من المعلومات

الرعاية الصحية

الذكاء الاصطناعي يطرح التقدير في تطبيق اللياقة البدنية

mm

تم النشر

 on

بواسطة Maksym Tatariants ، مهندس علوم البيانات في موبيديف.

يشير تقدير وضع الإنسان إلى تقنية - جديدة إلى حد ما ، لكنها تتطور بسرعة - تلعب دورًا مهمًا في تطبيقات اللياقة والرقص ، مما يسمح لنا بوضع المحتوى الرقمي على العالم الحقيقي.

باختصار، مفهوم تقدير وضعية الإنسان هو تقنية تعتمد على الرؤية الحاسوبية قادرة على اكتشاف ومعالجة وضعية الإنسان. الجزء الأكثر أهمية ومركزية في هذه التكنولوجيا هو نمذجة جسم الإنسان. هناك ثلاثة نماذج للجسم هي الأكثر بروزًا في أنظمة تقدير وضعية الإنسان الحالية - القائمة على الهيكل العظمي، وعلى أساس الكفاف، وعلى أساس الحجم.

نموذج قائم على الهيكل العظمي

يتكون هذا النموذج من مجموعة من المفاصل (نقاط رئيسية) ، مثل الركبتين والكاحلين والمعصمين والمرفقين والكتفين واتجاه أطراف الجسم. يتميز هذا النموذج بمرونته ، وبالتالي فهو مناسب لتقدير الوضع البشري ثلاثي الأبعاد وثنائي الأبعاد. باستخدام النمذجة ثلاثية الأبعاد ، يستخدم الحل صورة RGB ويجد إحداثيات الوصلات X و Y و Z. باستخدام النمذجة ثنائية الأبعاد ، يكون التحليل نفسه لصورة RGB ، ولكن باستخدام إحداثيات X و Y.

نموذج قائم على الكنتور

يستفيد هذا النموذج من انحناءات الجذع وأطراف الجسم ، فضلاً عن عرضها التقريبي. هنا ، يأخذ الحل صورة ظلية لإطار الجسم ويجعل أجزاء الجسم مستطيلات وحدود ضمن هذا الإطار.

النموذج القائم على الحجم

يستخدم هذا النموذج عمومًا سلسلة من عمليات المسح ثلاثية الأبعاد لالتقاط شكل الجسم وتحويله إلى إطار من الأشكال والشبكات الهندسية. تخلق هذه الأشكال سلسلة ثلاثية الأبعاد من الوضعيات وتمثيلات الجسم.

كيف يعمل تقدير وضع الإنسان ثلاثي الأبعاد

تميل تطبيقات اللياقة البدنية إلى الاعتماد على تقدير الوضع البشري ثلاثي الأبعاد. بالنسبة لهذه التطبيقات ، كلما زادت المعلومات حول الوضع البشري ، كان ذلك أفضل. باستخدام هذه التقنية ، سيسجل مستخدم التطبيق نفسه أثناء مشاركته في تمرين أو تمرين روتيني. سيقوم التطبيق بعد ذلك بتحليل حركات جسم المستخدم ، وتقديم تصحيحات للأخطاء أو عدم الدقة.

عادةً ما يتبع هذا النوع من مخططات انسيابية التطبيق هذا النمط:

  • أولاً ، قم بجمع بيانات عن تحركات المستخدم أثناء قيامه بالتمرين.
  • بعد ذلك ، حدد مدى صحة أو عدم صحة تحركات المستخدم.
  • أخيرًا ، أظهر للمستخدم عبر الواجهة الأخطاء التي ربما ارتكبوها.

في الوقت الحالي ، المعيار في تقنية وضع الإنسان هو طوبولوجيا كوكو. تتكون طوبولوجيا COCO من 17 معلمًا في جميع أنحاء الجسم ، تتراوح من الوجه إلى الذراعين إلى الساقين. لاحظ أن COCO ليس إطار وضع الجسم الوحيد ، بل هو الإطار الأكثر استخدامًا.

يستخدم هذا النوع من العمليات عادةً تقنية التعلم الآلي العميق لاستخراج المفاصل في تقدير وضعية المستخدم. ثم يستخدم بعد ذلك خوارزميات قائمة على الهندسة لفهم ما تم العثور عليه (تحليل المواضع النسبية للمفاصل المكتشفة). أثناء استخدام الفيديو الديناميكي كبيانات مصدرية، يمكن للنظام استخدام سلسلة من الإطارات، وليس مجرد صورة واحدة، لالتقاط النقاط الرئيسية الخاصة به. والنتيجة هي عرض أكثر دقة لحركات المستخدم الحقيقية حيث يمكن للنظام استخدام المعلومات من الإطارات المجاورة لحل أي شكوك بشأن موضع جسم الإنسان في الإطار الحالي.

من بين التقنيات الحالية لاستخدام تقدير الوضع ثلاثي الأبعاد في تطبيقات اللياقة البدنية ، تتمثل الطريقة الأكثر دقة في تطبيق نموذج أولاً لاكتشاف نقاط المفاتيح ثنائية الأبعاد ثم معالجة الاكتشاف ثنائي الأبعاد باستخدام نموذج آخر لتحويلها إلى تنبؤات ثلاثية الأبعاد. 

في مجلة بحث لقد نشرنا مؤخرًا ، تم استخدام مصدر فيديو واحد ، مع الشبكات العصبية التلافيفية ذات التلافيف الزمنية المتوسعة المطبقة لإجراء التحويل ثنائي الأبعاد -> ثلاثي الأبعاد.

بعد تحليل النماذج الموجودة حاليًا ، قررنا أن VideoPose3D هو أفضل حل يناسب احتياجات معظم تطبيقات اللياقة البدنية التي تعتمد على الذكاء الاصطناعي. يجب أن يسمح الإدخال باستخدام هذا النظام باكتشاف مجموعة ثنائية الأبعاد من نقاط المفاتيح ، حيث يتم تطبيق نموذج تم تدريبه مسبقًا على مجموعة بيانات COCO 2017 باعتباره a كاشف ثنائي الأبعاد. 

للحصول على التنبؤ الأكثر دقة لموضع المفصل الحالي أو النقطة الأساسية ، يمكن لـ VideoPose3D استخدام إطارات متعددة خلال تسلسل زمني قصير لإنشاء معلومات وضع ثنائية الأبعاد. 

لزيادة دقة تقدير الوضع ثلاثي الأبعاد ، يمكن لأكثر من كاميرا واحدة جمع وجهات نظر بديلة للمستخدم الذي يؤدي نفس التمرين أو الروتين. لاحظ ، مع ذلك ، أنه يتطلب طاقة معالجة أكبر بالإضافة إلى بنية نموذجية متخصصة للتعامل مع مدخلات دفق الفيديو المتعددة.

مؤخرا ، جوجل كشف النقاب نظام BlazePose الخاص بهم ، وهو نموذج موجه للأجهزة المحمولة لتقدير الوضع البشري عن طريق زيادة عدد النقاط الرئيسية التي تم تحليلها إلى 33 ، ومجموعة شاملة من مجموعة نقاط مفاتيح COCO واثنين من الهياكل الأخرى - BlazePalm و BlazeFace. نتيجة لذلك ، يمكن لنموذج BlazePose أن ينتج نتائج تنبؤ بالوضعية تتفق مع نماذج اليد ونماذج الوجوه من خلال توضيح دلالات الجسم.

يجب أن يكون كل مكون داخل نظام تقدير الوضع البشري القائم على التعلم الآلي سريعًا ، بحيث يستغرق بضع ميلي ثانية كحد أقصى لكل إطار لنماذج الكشف والتتبع. 

نظرًا لحقيقة أن خط أنابيب BlazePose (الذي يتضمن تقدير الوضع ومكونات التتبع) يجب أن يعمل على مجموعة متنوعة من الأجهزة المحمولة في الوقت الفعلي ، فقد تم تصميم كل جزء فردي من خط الأنابيب ليكون فعالًا للغاية من الناحية الحسابية ويعمل بسرعة 200-1000 إطارًا في الثانية .

يتم إجراء تقدير الوضع وتتبعه في الفيديو حيث لا يُعرف ما إذا كان الشخص موجودًا ومكانه على مرحلتين. 

في المرحلة الأولى ، يتم تشغيل نموذج الكشف عن الأشياء لتحديد وجود الإنسان أو تحديد غيابه. بعد اكتشاف الشخص ، يمكن لوحدة تقدير الوضع معالجة المنطقة المحلية التي تحتوي على الشخص والتنبؤ بموقع النقاط الرئيسية.

يتمثل الجانب السلبي لهذا الإعداد في أنه يتطلب كلاً من وحدات اكتشاف الكائن وتقدير الوضعية للتشغيل لكل إطار يستهلك موارد حسابية إضافية. ومع ذلك ، ابتكر مؤلفو BlazePose طريقة ذكية للالتفاف حول هذه المشكلة واستخدامها بكفاءة في وحدات الكشف الأساسية الأخرى مثل FaceMesh و MediaPipe اليد.

الفكرة هي أن وحدة الكشف عن الكائن (كاشف الوجه في حالة BlazePose) يمكن استخدامها فقط لبدء تتبع الوضع في الإطار الأول بينما يمكن إجراء التتبع اللاحق للشخص باستخدام تنبؤات الوضع حصريًا بعد بعض محاذاة الوضع ، المعلمات التي يتم توقعها باستخدام نموذج تقدير الوضع.

يُنتج الوجه أقوى إشارة تتعلق بموضع الجذع للشبكة العصبية ، نتيجة التباين الصغير نسبيًا في المظهر والتباين العالي في ميزاته. وبالتالي ، من الممكن إنشاء نظام سريع منخفض الحمل لاكتشاف الوضع من خلال سلسلة من الافتراضات المبررة القائمة على فكرة أن الرأس البشري سيكون قابلاً للتحديد في كل حالة استخدام شخصي.

التغلب على تحديات تقدير الوضع البشري

يواجه استخدام تقدير الوضعيات في تطبيقات اللياقة البدنية تحدي الحجم الهائل لمجموعة أوضاع الإنسان ، على سبيل المثال ، مئات الأساناس في معظم أنظمة اليوجا. 

علاوة على ذلك ، يقوم الجسم أحيانًا بحظر أطراف معينة كما تم التقاطه بواسطة أي كاميرا معينة ، وقد يرتدي المستخدمون ملابس متنوعة تحجب ملامح الجسم والمظهر الشخصي.

أثناء استخدام أي طرازات مدربة مسبقًا ، لاحظ أن حركات الجسم غير العادية أو زوايا الكاميرا الغريبة يمكن أن تؤدي إلى ذلك أخطاء في تقدير الوضع البشري. يمكننا التخفيف من هذه المشكلة إلى حد ما باستخدام البيانات الاصطناعية من عرض نموذج ثلاثي الأبعاد لجسم الإنسان، أو من خلال الضبط الدقيق للبيانات الخاصة بالمجال المعني.

الخبر السار هو أنه يمكننا تجنب أو تخفيف غالبية نقاط الضعف. المفتاح للقيام بذلك هو اختيار بيانات التدريب الصحيحة وبنية النموذج. علاوة على ذلك ، يشير اتجاه التطور في مجال تقنية تقدير الوضع البشري إلى أن بعض المشكلات التي نواجهها الآن ستكون أقل أهمية في السنوات القادمة.

الكلمة الأخيرة

يحمل تقدير الوضع البشري مجموعة متنوعة من الاستخدامات المستقبلية المحتملة خارج مجال تطبيقات اللياقة البدنية وتتبع الحركات البشرية ، من الألعاب إلى الرسوم المتحركة إلى الواقع المعزز إلى الروبوتات. لا يمثل ذلك قائمة كاملة بالاحتمالات ولكنه يسلط الضوء على بعض المجالات الأكثر احتمالا حيث سيساهم تقدير الوضع البشري في المشهد الرقمي لدينا.

يحرص Maksym على اكتساب رؤى وخبرات جديدة في علوم البيانات والتعلم الآلي. إنه مهتم بشكل خاص بالتقنيات القائمة على التعلم العميق وتطبيقها على حالات استخدام الأعمال.