การดูแลสุขภาพ

การประมาณท่าทางของ AI ในแอปพลิเคชันฟิตเนส

การตีพิมพ์

3 ปีที่ผ่านมา

December 21, 2020

โดย Maksym Tatariants วิศวกรวิทยาศาสตร์ข้อมูลที่ โมบีเดฟ.

การประมาณท่าทางของมนุษย์หมายถึงเทคโนโลยีที่ค่อนข้างใหม่ แต่พัฒนาอย่างรวดเร็ว ซึ่งเป็นส่วนสำคัญในแอปพลิเคชันฟิตเนสและการเต้น ทำให้เราสามารถวางเนื้อหาดิจิทัลในโลกแห่งความเป็นจริงได้

กล่าวโดยสรุป แนวคิดของการประมาณท่าทางของมนุษย์คือเทคโนโลยีที่ใช้การมองเห็นด้วยคอมพิวเตอร์ซึ่งสามารถตรวจจับและประมวลผลท่าทางของมนุษย์ได้ ส่วนที่สำคัญที่สุดและเป็นศูนย์กลางของเทคโนโลยีนี้คือการสร้างแบบจำลองร่างกายมนุษย์ แบบจำลองร่างกายสามแบบมีความโดดเด่นที่สุดในระบบการประมาณท่าทางของมนุษย์ในปัจจุบัน ได้แก่ แบบโครงกระดูก แบบรูปทรง และแบบปริมาตร

โมเดลตามโครงกระดูก

โมเดลนี้ประกอบด้วยชุดของข้อต่อ (จุดสำคัญ) เช่น เข่า ข้อเท้า ข้อมือ ข้อศอก ไหล่ และการวางแนวของแขนขาของร่างกาย โมเดลนี้มีความโดดเด่นในด้านความยืดหยุ่น และด้วยเหตุนี้จึงเหมาะสำหรับการประมาณท่าทางของมนุษย์ทั้งแบบ 3 มิติและ 2 มิติ ด้วยการสร้างแบบจำลอง 3 มิติ โซลูชันจะใช้ภาพ RGB และค้นหาพิกัด X, Y และ Z ของข้อต่อ ด้วยการสร้างแบบจำลอง 2 มิติ เป็นการวิเคราะห์ภาพ RGB แบบเดียวกัน แต่ใช้พิกัด X และ Y

โมเดลตามคอนทัวร์

โมเดลนี้ใช้ประโยชน์จากส่วนโค้งของลำตัวและแขนขา ตลอดจนความกว้างที่ขรุขระ ในที่นี้ โซลูชันจะใช้ภาพเงาของโครงร่างและแสดงส่วนต่างๆ ของร่างกายเป็นสี่เหลี่ยมและขอบเขตภายในกรอบนั้น

แบบจำลองตามปริมาตร

โมเดลนี้โดยทั่วไปจะใช้ชุดการสแกน 3 มิติเพื่อจับรูปร่างของร่างกายและแปลงเป็นกรอบของรูปทรงและตาข่ายเรขาคณิต รูปร่างเหล่านี้สร้างชุดท่าทางและการแสดงร่างกายแบบ 3 มิติ

การประมาณท่าทางของมนุษย์แบบ 3 มิติทำงานอย่างไร

แอปพลิเคชั่นฟิตเนสมักจะอาศัยการประมาณท่าทางของมนุษย์แบบ 3 มิติ สำหรับแอปเหล่านี้ ยิ่งมีข้อมูลเกี่ยวกับท่าทางของมนุษย์มากเท่าไหร่ก็ยิ่งดีเท่านั้น ด้วยเทคนิคนี้ ผู้ใช้แอปจะบันทึกตนเองเข้าร่วมในการออกกำลังกายหรือรูทีนการออกกำลังกาย จากนั้นแอพจะวิเคราะห์การเคลื่อนไหวร่างกายของผู้ใช้ นำเสนอการแก้ไขข้อผิดพลาดหรือความไม่ถูกต้อง

โดยทั่วไปผังงานของแอปประเภทนี้จะเป็นไปตามรูปแบบนี้:

ขั้นแรก รวบรวมข้อมูลการเคลื่อนไหวของผู้ใช้ในขณะที่ออกกำลังกาย
จากนั้น กำหนดว่าการเคลื่อนไหวของผู้ใช้ถูกต้องหรือไม่ถูกต้องเพียงใด
สุดท้าย แสดงให้ผู้ใช้เห็นข้อผิดพลาดที่พวกเขาอาจทำผ่านอินเทอร์เฟซ

ปัจจุบัน มาตรฐานของเทคโนโลยีการจัดท่าทางของมนุษย์คือ โทโพโลยี COCO. โทโพโลยีของ COCO ประกอบด้วยจุดสังเกต 17 จุดทั่วร่างกาย ตั้งแต่ใบหน้า แขน จนถึงขา โปรดทราบว่า COCO ไม่ใช่โครงร่างการโพสท่าของร่างกายมนุษย์เพียงอย่างเดียว แต่เป็นโครงร่างที่ใช้กันมากที่สุด

ที่มา: https://mobidev.biz/blog/human-pose-estimation-ai-personal-fitness-coach

โดยทั่วไปกระบวนการประเภทนี้จะใช้เทคโนโลยีการเรียนรู้ของเครื่องเชิงลึกเพื่อแยกข้อต่อเพื่อประเมินท่าทางของผู้ใช้ จากนั้นใช้อัลกอริธึมตามเรขาคณิตเพื่อทำความเข้าใจกับสิ่งที่พบ (วิเคราะห์ตำแหน่งสัมพัทธ์ของข้อต่อที่ตรวจพบ) ในขณะที่ใช้วิดีโอไดนามิกเป็นแหล่งข้อมูล ระบบสามารถใช้ชุดของเฟรม ไม่ใช่แค่ภาพเดียว เพื่อจับภาพจุดสำคัญ ผลลัพธ์ที่ได้คือการแสดงการเคลื่อนไหวจริงของผู้ใช้ได้แม่นยำยิ่งขึ้น เนื่องจากระบบสามารถใช้ข้อมูลจากเฟรมที่อยู่ติดกันเพื่อแก้ไขความไม่แน่นอนเกี่ยวกับตำแหน่งของร่างกายมนุษย์ในเฟรมปัจจุบัน

จากเทคนิคปัจจุบันสำหรับการใช้การประเมินท่าทาง 3 มิติในแอปพลิเคชันฟิตเนส แนวทางที่ถูกต้องที่สุดคือการใช้แบบจำลองเพื่อตรวจจับจุดสำคัญ 2 มิติก่อน จากนั้นจึงประมวลผลการตรวจจับ 2 มิติด้วยแบบจำลองอื่นเพื่อแปลงเป็นการคาดการณ์จุดสำคัญ 3 มิติ

ตัว Vortex Indicator ได้ถูกนำเสนอลงในนิตยสาร การวิจัย เราโพสต์เมื่อเร็วๆ นี้ มีการใช้แหล่งวิดีโอแหล่งเดียว โดยใช้โครงข่ายประสาทเทียมแบบบิดเบี้ยวที่มีการบิดงอชั่วคราวแบบขยายเพื่อดำเนินการแปลงคีย์พอยต์ 2D -> 3D

ที่มา: https://mobidev.biz/blog/human-pose-estimation-ai-personal-fitness-coach

หลังจากวิเคราะห์โมเดลที่มีอยู่ในปัจจุบัน เราพบว่า VideoPose3D เป็นโซลูชันที่ปรับให้เหมาะกับความต้องการของแอปพลิเคชันฟิตเนสส่วนใหญ่ที่ขับเคลื่อนด้วย AI ได้ดีที่สุด อินพุตที่ใช้ระบบนี้ควรอนุญาตให้ตรวจจับจุดสำคัญชุด 2 มิติ โดยที่โมเดลซึ่งได้รับการฝึกอบรมล่วงหน้าในชุดข้อมูล COCO 2017 จะถูกนำไปใช้เป็น เครื่องตรวจจับ 2 มิติ

สำหรับการคาดคะเนตำแหน่งของข้อต่อหรือจุดสำคัญในปัจจุบันที่แม่นยำที่สุด VideoPose3D สามารถใช้หลายเฟรมในช่วงเวลาสั้นๆ เพื่อสร้างข้อมูลการโพสท่า 2 มิติ

เพื่อเพิ่มความแม่นยำของการประมาณท่าทาง 3 มิติ กล้องมากกว่าหนึ่งตัวสามารถรวบรวมมุมมองอื่นของผู้ใช้ที่ทำการออกกำลังกายหรือกิจวัตรเดียวกัน อย่างไรก็ตาม โปรดทราบว่ามันต้องการพลังการประมวลผลที่มากขึ้นรวมถึงสถาปัตยกรรมแบบจำลองพิเศษเพื่อจัดการกับอินพุตสตรีมวิดีโอหลายตัว

เมื่อเร็ว ๆ นี้ Google เปิดตัว ระบบ BlazePose ของพวกเขา ซึ่งเป็นโมเดลที่เน้นอุปกรณ์พกพาสำหรับประเมินท่าทางของมนุษย์โดยเพิ่มจำนวนจุดสำคัญที่วิเคราะห์เป็น 33 จุด ซึ่งเป็นชุดที่เหนือกว่าของชุดจุดสำคัญ COCO และโทโพโลยีอีกสองแบบ ได้แก่ BlazePalm และ BlazeFace ผลลัพธ์ที่ได้คือ โมเดล BlazePose สามารถสร้างผลการทำนายท่าทางที่สอดคล้องกับโมเดลมือและโมเดลใบหน้าได้โดยการถ่ายทอดความหมายของร่างกาย

ที่มา: https://ai.googleblog.com/2020/08/on-device-real-time-body-pose-tracking.html

แต่ละองค์ประกอบภายในระบบการประเมินท่าทางของมนุษย์ที่ใช้การเรียนรู้ด้วยเครื่องจะต้องรวดเร็ว โดยใช้เวลาสูงสุดสองสามมิลลิวินาทีต่อเฟรมสำหรับการตรวจจับท่าทางและติดตามแบบจำลอง

เนื่องจากไปป์ไลน์ของ BlazePose (ซึ่งรวมถึงส่วนประกอบการประเมินท่าทางและการติดตาม) ต้องทำงานบนอุปกรณ์พกพาที่หลากหลายแบบเรียลไทม์ แต่ละส่วนของไปป์ไลน์จึงได้รับการออกแบบให้มีประสิทธิภาพการคำนวณสูงและทำงานที่ 200-1000 FPS .

การประมาณค่าและการติดตามในวิดีโอโดยที่ไม่ทราบว่าบุคคลนั้นอยู่ที่ไหนและอยู่ที่ไหน โดยทั่วไปจะทำในสองขั้นตอน

ในขั้นแรก แบบจำลองการตรวจจับวัตถุจะทำงานเพื่อค้นหาการมีอยู่ของมนุษย์หรือเพื่อระบุการไม่มีอยู่ หลังจากตรวจพบบุคคลแล้ว โมดูลการประมาณท่าทางสามารถประมวลผลพื้นที่ที่มีบุคคลเป็นภาษาท้องถิ่นและทำนายตำแหน่งของจุดสำคัญได้

ข้อเสียของการตั้งค่านี้คือต้องใช้ทั้งการตรวจจับวัตถุและโมดูลการประมาณค่าท่าทางเพื่อเรียกใช้สำหรับทุกเฟรมที่ใช้ทรัพยากรการคำนวณเพิ่มเติม อย่างไรก็ตาม ผู้เขียน BlazePose ได้คิดค้นวิธีที่ชาญฉลาดในการแก้ไขปัญหานี้ และใช้อย่างมีประสิทธิภาพในโมดูลการตรวจจับจุดสำคัญอื่นๆ เช่น เฟซเมช และ มีเดียไพพ์แฮนด์.

แนวคิดคือโมดูลตรวจจับวัตถุ (ตัวตรวจจับใบหน้าในกรณีของ BlazePose) สามารถใช้เพื่อเริ่มการติดตามท่าทางในเฟรมแรกเท่านั้น ในขณะที่การติดตามบุคคลในภายหลังสามารถทำได้โดยใช้การคาดคะเนท่าทางหลังจากการจัดท่าทางบางรูปแบบเท่านั้น พารามิเตอร์ที่คาดการณ์โดยใช้แบบจำลองการประมาณค่าท่าทาง

https://ai.googleblog.com/2020/08/on-device-real-time-body-pose-tracking.html

ใบหน้าสร้างสัญญาณที่แรงที่สุดในตำแหน่งของลำตัวสำหรับโครงข่ายประสาทเทียม อันเป็นผลจากความแปรปรวนของรูปลักษณ์ที่ค่อนข้างน้อยและความเปรียบต่างสูงในลักษณะต่างๆ ดังนั้นจึงเป็นไปได้ที่จะสร้างระบบที่รวดเร็วและมีค่าใช้จ่ายต่ำสำหรับการตรวจจับท่าทางผ่านชุดของสมมติฐานที่สมเหตุสมผลซึ่งมีพื้นฐานมาจากแนวคิดที่ว่าศีรษะมนุษย์จะอยู่ในตำแหน่งส่วนบุคคลในทุกกรณี

เอาชนะความท้าทายของการประมาณท่าทางของมนุษย์

การใช้การประมาณท่าทางในแอพฟิตเนสต้องเผชิญกับความท้าทายของจำนวนท่าทางของมนุษย์ เช่น อาสนะหลายร้อยท่าในสูตรโยคะส่วนใหญ่

นอกจากนี้ บางครั้งร่างกายจะปิดกั้นแขนขาบางส่วนตามที่กล้องจับภาพไว้ ผู้ใช้อาจสวมชุดที่หลากหลายซึ่งบดบังรูปร่างและรูปลักษณ์ส่วนตัว

ในขณะที่ใช้โมเดลที่ฝึกไว้ล่วงหน้า โปรดทราบว่าการเคลื่อนไหวร่างกายที่ผิดปกติหรือมุมกล้องที่แปลกอาจนำไปสู่ ข้อผิดพลาดในการประมาณท่าทางของมนุษย์. เราสามารถบรรเทาปัญหานี้ได้ในระดับหนึ่งโดยใช้ข้อมูลสังเคราะห์จากการเรนเดอร์แบบจำลองร่างกายมนุษย์ 3 มิติ หรือโดยการปรับแต่งข้อมูลเฉพาะสำหรับโดเมนที่เป็นปัญหาอย่างละเอียด

ข่าวดีก็คือเราสามารถหลีกเลี่ยงหรือบรรเทาจุดอ่อนส่วนใหญ่ได้ กุญแจสำคัญในการดำเนินการดังกล่าวคือการเลือกข้อมูลการฝึกอบรมและสถาปัตยกรรมแบบจำลองที่เหมาะสม นอกจากนี้ แนวโน้มของการพัฒนาในด้านเทคโนโลยีการประเมินท่าทางของมนุษย์ชี้ให้เห็นว่าปัญหาบางอย่างที่เราเผชิญอยู่ในขณะนี้จะมีความเกี่ยวข้องน้อยลงในปีต่อๆ ไป

คำสุดท้าย

การคาดคะเนท่าทางของมนุษย์มีการใช้งานในอนาคตที่หลากหลายนอกเหนือจากแอปฟิตเนสและการติดตามการเคลื่อนไหวของมนุษย์ ตั้งแต่การเล่นเกมไปจนถึงแอนิเมชั่นไปจนถึงเทคโนโลยีความจริงเสริมไปจนถึงหุ่นยนต์ ซึ่งไม่ได้แสดงถึงความเป็นไปได้ทั้งหมด แต่จะเน้นให้เห็นถึงส่วนที่น่าจะเป็นไปได้มากที่สุด ซึ่งการประมาณท่าทางของมนุษย์จะมีส่วนช่วยในภูมิทัศน์ทางดิจิทัลของเรา

หัวข้อที่เกี่ยวข้อง:วิสัยทัศน์คอมพิวเตอร์ประมาณการท่า

ต่อไป

Arik Ben Ishay ซีอีโอของ Biobeat – ซีรีส์สัมภาษณ์

อย่าพลาด

นักวิจัยใช้ AI ที่ได้รับการฝึกฝนบนข้อมูล Facebook เพื่อตรวจจับสัญญาณของการเจ็บป่วยทางจิต

มักซิม ทาทาริอัน

Maksym กระตือรือร้นที่จะรับข้อมูลเชิงลึกและประสบการณ์ใหม่ๆ ในด้าน Data Science และ Machine Learning เขาสนใจเป็นพิเศษในเทคโนโลยี Deep Learning และการประยุกต์ใช้กับกรณีการใช้งานทางธุรกิจ