בריאות

הערכת תנוחת AI ביישום כושר

יצא לאור

לפני 3 שנים

דצמבר 21, 2020

מאת Maksym Tatariants, מהנדס מדעי הנתונים ב מובידב.

הערכת תנוחה אנושית מתייחסת לטכנולוגיה - חדשה למדי, אך מתפתחת במהירות - שמשחקת חלק משמעותי ביישומי כושר וריקוד, ומאפשרת לנו להציב תוכן דיגיטלי על פני העולם האמיתי.

בקיצור, הרעיון של הערכת תנוחה אנושית הוא טכנולוגיה מבוססת ראייה ממוחשבת המסוגלת לזהות ולעבד את היציבה האנושית. החלק החשוב והמרכזי ביותר בטכנולוגיה זו הוא דוגמנות גוף האדם. שלושה דגמי גוף בולטים ביותר בתוך מערכות הערכת תנוחות אנושיות הנוכחיות - מבוססי שלד, מבוססי קווי מתאר ומבוססים על נפח.

דגם מבוסס שלד

דגם זה מורכב ממערכת של מפרקים (נקודות מפתח), כגון ברכיים, קרסוליים, פרקי כף היד, מרפקים, כתפיים וכיוון איברי הגוף. דגם זה בולט בגמישותו, וככזה מתאים להערכת תנוחת אנושית תלת מימדית ודו מימדית. עם דוגמנות תלת מימדית, הפתרון משתמש בתמונת RGB ומוצא קואורדינטות X, Y ו-Z של המפרק. עם מודלים דו מימדיים, זה אותו ניתוח של תמונת RGB, אבל תוך שימוש בקואורדינטות X ו-Y.

דגם מבוסס קווי מתאר

דגם זה עושה שימוש בקווי המתאר של פלג הגוף העליון והגפיים של הגוף, כמו גם ברוחב הגס שלהם. כאן, הפתרון לוקח את הצללית של מסגרת הגוף ומציג חלקי גוף כמלבנים וגבולות בתוך אותה מסגרת.

דגם מבוסס נפח

מודל זה משתמש בדרך כלל בסדרה של סריקות תלת מימד כדי ללכוד את צורת הגוף ולהמיר אותו למסגרת של צורות ורשתות גיאומטריות. צורות אלו יוצרות סדרה תלת מימדית של תנוחות וייצוג גוף.

איך עובדת הערכת תנוחת אדם בתלת מימד

יישומי כושר נוטים להסתמך על הערכת תנוחה אנושית תלת מימדית. עבור אפליקציות אלה, ככל שיותר מידע על התנוחה האנושית, כך ייטב. בטכניקה זו, המשתמש באפליקציה יתעד את עצמו כשהוא משתתף בתרגיל או בשגרת אימון. לאחר מכן, האפליקציה תנתח את תנועות הגוף של המשתמש, ותציע תיקונים לטעויות או אי דיוקים.

תרשים זרימה של אפליקציה מסוג זה עוקב בדרך כלל אחר הדפוס הזה:

ראשית, אסוף נתונים על תנועות המשתמש בזמן ביצוע התרגיל.
לאחר מכן, קבע עד כמה תנועות המשתמש היו נכונות או שגויות.
לבסוף, הראה למשתמש דרך הממשק אילו טעויות הוא עשוי עשה.

נכון לעכשיו, הסטנדרט בטכנולוגיית התנוחות האנושיות הוא טופולוגיה של COCO. טופולוגיית COCO מורכבת מ-17 נקודות ציון על פני הגוף, החל מהפנים לזרועות ועד לרגליים. שימו לב ש-COCO היא לא המסגרת היחידה לתנוחת גוף האדם, אלא רק המסגרת הנפוצה ביותר בשימוש.

מקור: https://mobidev.biz/blog/human-pose-estimation-ai-personal-fitness-coach

סוג זה של תהליך עושה בדרך כלל שימוש בטכנולוגיית למידת מכונה עמוקה לחילוץ מפרקים בהערכת תנוחת המשתמש. לאחר מכן הוא משתמש באלגוריתמים מבוססי גיאומטריה כדי להבין מה הוא נמצא (נתח מיקומים יחסיים של המפרקים שזוהו). בזמן השימוש בסרטון דינמי כנתוני המקור שלו, המערכת יכולה להשתמש בסדרה של פריימים, לא רק תמונה אחת, כדי ללכוד את נקודות המפתח שלה. התוצאה היא עיבוד הרבה יותר מדויק של תנועותיו האמיתיות של המשתמש מאחר והמערכת יכולה להשתמש במידע מהפריימים הסמוכים כדי לפתור אי ודאות לגבי מיקומו של גוף האדם בפריים הנוכחי.

מתוך הטכניקות הנוכחיות לשימוש באומדן תנוחת תלת מימד ביישומי כושר, הגישה המדויקת ביותר היא ליישם תחילה מודל כדי לזהות נקודות מפתח דו-ממדיות ולאחר מכן לעבד את זיהוי הדו-ממד עם מודל אחר כדי להמיר אותן לחיזוי נקודות מפתח תלת-ממדיות.

ב מחקר פרסמנו לאחרונה, נעשה שימוש במקור וידאו בודד, עם רשתות עצביות קונבולוציוניות עם פיתולים זמניים מורחבים שיושמו לביצוע המרת נקודת המפתח 2D -> 3D.

מקור: https://mobidev.biz/blog/human-pose-estimation-ai-personal-fitness-coach

לאחר ניתוח הדגמים הנוכחיים בחוץ, קבענו ש-VideoPose3D הוא הפתרון המותאם בצורה הטובה ביותר לצרכים של רוב יישומי הכושר המונעים בינה מלאכותית. הקלט באמצעות מערכת זו אמור לאפשר זיהוי קבוצה דו-ממדית של נקודות מפתח, כאשר מודל, שהוכשר מראש על מערך הנתונים של COCO 2017, מיושם כ גלאי דו מימד.

לניבוי המדויק ביותר של המיקום של מפרק או נקודת מפתח נוכחית, VideoPose3D יכול להשתמש במספר פריימים על פני רצף קצר של זמן כדי ליצור מידע על תנוחות דו-ממדיות.

כדי להגביר עוד יותר את הדיוק של הערכת תנוחת תלת מימד, יותר ממצלמה אחת יכולה לאסוף נקודות מבט חלופיות של המשתמש המבצע את אותה תרגיל או שגרה. שים לב, עם זאת, זה דורש כוח עיבוד גדול יותר כמו גם ארכיטקטורת מודלים מיוחדים כדי להתמודד עם כניסות זרם וידאו מרובות.

לאחרונה, גוגל חשף מערכת ה-BlazePose שלהם, מודל מונחה מכשירים ניידים להערכת תנוחת האדם על ידי הגדלת מספר נקודות המפתח שנותחו ל-33, ערכת-על של ערכת נקודות המפתח של COCO ושתי טופולוגיות נוספות - BlazePalm ו-BlazeFace. כתוצאה מכך, מודל BlazePose יכול לייצר תוצאות חיזוי תנוחות בהתאמה לדגמי ידיים ומודלים של פנים על ידי ניסוח סמנטיקה של הגוף.

מקור: https://ai.googleblog.com/2020/08/on-device-real-time-body-pose-tracking.html

כל רכיב במערכת להערכת תנוחות אנושית מבוססת למידה של מכונה צריך להיות מהיר, ולוקח לכל היותר כמה אלפיות שניות לכל פריים לצורך זיהוי ומעקב אחר תנוחות.

בשל העובדה שצינור BlazePose (הכולל רכיבי הערכת פוזות ומעקב) צריך לפעול על מגוון מכשירים ניידים בזמן אמת, כל חלק בנפרד של הצינור מתוכנן להיות יעיל מאוד מבחינה חישובית ולפעול במהירות של 200-1000 FPS .

הערכת תנוחה ומעקב בסרטון, כאשר לא ידוע אם והיכן האדם נמצא, נעשה בדרך כלל בשני שלבים.

בשלב הראשון, מופעל מודל זיהוי עצמים לאיתור נוכחות של אדם או לזיהוי היעדרו. לאחר זיהוי האדם, מודול הערכת התנוחה יכול לעבד את האזור המקומי המכיל את האדם ולחזות את מיקומן של נקודות המפתח.

החיסרון של ההגדרה הזו הוא שהיא דורשת גם זיהוי אובייקטים וגם מודולים של הערכת פוזות כדי לפעול עבור כל מסגרת שצורכת משאבי חישוב נוספים. מחברי ה-BlazePose, לעומת זאת, המציאו דרך חכמה לעקוף את הבעיה הזו ולנצל אותה ביעילות במודולים אחרים לזיהוי נקודות מפתח כגון FaceMesh ו יד MediaPipe.

הרעיון הוא שמודול זיהוי אובייקטים (גלאי פנים במקרה של BlazePose) יכול לשמש רק כדי להתחיל את מעקב התנוחה בפריים הראשון בעוד שהמעקב הבא אחר האדם יכול להתבצע תוך שימוש בלעדי בחיזוי התנוחה לאחר יישור התנוחה, פרמטרים שעבורם חזויים באמצעות מודל הערכת התנוחה.

https://ai.googleblog.com/2020/08/on-device-real-time-body-pose-tracking.html

הפנים מפיקים את האות החזק ביותר לגבי מיקום הגו עבור הרשת העצבית, כתוצאה מהשונות הקטנה יחסית במראה והניגודיות הגבוהה בתכונותיו. כתוצאה מכך, ניתן ליצור מערכת מהירה עם תקורה נמוכה לזיהוי תנוחות באמצעות סדרה של הנחות מוצדקות המבוססות על הרעיון שהראש האנושי יהיה ניתן לאתר בכל מקרה של שימוש אישי.

התגברות על אתגרים של הערכת תנוחות אנושיות

שימוש באומדן תנוחות באפליקציות כושר עומד בפני האתגר של נפח עצום של מגוון תנוחות אנושיות, למשל, מאות האסאנות ברוב משטרי היוגה.

יתר על כן, הגוף יחסום לפעמים איברים מסוימים כפי שצולמו על ידי כל מצלמה נתונה, המשתמשים עשויים ללבוש תלבושות מגוונות המסתירות את תווי הגוף והמראה האישי.

בעת שימוש בדגמים שהוכשרו מראש, שימו לב שתנועות גוף חריגות או זוויות מצלמה מוזרות עלולות להוביל ל שגיאות בהערכת תנוחת האדם. אנו יכולים להקל על בעיה זו במידה מסוימת על ידי שימוש בנתונים סינתטיים מעיבוד מודל תלת מימדי של גוף אדם, או על ידי כוונון עדין עם נתונים ספציפיים לתחום המדובר.

החדשות הטובות הן שאנו יכולים להימנע או למתן את רוב החולשות. המפתח לעשות זאת הוא בחירת נתוני ההדרכה הנכונים וארכיטקטורת המודל. יתרה מכך, נטיית הפיתוח בתחום הטכנולוגיה של הערכת תנוחות אנושיות מעידה על כך שחלק מהנושאים העומדים בפנינו כעת יהיו פחות רלוונטיים בשנים הקרובות.

המילה האחרונה

הערכת תנוחה אנושית מכילה מגוון שימושים עתידיים פוטנציאליים מחוץ לתחום של אפליקציות כושר ומעקב אחר תנועות אנושיות, מגיימינג לאנימציה ועד מציאות רבודה ועד רובוטיקה. זה לא מייצג רשימה מלאה של האפשרויות אבל כן מדגיש כמה מהתחומים הסבירים ביותר שבהם הערכת הפוזה האנושית תתרום לנוף הדיגיטלי שלנו.