Stummel KI-Posenschätzung in Fitnessanwendungen – Unite.AI
Vernetzen Sie sich mit uns

Gesundheitswesen

KI-Posenschätzung in Fitnessanwendungen

mm

Veröffentlicht

 on

Von Maksym Tatariants, Data Science Engineer bei MobiDev.

Die Schätzung der menschlichen Pose bezieht sich auf eine Technologie – relativ neu, entwickelt sich aber schnell weiter – die eine wichtige Rolle in Fitness- und Tanzanwendungen spielt und es uns ermöglicht, digitale Inhalte über der realen Welt zu platzieren.

Kurz gesagt handelt es sich bei dem Konzept der menschlichen Haltungsschätzung um eine auf Computer Vision basierende Technologie, die in der Lage ist, die menschliche Haltung zu erkennen und zu verarbeiten. Der wichtigste und zentralste Teil dieser Technologie ist die Modellierung des menschlichen Körpers. Drei Körpermodelle sind in aktuellen Systemen zur menschlichen Posenschätzung am prominentesten: skelettbasiert, konturbasiert und volumenbasiert.

Skelettbasiertes Modell

Dieses Modell besteht aus einer Reihe von Gelenken (Schlüsselpunkten) wie Knien, Knöcheln, Handgelenken, Ellbogen, Schultern und der Ausrichtung der Gliedmaßen des Körpers. Dieses Modell zeichnet sich durch seine Flexibilität aus und eignet sich daher sowohl für die dreidimensionale als auch für die zweidimensionale Schätzung der menschlichen Pose. Bei der dreidimensionalen Modellierung verwendet die Lösung ein RGB-Bild und ermittelt die X-, Y- und Z-Koordinaten der Gelenke. Bei der zweidimensionalen Modellierung handelt es sich um die gleiche Analyse eines RGB-Bildes, jedoch unter Verwendung der X- und Y-Koordinaten.

Konturbasiertes Modell

Dieses Modell nutzt die Konturen des Rumpfes und der Gliedmaßen sowie deren grobe Breite. Hier nimmt die Lösung die Silhouette des Körperrahmens und stellt Körperteile als Rechtecke und Grenzen innerhalb dieses Rahmens dar.

Volumenbasiertes Modell

Dieses Modell verwendet im Allgemeinen eine Reihe dreidimensionaler Scans, um die Form des Körpers zu erfassen und sie in ein Gerüst aus Formen und geometrischen Netzen umzuwandeln. Diese Formen erzeugen eine 3D-Reihe von Posen und Körperdarstellungen.

So funktioniert die 3D-Schätzung der menschlichen Pose

Fitnessanwendungen basieren in der Regel auf der dreidimensionalen Schätzung der menschlichen Körperhaltung. Für diese Apps gilt: Je mehr Informationen zur menschlichen Pose, desto besser. Mit dieser Technik zeichnet der Benutzer der App die Teilnahme an einer Übung oder Trainingsroutine auf. Die App analysiert dann die Körperbewegungen des Benutzers und bietet Korrekturen für Fehler oder Ungenauigkeiten an.

Das Flussdiagramm dieser Art von App folgt normalerweise diesem Muster:

  • Sammeln Sie zunächst Daten über die Bewegungen des Benutzers während der Übung.
  • Bestimmen Sie als Nächstes, wie richtig oder falsch die Bewegungen des Benutzers waren.
  • Zeigen Sie dem Benutzer abschließend über die Oberfläche, welche Fehler er möglicherweise gemacht hat.

Derzeit ist der Standard in der menschlichen Pose-Technologie COCO-Topologie. Die COCO-Topologie besteht aus 17 Orientierungspunkten am ganzen Körper, vom Gesicht über die Arme bis zu den Beinen. Beachten Sie, dass COCO nicht das einzige Rahmenwerk für die Pose des menschlichen Körpers ist, sondern lediglich das am häufigsten verwendete.

Diese Art von Prozess nutzt in der Regel Deep-Machine-Learning-Technologie zur Extraktion von Gelenken bei der Schätzung der Körperhaltung des Benutzers. Anschließend werden geometriebasierte Algorithmen eingesetzt, um die gefundenen Daten zu verstehen (relative Positionen der erkannten Gelenke zu analysieren). Während das System ein dynamisches Video als Quelldaten verwendet, kann es eine Reihe von Bildern und nicht nur ein einzelnes Bild verwenden, um seine Schlüsselpunkte zu erfassen. Das Ergebnis ist eine weitaus genauere Darstellung der tatsächlichen Bewegungen des Benutzers, da das System Informationen aus den angrenzenden Bildern verwenden kann, um etwaige Unsicherheiten hinsichtlich der Position des menschlichen Körpers im aktuellen Bild zu beseitigen.

Von den aktuellen Techniken zur Verwendung der 3D-Posenschätzung in Fitnessanwendungen besteht der genaueste Ansatz darin, zunächst ein Modell zur Erkennung von 2D-Schlüsselpunkten anzuwenden und anschließend die 2D-Erkennung mit einem anderen Modell zu verarbeiten, um sie in 3D-Schlüsselpunktvorhersagen umzuwandeln. 

Im Forschungsprojekte Wie wir kürzlich gepostet haben, wurde eine einzelne Videoquelle verwendet, wobei Faltungs-Neuronale Netze mit erweiterten zeitlichen Faltungen angewendet wurden, um die 2D -> 3D-Schlüsselpunktkonvertierung durchzuführen.

Nach der Analyse der derzeit verfügbaren Modelle haben wir festgestellt, dass VideoPose3D die Lösung ist, die am besten auf die Anforderungen der meisten KI-gesteuerten Fitnessanwendungen zugeschnitten ist. Die Eingabe mit diesem System sollte die Erkennung eines zweidimensionalen Satzes von Schlüsselpunkten ermöglichen. Dabei wird ein auf dem COCO 2017-Datensatz vorab trainiertes Modell als angewendet 2D-Detektor. 

Für die genaueste Vorhersage der Position eines aktuellen Gelenks oder Schlüsselpunkts kann VideoPose3D mehrere Frames über einen kurzen Zeitraum verwenden, um 2D-Poseninformationen zu generieren. 

Um die Genauigkeit der 3D-Posenschätzung weiter zu erhöhen, können mehr als eine Kamera alternative Blickwinkel des Benutzers erfassen, der dieselbe Übung oder Routine ausführt. Beachten Sie jedoch, dass für den Umgang mit mehreren Videostream-Eingängen eine höhere Rechenleistung sowie eine spezielle Modellarchitektur erforderlich sind.

Vor kurzem Google enthüllt ihr BlazePose-System, ein auf Mobilgeräte ausgerichtetes Modell zur Schätzung der menschlichen Pose durch Erhöhung der Anzahl der analysierten Schlüsselpunkte auf 33, eine Obermenge des COCO-Schlüsselpunktsatzes und zwei weiterer Topologien – BlazePalm und BlazeFace. Dadurch kann das BlazePose-Modell Posenvorhersageergebnisse erzeugen, die mit Handmodellen und Gesichtsmodellen übereinstimmen, indem es die Körpersemantik artikuliert.

Jede Komponente innerhalb eines auf maschinellem Lernen basierenden Systems zur Schätzung der menschlichen Pose muss schnell sein und für Posenerkennungs- und Verfolgungsmodelle maximal ein paar Millisekunden pro Frame benötigen. 

Aufgrund der Tatsache, dass die BlazePose-Pipeline (die Posenschätzungs- und Tracking-Komponenten umfasst) auf einer Vielzahl mobiler Geräte in Echtzeit laufen muss, ist jeder einzelne Teil der Pipeline so konzipiert, dass er sehr recheneffizient ist und mit 200–1000 FPS läuft .

Die Posenschätzung und -verfolgung im Video, bei der nicht bekannt ist, ob und wo sich die Person befindet, erfolgt typischerweise in zwei Schritten. 

In der ersten Phase wird ein Objekterkennungsmodell ausgeführt, um die Anwesenheit eines Menschen zu lokalisieren oder seine Abwesenheit zu identifizieren. Nachdem die Person erkannt wurde, kann das Posenschätzungsmodul den lokalisierten Bereich, in dem sich die Person befindet, verarbeiten und die Position der Schlüsselpunkte vorhersagen.

Ein Nachteil dieses Setups besteht darin, dass für jeden Frame sowohl Objekterkennungs- als auch Posenschätzungsmodule ausgeführt werden müssen, was zusätzliche Rechenressourcen verbraucht. Die Autoren von BlazePose haben jedoch eine clevere Möglichkeit gefunden, dieses Problem zu umgehen und es effizient in anderen Modulen zur Schlüsselpunkterkennung zu nutzen, z FaceMesh und MediaPipe-Hand.

Die Idee ist, dass ein Objekterkennungsmodul (Gesichtsdetektor im Fall von BlazePose) nur verwendet werden kann, um die Posenverfolgung im ersten Bild zu starten, während die anschließende Verfolgung der Person nach einer gewissen Posenausrichtung ausschließlich mithilfe der Posenvorhersagen erfolgen kann. Parameter, die mithilfe des Posenschätzungsmodells vorhergesagt werden.

Das Gesicht liefert für das neuronale Netzwerk das stärkste Signal hinsichtlich der Position des Rumpfes, da die Unterschiede im Erscheinungsbild relativ gering sind und die Gesichtszüge einen hohen Kontrast aufweisen. Folglich ist es möglich, durch eine Reihe berechtigter Annahmen, die auf der Idee basieren, dass der menschliche Kopf in jedem persönlichen Anwendungsfall lokalisiert werden kann, ein schnelles System zur Posenerkennung mit geringem Aufwand zu schaffen.

Herausforderungen bei der Einschätzung der menschlichen Körperhaltung meistern

Der Einsatz der Posenschätzung in Fitness-Apps steht vor der Herausforderung der schieren Vielfalt an menschlichen Posen, beispielsweise den Hunderten von Asanas in den meisten Yoga-Routinen. 

Darüber hinaus blockiert der Körper manchmal bestimmte Gliedmaßen, die von einer bestimmten Kamera erfasst werden. Benutzer tragen möglicherweise unterschiedliche Outfits, die Körpermerkmale und persönliches Aussehen verdecken.

Beachten Sie bei der Verwendung vorab trainierter Modelle, dass ungewöhnliche Körperbewegungen oder seltsame Kamerawinkel dazu führen können Fehler bei der Einschätzung der menschlichen Pose. Wir können dieses Problem bis zu einem gewissen Grad entschärfen, indem wir synthetische Daten aus einem 3D-Modell eines menschlichen Körpers verwenden oder eine Feinabstimmung mit Daten vornehmen, die für den betreffenden Bereich spezifisch sind.

Die gute Nachricht ist, dass wir die meisten Schwachstellen vermeiden oder abmildern können. Der Schlüssel dazu liegt in der Auswahl der richtigen Trainingsdaten und Modellarchitektur. Darüber hinaus deutet die Entwicklungstendenz auf dem Gebiet der Technologie zur Schätzung der menschlichen Körperhaltung darauf hin, dass einige der Probleme, mit denen wir jetzt konfrontiert sind, in den kommenden Jahren weniger relevant sein werden.

Das letzte Wort

Die Einschätzung der menschlichen Pose bietet eine Vielzahl potenzieller zukünftiger Anwendungen außerhalb des Bereichs von Fitness-Apps und der Verfolgung menschlicher Bewegungen, von Spielen über Animationen bis hin zu Augmented Reality und Robotik. Dies stellt keine vollständige Liste der Möglichkeiten dar, hebt jedoch einige der wahrscheinlichsten Bereiche hervor, in denen die menschliche Posenschätzung einen Beitrag zu unserer digitalen Landschaft leisten wird.

Maksym ist daran interessiert, neue Erkenntnisse und Erfahrungen in den Bereichen Data Science und maschinelles Lernen zu sammeln. Sein besonderes Interesse gilt Deep-Learning-basierten Technologien und deren Anwendung auf Geschäftsanwendungsfälle.