mozzicone Stima della posa AI nell'applicazione Fitness - Unite.AI
Seguici sui social

SANITARIETÀ

Stima della posa AI nell'applicazione Fitness

mm

Pubblicato il

 on

Di Maksym Tatariants, Data Science Engineer presso MobiDev.

La stima della posa umana si riferisce a una tecnologia – abbastanza nuova, ma in rapida evoluzione – che sta giocando un ruolo significativo nelle applicazioni di fitness e danza, permettendoci di collocare contenuti digitali nel mondo reale.

In breve, il concetto di stima della posa umana è una tecnologia basata sulla visione artificiale in grado di rilevare ed elaborare la postura umana. La parte più importante e centrale di questa tecnologia è la modellazione del corpo umano. Tre modelli corporei sono i più importanti negli attuali sistemi di stima della posa umana: basati sullo scheletro, sui contorni e sul volume.

Modello basato su scheletro

Questo modello è costituito da un insieme di articolazioni (punti chiave), come ginocchia, caviglie, polsi, gomiti, spalle e dall'orientamento degli arti del corpo. Questo modello è notevole per la sua flessibilità e come tale è adatto per la stima della posa umana sia tridimensionale che bidimensionale. Con la modellazione tridimensionale, la soluzione utilizza un'immagine RGB e trova le coordinate X, Y e Z dei giunti. Con la modellazione bidimensionale, è la stessa analisi di un'immagine RGB, ma utilizzando le coordinate X e Y.

Modello basato sul contorno

Questo modello sfrutta i contorni del busto e degli arti del corpo, nonché la loro larghezza approssimativa. Qui, la soluzione prende la silhouette della cornice del corpo e rende le parti del corpo come rettangoli e confini all'interno di quella struttura.

Modello basato sul volume

Questo modello generalmente utilizza una serie di scansioni tridimensionali per catturare la forma del corpo e la converte in una struttura di forme e maglie geometriche. Queste forme creano una serie 3D di pose e rappresentazioni del corpo.

Come funziona la stima della posa umana 3D

Le applicazioni per il fitness tendono a fare affidamento sulla stima della posa umana tridimensionale. Per queste app, maggiori sono le informazioni sulla posa umana, meglio è. Con questa tecnica, l'utente dell'app si registrerà mentre partecipa a un esercizio o a una routine di allenamento. L'app analizzerà quindi i movimenti del corpo dell'utente, offrendo correzioni per errori o imprecisioni.

Questo tipo di diagramma di flusso dell'app in genere segue questo schema:

  • Innanzitutto, raccogli i dati sui movimenti dell'utente mentre esegue l'esercizio.
  • Successivamente, determina quanto fossero corretti o errati i movimenti dell'utente.
  • Infine, mostra all'utente tramite l'interfaccia quali errori potrebbe aver commesso.

In questo momento, lo standard nella tecnologia della posa umana è Topologia COCO. La topologia COCO è composta da 17 punti di riferimento in tutto il corpo, che vanno dal viso alle braccia alle gambe. Si noti che COCO non è l'unica struttura di posa del corpo umano, ma solo quella più comunemente usata.

Questo tipo di processo utilizza in genere la tecnologia di apprendimento automatico profondo per l'estrazione delle articolazioni nella stima della posa dell'utente. Quindi utilizza algoritmi basati sulla geometria per dare un senso a ciò che viene trovato (analizzare le posizioni relative delle articolazioni rilevate). Utilizzando un video dinamico come dati di origine, il sistema può utilizzare una serie di fotogrammi, non solo una singola immagine, per catturarne i punti chiave. Il risultato è una resa molto più accurata dei movimenti reali dell'utente poiché il sistema può utilizzare le informazioni dei fotogrammi adiacenti per risolvere eventuali incertezze relative alla posizione del corpo umano nel fotogramma corrente.

Tra le tecniche attuali per l'utilizzo della stima della posa 3D nelle applicazioni di fitness, l'approccio più accurato consiste nell'applicare prima un modello per rilevare i punti chiave 2D e successivamente elaborare il rilevamento 2D con un altro modello per convertirli in previsioni dei punti chiave 3D. 

Nel riparazioni abbiamo pubblicato di recente, è stata utilizzata un'unica sorgente video, con reti neurali convoluzionali con convoluzioni temporali dilatate applicate per eseguire la conversione dei punti chiave 2D -> 3D.

Dopo aver analizzato i modelli attualmente disponibili, abbiamo stabilito che VideoPose3D è la soluzione più adatta alle esigenze della maggior parte delle applicazioni di fitness basate sull'intelligenza artificiale. L'input che utilizza questo sistema dovrebbe consentire il rilevamento di una serie 2D di punti chiave, dove un modello, pre-addestrato sul set di dati COCO 2017, viene applicato come a Rivelatore 2D. 

Per la previsione più precisa della posizione di un giunto o punto chiave corrente, VideoPose3D può utilizzare più fotogrammi in una breve sequenza di tempo per generare informazioni di posa 2D. 

Per aumentare ulteriormente la precisione della stima della posa 3D, più di una telecamera può raccogliere punti di vista alternativi dell'utente che esegue lo stesso esercizio o routine. Si noti, tuttavia, che richiede una maggiore potenza di elaborazione e un'architettura del modello specializzata per gestire più input di flusso video.

Di recente, Google svelato il loro sistema BlazePose, un modello orientato ai dispositivi mobili per stimare la posa umana aumentando il numero di punti chiave analizzati a 33, un superset del set di punti chiave COCO e altre due topologie: BlazePalm e BlazeFace. Di conseguenza, il modello BlazePose può produrre risultati di previsione della posa coerenti con i modelli di mani e modelli di volti articolando la semantica del corpo.

Ogni componente all'interno di un sistema di stima della posa umana basato sull'apprendimento automatico deve essere veloce, impiegando un massimo di un paio di millisecondi per fotogramma per il rilevamento della posa e i modelli di tracciamento. 

A causa del fatto che la pipeline BlazePose (che include la stima della posa e i componenti di tracciamento) deve operare su una varietà di dispositivi mobili in tempo reale, ogni singola parte della pipeline è progettata per essere molto efficiente dal punto di vista computazionale e funzionare a 200-1000 FPS .

La stima e il tracciamento della posa nel video in cui non è noto se e dove sia presente la persona viene generalmente eseguito in due fasi. 

Nella prima fase, viene eseguito un modello di rilevamento degli oggetti per individuare la presenza di un essere umano o per identificarne l'assenza. Dopo che la persona è stata rilevata, il modulo di stima della posa può elaborare l'area localizzata contenente la persona e prevedere la posizione dei punti chiave.

Uno svantaggio di questa configurazione è che richiede l'esecuzione dei moduli di rilevamento degli oggetti e di stima della posa per ogni fotogramma che consuma risorse computazionali extra. Gli autori di BlazePose, tuttavia, hanno escogitato un modo intelligente per aggirare questo problema e utilizzarlo in modo efficiente in altri moduli di rilevamento dei punti chiave come FaceMesh ed MediaPipe mano.

L'idea è che un modulo di rilevamento dell'oggetto (rilevatore di volti nel caso di BlazePose) possa essere utilizzato solo per avviare il tracciamento della posa nel primo fotogramma mentre il successivo tracciamento della persona può essere eseguito utilizzando esclusivamente le previsioni di posa dopo un certo allineamento della posa, parametri per i quali sono previsti utilizzando il modello di stima della posa.

Il volto produce il segnale più forte per quanto riguarda la posizione del busto per la rete neurale, a causa della variazione relativamente piccola nell'aspetto e dell'elevato contrasto nelle sue caratteristiche. Di conseguenza, è possibile creare un sistema rapido ea basso costo per il rilevamento della posa attraverso una serie di presupposti giustificabili basati sull'idea che la testa umana sarà localizzabile in ogni caso d'uso personale.

Superare le sfide della stima della posa umana

L'uso della stima della posa nelle app di fitness affronta la sfida dell'enorme volume di gamma di pose umane, ad esempio le centinaia di asana nella maggior parte dei regimi yoga. 

Inoltre, il corpo a volte blocca determinati arti catturati da una determinata fotocamera, gli utenti possono indossare abiti vari che oscurano le caratteristiche del corpo e l'aspetto personale.

Durante l'utilizzo di qualsiasi modello pre-addestrato, tieni presente che movimenti insoliti del corpo o strani angoli di ripresa possono portare a errori nella stima della posa umana. Possiamo mitigare questo problema in una certa misura utilizzando dati sintetici dal rendering di un modello 3D del corpo umano o ottimizzando i dati specifici per il dominio in questione.

La buona notizia è che possiamo evitare o mitigare la maggior parte delle debolezze. La chiave per farlo è scegliere i dati di addestramento e l'architettura del modello corretti. Inoltre, la tendenza allo sviluppo nel campo della tecnologia di stima della posizione umana suggerisce che alcuni dei problemi che affrontiamo ora saranno meno rilevanti nei prossimi anni.

L'ultima parola

La stima della posa umana contiene una varietà di potenziali usi futuri al di fuori dell'area delle app per il fitness e del monitoraggio dei movimenti umani, dai giochi all'animazione, dalla realtà aumentata alla robotica. Ciò non rappresenta un elenco completo delle possibilità, ma evidenzia alcune delle aree più probabili in cui la stima della posa umana contribuirà al nostro panorama digitale.

Maksym desidera acquisire nuove conoscenze ed esperienze in Data Science e Machine Learning. È particolarmente interessato alle tecnologie basate sul Deep Learning e alla loro applicazione a casi d'uso aziendali.