potongan Estimasi Pose AI dalam Aplikasi Kebugaran - Unite.AI
Terhubung dengan kami

Kesehatan

Estimasi Pose AI dalam Aplikasi Kebugaran

mm

Diterbitkan

 on

Oleh Maksym Tatarians, Insinyur Ilmu Data di Pengembang Mobi.

Estimasi pose manusia mengacu pada teknologi – cukup baru, namun berkembang dengan cepat – yang memainkan peran penting dalam aplikasi kebugaran dan tarian, memungkinkan kami menempatkan konten digital di dunia nyata.

Singkatnya, konsep estimasi pose manusia merupakan teknologi berbasis visi komputer yang mampu mendeteksi dan mengolah postur tubuh manusia. Bagian terpenting dan sentral dari teknologi ini adalah pemodelan tubuh manusia. Tiga model tubuh yang paling menonjol dalam sistem estimasi pose manusia saat ini – berbasis kerangka, berbasis kontur, dan berbasis volume.

Model berbasis kerangka

Model ini terdiri dari sekumpulan sendi (keypoints), seperti lutut, pergelangan kaki, pergelangan tangan, siku, bahu, dan orientasi anggota tubuh. Model ini terkenal karena fleksibilitasnya, dan karenanya cocok untuk estimasi pose manusia 3 dimensi dan 2 dimensi. Dengan pemodelan 3 dimensi, solusinya menggunakan gambar RGB dan menemukan koordinat X, Y, dan Z sambungan. Dengan pemodelan 2 dimensi, analisisnya sama dengan gambar RGB, tetapi menggunakan koordinat X dan Y.

Model berbasis kontur

Model ini memanfaatkan kontur batang tubuh dan tungkai tubuh, serta lebar kasarnya. Di sini, solusinya mengambil siluet kerangka tubuh dan merender bagian tubuh sebagai persegi panjang dan batas dalam kerangka itu.

Model berbasis volume

Model ini umumnya menggunakan rangkaian pemindaian 3 dimensi untuk menangkap bentuk tubuh dan mengubahnya menjadi kerangka bentuk dan jaring geometris. Bentuk-bentuk ini membuat serangkaian pose dan representasi tubuh 3D.

Cara Kerja Estimasi Pose Manusia 3D

Aplikasi kebugaran cenderung mengandalkan estimasi pose manusia 3 dimensi. Untuk aplikasi ini, semakin banyak informasi tentang pose manusia, semakin baik. Dengan teknik ini, pengguna aplikasi akan merekam diri mereka yang berpartisipasi dalam latihan atau rutinitas olahraga. Aplikasi kemudian akan menganalisis gerakan tubuh pengguna, menawarkan koreksi untuk kesalahan atau ketidakakuratan.

Diagram alir aplikasi jenis ini biasanya mengikuti pola berikut:

  • Pertama, kumpulkan data tentang gerakan pengguna saat mereka melakukan latihan.
  • Selanjutnya, tentukan seberapa benar atau salah gerakan pengguna tersebut.
  • Terakhir, tunjukkan kepada pengguna melalui antarmuka kesalahan apa yang mungkin mereka buat.

Saat ini, standar dalam teknologi pose manusia adalah topologi COCO. Topologi COCO terdiri dari 17 landmark di seluruh tubuh, mulai dari wajah hingga lengan hingga kaki. Perhatikan bahwa COCO bukan satu-satunya kerangka pose tubuh manusia, hanya yang paling umum digunakan.

Jenis proses ini biasanya menggunakan teknologi pembelajaran mesin mendalam untuk ekstraksi sendi dalam memperkirakan pose pengguna. Ia kemudian menggunakan algoritma berbasis geometri untuk memahami apa yang ditemukan (menganalisis posisi relatif dari sambungan yang terdeteksi). Saat menggunakan video dinamis sebagai sumber datanya, sistem dapat menggunakan serangkaian bingkai, bukan hanya satu gambar, untuk menangkap titik kuncinya. Hasilnya adalah rendering gerakan nyata pengguna yang jauh lebih akurat karena sistem dapat menggunakan informasi dari frame yang berdekatan untuk mengatasi ketidakpastian mengenai posisi tubuh manusia dalam frame saat ini.

Dari teknik saat ini untuk menggunakan estimasi pose 3D dalam aplikasi kebugaran, pendekatan yang paling akurat adalah menerapkan model terlebih dahulu untuk mendeteksi titik kunci 2D dan selanjutnya memproses deteksi 2D dengan model lain untuk mengubahnya menjadi prediksi titik kunci 3D. 

Dalam majalah penelitian kami memposting baru-baru ini, satu sumber video digunakan, dengan jaringan saraf konvolusional dengan konvolusi temporal yang melebar diterapkan untuk melakukan konversi titik kunci 2D -> 3D.

Setelah menganalisis model yang ada saat ini, kami menentukan bahwa VideoPose3D adalah solusi terbaik yang disesuaikan dengan kebutuhan sebagian besar aplikasi kebugaran berbasis AI. Input yang menggunakan sistem ini harus memungkinkan untuk mendeteksi kumpulan titik kunci 2D, di mana model, yang dilatih sebelumnya pada dataset COCO 2017, diterapkan sebagai a Detektor 2D. 

Untuk prediksi yang paling tepat dari posisi sambungan atau titik kunci saat ini, VideoPose3D dapat menggunakan banyak bingkai dalam urutan waktu yang singkat untuk menghasilkan informasi pose 2D. 

Untuk lebih meningkatkan keakuratan estimasi pose 3D, lebih dari satu kamera dapat mengumpulkan sudut pandang alternatif dari pengguna yang melakukan latihan atau rutinitas yang sama. Perhatikan, bagaimanapun, bahwa itu membutuhkan kekuatan pemrosesan yang lebih besar serta arsitektur model khusus untuk menangani beberapa input aliran video.

Baru-baru ini, Google meluncurkan sistem BlazePose mereka, model berorientasi perangkat seluler untuk memperkirakan pose manusia dengan meningkatkan jumlah titik kunci yang dianalisis menjadi 33, superset set titik kunci COCO dan dua topologi lainnya – BlazePalm dan BlazeFace. Hasilnya, model BlazePose dapat menghasilkan hasil prediksi pose yang konsisten dengan model tangan dan model wajah dengan mengartikulasikan semantik tubuh.

Setiap komponen dalam sistem estimasi pose manusia berbasis pembelajaran mesin harus cepat, mengambil maksimum beberapa milidetik per bingkai untuk deteksi pose dan model pelacakan. 

Karena pipa BlazePose (yang mencakup estimasi pose dan komponen pelacakan) harus beroperasi pada berbagai perangkat seluler secara waktu nyata, setiap bagian pipa dirancang agar sangat efisien secara komputasi dan berjalan pada 200-1000 FPS .

Estimasi pose dan pelacakan dalam video di mana tidak diketahui apakah dan di mana orang tersebut hadir biasanya dilakukan dalam dua tahap. 

Pada tahap pertama, model deteksi objek dijalankan untuk menemukan keberadaan manusia atau untuk mengidentifikasi ketidakhadirannya. Setelah orang tersebut terdeteksi, modul estimasi pose dapat memproses area lokal yang berisi orang tersebut dan memprediksi posisi titik kunci.

Kelemahan dari penyiapan ini adalah membutuhkan modul deteksi objek dan estimasi pose untuk dijalankan pada setiap frame yang menghabiskan sumber daya komputasi tambahan. Namun, penulis BlazePose menemukan cara cerdas untuk mengatasi masalah ini dan menggunakannya secara efisien dalam modul deteksi titik kunci lainnya seperti FaceMesh dan Tangan Pipa Media.

Idenya adalah bahwa modul deteksi objek (detektor wajah dalam kasus BlazePose) hanya dapat digunakan untuk memulai pelacakan pose di frame pertama sementara pelacakan orang berikutnya dapat dilakukan dengan menggunakan prediksi pose secara eksklusif setelah beberapa penyelarasan pose. parameter yang diprediksi menggunakan model estimasi pose.

Wajah menghasilkan sinyal terkuat untuk posisi batang tubuh untuk jaringan saraf, sebagai hasil dari variasi penampilan yang relatif kecil dan kontras tinggi pada fitur-fiturnya. Konsekuensinya, adalah mungkin untuk membuat sistem yang cepat dan low-overhead untuk deteksi pose melalui serangkaian asumsi yang dapat dibenarkan yang didasarkan pada gagasan bahwa kepala manusia akan dapat ditemukan di setiap kasus penggunaan pribadi.

Mengatasi Tantangan Estimasi Pose Manusia

Memanfaatkan perkiraan pose dalam aplikasi kebugaran menghadapi tantangan banyaknya variasi pose manusia, misalnya, ratusan asana di sebagian besar rejimen yoga. 

Selanjutnya, tubuh kadang-kadang akan memblokir anggota tubuh tertentu seperti yang ditangkap oleh kamera tertentu, pengguna dapat mengenakan berbagai pakaian yang menutupi fitur tubuh dan penampilan pribadi.

Saat menggunakan model terlatih apa pun, perhatikan bahwa gerakan tubuh yang tidak biasa atau sudut kamera yang aneh dapat menyebabkan kesalahan dalam estimasi pose manusia. Kami dapat mengurangi masalah ini sampai batas tertentu dengan menggunakan data sintetis dari render model tubuh manusia 3D, atau dengan menyempurnakan data khusus untuk domain yang dimaksud.

Kabar baiknya adalah kita dapat menghindari atau mengurangi sebagian besar kelemahan. Kunci untuk melakukannya adalah memilih data pelatihan dan arsitektur model yang tepat. Selanjutnya, kecenderungan perkembangan di bidang teknologi estimasi pose manusia menunjukkan bahwa beberapa masalah yang kita hadapi saat ini akan menjadi kurang relevan di tahun-tahun mendatang.

Akhir kata

Estimasi pose manusia memiliki berbagai potensi penggunaan di masa depan di luar area aplikasi kebugaran dan melacak pergerakan manusia, mulai dari game hingga animasi hingga Augmented Reality hingga robotika. Itu tidak mewakili daftar lengkap kemungkinan tetapi menyoroti beberapa area yang paling mungkin di mana estimasi pose manusia akan berkontribusi pada lanskap digital kami.

Maksym tertarik untuk mendapatkan wawasan dan pengalaman baru dalam Ilmu Data dan Pembelajaran Mesin. Dia sangat tertarik dengan teknologi berbasis Deep Learning dan penerapannya pada kasus penggunaan bisnis.