Sağlık
Fitness Uygulamalarında AI Poz Estimasyonu

Maksym Tatariants, MobiDev’de Veri Bilim Mühendisi tarafından.
İnsan pozu tahmini, fitness ve dans uygulamalarında önemli bir rol oynayan, hızlı bir şekilde gelişen ve oldukça yeni bir teknolojidir. Bu teknoloji, dijital içeriği gerçek dünya üzerinde yerleştirerek bize olanak sağlar.
Kısaca, insan pozu tahmini, insan duruşunu tespit edebilen ve işleyebilen bir bilgisayar vizyonu tabanlı teknolojidir. Bu teknolojinin en önemli ve merkezi kısmı, insan vücudu modellemesidir. Mevcut insan pozu tahmini sistemlerinde üç vücut modeli öne çıkıyor – iskelet tabanlı, kontur tabanlı ve hacim tabanlı.
İskelet Tabanlı Model
Bu model, dizler, bilekler, dirsekler, omuzlar ve vücudun uzuvlarının yönü gibi eklemlerden (anahtar noktalar) oluşur. Bu model, esnekliği ile dikkat çekiyor ve bu nedenle hem 3 boyutlu hem de 2 boyutlu insan pozu tahmini için uygun.
Kontur Tabanlı Model
Bu model, gövde ve uzuvların konturlarını ve yaklaşık genişliklerini kullanır. Burada, çözüm, vücut çerçevesinin silüetini alır ve vücut parçalarını bu çerçevenin içinde sınırlar ve dikdörtgenler olarak işler.
Hacim Tabanlı Model
Bu model, genellikle vücudun şeklini yakalamak için bir dizi 3 boyutlu tarama kullanır ve bunu şekiller ve geometrik ağlardan oluşan bir çerçeveye dönüştürür. Bu şekiller, 3 boyutlu bir dizi poz ve vücut temsilini oluşturur.
3D İnsan Pozu Tahmini Nasıl Çalışır
Fitness uygulamaları genellikle 3 boyutlu insan pozu tahminiye dayanır. Bu uygulamalar için, insan pozu hakkında ne kadar çok bilgi olursa, o kadar iyi olur. Bu teknikte, uygulama kullanıcısı, bir egzersiz veya antrenman rutini yaparken kendini kaydeder. Uygulama daha sonra kullanıcının vücut hareketlerini analiz eder ve hatalar veya doğrulukları için düzeltmeler önerir.
Bu tür bir uygulamanın akış şeması genellikle aşağıdaki patterni takip eder:
- İlk olarak, kullanıcı egzersiz yaparken hareketlerini verilerini toplar.
- Sonra, kullanıcının hareketlerinin ne kadar doğru veya yanlış olduğunu belirler.
- Son olarak, kullanıcıya arayüz aracılığıyla yaptığı hataları gösterir.
Şu anda, insan pozu teknolojisinin standardı COCO topolojisi. COCO topolojisi, yüzden kollara ve bacaklara kadar 17 kilometre taşı olan bir yapıdır. COCO, tek kullanılan insan vücut pozu çerçevesi değildir, ancak en çok kullanılanıdır.
Bu tür bir işlem, genellikle, eklemlerin çıkarılması için derin makine öğrenimi teknolojisini kullanır ve daha sonra geometri tabanlı algoritmaları, bulduğu şeyin anlamını çıkarmak için (tespit edilen eklemlerin göreli konumlarını analiz etmek) kullanır. Dinamik bir videoyu kaynak veri olarak kullanırken, sistem, yalnızca tek bir görüntü değil, bir dizi kareyi kullanabilir ve bu da, mevcut karedeki insan vücudunun konumuna ilişkin belirsizlikleri çözmek için komşu karelerden bilgi kullanmasına olanak tanır.
Şu anda, fitness uygulamalarında 3D pozu tahmini kullanma teknikleri arasında en doğru yaklaşım, önce 2D anahtar noktaları tespit etmek için bir model uygulamak ve daha sonra 2D tespitleri başka bir modelle 3D anahtar noktası tahminlerine dönüştürmektir.
Son zamanlarda yayınladığımız araştırmada, tek bir video kaynağı kullanıldı ve 2D -> 3D anahtar noktası dönüşümü için dilated temporal convolutions ile convolutional neural networks uygulandı.
Mevcut modelleri analiz ettikten sonra, VideoPose3D’nin çoğu AI tabanlı fitness uygulamasının ihtiyaçlarına en uygun çözüm olduğunu belirledik. Bu sistemdeki girdi, 2D anahtar noktalarının tespit edilmesine izin vermelidir, burada, COCO 2017 veri setine önceden eğitilmiş bir model, 2D dedektör olarak uygulanır.
Geçerli bir eklemin veya anahtar noktasının konumunun en precisa tahmini için, VideoPose3D, kısa bir zaman dizisi boyunca birden fazla kareyi kullanabilir ve 2D poz bilgisini üretebilir.
3D pozu tahmini doğruluğunu daha da artırmak için, birden fazla kamera, aynı egzersizi veya rutini yapan kullanıcının farklı açılardan görüntüsünü alabilir. Ancak, bu, daha fazla işlem gücü ve birden fazla video akışı girişini işleyebilecek özel model mimarisi gerektirir.
Google yakın zamanda BlazePose sistemini duyurdu, bu sistem, 33 anahtar noktasını analiz ederek – COCO anahtar noktası setinin ve iki diğer topolojinin – BlazePalm ve BlazeFace – bir üst kümesini kullanarak, mobil cihazlara yönelik bir modeldir. Sonuç olarak, BlazePose modeli, vücut semantiklerini işlererek el modelleri ve yüz modelleri ile tutarlı poz tahmini sonuçları üretebilir.
Makine öğrenimi tabanlı bir insan pozu tahmini sisteminin her bir bileşeni, en fazla birkaç milisaniye içinde poz tespiti ve takibi için hızlı olmalıdır.
BlazePose pipeline’ın (ki bu, poz tahmini ve takibi bileşenlerini içerir) çeşitli mobil cihazlarda gerçek zamanlı olarak çalışması gerektiği için, her bir pipeline bileşeni çok hesaplama verimliliği için tasarlanmıştır ve 200-1000 FPS’de çalışır.
Videodaki poz tahmini ve takibi, kişinin varlığı veya yokluğu bilinmediğinde genellikle iki aşamada yapılır.
İlk aşamada, bir nesne tespiti modeli, insan varlığını belirlemek veya yokluğunu tespit etmek için çalıştırılır. Kişinin tespit edildikten sonra, poz tahmini modülü, kişi içeren yerel alanı işleyerek anahtar noktaların konumunu tahmin edebilir.
Bu kurulumun bir dezavantajı, her kare için hem nesne tespiti hem de poz tahmini modüllerinin çalıştırılması gerektiğidir, bu da ek hesaplama kaynaklarını tüketir. Ancak BlazePose’un yazarları, bu sorunu aşmak ve diğer anahtar nokta tespiti modüllerinde, chẳng hạn FaceMesh ve MediaPipe Hand‘de verimli bir şekilde kullanmak için akıllı bir yol geliştirdiler.
Fikir, bir nesne tespiti modülünün (BlazePose’de yüz dedektörü) yalnızca ilk karede poz takibini başlatabileceği, ancak sonraki takibin, bazı poz hizalama parametreleri kullanılarak, yalnızca poz tahmini kullanılarak yapılabilmesidir.
Yüz, gövdenin konumuna ilişkin en güçlü sinyali sinir ağına verir, bu da göreceli olarak küçük bir görünüm varyansı ve yüksek kontrastlı özelliklerinin bir sonucudur. Dolayısıyla, insan başının her kişisel kullanım durumunda bulunabileceği varsayımı temelinde bazı meşru varsayımlar yaparak, yüz dedektörü aracılığıyla hızlı ve düşük yükte bir poz tespiti sistemi oluşturmak mümkündür.
İnsan Pozu Tahmini Zorluklarını Aşmak
Fitness uygulamalarında poz tahmini kullanmak, yüzlerce yoga pozunun bulunduğu gibi, insan pozu çeşitliliğinin büyüklüğü gibi bir zorlukla karşı karşıyadır.
Ayrıca, vücut bazen belirli uzuvları herhangi bir verilen kamerayla engeller, kullanıcılar vücut özelliklerini gizleyen çeşitli kıyafetler giyebilir.
Önceden eğitilmiş modelleri kullanırken, alışılmadık vücut hareketleri veya garip kamera açıları insan pozu tahmini hatalarına neden olabilir. Bu sorunu belirli bir ölçüde, 3D insan vücudu modeli renderinden sentetik veri kullanarak veya ilgili alanın verisiyle ince ayarlayarak hafifletebiliriz.
İyi haber, çoğu zayıflığın önüne geçilebileceği veya hafifletilebileceğidir. Bunu yapmak için doğru eğitim verilerini ve model mimarisini seçmek anahtardır. Ayrıca, insan pozu tahmini teknolojisi alanındaki gelişme eğilimi, şu anda karşılaştığımız bazı sorunların gelecekte daha az ilgili olacağını gösteriyor.
Son Söz
İnsan pozu tahmini, fitness uygulamaları ve insan hareketlerinin takibi dışında, oyunlardan animasyona, Artırılmış Gerçeklikten robotiğe kadar çeşitli potansiyel gelecekteki kullanımlara sahiptir. Bu, possibilities’in tam listesini temsil etmez, ancak bazı en muhtemel alanları vurgular ve insan pozu tahmini, dijital manzaramıza katkıda bulunacaktır.
















