sơ khai Ước tính tư thế AI trong ứng dụng tập thể dục - Unite.AI
Kết nối với chúng tôi

Chăm sóc sức khỏe

Ước tính tư thế AI trong ứng dụng thể hình

mm

Được phát hành

 on

Bởi Maksym Tatariants, Kỹ sư Khoa học Dữ liệu tại MobiDev.

Ước tính tư thế con người đề cập đến một công nghệ – khá mới, nhưng đang phát triển nhanh chóng – đang đóng một vai trò quan trọng trong các ứng dụng thể dục và khiêu vũ, cho phép chúng tôi đưa nội dung kỹ thuật số vào thế giới thực.

Nói tóm lại, khái niệm ước tính tư thế của con người là một công nghệ dựa trên thị giác máy tính có thể phát hiện và xử lý tư thế của con người. Phần quan trọng nhất và trung tâm của công nghệ này là mô hình hóa cơ thể con người. Ba mô hình cơ thể nổi bật nhất trong các hệ thống ước tính tư thế con người hiện nay – dựa trên bộ xương, dựa trên đường viền và dựa trên thể tích.

Mô hình dựa trên bộ xương

Mô hình này được tạo thành từ một tập hợp các khớp (điểm mấu chốt), chẳng hạn như đầu gối, mắt cá chân, cổ tay, khuỷu tay, vai và hướng của các chi của cơ thể. Mô hình này đáng chú ý vì tính linh hoạt của nó và do đó phù hợp với cả ước tính tư thế người 3 chiều và 2 chiều. Với mô hình 3 chiều, giải pháp sử dụng hình ảnh RGB và tìm tọa độ X, Y và Z của khớp. Với mô hình 2 chiều, phân tích hình ảnh RGB cũng giống như vậy, nhưng sử dụng tọa độ X và Y.

Mô hình dựa trên đường viền

Mô hình này sử dụng các đường nét của thân và các chi của cơ thể, cũng như chiều rộng thô của chúng. Ở đây, giải pháp lấy hình bóng của khung cơ thể và hiển thị các bộ phận cơ thể dưới dạng hình chữ nhật và ranh giới trong khung đó.

Mô hình dựa trên khối lượng

Mô hình này thường sử dụng một loạt các lần quét 3 chiều để nắm bắt hình dạng của cơ thể và chuyển đổi nó thành một khung hình dạng và lưới hình học. Những hình dạng này tạo ra một chuỗi 3D các tư thế và biểu diễn cơ thể.

Cách ước tính tư thế người 3D hoạt động

Các ứng dụng thể dục có xu hướng dựa vào ước tính tư thế con người 3 chiều. Đối với những ứng dụng này, càng có nhiều thông tin về tư thế con người thì càng tốt. Với kỹ thuật này, người dùng ứng dụng sẽ ghi lại việc họ tham gia vào một bài tập hoặc thói quen tập luyện. Sau đó, ứng dụng sẽ phân tích chuyển động cơ thể của người dùng, đưa ra các chỉnh sửa cho những lỗi hoặc điểm không chính xác.

Loại sơ đồ của ứng dụng này thường tuân theo mẫu sau:

  • Đầu tiên, thu thập dữ liệu về chuyển động của người dùng trong khi họ thực hiện bài tập.
  • Tiếp theo, xác định mức độ chính xác hoặc không chính xác của chuyển động của người dùng.
  • Cuối cùng, chỉ cho người dùng qua giao diện những sai lầm mà họ có thể đã mắc phải.

Ngay bây giờ, tiêu chuẩn trong công nghệ tạo dáng người là cấu trúc liên kết COCO. Cấu trúc liên kết COCO được tạo thành từ 17 mốc trên cơ thể, từ mặt đến cánh tay đến chân. Lưu ý rằng COCO không phải là khung tư thế cơ thể người duy nhất, chỉ là khung được sử dụng phổ biến nhất.

Loại quy trình này thường sử dụng công nghệ máy học sâu để trích xuất các khớp nhằm ước tính tư thế của người dùng. Sau đó, nó sử dụng các thuật toán dựa trên hình học để hiểu những gì nó tìm thấy (phân tích vị trí tương đối của các khớp được phát hiện). Trong khi sử dụng video động làm dữ liệu nguồn, hệ thống có thể sử dụng một loạt khung hình chứ không chỉ một hình ảnh để ghi lại các điểm chính của video. Kết quả là hiển thị chính xác hơn nhiều chuyển động thực của người dùng vì hệ thống có thể sử dụng thông tin từ các khung liền kề để giải quyết mọi sự không chắc chắn về vị trí của cơ thể con người trong khung hiện tại.

Trong số các kỹ thuật hiện tại để sử dụng ước tính tư thế 3D trong các ứng dụng thể dục, cách tiếp cận chính xác nhất trước tiên là áp dụng một mô hình để phát hiện các điểm chính 2D và sau đó xử lý phát hiện 2D bằng một mô hình khác để chuyển đổi chúng thành các dự đoán điểm chính 3D. 

Trong tạp chí nghiên cứu chúng tôi đã đăng gần đây, một nguồn video duy nhất đã được sử dụng, với các mạng thần kinh tích chập với các kết cấu thời gian giãn nở được áp dụng để thực hiện chuyển đổi điểm chính 2D -> 3D.

Sau khi phân tích các mô hình hiện có, chúng tôi xác định rằng VideoPose3D là giải pháp phù hợp nhất với nhu cầu của hầu hết các ứng dụng thể dục do AI điều khiển. Đầu vào sử dụng hệ thống này sẽ cho phép phát hiện tập hợp các điểm chính 2D, trong đó một mô hình, được đào tạo trước trên bộ dữ liệu COCO 2017, được áp dụng như một máy dò 2D. 

Để dự đoán chính xác nhất vị trí của khớp hoặc điểm chốt hiện tại, VideoPose3D có thể sử dụng nhiều khung hình trong một chuỗi thời gian ngắn để tạo thông tin tư thế 2D. 

Để tăng thêm độ chính xác của ước tính tư thế 3D, nhiều camera có thể thu thập các quan điểm thay thế của người dùng thực hiện cùng một bài tập hoặc thói quen. Tuy nhiên, xin lưu ý rằng nó yêu cầu sức mạnh xử lý lớn hơn cũng như kiến ​​trúc mô hình chuyên dụng để xử lý nhiều đầu vào luồng video.

Gần đây, Google Tiết lộ hệ thống BlazePose của họ, một mô hình định hướng thiết bị di động để ước tính tư thế của con người bằng cách tăng số lượng điểm chính được phân tích lên 33, một bộ siêu của bộ điểm chính COCO và hai cấu trúc liên kết khác – BlazePalm và BlazeFace. Do đó, mô hình BlazePose có thể tạo ra kết quả dự đoán tư thế phù hợp với mô hình bàn tay và mô hình khuôn mặt bằng cách diễn đạt ngữ nghĩa cơ thể.

Mỗi thành phần trong hệ thống ước tính tư thế con người dựa trên máy học cần phải nhanh, chiếm tối đa vài mili giây trên mỗi khung hình cho các mô hình theo dõi và phát hiện tư thế. 

Do quy trình BlazePose (bao gồm các thành phần theo dõi và ước tính tư thế) phải hoạt động trên nhiều loại thiết bị di động trong thời gian thực, mỗi phần riêng lẻ của quy trình được thiết kế để hoạt động rất hiệu quả về mặt tính toán và chạy ở tốc độ 200-1000 FPS .

Việc ước tính và theo dõi tạo dáng trong video khi không biết liệu người đó có mặt hay không và ở đâu thường được thực hiện theo hai giai đoạn. 

Ở giai đoạn đầu tiên, một mô hình phát hiện đối tượng được chạy để xác định sự hiện diện của con người hoặc để xác định sự vắng mặt của họ. Sau khi người đó được phát hiện, mô-đun ước tính tư thế có thể xử lý khu vực bản địa hóa có chứa người đó và dự đoán vị trí của các điểm chính.

Một nhược điểm của thiết lập này là nó yêu cầu cả mô-đun ước tính và phát hiện đối tượng để chạy cho mọi khung hình tiêu tốn thêm tài nguyên tính toán. Tuy nhiên, các tác giả của BlazePose đã nghĩ ra một cách thông minh để giải quyết vấn đề này và sử dụng hiệu quả nó trong các mô-đun phát hiện điểm chính khác, chẳng hạn như FaceMeshPhương Tiện Truyền ThôngỐng Tay.

Ý tưởng là một mô-đun phát hiện đối tượng (máy dò khuôn mặt trong trường hợp của BlazePose) chỉ có thể được sử dụng để bắt đầu theo dõi tư thế trong khung hình đầu tiên trong khi việc theo dõi người tiếp theo có thể được thực hiện bằng cách sử dụng riêng dự đoán tư thế sau khi căn chỉnh tư thế, các tham số được dự đoán bằng cách sử dụng mô hình ước tính tư thế.

Khuôn mặt tạo ra tín hiệu mạnh nhất về vị trí của thân đối với mạng thần kinh, do sự khác biệt tương đối nhỏ về ngoại hình và độ tương phản cao trong các đặc điểm của nó. Do đó, có thể tạo ra một hệ thống nhanh chóng, chi phí thấp để phát hiện tư thế thông qua một loạt các giả định hợp lý dựa trên ý tưởng rằng đầu người sẽ có thể định vị được trong mọi trường hợp sử dụng cá nhân.

Vượt qua những thách thức về ước tính tư thế con người

Việc sử dụng ước tính tư thế trong các ứng dụng thể dục phải đối mặt với thách thức về số lượng lớn các tư thế của con người, chẳng hạn như hàng trăm asana trong hầu hết các chế độ yoga. 

Hơn nữa, cơ thể đôi khi sẽ chặn một số chi nhất định khi được chụp bởi bất kỳ máy ảnh cụ thể nào, người dùng có thể mặc những bộ trang phục khác nhau che khuất các đặc điểm cơ thể và vẻ ngoài cá nhân.

Trong khi sử dụng bất kỳ người mẫu được đào tạo trước nào, hãy lưu ý rằng các chuyển động cơ thể bất thường hoặc góc quay lạ có thể dẫn đến lỗi trong ước tính tư thế con người. Chúng tôi có thể giảm thiểu vấn đề này ở một mức độ nhất định bằng cách sử dụng dữ liệu tổng hợp từ kết xuất mô hình cơ thể người 3D hoặc bằng cách tinh chỉnh dữ liệu cụ thể cho miền được đề cập.

Tin tốt là chúng ta có thể tránh hoặc giảm thiểu phần lớn các điểm yếu. Chìa khóa để làm như vậy là chọn ra dữ liệu đào tạo và kiến ​​trúc mô hình phù hợp. Hơn nữa, xu hướng phát triển trong lĩnh vực công nghệ ước tính tư thế con người cho thấy rằng một số vấn đề chúng ta gặp phải hiện nay sẽ ít liên quan hơn trong những năm tới.

Từ cuối cùng

Ước tính tư thế con người nắm giữ nhiều mục đích sử dụng tiềm năng trong tương lai bên ngoài lĩnh vực ứng dụng thể dục và theo dõi chuyển động của con người, từ chơi game đến hoạt ảnh, Thực tế tăng cường đến rô-bốt. Điều đó không đại diện cho một danh sách đầy đủ các khả năng nhưng làm nổi bật một số lĩnh vực có khả năng nhất mà ước tính tư thế con người sẽ đóng góp vào bối cảnh kỹ thuật số của chúng ta.

Maksym rất muốn đạt được những hiểu biết và kinh nghiệm mới về Khoa học dữ liệu và Máy học. Anh ấy đặc biệt quan tâm đến các công nghệ dựa trên Deep Learning và ứng dụng của chúng vào các trường hợp sử dụng kinh doanh.