Trí tuệ nhân tạo
Làm thế nào AI đang làm cho việc nhận dạng ngôn ngữ ký hiệu trở nên chính xác hơn bao giờ hết

Khi chúng ta nghĩ về việc phá vỡ các rào cản giao tiếp, chúng ta thường tập trung vào các ứng dụng dịch ngôn ngữ hoặc trợ lý giọng nói. Nhưng đối với hàng triệu người sử dụng ngôn ngữ ký hiệu, những công cụ này chưa hoàn toàn bắc cầu giao tiếp. Ngôn ngữ ký hiệu không chỉ là về các động tác tay – nó là một hình thức giao tiếp phong phú, phức tạp bao gồm các biểu cảm khuôn mặt và ngôn ngữ cơ thể, mỗi yếu tố mang lại ý nghĩa quan trọng.
Điều này đặc biệt thách thức: không giống như các ngôn ngữ nói, chủ yếu khác biệt về từ vựng và ngữ pháp, các ngôn ngữ ký hiệu trên toàn thế giới khác biệt cơ bản về cách chúng truyền tải ý nghĩa. Ngôn ngữ ký hiệu Mỹ (ASL), ví dụ, có ngữ pháp và cú pháp độc đáo không khớp với tiếng Anh nói.
Sự phức tạp này có nghĩa là việc tạo ra công nghệ để nhận dạng và dịch ngôn ngữ ký hiệu theo thời gian thực đòi hỏi sự hiểu biết về toàn bộ hệ thống ngôn ngữ trong chuyển động.
Một cách tiếp cận mới để nhận dạng
Đây là nơi một nhóm tại Đại học Florida Atlantic (FAU) quyết định thực hiện một cách tiếp cận mới. Thay vì cố gắng giải quyết toàn bộ sự phức tạp của ngôn ngữ ký hiệu cùng một lúc, họ tập trung vào việc掌握 một bước quan trọng đầu tiên: nhận dạng các động tác chữ cái ASL với độ chính xác chưa từng có thông qua AI.
Hãy nghĩ về nó như việc dạy cho máy tính cách đọc chữ viết tay, nhưng ở ba chiều và trong chuyển động. Nhóm đã xây dựng một điều đáng chú ý: một tập dữ liệu gồm 29.820 hình ảnh tĩnh hiển thị các động tác tay của ASL. Nhưng họ không chỉ thu thập hình ảnh. Họ đã đánh dấu mỗi hình ảnh với 21 điểm chính trên tay, tạo ra một bản đồ chi tiết về cách tay di chuyển và tạo thành các dấu hiệu khác nhau.
Tiến sĩ Bader Alsharif, người dẫn đầu nghiên cứu này với tư cách là ứng viên tiến sĩ, giải thích: “Phương pháp này chưa được khám phá trong nghiên cứu trước đây, làm cho nó trở thành một hướng đi mới và đầy hứa hẹn cho các tiến bộ trong tương lai.”
Phá vỡ công nghệ
Hãy cùng khám phá sự kết hợp của các công nghệ làm cho hệ thống nhận dạng ngôn ngữ ký hiệu này hoạt động.
MediaPipe và YOLOv8
Điều kỳ diệu xảy ra thông qua sự tích hợp liền mạch của hai công cụ mạnh mẽ: MediaPipe và YOLOv8. Hãy nghĩ về MediaPipe như một chuyên gia theo dõi tay – một người thông dịch ngôn ngữ ký hiệu lành nghề có thể theo dõi mọi chuyển động ngón tay và vị trí tay tinh tế. Nhóm nghiên cứu đã chọn MediaPipe cụ thể vì khả năng theo dõi mốc tay chính xác xuất sắc, xác định 21 điểm chính xác trên mỗi tay, như chúng tôi đã đề cập ở trên.
Nhưng việc theo dõi không đủ – chúng ta cần hiểu những chuyển động này có ý nghĩa gì. Đó là nơi YOLOv8 tham gia. YOLOv8 là một chuyên gia nhận dạng mẫu, lấy tất cả các điểm được theo dõi và xác định xem chúng đại diện cho chữ cái hoặc động tác nào. Nghiên cứu cho thấy rằng khi YOLOv8 xử lý một hình ảnh, nó chia hình ảnh thành một lưới S × S, với mỗi ô lưới chịu trách nhiệm phát hiện đối tượng (trong trường hợp này, động tác tay) trong biên giới của nó.

Alsharif et al., Franklin Open (2024)
Hệ thống thực sự hoạt động như thế nào
Quá trình này phức tạp hơn nó có vẻ như tạifirst nhìn.
Đây là những gì xảy ra sau hậu trường:
Giai đoạn phát hiện tay
Khi bạn tạo ra một dấu hiệu, MediaPipe đầu tiên xác định tay của bạn trong khung và tạo bản đồ 21 điểm chính. Những điểm này không chỉ là những chấm ngẫu nhiên – chúng tương ứng với các khớp và mốc cụ thể trên tay của bạn, từ ngón tay đến gốc tay.
Phân tích không gian
YOLOv8 sau đó lấy thông tin này và phân tích nó theo thời gian thực. Đối với mỗi ô lưới trong hình ảnh, nó dự đoán:
- Xác suất của một động tác tay hiện diện
- Tọa độ chính xác của vị trí động tác
- Điểm tín nhiệm của dự đoán của nó
Phân loại
Hệ thống sử dụng cái gọi là “dự đoán hộp giới hạn” – hãy tưởng tượng vẽ một hình chữ nhật hoàn hảo xung quanh động tác tay của bạn. YOLOv8 tính toán năm giá trị quan trọng cho mỗi hộp: tọa độ x và y cho trung tâm, chiều rộng, chiều cao và điểm tín nhiệm.

Alsharif et al., Franklin Open (2024)
Tại sao sự kết hợp này hoạt động rất tốt
Nhóm nghiên cứu đã phát hiện ra rằng bằng cách kết hợp các công nghệ này, họ đã tạo ra một điều gì đó lớn hơn tổng các phần của nó. Việc theo dõi tay chính xác của MediaPipe kết hợp với khả năng phát hiện đối tượng tiên tiến của YOLOv8 đã tạo ra kết quả đáng chú ý – chúng tôi đang nói về tỷ lệ chính xác 98% và điểm F1 99%.
Điều làm cho điều này đặc biệt ấn tượng là cách hệ thống xử lý sự phức tạp của ngôn ngữ ký hiệu. Một số dấu hiệu có thể trông rất giống nhau đối với mắt chưa được đào tạo, nhưng hệ thống có thể phát hiện ra sự khác biệt tinh tế.
Kết quả phá kỷ lục
Khi các nhà nghiên cứu phát triển công nghệ mới, câu hỏi lớn luôn là: “Nó thực sự hoạt động tốt như thế nào?” Đối với hệ thống nhận dạng ngôn ngữ ký hiệu này, kết quả rất ấn tượng.
Nhóm tại FAU đã đưa hệ thống của họ qua các thử nghiệm nghiêm ngặt, và đây là những gì họ đã tìm thấy:
- Hệ thống xác định chính xác dấu hiệu 98% thời gian
- Nó bắt được 98% tất cả các dấu hiệu được thực hiện trước nó
- Điểm hiệu suất tổng thể đạt 99% ấn tượng
“Kết quả từ nghiên cứu của chúng tôi chứng minh khả năng của mô hình chúng tôi trong việc phát hiện và phân loại chính xác các động tác ngôn ngữ ký hiệu Mỹ với rất ít lỗi,” Alsharif giải thích.
Hệ thống hoạt động tốt trong các tình huống hàng ngày – ánh sáng khác nhau, các vị trí tay khác nhau và thậm chí với những người khác nhau ký hiệu.
Đây là một bước đột phá đẩy ranh giới của những gì có thể trong nhận dạng ngôn ngữ ký hiệu. Các hệ thống trước đây đã gặp khó khăn với độ chính xác, nhưng bằng cách kết hợp việc theo dõi tay của MediaPipe với khả năng phát hiện của YOLOv8, nhóm nghiên cứu đã tạo ra một điều gì đó đặc biệt.
“Sự thành công của mô hình này chủ yếu là do sự tích hợp cẩn thận của việc học chuyển giao, tạo tập dữ liệu tỉ mỉ và điều chỉnh chính xác,” Mohammad Ilyas, một trong những đồng tác giả của nghiên cứu, cho biết. Sự chú ý đến chi tiết này đã được đền đáp trong hiệu suất đáng chú ý của hệ thống.
Điều này có nghĩa gì cho giao tiếp
Sự thành công của hệ thống này mở ra những khả năng thú vị để làm cho giao tiếp trở nên dễ tiếp cận và bao gồm hơn.
Nhóm không dừng lại ở việc chỉ nhận dạng chữ cái. Thử thách lớn tiếp theo là dạy hệ thống hiểu một loạt rộng hơn các hình dạng và động tác tay. Hãy nghĩ về những khoảnh khắc khi các dấu hiệu trông gần như giống hệt – như các chữ cái ‘M’ và ‘N’ trong ngôn ngữ ký hiệu. Các nhà nghiên cứu đang làm việc để giúp hệ thống của họ bắt được những sự khác biệt tinh tế này thậm chí còn tốt hơn. Như Tiến sĩ Alsharif đã nói: “Quan trọng là, các phát hiện từ nghiên cứu này nhấn mạnh không chỉ sự mạnh mẽ của hệ thống mà còn tiềm năng của nó để được sử dụng trong các ứng dụng thực tế, thời gian thực.”
Nhóm hiện đang tập trung vào:
- Làm cho hệ thống hoạt động mượt mà trên các thiết bị thông thường
- Làm cho nó đủ nhanh cho các cuộc trò chuyện trong thế giới thực
- Đảm bảo nó hoạt động đáng tin cậy trong bất kỳ môi trường nào
Dean Stella Batalama từ Trường Kỹ thuật và Khoa học Máy tính của FAU chia sẻ tầm nhìn lớn hơn: “Bằng cách cải thiện nhận dạng ngôn ngữ ký hiệu Mỹ, công việc này góp phần tạo ra các công cụ có thể nâng cao giao tiếp cho cộng đồng điếc và khó nghe.”
Hãy tưởng tượng bước vào văn phòng bác sĩ hoặc tham gia một lớp học nơi công nghệ này bắc cầu giao tiếp ngay lập tức. Đó là mục tiêu thực sự ở đây – tạo ra công nghệ thực sự giúp mọi người kết nối. Cho dù trong giáo dục, chăm sóc sức khỏe hay các cuộc trò chuyện hàng ngày, hệ thống này đại diện cho một bước tiến hacia một thế giới nơi các rào cản giao tiếp ngày càng nhỏ.












