Trí tuệ nhân tạo

Làm thế nào AI đang làm cho nhận dạng ngôn ngữ ký hiệu chính xác hơn bao giờ hết

Published December 23, 2024

Updated April 27, 2026

Alex McFarland

Khi chúng ta nghĩ về việc phá vỡ các rào cản giao tiếp, chúng ta thường tập trung vào các ứng dụng dịch ngôn ngữ hoặc trợ lý giọng nói. Nhưng đối với hàng triệu người sử dụng ngôn ngữ ký hiệu, những công cụ này chưa hoàn toàn bắc cầu giao tiếp. Ngôn ngữ ký hiệu không chỉ là về động tác tay – nó là một hình thức giao tiếp phong phú, phức tạp bao gồm biểu cảm khuôn mặt và ngôn ngữ cơ thể, mỗi yếu tố mang ý nghĩa quan trọng.

Điều này đặc biệt thách thức: không giống như ngôn ngữ nói, chủ yếu khác biệt về từ vựng và ngữ pháp, ngôn ngữ ký hiệu trên toàn thế giới khác biệt cơ bản về cách chúng truyền đạt ý nghĩa. Ngôn ngữ ký hiệu Mỹ (ASL), ví dụ, có ngữ pháp và cú pháp độc đáo không khớp với tiếng Anh nói.

Sự phức tạp này có nghĩa là việc tạo ra công nghệ để nhận dạng và dịch ngôn ngữ ký hiệu theo thời gian thực đòi hỏi sự hiểu biết về toàn bộ hệ thống ngôn ngữ trong chuyển động.

Một cách tiếp cận mới để nhận dạng

Đây là nơi một nhóm tại Đại học Florida Atlantic (FAU) quyết định thực hiện một cách tiếp cận mới. Thay vì cố gắng giải quyết toàn bộ sự phức tạp của ngôn ngữ ký hiệu cùng một lúc, họ tập trung vào việc掌握 một bước đầu tiên quan trọng: nhận dạng các cử chỉ chữ cái ASL với độ chính xác chưa từng có thông qua AI.

Hãy nghĩ về nó như việc dạy cho máy tính đọc chữ viết tay, nhưng trong ba chiều và trong chuyển động. Nhóm đã xây dựng một điều đáng chú ý: một tập dữ liệu gồm 29.820 hình ảnh tĩnh hiển thị các cử chỉ tay ASL. Nhưng họ không chỉ thu thập hình ảnh. Họ đã đánh dấu mỗi hình ảnh với 21 điểm chính trên tay, tạo ra một bản đồ chi tiết về cách tay di chuyển và tạo thành các dấu hiệu khác nhau.

Tiến sĩ Bader Alsharif, người dẫn đầu nghiên cứu này với tư cách là ứng viên tiến sĩ, giải thích: “Phương pháp này chưa được khám phá trong nghiên cứu trước đây, khiến nó trở thành một hướng đi mới và đầy hứa hẹn cho các tiến bộ trong tương lai.”

Phá vỡ công nghệ

Hãy cùng khám phá sự kết hợp của các công nghệ làm cho hệ thống nhận dạng ngôn ngữ ký hiệu này hoạt động.

MediaPipe và YOLOv8

Phép thuật xảy ra thông qua sự tích hợp liền mạch của hai công cụ mạnh mẽ: MediaPipe và YOLOv8. Hãy nghĩ về MediaPipe như một chuyên gia theo dõi tay – một người thông dịch ngôn ngữ ký hiệu có tay nghề cao có thể theo dõi mọi chuyển động ngón tay tinh tế và vị trí tay. Nhóm nghiên cứu đã chọn MediaPipe cụ thể vì khả năng cung cấp theo dõi mốc tay chính xác, xác định 21 điểm chính xác trên mỗi tay, như chúng tôi đã đề cập ở trên.

Nhưng theo dõi không đủ – chúng ta cần hiểu những chuyển động này có ý nghĩa gì. Đó là nơi YOLOv8 xuất hiện. YOLOv8 là một chuyên gia nhận dạng mẫu, lấy tất cả những điểm theo dõi đó và xác định xem chúng đại diện cho chữ cái hoặc cử chỉ nào. Nghiên cứu cho thấy rằng khi YOLOv8 xử lý một hình ảnh, nó chia hình ảnh thành một lưới S × S, với mỗi ô lưới chịu trách nhiệm phát hiện đối tượng (trong trường hợp này, cử chỉ tay) trong biên giới của nó.

Alsharif et al., Franklin Open (2024)

Hệ thống thực sự hoạt động như thế nào

Quá trình này phức tạp hơn những gì có thể nhìn thấy tại đầu tiên.

Đây là những gì xảy ra sau hậu trường:

Giai đoạn phát hiện tay

Khi bạn thực hiện một dấu hiệu, MediaPipe đầu tiên xác định tay của bạn trong khung và lập bản đồ 21 điểm chính đó. Những điểm này không chỉ là những chấm ngẫu nhiên – chúng tương ứng với các khớp và mốc cụ thể trên tay của bạn, từ ngón tay đến gốc tay.

Phân tích không gian

YOLOv8 sau đó lấy thông tin này và phân tích nó theo thời gian thực. Đối với mỗi ô lưới trong hình ảnh, nó dự đoán:

Xác suất của một cử chỉ tay có mặt
Tọa độ chính xác của vị trí cử chỉ
Điểm tín nhiệm của dự đoán

Phân loại

Hệ thống sử dụng một thứ gọi là “dự đoán hộp giới hạn” – hãy tưởng tượng vẽ một hình chữ nhật hoàn hảo xung quanh cử chỉ tay của bạn. YOLOv8 tính toán năm giá trị quan trọng cho mỗi hộp: tọa độ x và y cho trung tâm, chiều rộng, chiều cao và điểm tín nhiệm của dự đoán.

Alsharif et al., Franklin Open (2024)

Tại sao sự kết hợp này hoạt động rất tốt

Nhóm nghiên cứu đã phát hiện ra rằng bằng cách kết hợp các công nghệ này, họ đã tạo ra một thứ gì đó lớn hơn tổng các phần của nó. Theo dõi mốc tay chính xác của MediaPipe kết hợp với khả năng phát hiện đối tượng tiên tiến của YOLOv8 đã tạo ra kết quả đáng chú ý – chúng tôi đang nói về tỷ lệ chính xác 98% và điểm F1 99%.

Điều làm cho điều này đặc biệt ấn tượng là cách hệ thống xử lý sự phức tạp của ngôn ngữ ký hiệu. Một số dấu hiệu có thể trông rất giống nhau đối với mắt chưa được đào tạo, nhưng hệ thống có thể phát hiện ra sự khác biệt tinh tế.

Kết quả phá kỷ lục

Khi các nhà nghiên cứu phát triển công nghệ mới, câu hỏi lớn luôn là: “Nó thực sự hoạt động tốt như thế nào?” Đối với hệ thống nhận dạng ngôn ngữ ký hiệu này, kết quả rất ấn tượng.

Nhóm tại FAU đã đưa hệ thống của họ qua các thử nghiệm nghiêm ngặt, và đây là những gì họ đã tìm thấy:

Hệ thống xác định chính xác các dấu hiệu 98% thời gian
Nó bắt 98% tất cả các dấu hiệu được thực hiện trước mặt nó
Điểm hiệu suất tổng thể đạt 99% ấn tượng

“Kết quả từ nghiên cứu của chúng tôi chứng minh khả năng của mô hình chúng tôi để phát hiện và phân loại chính xác các cử chỉ ngôn ngữ ký hiệu Mỹ với rất ít lỗi,” Alsharif giải thích.

Hệ thống hoạt động tốt trong các tình huống hàng ngày – ánh sáng khác nhau, các vị trí tay khác nhau và thậm chí với các người ký khác nhau.

Đây là một bước đột phá đẩy ranh giới của những gì có thể trong nhận dạng ngôn ngữ ký hiệu. Các hệ thống trước đây đã gặp khó khăn với độ chính xác, nhưng bằng cách kết hợp theo dõi mốc tay của MediaPipe với khả năng phát hiện của YOLOv8, nhóm nghiên cứu đã tạo ra một thứ gì đó đặc biệt.

“Sự thành công của mô hình này chủ yếu là do sự tích hợp cẩn thận của học chuyển, tạo tập dữ liệu tỉ mỉ và điều chỉnh chính xác,” Mohammad Ilyas, một trong những đồng tác giả của nghiên cứu, cho biết. Sự chú ý đến chi tiết này đã mang lại kết quả đáng chú ý cho hệ thống.

Điều này có nghĩa cho giao tiếp

Sự thành công của hệ thống này mở ra những khả năng thú vị để làm cho giao tiếp trở nên dễ tiếp cận và hòa nhập hơn.

Nhóm không dừng lại ở việc nhận dạng các chữ cái. Thử thách lớn tiếp theo là dạy hệ thống hiểu một loạt rộng lớn hơn các hình dạng và cử chỉ tay. Hãy nghĩ về những khoảnh khắc khi các dấu hiệu trông gần như giống hệt – như các chữ cái ‘M’ và ‘N’ trong ngôn ngữ ký hiệu. Các nhà nghiên cứu đang làm việc để giúp hệ thống của họ bắt những sự khác biệt tinh tế này thậm chí còn tốt hơn. Như Alsharif đã nói: “Quan trọng, các phát hiện từ nghiên cứu này nhấn mạnh không chỉ sự mạnh mẽ của hệ thống mà còn tiềm năng của nó để được sử dụng trong các ứng dụng thực tế, thời gian thực.”

Nhóm hiện đang tập trung vào:

Làm cho hệ thống hoạt động trơn tru trên các thiết bị thông thường
Làm cho nó đủ nhanh cho các cuộc trò chuyện trong thế giới thực
Đảm bảo nó hoạt động đáng tin cậy trong bất kỳ môi trường nào

Trưởng khoa Stella Batalama từ Trường Kỹ thuật và Khoa học Máy tính của FAU chia sẻ tầm nhìn lớn hơn: “Bằng cách cải thiện nhận dạng ngôn ngữ ký hiệu Mỹ, công việc này góp phần tạo ra các công cụ có thể nâng cao giao tiếp cho cộng đồng điếc và khó nghe.”

Hãy tưởng tượng bước vào một văn phòng bác sĩ hoặc tham dự một lớp học nơi công nghệ này bắc cầu giao tiếp ngay lập tức. Đó là mục tiêu thực sự ở đây – tạo ra công nghệ thực sự giúp mọi người kết nối. Cho dù trong giáo dục, chăm sóc sức khỏe hay các cuộc trò chuyện hàng ngày, hệ thống này đại diện cho một bước tiến hướng tới một thế giới nơi các rào cản giao tiếp ngày càng nhỏ hơn.