Trí tuệ nhân tạo

Các nhà nghiên cứu tìm cách mở rộng nhận dạng giọng nói tự động tới 2,000 ngôn ngữ

Được phát hành

1 năm trước

14 Tháng một, 2023

Một nhóm các nhà nghiên cứu tại Đại học Carnegie Mellon đang tìm cách mở rộng tính năng nhận dạng giọng nói tự động sang 2,000 ngôn ngữ. Tính đến thời điểm hiện tại, chỉ một phần trong số ước tính khoảng 7,000 đến 8,000 ngôn ngữ được nói trên toàn thế giới sẽ được hưởng lợi từ các công nghệ ngôn ngữ hiện đại như phiên âm giọng nói thành văn bản hoặc phụ đề tự động.

Xinjian Li là một tiến sĩ. sinh viên Viện Công nghệ Ngôn ngữ của Trường Khoa học Máy tính (LTI).

Ông nói: “Rất nhiều người trên thế giới này nói các ngôn ngữ khác nhau, nhưng các công cụ công nghệ ngôn ngữ không được phát triển cho tất cả họ. “Phát triển công nghệ và một mô hình ngôn ngữ tốt cho tất cả mọi người là một trong những mục tiêu của nghiên cứu này.”

Li thuộc nhóm các chuyên gia đang tìm cách đơn giản hóa các yêu cầu dữ liệu mà ngôn ngữ cần để phát triển mô hình nhận dạng giọng nói.

Nhóm cũng bao gồm các giảng viên của LTI Shinji Watanabe, Florian Metze, David Mortensen và Alan Black.

Nghiên cứu có tiêu đề “ASR2K: Nhận dạng giọng nói cho khoảng 2,000 ngôn ngữ không có âm thanh” đã được trình bày tại Interspeech 2022 ở Hàn Quốc.

Phần lớn các mô hình nhận dạng giọng nói hiện có yêu cầu bộ dữ liệu văn bản và âm thanh. Mặc dù dữ liệu văn bản tồn tại cho hàng nghìn ngôn ngữ nhưng điều này không đúng với âm thanh. Nhóm muốn loại bỏ nhu cầu về dữ liệu âm thanh bằng cách tập trung vào các yếu tố ngôn ngữ phổ biến trên nhiều ngôn ngữ.

Các công nghệ nhận dạng giọng nói thường tập trung vào âm vị của một ngôn ngữ, đó là những âm riêng biệt giúp phân biệt ngôn ngữ đó với các ngôn ngữ khác. Đây là duy nhất cho mỗi ngôn ngữ. Đồng thời, các ngôn ngữ có các âm tố mô tả âm thanh của một từ về mặt vật lý và nhiều âm tố có thể tương ứng với một âm vị. Mặc dù các ngôn ngữ riêng biệt có thể có các âm vị khác nhau, nhưng các điện thoại cơ bản có thể giống nhau.

Nhóm đang nghiên cứu một mô hình nhận dạng giọng nói ít dựa vào âm vị hơn và dựa nhiều hơn vào thông tin về cách điện thoại được chia sẻ giữa các ngôn ngữ. Điều này giúp giảm nỗ lực cần thiết để xây dựng các mô hình riêng biệt cho từng ngôn ngữ riêng lẻ. Bằng cách ghép nối mô hình với cây phát sinh loài, là sơ đồ ánh xạ mối quan hệ giữa các ngôn ngữ, nó giúp ích cho các quy tắc phát âm. Mô hình của nhóm và cấu trúc cây đã cho phép họ ước tính mô hình giọng nói cho hàng nghìn ngôn ngữ ngay cả khi không có dữ liệu âm thanh.

“Chúng tôi đang cố gắng loại bỏ yêu cầu dữ liệu âm thanh này, giúp chúng tôi chuyển từ 100 đến 200 ngôn ngữ thành 2,000,” Li nói. “Đây là nghiên cứu đầu tiên nhắm mục tiêu vào một số lượng lớn ngôn ngữ như vậy và chúng tôi là nhóm đầu tiên nhắm đến việc mở rộng các công cụ ngôn ngữ sang phạm vi này.”

Nghiên cứu, trong khi vẫn còn ở giai đoạn đầu, đã cải thiện 5% các công cụ xấp xỉ ngôn ngữ hiện có.

“Mỗi ngôn ngữ là một yếu tố rất quan trọng trong nền văn hóa của nó. Mỗi ngôn ngữ đều có câu chuyện riêng của nó và nếu bạn không cố gắng bảo tồn ngôn ngữ, những câu chuyện đó có thể bị mất,” Li nói. “Phát triển loại hệ thống nhận dạng giọng nói này và công cụ này là một bước để cố gắng bảo tồn những ngôn ngữ đó.”

Học sâu vs Học tăng cường

Đừng bỏ lỡ

Học máy so với học sâu – Sự khác biệt chính

Alex McFarland

Alex McFarland là một nhà báo và nhà văn về AI đang khám phá những phát triển mới nhất về trí tuệ nhân tạo. Anh ấy đã cộng tác với nhiều công ty khởi nghiệp và ấn phẩm về AI trên toàn thế giới.