Trí tuệ nhân tạo

CNTXT AI Ra Mắt Munsit: Hệ Thống Nhận Dạng Giọng Nói Tiếng Ả Rập Chính Xác Nhất Từ Trước Đến Nay

Published April 30, 2025

Updated April 26, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Trong một khoảnh khắc định hình cho trí tuệ nhân tạo ngôn ngữ Ả Rập, CNTXT AI đã ra mắt Munsit, một mô hình nhận dạng giọng nói Ả Rập thế hệ tiếp theo không chỉ là mô hình chính xác nhất từng được tạo ra cho tiếng Ả Rập, mà còn vượt trội so với các gã khổng lồ toàn cầu như OpenAI, Meta, Microsoft và ElevenLabs trên các tiêu chuẩn chuẩn mực. Được phát triển tại UAE và tùy chỉnh cho tiếng Ả Rập từ đầu, Munsit đại diện cho một bước tiến mạnh mẽ trong những gì CNTXT gọi là “trí tuệ nhân tạo chủ quyền” – công nghệ được xây dựng trong khu vực, cho khu vực, nhưng vẫn có tính cạnh tranh toàn cầu.

Những cơ sở khoa học của thành tựu này được trình bày trong bài báo mới được công bố của nhóm, “Tiến Bộ Nhận Dạng Giọng Nói Tiếng Ả Rập Thông Qua Học Tập Siêu Giám Sát Quy Mô Lớn“, giới thiệu một phương pháp đào tạo có thể mở rộng, hiệu quả về dữ liệu, giải quyết sự khan hiếm lâu dài của dữ liệu giọng nói tiếng Ả Rập được gắn nhãn. Phương pháp đó – học tập siêu giám sát – đã cho phép nhóm xây dựng một hệ thống đặt ra một tiêu chuẩn mới cho chất lượng chuyển录 trên cả tiếng Ả Rập tiêu chuẩn hiện đại (MSA) và hơn 25 phương ngữ khu vực.

Vượt Qua Sự Khan Hiếm Dữ Liệu Trong Nhận Dạng Giọng Nói Ả Rập

Tiếng Ả Rập, mặc dù là một trong những ngôn ngữ được nói rộng rãi nhất trên toàn cầu và là ngôn ngữ chính thức của Liên Hợp Quốc, đã lâu được coi là một ngôn ngữ có tài nguyên thấp trong lĩnh vực nhận dạng giọng nói. Điều này bắt nguồn từ cả phức tạp về mặt hình thái và sự thiếu hụt của các tập dữ liệu giọng nói lớn, đa dạng, được gắn nhãn. Không giống như tiếng Anh, được hưởng lợi từ hàng ngàn giờ dữ liệu âm thanh được chuyển录 thủ công, sự phong phú về phương ngữ và sự hiện diện kỹ thuật số bị phân mảnh của tiếng Ả Rập đã đặt ra những thách thức đáng kể cho việc xây dựng các hệ thống nhận dạng giọng nói tự động (ASR) mạnh mẽ.

Thay vì chờ đợi quá trình chuyển录 thủ công chậm và tốn kém để bắt kịp, CNTXT AI đã theo đuổi một con đường có thể mở rộng hơn nhiều: giám sát yếu. Cách tiếp cận của họ bắt đầu với một corpus khổng lồ gồm hơn 30.000 giờ âm thanh tiếng Ả Rập không được gắn nhãn, thu thập từ các nguồn đa dạng. Thông qua một đường ống xử lý dữ liệu tùy chỉnh, âm thanh thô này đã được làm sạch, phân đoạn và tự động gắn nhãn để tạo ra một tập dữ liệu đào tạo chất lượng cao 15.000 giờ – một trong những tập hợp dữ liệu giọng nói tiếng Ả Rập lớn nhất và đại diện nhất từng được thu thập.

Quá trình này không dựa trên chú thích của con người. Thay vào đó, CNTXT đã phát triển một hệ thống nhiều giai đoạn để tạo, đánh giá và lọc các giả thuyết từ nhiều mô hình ASR. Những bản chuyển录 này đã được so sánh chéo bằng cách sử dụng khoảng cách Levenshtein để chọn các giả thuyết nhất quán nhất, sau đó được truyền qua một mô hình ngôn ngữ để đánh giá tính hợp lý về mặt ngữ pháp của chúng. Các đoạn không đáp ứng các ngưỡng chất lượng đã xác định được loại bỏ, đảm bảo rằng ngay cả khi không có xác nhận của con người, dữ liệu đào tạo vẫn đáng tin cậy. Đội ngũ đã tinh chỉnh đường ống này thông qua nhiều lần lặp lại, mỗi lần cải thiện độ chính xác của nhãn bằng cách đào tạo lại hệ thống ASR và đưa nó trở lại vào quá trình gắn nhãn.

Nền Tảng Của Munsit: Kiến Trúc Conformer

Ở trung tâm của Munsit là mô hình Conformer, một kiến trúc mạng nơ-ron lai kết hợp sự nhạy cảm cục bộ của các lớp convolutional với khả năng mô hình hóa trình tự toàn cầu của các transformer. Thiết kế này làm cho Conformer đặc biệt phù hợp với việc xử lý các sắc thái của ngôn ngữ nói, nơi cả sự phụ thuộc dài (như cấu trúc câu) và các chi tiết ngữ âm tinh vi đều quan trọng.

CNTXT AI đã triển khai một biến thể lớn của Conformer, đào tạo nó từ đầu sử dụng các mel-spectrograms 80 kênh làm đầu vào. Mô hình này bao gồm 18 lớp và có khoảng 121 triệu tham số. Việc đào tạo được thực hiện trên một cụm hiệu suất cao sử dụng tám GPU NVIDIA A100 với độ chính xác bfloat16, cho phép xử lý hiệu quả các kích thước batch lớn và không gian tính năng cao chiều. Để xử lý việc phân từ của cấu trúc hình thái phong phú của tiếng Ả Rập, đội ngũ đã sử dụng một tokenizer SentencePiece được đào tạo cụ thể trên corpus tùy chỉnh của họ, kết quả là một từ vựng gồm 1.024 đơn vị con từ.

Không giống như đào tạo ASR giám sát thông thường, thường yêu cầu mỗi đoạn âm thanh phải được ghép với một nhãn được chuyển录 cẩn thận, phương pháp của CNTXT hoạt động hoàn toàn trên các nhãn yếu. Những nhãn này, mặc dù ồn ào hơn so với những nhãn được xác nhận bởi con người, đã được tối ưu hóa thông qua một vòng lặp phản hồi ưu tiên sự đồng thuận, tính hợp lý về mặt ngữ pháp và tính khả thi về mặt từ vựng. Mô hình được đào tạo sử dụng hàm mất Connectionist Temporal Classification (CTC), rất phù hợp cho mô hình hóa trình tự không được căn chỉnh – điều quan trọng đối với các nhiệm vụ nhận dạng giọng nói, nơi thời gian của các từ được nói là biến đổi và không thể đoán trước.

Chiếm Độc Đáo Các Tiêu Chuẩn

Kết quả nói lên tất cả. Munsit đã được thử nghiệm chống lại các mô hình ASR mã nguồn mở và thương mại hàng đầu trên sáu tập dữ liệu chuẩn mực tiếng Ả Rập: SADA, Common Voice 18.0, MASC (sạch và ồn), MGB-2 và Casablanca. Những tập dữ liệu này tập thể bao gồm hàng chục phương ngữ và giọng nói trên khắp thế giới Ả Rập, từ Ả Rập Xê Út đến Morocco.

Trên tất cả các tiêu chuẩn, Munsit-1 đã đạt được tỷ lệ lỗi từ trung bình (WER) là 26,68 và tỷ lệ lỗi ký tự (CER) là 10,05. So sánh, phiên bản mạnh nhất của Whisper của OpenAI đã ghi nhận WER trung bình là 36,86 và CER là 17,21. SeamlessM4T của Meta, một mô hình đa ngôn ngữ khác thuộc hàng đầu, thậm chí còn cao hơn. Munsit đã vượt trội so với mọi hệ thống khác trên cả dữ liệu sạch và ồn, và thể hiện sự mạnh mẽ đặc biệt trong điều kiện ồn, một yếu tố quan trọng cho các ứng dụng thực tế như trung tâm cuộc gọi và dịch vụ công.

Khoảng cách cũng rõ rệt đối với các hệ thống độc quyền. Munsit đã vượt trội so với mô hình nhận dạng giọng nói tiếng Ả Rập của Microsoft Azure, ElevenLabs Scribe và thậm chí là tính năng chuyển录 GPT-4o của OpenAI. Những kết quả này không phải là những lợi ích nhỏ – chúng đại diện cho một sự cải thiện tương đối trung bình là 23,19% về WER và 24,78% về CER so với đường cơ sở mở mạnh nhất, thiết lập Munsit là người dẫn đầu rõ ràng trong nhận dạng giọng nói tiếng Ả Rập.

Một Nền Tảng Cho Tương Lai Của Trí Tuệ Nhân Tạo Giọng Nói Tiếng Ả Rập

Trong khi Munsit-1 đã biến đổi những khả năng cho việc chuyển录, phụ đề và hỗ trợ khách hàng trên thị trường nói tiếng Ả Rập, CNTXT AI xem việc ra mắt này chỉ là bước khởi đầu. Công ty hình dung một bộ đầy đủ các công nghệ giọng nói ngôn ngữ Ả Rập, bao gồm văn bản-sang-nói, trợ lý giọng nói và hệ thống dịch thời gian thực – tất cả đều dựa trên cơ sở hạ tầng chủ quyền và trí tuệ nhân tạo phù hợp với khu vực.

“Munsit là hơn cả một bước đột phá trong nhận dạng giọng nói,” Mohammad Abu Sheikh, CEO của CNTXT AI cho biết. “Nó là một tuyên bố rằng tiếng Ả Rập thuộc về hàng đầu của trí tuệ nhân tạo toàn cầu. Chúng tôi đã chứng minh rằng trí tuệ nhân tạo hàng đầu không cần phải được nhập khẩu – nó có thể được xây dựng ở đây, bằng tiếng Ả Rập, cho tiếng Ả Rập.”

Với sự xuất hiện của các mô hình cụ thể theo khu vực như Munsit, ngành công nghiệp trí tuệ nhân tạo đang bước vào một kỷ nguyên mới – nơi mà sự liên quan về ngôn ngữ và văn hóa không phải bị hy sinh trong việc theo đuổi sự xuất sắc về kỹ thuật. Trên thực tế, với Munsit, CNTXT AI đã chỉ ra rằng họ là một và giống nhau.

Antoine Tardif, CEO & Founder of Unite.AI

Antoine là một nhà lãnh đạo có tầm nhìn và là đối tác sáng lập của Unite.AI, được thúc đẩy bởi một niềm đam mê không ngừng nghỉ để định hình và thúc đẩy tương lai của AI và robot. Là một doanh nhân liên tục, ông tin rằng AI sẽ gây ra sự gián đoạn cho xã hội giống như điện, và thường bị bắt gặp nói về tiềm năng của các công nghệ gây gián đoạn và AGI.
Như một futurist, ông dành để khám phá cách những đổi mới này sẽ định hình thế giới của chúng ta. Ngoài ra, ông là người sáng lập của Securities.io, một nền tảng tập trung vào đầu tư vào các công nghệ tiên tiến đang định nghĩa lại tương lai và thay đổi toàn bộ lĩnh vực.

Unite.AI

CNTXT AI Ra Mắt Munsit: Hệ Thống Nhận Dạng Giọng Nói Tiếng Ả Rập Chính Xác Nhất Từ Trước Đến Nay

Vượt Qua Sự Khan Hiếm Dữ Liệu Trong Nhận Dạng Giọng Nói Ả Rập

Nền Tảng Của Munsit: Kiến Trúc Conformer

Chiếm Độc Đáo Các Tiêu Chuẩn

Một Nền Tảng Cho Tương Lai Của Trí Tuệ Nhân Tạo Giọng Nói Tiếng Ả Rập

You may like