Kecerdasan buatan
CNTXT AI Meluncurkan Munsit: Sistem Pengenalan Ucapan Arab Paling Akurat yang Pernah Dibangun

Dalam momentum yang menentukan bagi kecerdasan buatan bahasa Arab, CNTXT AI telah memperkenalkan Munsit, model pengenalan ucapan Arab generasi berikutnya yang tidak hanya paling akurat yang pernah dibuat untuk bahasa Arab, tetapi juga yang secara meyakinkan mengungguli raksasa global seperti OpenAI, Meta, Microsoft, dan ElevenLabs pada standar benchmark. Dikembangkan di UAE dan disesuaikan untuk bahasa Arab dari awal, Munsit mewakili langkah maju yang kuat dalam apa yang disebut CNTXT sebagai “kecerdasan buatan berdaulat” – teknologi yang dibangun di wilayah, untuk wilayah, tetapi dengan daya saing global.
Dasar ilmiah dari prestasi ini diuraikan dalam makalah tim yang baru diterbitkan, “Mengembangkan Pengenalan Ucapan Arab Melalui Pembelajaran Lemah Terbesar“, yang memperkenalkan metode pelatihan yang efisien data dan dapat diskalakan yang menangani kelangkaan data ucapan Arab yang telah lama menjadi masalah. Metode tersebut – pembelajaran lemah – telah memungkinkan tim untuk membangun sistem yang menetapkan baru untuk kualitas transkripsi di seluruh Bahasa Arab Modern (MSA) dan lebih dari 25 dialek regional.
Mengatasi Kekurangan Data dalam ASR Arab
Bahasa Arab, meskipun merupakan salah satu bahasa yang paling banyak digunakan di dunia dan bahasa resmi PBB, telah lama dianggap sebagai bahasa dengan sumber daya rendah dalam bidang pengenalan ucapan. Ini disebabkan oleh kompleksitas morfologisnya dan kurangnya dataset ucapan yang besar, beragam, dan dilabeli. Tidak seperti bahasa Inggris, yang mendapat manfaat dari jumlah jam yang tidak terhitung dari data audio yang telah ditranskripsikan secara manual, kekayaan dialek dan kehadiran digital yang terfragmentasi bahasa Arab telah menimbulkan tantangan besar untuk membangun sistem pengenalan ucapan otomatis (ASR) yang kuat.
Daripada menunggu proses transkripsi manual yang lambat dan mahal untuk mengejar, CNTXT AI mengejar jalur yang jauh lebih dapat diskalakan: pengawasan lemah. Pendekatan mereka dimulai dengan korpus audio Arab yang besar lebih dari 30.000 jam yang dikumpulkan dari sumber yang beragam. Melalui pipa pengolahan data kustom, audio mentah ini dibersihkan, dipecah, dan diberi label secara otomatis untuk menghasilkan dataset pelatihan berkualitas tinggi sebesar 15.000 jam – salah satu korpus ucapan Arab terbesar dan paling representatif yang pernah dirakit.
Proses ini tidak bergantung pada anotasi manusia. Sebaliknya, CNTXT mengembangkan sistem multi-tahap untuk menghasilkan, mengevaluasi, dan menyaring hipotesis dari beberapa model ASR. Transkripsi ini dibandingkan silang menggunakan jarak Levenshtein untuk memilih hipotesis yang paling konsisten, kemudian dilewatkan melalui model bahasa untuk mengevaluasi kemungkinan tata bahasa mereka. Segmen yang gagal memenuhi ambang batas kualitas yang ditentukan dibuang, memastikan bahwa bahkan tanpa verifikasi manusia, data pelatihan tetap dapat diandalkan. Tim memperbaiki pipa ini melalui beberapa iterasi, setiap kali meningkatkan akurasi label dengan meregangkan kembali sistem ASR itu sendiri dan memasukkannya kembali ke dalam proses pelabelan.
Menghidupkan Munsit: Arsitektur Conformer
Di jantung Munsit terdapat model Conformer, arsitektur jaringan neural hibrida yang menggabungkan kepekaan lokal lapisan konvolusional dengan kemampuan pemodelan urutan global transformer. Desain ini membuat Conformer sangat terampil dalam menangani nuansa bahasa lisan, di mana keduanya – ketergantungan jangka panjang (seperti struktur kalimat) dan detail fonetik halus – sangat penting.
CNTXT AI mengimplementasikan varian besar dari Conformer, melatihnya dari awal menggunakan mel-spectrograms 80-channel sebagai input. Model ini terdiri dari 18 lapisan dan mencakup sekitar 121 juta parameter. Pelatihan dilakukan pada klaster kinerja tinggi menggunakan delapan NVIDIA A100 GPU dengan presisi bfloat16, memungkinkan penanganan batch besar dan ruang fitur berdimensi tinggi yang efisien. Untuk menangani tokenisasi struktur morfologis kaya bahasa Arab, tim menggunakan tokenizer SentencePiece yang dilatih secara khusus pada korpus kustom mereka, menghasilkan kamus 1.024 unit subkata.
Tidak seperti pelatihan ASR konvensional yang diawasi, yang biasanya memerlukan setiap klip audio untuk dipasangkan dengan label yang telah ditranskripsikan secara hati-hati, metode CNTXT beroperasi sepenuhnya pada label lemah. Label ini, meskipun lebih berisik daripada label yang diverifikasi oleh manusia, dioptimalkan melalui loop umpan balik yang memprioritaskan konsensus, kohesi tata bahasa, dan kemungkinan leksikal. Model ini dilatih menggunakan fungsi kerugian Connectionist Temporal Classification (CTC), yang sangat sesuai untuk pemodelan urutan tidak sejajar – kritis untuk tugas pengenalan ucapan di mana waktu ucapan kata bervariasi dan tidak terduga.
Mendominasi Benchmark
Hasilnya berbicara sendiri. Munsit diuji melawan model ASR sumber terbuka dan komersial terkemuka pada enam dataset benchmark Arab: SADA, Common Voice 18.0, MASC (bersih dan berisik), MGB-2, dan Casablanca. Dataset ini secara kolektif mencakup puluhan dialek dan aksen di seluruh dunia Arab, dari Arab Saudi hingga Maroko.
Di semua benchmark, Munsit-1 mencapai rata-rata Tingkat Kesalahan Kata (WER) sebesar 26,68 dan Tingkat Kesalahan Karakter (CER) sebesar 10,05. Dibandingkan dengan itu, versi Whisper terbaik dari OpenAI mencatat rata-rata WER sebesar 36,86 dan CER sebesar 17,21. Meta’s SeamlessM4T, model multibahasa lain yang mutakhir, memiliki skor yang lebih tinggi. Munsit mengungguli setiap sistem lainnya pada data bersih dan berisik, dan menunjukkan ketangguhan yang sangat kuat dalam kondisi berisik, faktor kritis untuk aplikasi dunia nyata seperti pusat panggilan dan layanan publik.
Jaraknya sama jelasnya melawan sistem proprietary. Munsit mengungguli model ASR Arab Microsoft Azure, ElevenLabs Scribe, dan bahkan fitur transkripsi GPT-4o dari OpenAI. Hasil ini bukanlah keuntungan marjinal – mereka mewakili peningkatan relatif rata-rata sebesar 23,19% dalam WER dan 24,78% dalam CER dibandingkan dengan baseline terbuka terkuat, menetapkan Munsit sebagai pemimpin dalam pengenalan ucapan Arab.
Platform untuk Masa Depan AI Suara Arab
Sementara Munsit-1 sudah mengubah kemungkinan untuk transkripsi, subtitling, dan dukungan pelanggan di pasar berbahasa Arab, CNTXT AI melihat peluncuran ini sebagai awal. Perusahaan membayangkan rangkaian lengkap teknologi suara bahasa Arab, termasuk teks-ke-suara, asisten suara, dan sistem terjemahan waktu nyata – semua berbasis pada infrastruktur berdaulat dan AI yang relevan secara regional.
“Munsit lebih dari sekadar kemajuan dalam pengenalan ucapan,” kata Mohammad Abu Sheikh, CEO CNTXT AI. “Ini adalah deklarasi bahwa bahasa Arab termasuk di garis depan AI global. Kami telah membuktikan bahwa AI kelas dunia tidak perlu diimpor — itu dapat dibangun di sini, dalam bahasa Arab, untuk bahasa Arab.”
Dengan munculnya model khusus wilayah seperti Munsit, industri AI memasuki era baru – era di mana relevansi linguistik dan budaya tidak dikorbankan dalam pengejaran keunggulan teknis. Bahkan, dengan Munsit, CNTXT AI telah menunjukkan bahwa keduanya adalah sama.










