Yapay Zekâ
CNTXT AI, Munsit’i Başlattı: Tarihinde Ever Built En Doğru Arapça Konuşma Tanıma Sistemi

Arapça dilinde yapay zeka için bir tanımlayıcı anda, CNTXT AI , Munsit’i ortaya çıkardı, yalnızca Arapça için yaratılan en doğru olan değil, aynı zamanda OpenAI, Meta, Microsoft ve ElevenLabs gibi global devleri standard benchmark’larda kesin olarak geride bırakan bir sonraki nesil Arapça konuşma tanıma modeli. Birleşik Arap Emirlikleri’nde geliştirilen ve temelden Arapça için uyarlanan Munsit, CNTXT’nin “egemen AI” dediği şeyde güçlü bir adım ileriye représents – bölge için, bölge içinde inşa edilmiş, ancak küresel rekabet gücü olan teknoloji.
Bu başarının bilimsel temelleri, ekibin yeni yayınlanan makalesinde “Arapça Konuşma Tanıma’yı Büyük Ölçekli Zayıf Denetimli Öğrenme İle Geliştirme“ sunulmaktadır, bu makale, uzun süredir devam eden etiketli Arapça konuşma verilerinin kıtlığını ele alan, ölçeklenebilir, veri verimli bir eğitim yöntemi tanıtılıyor. Bu yöntem – zayıf denetimli öğrenme – ekibe, Modern Standard Arapça (MSA) ve 25’ten fazla bölgesel lehçe boyunca transkript kalitesinde yeni bir standart belirleyen bir sistem oluşturmasına olanak tanıdı.
Arapça ASR’de Veri Kuraklığını Aşmak
Arapça, küresel olarak en çok konuşulan dillerden biri ve Birleşmiş Milletler’in resmi dili olmasına rağmen, konuşma tanıma alanında uzun süredir düşük kaynaklı bir dil olarak kabul edilmiştir. Bu, morfolojik karmaşıklığı ve büyük, çeşitli, etiketli konuşma veri setlerinin eksikliğinden kaynaklanmaktadır. İngilizce, sayısız saatlik manuel transkriptlenmiş ses verisinden yararlanırken, Arapça’nın lehçesel zenginliği ve parçalı dijital varlığı, güçlü otomatik konuşma tanıma (ASR) sistemleri oluşturmak için önemli zorluklar oluşturdu.
CNTXT AI, yavaş ve pahalı bir süreç olan manuel transkriptlemeyi beklemek yerine, radikal olarak daha ölçeklenebilir bir yol izledi: zayıf denetim. Yaklaşımı, çeşitli kaynaklardan toplanan 30.000 saatten fazla etiketsiz Arapça ses verisi ile başladı. Özel olarak oluşturulmuş bir veri işleme pipeline’u aracılığıyla, bu ham ses verileri temizlendi, segmente ayrıldı ve otomatik olarak etiketlendi, böylece bir dizi en büyük ve en temsil edici Arapça konuşma corpora’sından biri olan 15.000 saatlik bir eğitim veri seti oluşturuldu.
Bu işlem, insan annotasyonuna dayanmadı. Bunun yerine, CNTXT, birden fazla ASR modelinden hipotezler oluşturmak, değerlendirmek ve filtrelemek için çok aşamalı bir sistem geliştirdi. Bu transkriptler, Levenshtein uzaklığı kullanarak en tutarlı hipotezleri seçmek için karşılaştırıldı, ardından dil modeli aracılığıyla gramer plausibility’lerini değerlendirmek için geçirildi. Belirlenen kalite eşiğini karşılamayan segmentler atıldı, bu da insan doğrulaması olmadan, eğitim verilerinin güvenilir kalmasını sağladı. Ekibin bu pipeline’ı, her seferinde etiket doğruluğunu geliştirerek, ASR sistemini yeniden eğitti ve etiketleme sürecine geri besledi.
Munsit’i Güçlendiriyor: Conformer Mimarisi
Munsit’in kalbinde, Conformer modeli bulunmaktadır, bu bir melez sinir ağı mimarisidir ve convolutional katmanların yerel duyarlılığını, transformer’lerin küresel dizi modelleme yetenekleriyle birleştirir. Bu tasarım, Conformer’ı özellikle konuşulan dilin nüanslarını ele almak için uygun hale getirir, burada hem uzun menzilli bağımlılıklar (cümle yapısı gibi) hem de ince ayrıntılar (fonetik detaylar) önemlidir.
CNTXT AI, Conformer’ın büyük bir varyantını uyguladı ve 80 kanallı mel-spectrograms’ı girdi olarak kullanarak sıfırdan eğitti. Model, yaklaşık 121 milyon parametre içeren 18 katmana sahiptir. Eğitim, sekiz NVIDIA A100 GPU ile yüksek performanslı bir küme üzerinde gerçekleştirildi ve bfloat16精度 ile büyük batch’lerin ve yüksek boyutlu özellikler uzaylarının verimli bir şekilde ele alınmasını sağladı. Arapça’nın morfolojik olarak zengin yapısının tokenizasyonu için, ekibin özel corpora’sına özel olarak eğitilmiş bir SentencePiece tokenizer kullanıldı, bu da 1.024 alt kelime birimi vocabulary’sine yol açtı.
Geleneksel denetimli ASR eğitiminin aksine, her ses klipinin dikkatli bir şekilde transkriptlenmiş bir etiket ile eşlenmesi gerektiği gibi, CNTXT’nin yöntemi tamamen zayıf etiketlerle çalıştı. Bu etiketler, insan tarafından doğrulanmış olanlardan daha gürültülü olsa da, konsensüs, gramer tutarlılığı ve sözcüksel plausibility’yi önceliklendiren bir geri besleme döngüsü aracılığıyla optimize edildi. Model, Connectionist Temporal Classification (CTC) kaybı fonksiyonu kullanılarak eğitildi, bu da konuşma tanıma görevleri için kritik olan, zamanın değişken ve öngörülemez olduğu, hizasız dizi modelleme için uygun bir fonksiyondur.
Benchmark’leri Domine Etme
Sonuçlar kendileri için konuşuyor. Munsit, altı Arapça benchmark veri setinde (SADA, Common Voice 18.0, MASC (temiz ve gürültülü), MGB-2 ve Casablanca) önde gelen açık kaynaklı ve ticari ASR modellerine karşı test edildi. Bu veri setleri toplu olarak, Suudi Arabistan’dan Fas’a kadar Arap dünyasındaki dozens of lehçe ve aksanları kapsar.
Tüm benchmark’lerde, Munsit-1 ortalama Kelime Hata Oranı (WER) 26.68 ve Karakter Hata Oranı (CER) 10.05 elde etti. Karşılaştırıldığında, OpenAI’nin Whisper’ın en iyi performans gösteren sürümü ortalama WER 36.86 ve CER 17.21 kaydetti. Meta’nın SeamlessM4T adlı başka bir devlet-of-the-art multilingual modeli daha da yüksek kayıtlara sahip. Munsit, temiz ve gürültülü verilerde diğer tüm sistemlerin üzerinde performans gösterdi ve özellikle gürültülü koşullarda, call center’lar ve kamu hizmetleri gibi gerçek dünya uygulamaları için kritik bir faktör olan güçlü bir dayanıklılık gösterdi.
Açık bazline göre ortalama göreli iyileşme %23.19 WER ve %24.78 CER olarak belirlendi, bu da Munsit’i Arapça konuşma tanıma’da açık lider konumuna getirdi.
Arapça Sesli AI’nın Geleceği için Bir Platform
Munsit-1 zaten Arapça konuşulan pazarlardaki transkript, altyazı ve müşteri desteği olanaklarını dönüştürürken, CNTXT AI bu lansmanı sadece başlangıç olarak görüyor. Şirket, Arapça dilinde tam bir ses teknolojileri seti hayal ediyor: metin-den konuşmaya, ses asistanlarına, gerçek zamanlı çeviri sistemlerine – tümü egemen altyapıya dayalı ve bölgesel olarak ilgili AI ile.
“Munsit sadece konuşma tanıma’da bir atılım değil,” dedi CNTXT AI CEO’su Mohammad Abu Sheikh. “Arapça’nın küresel AI’nin ön saflarında yer alması gerektiğini beyan ediyor. Dünya standartlarında AI’nin ithal edilmeyeceğini, burada, Arapça için, Arapça tarafından inşa edilebileceğini kanıtladık.”
Munsit gibi bölgeye özgü modellerin yükselişiyle, AI endüstrisi yeni bir döneme giriyor – burada dil ve kültürel ilgili olma, teknik mükemmellik peşinde koşarken feda edilmiyor. Aslında, Munsit ile CNTXT AI, bu ikisinin aynı şey olduğunu gösterdi.










