Kunstig intelligens
CNTXT AI lancerer Munsit: Det mest nøjagtige arabisk talegenkendelsessystem nogensinde bygget

I et afgørende øjeblik for arabisk sprog kunstig intelligens har CNTXT AI afsløret Munsit, en næste generations arabisk talegenkendelsesmodel, der ikke kun er den mest nøjagtige, der nogensinde er skabt for arabisk, men også klart overgår globale kæmper som OpenAI, Meta, Microsoft og ElevenLabs på standard benchmarks. Udviklet i UAE og tilpasset arabisk fra bunden, repræsenterer Munsit et kraftfuldt skridt fremad i, hvad CNTXT kalder “suveræn AI” – teknologi bygget i regionen, for regionen, men med global konkurrenceevne.
De videnskabelige grundlag for denne præstation er beskrevet i holdets nyligt publicerede artikel, “Fremme af arabisk talegenkendelse gennem stort stilet svagt overvåget læring“, der introducerer en skalerbar, dataeffektiv træningsmetode, der løser det langestående problem med manglen på mærket arabisk taledata. Denne metode – svagt overvåget læring – har ermögillet holdet at konstruere et system, der sætter en ny standard for transkriptionskvalitet på både moderne standardarabisk (MSA) og mere end 25 regionale dialekter.
Overvindelse af datamanglen i arabisk ASR
Arabisk, på trods af at være et af de mest talte sprog globalt og et officielt sprog i De Forenede Nationer, har længe været betragtet som et lavresurs-sprog på talegenkendelsesområdet. Dette skyldes både dets morfologiske kompleksitet og en manglen på store, diverse, mærkede tale datasets. I modsætning til engelsk, der har glæde af utallige timer med manuelt transkriberet lyddata, har arabiskens dialektale rigdom og fragmenterede digitale tilstedeværelse udgjort betydelige udfordringer for opbygning af robuste automatisk talegenkendelsessystemer.
I stedet for at vente på den langsomme og dyre proces med manuel transkription, forfulgte CNTXT AI en radikalt mere skalerbar vej: svagt overvåget læring. Deres tilgang begyndte med en massiv samling af over 30.000 timers umærket arabisk lyd indsamlet fra diverse kilder. Gennem en brugerdefineret dataprocesseringspipeline blev denne rå lyd renset, segmenteret og automatisk mærket for at give en højkvalitets 15.000 timers træningsdataset – en af de største og mest repræsentative arabisk talekorpus nogensinde samlet.
Denne proces afhang ikke af menneskelig annotation. I stedet udviklede CNTXT et multi-stagesystem for generering, evaluering og filtrering af hypoteser fra multiple ASR-modeller. Disse transkriptioner blev sammenlignet ved hjælp af Levenshtein-afstand for at vælge de mest konsekvente hypoteser, derefter passeret gennem en sprogmodel for at evaluere deres grammatisk plausibilitet. Segmenter, der ikke opfyldte definerede kvalitetsgrænser, blev kasseret, hvilket sikrede, at selv uden menneskelig verificering, træningsdataene forblev pålidelige. Holdet forbedrede denne pipeline gennem multiple iterationer, hvor hver gang forbedrede mærkepræcision ved at gensende ASR-systemet selv og føde det tilbage i mærkningsprocessen.
Munsit: Conformer-arkitekturen
I hjertet af Munsit ligger Conformer-modellen, en hybrid neural netværksarkitektur, der kombinerer den lokale følsomhed af convolutionelle lag med de globale sekvensmodelleringsmuligheder af transformers. Denne design gør Conformer særligt egnet til at håndtere nuancerne af tale, hvor både lang-rækkeafhængigheder (såsom sætningsstruktur) og fine-grænsefonetiske detaljer er afgørende.
CNTXT AI implementerede en stor variant af Conformer, trænet fra scratch ved hjælp af 80-kanals mel-spectrograms som input. Modellen består af 18 lag og omfatter omtrent 121 millioner parametre. Træning blev udført på en high-performance-cluster ved hjælp af otte NVIDIA A100 GPU’er med bfloat16-præcision, hvilket muliggjorde effektiv håndtering af massive batch-størrelser og høj-dimensionale funktionelle rum. For at håndtere tokenisering af arabiskens morfologisk rige struktur, brugte holdet en SentencePiece-tokenizer trænet specifikt på deres brugerdefinerede korpus, hvilket resulterede i en ordføring på 1.024 subord-enheder.
I modsætning til konventionel overvåget ASR-træning, der typisk kræver, at hver lydklip er parret med en omhyggeligt transkriberet mærke, fungerede CNTXT’s metode udelukkende på svage mærker. Disse mærker, selvom de var støjere end menneskeligt verificerede, blev optimeret gennem en feedback-løkke, der prioriterede konsensus, grammatisk kohærens og leksikalsk plausibilitet. Modellen blev trænet ved hjælp af Connectionist Temporal Classification (CTC) tab-funktionen, der er velegnet til ualignet sekvensmodellering – kritisk for talegenkendelseopgaver, hvor tiden for talede ord er variabel og uforudsigelig.
Dominans på benchmarks
Resultaterne taler for sig selv. Munsit blev testet mod førende open-source og kommercielle ASR-modeller på seks benchmark-arabiske datasets: SADA, Common Voice 18.0, MASC (ren og støjende), MGB-2 og Casablanca. Disse datasets dækker kollektivt dusinvis af dialekter og accenter på tværs af den arabiske verden, fra Saudi-Arabien til Marokko.
På tværs af alle benchmarks opnåede Munsit-1 en gennemsnitlig Word Error Rate (WER) på 26,68 og en Character Error Rate (CER) på 10,05. I sammenligning opnåede den bedst performende version af OpenAI’s Whisper en gennemsnitlig WER på 36,86 og CER på 17,21. Meta’s SeamlessM4T, en anden state-of-the-art multilingual model, kom endnu højere. Munsit overgik hver anden system på både ren og støjende data og demonstrerede særligt stærk robusthed i støjende forhold, en kritisk faktor for realverdenens anvendelser som callcenter og offentlige tjenester.
Gapet var lige så markant mod proprietære systemer. Munsit overgik Microsoft Azure’s arabisk ASR-modeller, ElevenLabs Scribe og sogar OpenAI’s GPT-4o transkriptionsfunktion. Disse resultater er ikke marginale forbedringer – de repræsenterer en gennemsnitlig relativ forbedring på 23,19% i WER og 24,78% i CER i forhold til den stærkeste åbne baseline, hvilket etablerer Munsit som den klare leder i arabisk talegenkendelse.
En platform for fremtidens arabisk voice AI
Medens Munsit-1 allerede transformerer mulighederne for transkription, undertekstning og kundesupport på arabisk-talende markeder, ser CNTXT AI dette lanceringspunkt som kun begyndelsen. Selskabet forestiller sig en fuld pakke af arabisk-sprogede voice-teknologier, herunder tekst-til-tale, taleassistenter og realtids-oversættelsessystemer – alle grundlagt i suveræn infrastruktur og regionalt relevant AI.
“Munsit er mere end bare en gennembrud i talegenkendelse,” sagde Mohammad Abu Sheikh, administrerende direktør for CNTXT AI. “Det er en erklæring om, at arabisk hører til i frontlinjen for global AI. Vi har bevist, at verdensklasse-AI ikke behøver at importeres – det kan bygges her, på arabisk, for arabisk.”
Med opkomsten af regionspecifikke modeller som Munsit, træder AI-industrien ind i en ny æra – en, hvor sprog- og kulturel relevans ikke ofres i jagten på teknisk excellence. Faktisk har CNTXT AI med Munsit vist, at de er ét og det samme.










