Kunstig intelligens

CNTXT AI lanserer Munsit: Det mest nøyaktige arabisk talegjenkjenningssystemet noensinne bygget

Published April 30, 2025

Updated April 26, 2026

Antoine Tardif, CEO & Founder of Unite.AI

I et avgjørende øyeblikk for arabisk språk kunstig intelligens, har CNTXT AI avduket Munsit, en ny generasjon arabisk talegjenkjenningmodell som ikke bare er den mest nøyaktige som noensinne er laget for arabisk, men også en som avgjørende overgår globale kjemper som OpenAI, Meta, Microsoft og ElevenLabs på standard benchmark. Utviklet i UAE og tilpasset arabisk fra bunnen av, representerer Munsit et kraftig skritt fremover i det CNTXT kaller “suveren AI” – teknologi bygget i regionen, for regionen, men med global konkurranse.

De vitenskapelige grunnleggende prinsippene for denne prestasjonen er lagt ut i teamets nylig publiserte papir, “Advancing Arabic Speech Recognition Through Large-Scale Weakly Supervised Learning“, som introduserer en skalerbar, dataeffektiv treningsmetode som håndterer den langvarige mangelen på merket arabisk taledata. Denne metoden – svak tilsyn, har enablet teamet til å konstruere et system som setter en ny standard for transkripsjonskvalitet på både moderne standard arabisk (MSA) og mer enn 25 regionale dialekter.

Overvinning av datamangelen i arabisk ASR

Arabisk, til tross for å være ett av de mest utbredte språkene globalt og et offisielt språk i De forente nasjoner, har lenge vært betraktet som et lavresurs-språk i feltet talegjenkjenning. Dette skyldes både dens morfologiske kompleksitet og en mangel på store, diverse, merkte tale datasamlinger. I motsetning til engelsk, som har fordelen av talløse timer med manuelt transkribert lyd data, har arabisk dialektisk rikdom og fragmentert digital tilstedeværelse vært betydelige utfordringer for å bygge robuste automatisk talegjenkjenning (ASR) systemer.

I stedet for å vente på den langsomme og dyre prosessen med manuell transkripsjon for å holde tritt, har CNTXT AI fulgt en radikalt mer skalerbar vei: svak tilsyn. Deres tilnærming begynte med en massiv samling av over 30 000 timer med umerket arabisk lyd samlet fra diverse kilder. Gjennom en tilpasset data prosesserings pipeline, ble denne rå lyden renset, segmentert og automatisk merket for å gi en høykvalitets 15 000-timers treningsdataset – en av de største og mest representative arabisk tale korpus noen gang samlet.

Denne prosessen avhengig ikke av menneskelig annotering. I stedet utviklet CNTXT en flertrinns system for å generere, evaluere og filtrere hypoteser fra flere ASR-modeller. Disse transkripsjonene ble sammenlignet ved hjelp av Levenshtein avstand for å velge de mest konsistente hypoteser, deretter passert gjennom en språkmodell for å evaluere deres grammatikalske plausibilitet. Segmenter som ikke oppfylte definerte kvalitets terskler ble forkastet, og sikret at selv uten menneskelig verifisering, treningsdataene forble pålitelige. Teamet forbedret denne pipeline gjennom flere iterasjoner, hver gang forbedret merkeløshet ved å gjenopprette ASR-systemet selv og mata det tilbake i merking prosessen.

Powering Munsit: Conformer-arkitekturen

I hjertet av Munsit ligger Conformer-modellen, en hybrid neural nettverksarkitektur som kombinerer den lokale sensitiviteten til konvolusjonslag med den globale sekvens modelleringsevnen til transformatorer. Denne designen gjør Conformer spesielt egnet for å håndtere nyansene i tale, hvor både lange avhengigheter (slik som setningsstruktur) og fine-grained fonetiske detaljer er avgjørende.

CNTXT AI implementerte en stor variant av Conformer, trent fra scratch ved hjelp av 80-kanals mel-spectrograms som inndata. Modellen består av 18 lag og inkluderer omtrent 121 millioner parametre. Treningsprosessen ble utført på en høy-ytelses kluster ved hjelp av åtte NVIDIA A100 GPU-er med bfloat16 presisjon, og muliggjorde effektiv håndtering av massive batch størrelser og høy-dimensjonale funksjonsrom. For å håndtere tokenisering av arabisk morfologisk rik struktur, brukte teamet en SentencePiece-tokenizer trent spesifikt på deres eget korpus, og resulterte i en vokabular på 1 024 subord units.

I motsetning til konvensjonell overvåket ASR-trening, som vanligvis krever at hver lyd klipp er parret med en nøye transkribert merke, opererte CNTXTs metode helt på svake merker. Disse merkene, selv om de var støyende enn menneskelig verifiserte, ble optimert gjennom en tilbakemeldings løkke som prioriterte konsensus, grammatikalsk kohens og leksikalsk plausibilitet. Modellen ble trent ved hjelp av Connectionist Temporal Classification (CTC) tap funksjon, som er godt egnet for ualignert sekvens modellering – kritisk for talegjenkjenning oppgaver hvor tiden for tale ord er variabel og uforutsigbar.

Dominering av benchmarkene

Resultatene taler for seg selv. Munsit ble testet mot ledende åpne kilde og kommersielle ASR-modeller på seks benchmark arabisk datasamlinger: SADA, Common Voice 18.0, MASC (rent og støyende), MGB-2 og Casablanca. Disse datasamlingene kollektivt omfatter dusinvis av dialekter og aksenter over hele den arabiske verden, fra Saudi-Arabia til Marokko.

Over alle benchmarkene, oppnådde Munsit-1 en gjennomsnittlig Ord Feil Rate (WER) på 26,68 og en Karakter Feil Rate (CER) på 10,05. I sammenligning registrerte den beste utførende versjonen av OpenAI’s Whisper en gjennomsnittlig WER på 36,86 og CER på 17,21. Meta’s SeamlessM4T, en annen ledende multilingual modell, kom inn enda høyere. Munsit overgikk hver enkelt annen system på både ren og støyende data, og viste spesielt sterk robusthet i støyende forhold, en kritisk faktor for virkelige verden anvendelser som call sentre og offentlige tjenester.

Gapet var like tydelig mot proprietære systemer. Munsit overgikk Microsoft Azure’s arabisk ASR-modeller, ElevenLabs Scribe og sogar OpenAI’s GPT-4o transkriber funksjon. Disse resultatene er ikke marginale gevinster – de representerer en gjennomsnittlig relativ forbedring på 23,19% i WER og 24,78% i CER sammenlignet med den sterkeste åpne baseline, og etablerer Munsit som den klare lederen i arabisk talegjenkjenning.

En plattform for fremtiden av arabisk stemme AI

Mens Munsit-1 allerede transformerer mulighetene for transkripsjon, underteksting og kundesupport i arabisk-talende markeder, ser CNTXT AI på denne lanseringen som bare begynnelsen. Selskapet forestiller seg en fullstendig samling av arabisk-språklige stemme teknologier, inkludert tekst-til-tale, stemme assistenter og sanntids oversettelsessystemer – alle grunnlagt i suveren infrastruktur og regionalt relevante AI.

“Munsit er mer enn bare en gjennombrudd i talegjenkjenning,” sa Mohammad Abu Sheikh, CEO av CNTXT AI. “Det er en erklæring om at arabisk tilhører i fremtiden av global AI. Vi har bevist at verdensklasse AI ikke trenger å importeres — det kan bygges her, på arabisk, for arabisk.”

Med oppkomsten av regionsspesifikke modeller som Munsit, går AI-industrien inn i en ny æra – en hvor lingvistisk og kulturell relevans ikke ofres i jakten på teknisk eksellens. Faktisk, med Munsit, har CNTXT AI vist at de er ett og det samme.

Antoine Tardif, CEO & Founder of Unite.AI

Antoine er en visjonær leder og grunnleggende partner i Unite.AI, drevet av en urokkelig lidenskap for å forme og fremme fremtiden for AI og robotikk. En seriegründer, han tror at AI vil være like disruptiv for samfunnet som elektrisitet, og blir ofte tatt i å tale om potensialet for disruptiv teknologi og AGI.
Som en futurist, er han dedikert til å utforske hvordan disse innovasjonene vil forme vår verden. I tillegg er han grunnleggeren av Securities.io, en plattform som fokuserer på å investere i banebrytende teknologier som omdefinerer fremtiden og omformer hele sektorer.

Unite.AI

CNTXT AI lanserer Munsit: Det mest nøyaktige arabisk talegjenkjenningssystemet noensinne bygget

Overvinning av datamangelen i arabisk ASR

Powering Munsit: Conformer-arkitekturen

Dominering av benchmarkene

En plattform for fremtiden av arabisk stemme AI

You may like