Umělá inteligence

CNTXT AI spouští Munsit: nejpreciznější arabský systém rozpoznávání řeči, který byl kdy postaven

Published April 30, 2025

Updated April 26, 2026

Antoine Tardif, CEO & Founder of Unite.AI

V okamžiku, který definuje umělou inteligenci v arabštině, CNTXT AI představila Munsit, model rozpoznávání řeči další generace, který je nejen nejpreciznější, jaký byl kdy vytvořen pro arabštinu, ale také jednoznačně převyšuje globální giganty jako OpenAI, Meta, Microsoft a ElevenLabs v standardních testech. Vyvinutý ve Spojených arabských emirátech a přizpůsobený pro arabštinu od základu, Munsit představuje mocný krok vpřed v tom, co CNTXT nazývá „suverénní AI“ – technologie vyvinutá v regionu, pro region, ale s globální konkurenceschopností.

Vědecké základy tohoto úspěchu jsou popsány v nově zveřejněné práci, “Rozvoj rozpoznávání arabské řeči pomocí velkého měřítka slabě dohlížené výuky“, která představuje škálovatelnou, datově efektivní metodu výuky, která řeší dlouhodobý nedostatek označených arabských dat o řeči. Tato metoda – slabě dohlížená výuka – umožnila týmu vytvořit systém, který stanoví novou laťku pro kvalitu přepisu v obou moderní standardní arabštině (MSA) a více než 25 regionálních dialektech.

Překonání sucha dat v arabském rozpoznávání řeči

Arabština, přestože je jedním z nejvíce mluvených jazyků na světě a úředním jazykem Organizace spojených národů, byla dlouho považována za jazyk s nízkými zdroji v oblasti rozpoznávání řeči. To pramení z jeho morfoologické složitosti a nedostatku velkých, rozmanitých, označených sad dat o řeči. Na rozdíl od angličtiny, která těží z nekonečného počtu ručně přepisovaných audio dat, bohatost arabštiny a fragmentovaná digitální přítomnost představovaly významné výzvy pro vytvoření robustních automatických systémů rozpoznávání řeči (ASR).

Místo toho, aby čekali na pomalý a drahý proces ručního přepisu, aby dohnali, CNTXT AI sledovala radikálnější a škálovatelnější cestu: slabou supervizi. Jejich přístup začal s obrovskou sbírkou více než 30 000 hodin nelabelovaných arabských audio dat shromážděných z různých zdrojů. Prostřednictvím vlastního datového procesního řetězce bylo toto surové audio vyčištěno, segmentováno a automaticky označeno, aby se získala vysoce kvalitní 15 000hodinová trénovací sada – jedna z největších a nejreprezentativnějších arabských sad řeči, která byla kdy sestavena.

Tento proces se neopíral o lidské anotace. Místo toho CNTXT vyvinul vícestupňový systém pro generování, hodnocení a filtrování hypotéz z více modelů ASR. Tyto přepisy byly porovnány pomocí Levenshteinovy vzdálenosti, aby se vybraly nejvíce konzistentní hypotézy, a poté byly předány jazykovému modelu, aby se vyhodnotila jejich gramatická věrohodnost. Segmenty, které nesplňovaly stanovené prahové hodnoty kvality, byly zahozeny, což zajistilo, že i bez lidského ověření zůstala trénovací data spolehlivá. Tým upravil tento řetězec prostřednictvím více iterací, přičemž každou dobu zlepšoval přesnost označení, opětovným trénováním systému ASR a jeho zpětným zapojením do procesu označení.

Pohon Munsit: Architektura Conformer

V srdci Munsitu je model Conformer, hybridní neuronová síťová architektura, která kombinuje lokální citlivost konvolučních vrstev s globální sekvencí modelování schopností transformátorů. Tento design činí Conformer zvláště vhodným pro zpracování nuancí mluveného jazyka, kde jsou důležité jak dlouhodobé závislosti (jako je struktura věty), tak jemné fonetické detaily.

CNTXT AI implementoval velkou variantu Conformeru, který byl trénován od začátku pomocí 80kanálových mel-spectrogramů jako vstupu. Model se skládá z 18 vrstev a zahrnuje přibližně 121 milionů parametrů. Trénink byl proveden na vysoce výkonném clusteru pomocí osmi NVIDIA A100 GPU s bfloat16 přesností, což umožnilo efektivní zpracování velkých dávek a vysoce dimenzionálních prostorů funkcí. Pro tokenizaci morfologicky bohaté struktury arabštiny tým použil tokenizér SentencePiece, který byl speciálně vyškoleno na jejich vlastním korpusu, což vedlo k slovníku 1 024 subword jednotek.

Na rozdíl od konvenční supervizní výuky ASR, která obvykle vyžaduje, aby každé audio klipu bylo přidruženo pečlivě přepsané označení, metoda CNTXT fungovala zcela na slabých označeních. Tato označení, i když šumivější než lidsky ověřená, byla optimalizována prostřednictvím zpětné smyčky, která upřednostňovala konsenzus, gramatickou koherenci a lexikální věrohodnost. Model byl trénován pomocí Connectionist Temporal Classification (CTC) funkce ztráty, která je vhodná pro modelování nezarovnaných sekvencí – kritické pro úkoly rozpoznávání řeči, kde je časování mluvených slov proměnlivé a nepředvídatelné.

Dominance v testech

Výsledky samy o sobě hovoří. Munsit byl testován proti vedoucím open-source a komerčním modelům ASR na šesti testovacích sadách arabštiny: SADA, Common Voice 18.0, MASC (čisté a šumivé), MGB-2 a Casablanca. Tyto sady dat společně pokrývají desítky dialektů a přízvuků napříč arabským světem, od Saúdské Arábie po Maroko.

Na všech testovacích sadách dosáhl Munsit-1 průměrné míry chyby slov (WER) 26,68 a míry chyby znaků (CER) 10,05. Pro srovnání zaznamenal nejlepší verze OpenAI Whisper průměrnou WER 36,86 a CER 17,21. Meta’s SeamlessM4T, další špičkový multilingvální model, dosáhl ještě vyšších hodnot. Munsit převyšoval každý jiný systém na čisté i šumivé datech a prokázal zvláště silnou odolnost v šumivých podmínkách, což je kritický faktor pro reálné aplikace, jako jsou call centra a veřejné služby.

Rozdíl byl stejně markantní proti proprietárním systémům. Munsit převyšoval modely ASR Microsoft Azure pro arabštinu, ElevenLabs Scribe a dokonce i funkci transkripce OpenAI GPT-4o. Tyto výsledky nejsou okrajovými zisky – představují průměrné relativní zlepšení o 23,19 % WER a 24,78 % CER ve srovnání se silnějším otevřeným benchmarkem, což ustanovuje Munsit jako jasného lídra v rozpoznávání arabštiny.

Platforma pro budoucnost arabské hlasové AI

Zatímco Munsit-1 již transformuje možnosti přepisu, titulkování a zákaznické podpory na arabských trzích, CNTXT AI vidí tento spuštění jako teprve začátek. Společnost si představuje plnou škálu arabských hlasových technologií, včetně text-to-speech, hlasových asistentů a systémů pro reálný překlad – všechny založené na suverénní infrastruktuře a regionálně relevantní AI.

„Munsit je více než jen průlom v rozpoznávání řeči,“ řekl Mohammad Abu Sheikh, CEO CNTXT AI. „Je to prohlášení, že arabština patří do čela globální AI. Prokázali jsme, že špičková AI nemusí být dovážena – může být postavena zde, v arabštině, pro arabštinu.”

S vzestupem regionálně specifických modelů, jako je Munsit, se odvětví AI vstupuje do nové éry – jedné, ve které lingvistická a kulturní relevance nejsou obětovány ve prospěch technické excelence. Skutečně, s Munsit, CNTXT AI prokázala, že jsou jedno a totéž.

Antoine Tardif, CEO & Founder of Unite.AI

Antoine je vizionářský líder a zakládající partner Unite.AI, poháněný neotřesitelnou vášní pro formování a propagaci budoucnosti AI a robotiky. Jako sériový podnikatel věří, že AI bude mít na společnost stejně disruptivní vliv jako elektřina, a často je chycen při tom, jak hovoří o potenciálu disruptivních technologií a AGI. Jako futurist, je zasvěcen prozkoumání toho, jak tyto inovace budou formovat náš svět. Kromě toho je zakladatelem Securities.io, platformy zaměřené na investice do špičkových technologií, které předefinovávají budoucnost a mění celé sektory.

Unite.AI

CNTXT AI spouští Munsit: nejpreciznější arabský systém rozpoznávání řeči, který byl kdy postaven

Překonání sucha dat v arabském rozpoznávání řeči

Pohon Munsit: Architektura Conformer

Dominance v testech

Platforma pro budoucnost arabské hlasové AI

You may like