Sztuczna inteligencja

CNTXT AI uruchamia Munsit: Najdokładniejszy system rozpoznawania mowy arabskiej kiedykolwiek zbudowany

Published April 30, 2025

Updated April 26, 2026

Antoine Tardif, CEO & Founder of Unite.AI

W momencie definiującym dla sztucznej inteligencji w języku arabskim, CNTXT AI przedstawił Munsit, model rozpoznawania mowy arabskiej następnej generacji, który nie tylko jest najdokładniejszy kiedykolwiek stworzony dla języka arabskiego, ale także znacząco przewyższa globalne gigantów takich jak OpenAI, Meta, Microsoft i ElevenLabs w standardowych testach. Opracowany w Zjednoczonych Emiratach Arabskich i dostosowany do języka arabskiego od podstaw, Munsit reprezentuje potężny krok naprzód w tym, co CNTXT nazywa „suwerenną sztuczną inteligencją” — technologią zbudowaną w regionie, dla regionu, a jednocześnie konkurencyjną na arenie międzynarodowej.

Naukowe podstawy tego osiągnięcia zostały przedstawione w nowo opublikowanym artykule, “Rozwój rozpoznawania mowy arabskiej za pomocą dużej skali słabej nadzorowanej nauki“, który wprowadza skalowalną, efektywną metodę szkolenia, która rozwiązuje długotrwały problem braku oznaczonych danych mowy arabskiej. Ta metoda — słaba nadzorowana nauka — umożliwiła zespołowi stworzenie systemu, który ustanawia nowy standard jakości transkrypcji zarówno w przypadku współczesnego standardowego języka arabskiego (MSA), jak i ponad 25 regionalnych dialektów.

Pokonanie suszy danych w arabskim rozpoznawaniu mowy

Język arabski, pomimo tego, że jest jednym z najczęściej używanych języków na świecie i jednym z języków urzędowych Organizacji Narodów Zjednoczonych, długo był uważany za język o niskich zasobach w dziedzinie rozpoznawania mowy. Wynika to z jego morfologicznej złożoności oraz braku dużych, zróżnicowanych, oznaczonych zbiorów danych mowy. W przeciwieństwie do języka angielskiego, który korzysta z niezliczonych godzin ręcznie transkrybowanych danych audio, bogactwo dialektów języka arabskiego i jego fragmentaryczna obecność cyfrowa stanowią znaczne wyzwania dla budowy solidnych systemów automatycznego rozpoznawania mowy (ASR).

Zamiast czekać na powolny i kosztowny proces ręcznej transkrypcji, CNTXT AI obrał radykalnie bardziej skalowalną drogę: słabą nadzorowaną naukę. Ich podejście rozpoczęło się od ogromnego korpusu ponad 30 000 godzin nieoznaczonych danych audio w języku arabskim, zebranych z różnych źródeł. Za pomocą niestandardowej pipeliny przetwarzania danych surowe audio zostało oczyszczone, podzielone i automatycznie oznaczone, w wyniku czym powstał wysokiej jakości zbiór szkoleniowy o objętości 15 000 godzin — jeden z największych i najbardziej reprezentatywnych zbiorów mowy arabskiej kiedykolwiek zebranych.

Ten proces nie opierał się na annotacji ludzkiej. Zamiast tego, CNTXT opracował system wieloetapowy do generowania, oceny i filtrowania hipotez z wielu modeli ASR. Transkrypcje te były porównywane za pomocą odległości Levenshteina w celu wyboru najbardziej spójnych hipotez, a następnie przekazywane do modelu językowego w celu oceny ich gramatycznej prawdopodobieństwa. Segmenty, które nie spełniały określonych progów jakości, były odrzucane, co gwarantowało, że nawet bez weryfikacji ludzkiej, dane szkoleniowe pozostawały niezawodne. Zespół udoskonalił tę pipelinę za pomocą wielu iteracji, każdy raz poprawiając dokładność etykietowania przez ponowne szkolenie systemu ASR i wprowadzanie go z powrotem do procesu etykietowania.

Napędzanie Munsit: Architektura Conformer

W sercu Munsit znajduje się model Conformer, hybrydowa architektura sieci neuronowej, która łączy lokalną wrażliwość warstw convolutionalnych z globalnymi możliwościami modelowania sekwencji transformatorów. Ten projekt sprawia, że Conformer jest szczególnie uzdolniony do radzenia sobie z subtelnościami mowy, gdzie zarówno długoterminowe zależności (takie jak struktura zdania), jak i drobne szczegóły fonetyczne są kluczowe.

CNTXT AI zaimplementował dużą wersję Conformer, szkoląc go od podstaw za pomocą 80-kanałowych mel-spectrogramów jako danych wejściowych. Model składa się z 18 warstw i zawiera około 121 milionów parametrów. Szkolenie przeprowadzono na wysokowydajnym klastrze przy użyciu ośmiu kart graficznych NVIDIA A100 z precyzją bfloat16, co umożliwiło efektywne radzenie sobie z dużymi rozmiarami partii i wysokowymiarowymi przestrzeniami cech. W celu tokenizacji morfologicznie bogatej struktury języka arabskiego, zespół użył tokenizera SentencePiece wyszkolonego specjalnie na ich niestandardowym korpusie, co dało słownictwo 1 024 jednostek podwyrazowych.

W przeciwieństwie do konwencjonalnego szkolenia nadzorowanego ASR, które zwykle wymaga, aby każdy klip audio był sparowany z starannie przepisaną etykietą, metoda CNTXT działała w całości na słabych etykietach. Etykiety te, chociaż gorszej jakości niż weryfikowane przez ludzi, zostały zoptymalizowane za pomocą pętli sprzężenia, która priorytetowo traktowała konsensus, spójność gramatyczną i prawdopodobieństwo leksykalne. Model został wyszkolony przy użyciu funkcji straty Connectionist Temporal Classification (CTC), która jest dobrze przystosowana do modelowania sekwencji niezgodnych — kluczowego dla zadań rozpoznawania mowy, w których czasowanie wypowiadanych słów jest zmienne i nieprzewidywalne.

Dominacja na benchmarkach

Wyniki mówią same za siebie. Munsit został przetestowany wobec wiodących modeli ASR open-source i komercyjnych na sześciu benchmarkowych zbiorach danych arabskich: SADA, Common Voice 18.0, MASC (czysty i hałaśliwy), MGB-2 i Casablanca. Te zbiory danych zbiorczo obejmują dziesiątki dialektów i akcentów z całego świata arabskiego, od Arabii Saudyjskiej po Maroko.

We wszystkich benchmarkach Munsit-1 osiągnął średni wskaźnik błędu słowa (WER) na poziomie 26,68 i wskaźnik błędu znaku (CER) na poziomie 10,05. Dla porównania, najlepsza wersja Whisper OpenAI odnotowała średni WER na poziomie 36,86 i CER na poziomie 17,21. SeamlessM4T Meta, inny model wielojęzyczny, uzyskał jeszcze gorsze wyniki. Munsit przewyższył każdy inny system zarówno na danych czystych, jak i hałaśliwych, i wykazał szczególnie silną wytrzymałość w warunkach hałaśliwych, co jest kluczowym czynnikiem w aplikacjach rzeczywistych, takich jak centra telefoniczne i usługi publiczne.

Przewaga była równie wyraźna w porównaniu z systemami własnościowymi. Munsit przewyższył modele rozpoznawania mowy arabskiej Microsoft Azure, ElevenLabs Scribe, a nawet funkcję transkrypcji GPT-4o OpenAI. Te wyniki nie są marginalnymi zyskami — reprezentują one średnią względną poprawę o 23,19% w WER i 24,78% w CER w porównaniu z najmocniejszą otwartą bazą, ustanawiając Munsit jako wyraźnego lidera w rozpoznawaniu mowy arabskiej.

Platforma dla przyszłości arabskiej sztucznej inteligencji głosowej

Podczas gdy Munsit-1 już teraz zmienia możliwości transkrypcji, napisów i obsługi klienta na rynkach arabskojęzycznych, CNTXT AI widzi ten start jako dopiero początek. Firma wyobraża sobie pełny zestaw technologii głosowych w języku arabskim, w tym syntezę mowy, asystentów głosowych i systemy tłumaczenia w czasie rzeczywistym — wszystko oparte na suwerennej infrastrukturze i regionalnie istotnej sztucznej inteligencji.

„Munsit to więcej niż przełom w rozpoznawaniu mowy”, powiedział Mohammad Abu Sheikh, dyrektor generalny CNTXT AI. „To deklaracja, że język arabski należy do przodu globalnej sztucznej inteligencji. Udowodniliśmy, że światowej klasy sztuczna inteligencja nie musi być importowana — może być zbudowana tutaj, w języku arabskim, dla języka arabskiego.”

Wraz z pojawieniem się modeli regionalnych, takich jak Munsit, przemysł sztucznej inteligencji wkracza w nową erę — erę, w której relewantność językowa i kulturowa nie są poświęcane w poszukiwaniu doskonałości technicznej. W rzeczywistości, dzięki Munsit, CNTXT AI wykazał, że są one tym samym.

Antoine Tardif, CEO & Founder of Unite.AI

Antoine jest wizjonerskim liderem i współzałożycielem Unite.AI, z niezachwianą pasją do kształtowania i promowania przyszłości sztucznej inteligencji i robotyki. Jako serialowy przedsiębiorca, uważa, że sztuczna inteligencja będzie tak samo przełomowa dla społeczeństwa, jak elektryczność, i często zachwycany jest potencjałem technologie przełomowych i AGI. Jako futurysta, poświęca się badaniu, jak te innowacje ukształtują nasz świat. Ponadto jest założycielem Securities.io, platformy skupiającej się na inwestowaniu w najnowocześniejsze technologie, które przeobrażają przyszłość i zmieniają całe sektory.

Unite.AI

CNTXT AI uruchamia Munsit: Najdokładniejszy system rozpoznawania mowy arabskiej kiedykolwiek zbudowany

Pokonanie suszy danych w arabskim rozpoznawaniu mowy

Napędzanie Munsit: Architektura Conformer

Dominacja na benchmarkach

Platforma dla przyszłości arabskiej sztucznej inteligencji głosowej

You may like