Tekoäly
CNTXT AI julkaisee Munsitin: Tarkin arabiankielinen puheentunnistusjärjestelmä koskaan rakennettu

Arabiankielisen tekoälytekniikan ratkaisevassa hetkessä CNTXT AI on esitellyt Munsitin, seuraavan sukupolven arabiankielisen puheentunnistusmallin, joka ei ole ainoastaan tarkin koskaan luotu arabian kielelle, vaan myös ylittää selvästi globaalit jätit kuten OpenAI, Meta, Microsoft ja ElevenLabs standardoitujen vertailujen perusteella. Yhdistyneissä arabiemiirikunnissa kehitetty ja arabian kielelle suunniteltu Munsit edustaa voimallista askelta eteenpäin siinä, mitä CNTXT kutsuu ”suvereeniksi tekoälyksi” – teknologiaksi, joka on rakennettu alueella, alueen tarpeisiin, mutta jolla on globaali kilpailukyky.
Tieteelliset perusteet tässä saavutuksessa on esitetty tiimin uudessa tutkimusraportissa, “Edistyneen arabiankielisen puheentunnistuksen kehittäminen suuressa mittakaavassa heikosti valvottuna oppimisella“, joka esittelee skaalautuvan, koulutusmenetelmän, joka ratkaisee pitkään jatkuneen arabiankielisen puheaineiston niukkuuden ongelman. Tämä menetelmä – heikko valvonta – on mahdollistanut tiimin rakentaa järjestelmän, joka asettaa uuden standardin transkriptiotason sekä modernin standardiarabian (MSA) että yli 25 alueellisen murteen osalta.
Ylittäminen arabiankielisen ASR:n aineistopulasta
Arabia, vaikka se on yksi maailmanlaajuisesti puhutuimmista kielistä ja Yhdistyneiden Kansakuntien virallinen kieli, on pitkään ollut pidetty vähävaraisena kielenä puheentunnistuksen alalla. Tämä johtuu sekä sen morfoilogisesta monimutkaisuudesta että suurten, monipuolisten, merkittyjen puhettaietokantojen puutteesta. Toisin kuin englanti, josta on hyötyä lukemattomista tunteja manuaalisesti transkriboitua äänidataa, arabian murteellinen rikkaus ja digitaalinen hajanaisuus ovat asettaneet merkittäviä haasteita kestävien automaattisten puheentunnistusjärjestelmien rakentamiselle.
Sen sijaan, että odottaisi hitaasti ja kalliisti manuaalista transkribointia, CNTXT AI pyrki radikaalisti skaalautuvampaan polkuun: heikko valvonta. Heidän lähestymistapansa alkoi valtavasta korpuksesta yli 30 000 tuntia merkittömätöntä arabiankielistä ääntä, kerättyä monista lähteistä. Omalla datakäsittelyputkella tämä raaka ääni puhdistettiin, jaettin ja merkittiin automaattisesti, jotta saatiin laadukas 15 000 tunnin koulutusaineisto – yksi suurimmista ja edustavimmista arabiankielisistä puhettaietokannoista, mitä on koskaan kootu.
Tämä prosessi ei perustunut ihmisen annotointiin. Sen sijaan CNTXT kehitti monivaiheisen järjestelmän hypoteesien luomiseksi, arvioimiseksi ja suodattamiseksi useista ASR-malleista. Nämä transkriptiot verrattiin Levenshtein-etäisyydellä valitakseen enimmäkseen yhdenmukaiset hypoteesit, ja ne lähetettiin kieliaineistoon arvioida niiden kieliopillista uskottavuutta. Segmenteistä, jotka eivät täyttäneet määriteltyjä laatuvaatimuksia, luovuttiin, varmistamalla, että ilman ihmisen vahvistusta koulutusdata pysyi luotettavana. Tiimi paransi tätä putkea useiden iteraatioiden kautta, ja jokaisella kerralla parannettiin merkintätarkkuutta uudelleenkouluttamalla itse ASR-järjestelmää ja syöttämällä se takaisin merkintäprosessiin.
Munsitin voimanlähde: Conformer-arkkitehtuuri
Munsitin ytimessä on Conformer-malli, hybridi neuroverkkorakennus, joka yhdistää lokaalisen herkkyyden konvoluutiokerroksista ja globaalin jonojen mallintamiskyvyn transmuuttajista. Tämä suunnittelu tekee Conformerista erityisen taitavan käsittelemään puhutun kielen nuansseja, joissa sekä pitkän aikavälin riippuvuudet (kuten lauseen rakenne) että hienojakoiset fonetiikkaan liittyvät yksityiskohdat ovat ratkaisevia.
CNTXT AI toteutti suuren version Conformerista, kouluttaen sen alusta lähtien 80-kanavaisilla mel-spektrumeilla syötteenä. Malli koostuu 18 kerroksesta ja sisältää noin 121 miljoonaa parametria. Koulutus suoritettiin suorituskykyisellä klusterilla kahdeksalla NVIDIA A100 -näytönohjaimella bfloat16-tarkkuudella, mikä mahdollisti suurten erien ja korkean ulottuvuuden ominaisuuksien tehokkaan käsittelyn. Käsitellään arabian morfologisesti rikkaan rakenteen tokenisointia, tiimi käytti SentencePiece-tokenisointia, joka on koulutettu erityisesti heidän mukautetulla aineistollaan, tuloksena 1 024 alasanayksikköä.
Toisin kuin perinteinen valvottu ASR-koulutus, joka yleensä vaatii kunkin ääniklipin olevan pariskunnassa huolellisesti transkriboituna merkinnän kanssa, CNTXT:n menetelmä toimi kokonaan heikoilla merkinnoilla. Nämä merkinntä, vaikka meluisammat kuin ihmisen vahvistamat, optimoitiin palautekehän kautta, joka painotti yksimielisyyttä, kieliopillista johdonmukaisuutta ja sanallista uskottavuutta. Malli koulutettiin Connectionist Temporal Classification (CTC) -häviöfunktiolla, joka on sovelias epäsuunnitellun jonojen mallinnukseen – ratkaiseva tehtävä puheentunnistustehtävissä, joissa puhuttujen sanojen ajoitus on muuttuva ja arvaamaton.
Hallitseminen vertailuissa
Tulokset puhuvat itsestään. Munsit testattiin johtavien avoimen lähdekoodin ja kaupallisten ASR-mallien kanssa kuudella arabiankielisellä vertailuaineistolla: SADA, Common Voice 18.0, MASC (puhdas ja meluisa), MGB-2 ja Casablanca. Nämä aineistot kattavat kokoelmana kymmeniä murteita ja aksentteja arabimaailmassa Saudi-Aabiasta Marokkoon.
Kaikilla vertailuilla Munsit-1 saavutti keskimääräisen sanavirheen (WER) 26,68 ja merkkivirheen (CER) 10,05. Vertailuna OpenAI:n Whisperin paras versio sai keskimääräisen WER:n 36,86 ja CER:n 17,21. Meta:n SeamlessM4T, toinen valtioiden välinen monikielinen malli, oli vielä korkeampi. Munsit ylitti jokaisen muun järjestelmän sekä puhdas- että meluisilla aineistoilla ja osoitti erityisen vankkaa robustisuutta meluisissa olosuhteissa, mikä on kriittinen tekijä käytännön sovelluksissa kuten asiakaspalvelukeskuksissa ja julkisissa palveluissa.
Ero oli yhtä selkeä myös omistajiin nähden. Munsit ylitti Microsoft Azure:n arabiankieliset ASR-mallit, ElevenLabs Scribe ja jopa OpenAI:n GPT-4o transkriptio-ominaisuuden. Nämä tulokset eivät ole marginaalisia parannuksia – ne edustavat keskimääräistä suhteellista parannusta 23,19 %:ssa WER:ssä ja 24,78 %:ssa CER:ssä verrattuna vahvimpaan avoimeen vertailuun, asettamalla Munsitin selkeäksi johtajaksi arabiankielisessä puheentunnistuksessa.
Alusta arabiankielisen äänitekniikan tulevaisuudelle
Vaikka Munsit-1 on jo muuttamassa transkriptio-, tekstitys- ja asiakastukimahdollisuuksia arabiankielisillä markkinoilla, CNTXT AI näkee tämän julkaisun vain alkuna. Yritys kuvittelee täydellisen arabiankielisen ääniteknologian sarjan, mukaan lukien teksti-ääneen, ääniohjaimet ja reaaliaikaiset käännösjärjestelmät – kaikki perustuvat suvereeniin infrastruktuuriin ja alueellisesti relevanttiin tekoälyyn.
”Munsit on enemmän kuin vain läpimurto puheentunnistuksessa”, sanoi Mohammad Abu Sheikh, CNTXT AI:n toimitusjohtaja. ”Se on julistus, että arabia kuuluu maailmanlaajuisen tekoälyn eturintamaan. Olemme osoittaneet, että maailmanluokan tekoälyä ei tarvitse tuoda ulkomailta – se voidaan rakentaa täällä, arabian kielelle, arabialle.”
Aluekohtaisilla malleilla, kuten Munsit, tekoälyteollisuus on siirtymässä uuteen aikakauteen – yhteen, jossa kielellinen ja kulttuurinen merkitys eivät uhraa teknisen erinomaisuuden pyrkimyksessä. Itse asiassa Munsitin kautta CNTXT AI on osoittanut, että ne ovat yhtä ja samaa.










