Inteligență artificială
CNTXT AI Lansează Munsit: Cel Mai Precis Sistem de Recunoaștere a Vorbirii Arabe Vreodată Construit

Într-un moment definitoriu pentru inteligența artificială în limba arabă, CNTXT AI a lansat Munsit, un model de recunoaștere a vorbirii arabe de ultimă generație, care nu numai că este cel mai precis creat vreodată pentru arabă, dar care îi depășește în mod decisiv pe giganții globali precum OpenAI, Meta, Microsoft și ElevenLabs pe standardele standard. Dezvoltat în Emiratele Arabe Unite și adaptat pentru arabă de la zero, Munsit reprezintă un pas puternic înainte în ceea ce CNTXT numește „suveranitatea AI” – tehnologie construită în regiune, pentru regiune, dar cu competitivitate globală.
Fundamentele științifice ale acestui realizări sunt prezentate în lucrarea recent publicată a echipei, “Avansarea recunoașterii vorbirii arabe prin învățarea slab supravegheată la scară largă“, care introduce o metodă de antrenare eficientă din punct de vedere al datelor, care abordează lipsa de date etichetate de vorbire arabă. Această metodă – învățarea slab supravegheată – a permis echipei să construiască un sistem care stabilește un nou standard pentru calitatea transcrierii atât pentru araba standard modernă (MSA), cât și pentru peste 25 de dialecte regionale.
Depășirea Secetei de Date în ASR Arabă
Araba, în ciuda faptului că este una dintre cele mai vorbite limbi la nivel global și o limbă oficială a Organizației Națiunilor Unite, a fost considerată mult timp o limbă cu resurse reduse în domeniul recunoașterii vorbirii. Acest lucru se datorează atât complexității sale morfologice, cât și lipsei unor seturi de date mari și diverse de vorbire etichetate. În contrast cu engleza, care beneficiază de ore nesfârșite de date audio transcrise manual, bogăția dialectală a arabei și prezența digitală fragmentată au constituit provocări semnificative pentru construirea unor sisteme robuste de recunoaștere automată a vorbirii (ASR).
În loc să aștepte procesul lent și costisitor de transcriere manuală pentru a prinde din urmă, CNTXT AI a urmat o cale cu mult mai scalabilă: supravegherea slabă. Abordarea lor a început cu un corpus masiv de peste 30.000 de ore de audio arab neetichetat, colectat din surse diverse. Prin intermediul unui pipeline de procesare a datelor construit special, acest audio brut a fost curățat, segmentat și etichetat automat pentru a obține un set de date de antrenare de înaltă calitate de 15.000 de ore – unul dintre cele mai mari și mai reprezentative corpuri de vorbire arabă vreodată adunate.
Acest proces nu s-a bazat pe annotarea umană. În schimb, CNTXT a dezvoltat un sistem cu mai multe etape pentru generarea, evaluarea și filtrarea ipotezelor de la mai multe modele ASR. Aceste transcrieri au fost comparate prin distanța Levenshtein pentru a selecta ipotezele cele mai consistente, apoi trecute printr-un model de limbă pentru a evalua plauzibilitatea lor gramaticală. Segmentele care nu au îndeplinit pragurile de calitate definite au fost eliminate, asigurând că, chiar și fără verificare umană, datele de antrenare au rămas fiabile. Echipa a rafinat acest pipeline prin multiple iterații, îmbunătățind în fiecare etapă acuratețea etichetării prin reantrenarea sistemului ASR însuși și reintroducerea lui în procesul de etichetare.
Punerea în Funcțiune a Munsit: Arhitectura Conformer
În inima Munsit se află modelul Conformer, o arhitectură hibridă de rețea neurală care combină sensibilitatea locală a straturilor convoluționale cu capacitățile de modelare secvențială globală ale transformatorilor. Această proiectare face ca Conformerul să fie deosebit de priceput în a gestiona nuanțele limbii vorbite, unde atât dependențele pe termen lung (cum ar fi structura propoziției), cât și detaliile fonetice fine sunt cruciale.
CNTXT AI a implementat o variantă mare a Conformerului, antrenându-l de la zero folosind mel-spectrograme pe 80 de canale ca intrare. Modelul este format din 18 straturi și include aproximativ 121 de milioane de parametri. Antrenamentul a fost efectuat pe un cluster de înaltă performanță utilizând opt GPU-uri NVIDIA A100 cu precizie bfloat16, permițând manipularea eficientă a dimensiunilor de lot mari și a spațiilor de caracteristici de înaltă dimensiune. Pentru a gestiona tokenizarea structurii morfologic bogate a arabei, echipa a utilizat un tokenizator SentencePiece antrenat special pe corpusul lor personalizat, rezultând un vocabular de 1.024 de unități subcuvinte.
În contrast cu antrenamentul convențional supravegheat al ASR, care de obicei necesită ca fiecare clip audio să fie asociat cu o etichetă transcrisă cu atenție, metoda CNTXT a funcționat în întregime cu etichete slabe. Aceste etichete, deși mai zgomotoase decât cele verificate de om, au fost optimizate printr-o buclă de feedback care a prioritizat consensul, coerența gramaticală și plauzibilitatea lexicală. Modelul a fost antrenat utilizând funcția de pierdere Connectionist Temporal Classification (CTC), care se pretează bine pentru modelarea secvențială nealignată – critică pentru sarcinile de recunoaștere a vorbirii în care cronologia cuvintelor vorbite este variabilă și imprevizibilă.
Dominarea Benchmark-urilor
Rezultatele vorbesc de la sine. Munsit a fost testat împotriva modelelor ASR deschise și comerciale de top pe șase seturi de date de referință arabe: SADA, Common Voice 18.0, MASC (curat și zgomotos), MGB-2 și Casablanca. Aceste seturi de date cuprind colectiv zeci de dialecte și accente din lumea arabă, de la Arabia Saudită până în Maroc.
Pe toate benchmark-urile, Munsit-1 a realizat o rată medie de eroare a cuvântului (WER) de 26,68 și o rată medie de eroare a caracterului (CER) de 10,05. În comparație, cea mai bună versiune a lui Whisper de la OpenAI a înregistrat o rată medie WER de 36,86 și CER de 17,21. Meta’s SeamlessM4T, un alt model multilingv de ultimă generație, a avut rezultate și mai slabe. Munsit a depășit fiecare sistem pe date atât curate, cât și zgomotoase, și a demonstrat o robustețe deosebit de puternică în condiții zgomotoase, un factor critic pentru aplicații din lumea reală, cum ar fi centrele de apel și serviciile publice.
Diferența a fost la fel de evidentă împotriva sistemelor proprietare. Munsit a depășit modelele ASR arabe ale Microsoft Azure, ElevenLabs Scribe și chiar funcția de transcriere GPT-4o de la OpenAI. Aceste rezultate nu reprezintă câștiguri marginale – ele reprezintă o îmbunătățire medie relativă de 23,19% în WER și 24,78% în CER în comparație cu cea mai puternică linie de bază deschisă, stabilind Munsit ca lider clar în recunoașterea vorbirii arabe.
O Platformă pentru Viitorul Inteligenței Artificiale Vorbirii Arabe
În timp ce Munsit-1 transformă deja posibilitățile pentru transcriere, subtitrare și suport clienți pe piețele care vorbesc limba arabă, CNTXT AI consideră acest lansare doar începutul. Compania își imaginează o suită completă de tehnologii vocale în limba arabă, incluzând text-to-speech, asistenți vocali și sisteme de traducere în timp real – toate bazate pe infrastructură suverană și AI relevantă regional.
„Munsit este mai mult decât o înfrângere în recunoașterea vorbirii”, a declarat Mohammad Abu Sheikh, CEO al CNTXT AI. „Este o declarație că araba aparține în fruntea inteligenței artificiale globale. Am demonstrat că inteligența artificială de clasă mondială nu trebuie importată – ea poate fi construită aici, în arabă, pentru arabă.”
Cu apariția unor modele specifice regiunii, cum ar fi Munsit, industria inteligenței artificiale intră într-o nouă eră – una în care relevanța lingvistică și culturală nu sunt sacrificate în căutarea excelenței tehnice. De fapt, cu Munsit, CNTXT AI a demonstrat că acestea sunt una și aceeași.












