Intelligenza artificiale
CNTXT AI lancia Munsit: il sistema di riconoscimento vocale arabo più preciso mai costruito

In un momento decisivo per l’intelligenza artificiale in lingua araba, CNTXT AI ha presentato Munsit, un modello di riconoscimento vocale arabo di nuova generazione che non solo è il più preciso mai creato per la lingua araba, ma supera anche i giganti globali come OpenAI, Meta, Microsoft e ElevenLabs nei benchmark standard. Sviluppato negli Emirati Arabi Uniti e personalizzato per la lingua araba fin dall’inizio, Munsit rappresenta un importante passo avanti in ciò che CNTXT chiama “intelligenza artificiale sovrana” – tecnologia costruita nella regione, per la regione, ma con una competitività globale.
I fondamenti scientifici di questo risultato sono esposti nel nuovo articolo del team, “Avanzare il riconoscimento vocale arabo attraverso l’apprendimento debolmente supervisionato su larga scala“, che introduce un metodo di formazione scalabile ed efficiente in termini di dati che affronta la scarsità di dati vocali arabi etichettati. Questo metodo – l’apprendimento debolmente supervisionato – ha consentito al team di costruire un sistema che stabilisce un nuovo standard per la qualità della trascrizione in arabo moderno standard (MSA) e in oltre 25 dialetti regionali.
Superare la carenza di dati nel riconoscimento vocale arabo
L’arabo, nonostante sia una delle lingue più parlate a livello globale e una lingua ufficiale delle Nazioni Unite, è stato a lungo considerato una lingua a bassa risorsa nel campo del riconoscimento vocale. Ciò deriva sia dalla sua complessità morfologica che dalla mancanza di grandi dataset di dati vocali arabi etichettati. A differenza dell’inglese, che beneficia di innumerevoli ore di dati audio trascritti manualmente, la ricchezza dialettale e la presenza digitale frammentata dell’arabo hanno posto sfide significative per la costruzione di sistemi di riconoscimento vocale automatico (ASR) robusti.
Invece di attendere il lento e costoso processo di trascrizione manuale per recuperare, CNTXT AI ha perseguito un percorso più scalabile: la supervisione debole. Il loro approccio è iniziato con un’enorme raccolta di oltre 30.000 ore di audio arabo non etichettato raccolto da diverse fonti. Attraverso un pipeline di elaborazione dei dati personalizzata, questo audio grezzo è stato pulito, segmentato e automaticamente etichettato per produrre un set di dati di formazione di alta qualità di 15.000 ore – uno dei più grandi e rappresentativi corpora di lingua araba mai assemblati.
Questo processo non si è basato sull’annotazione umana. Invece, CNTXT ha sviluppato un sistema a più fasi per generare, valutare e filtrare ipotesi da più modelli ASR. Queste trascrizioni sono state confrontate utilizzando la distanza di Levenshtein per selezionare le ipotesi più coerenti, quindi passate attraverso un modello linguistico per valutare la loro plausibilità grammaticale. I segmenti che non hanno superato le soglie di qualità definite sono stati scartati, garantendo che anche senza verifica umana, i dati di formazione rimanessero affidabili. Il team ha raffinato questo pipeline attraverso molteplici iterazioni, ogni volta migliorando l’accuratezza dell’etichettatura ritraining il sistema ASR stesso e alimentandolo nel processo di etichettatura.
Alimentare Munsit: l’architettura Conformer
Al cuore di Munsit c’è il modello Conformer, un’architettura di rete neurale ibrida che combina la sensibilità locale dei layer convoluzionali con le capacità di modellazione sequenziale globale dei trasformatori. Questo design rende il Conformer particolarmente adatto a gestire le sfumature del linguaggio parlato, dove sia le dipendenze a lungo raggio (come la struttura della frase) che i dettagli fonetici fini sono cruciali.
CNTXT AI ha implementato una variante grande del Conformer, addestrandolo da zero utilizzando mel-spettrogrammi a 80 canali come input. Il modello consiste di 18 strati e include circa 121 milioni di parametri. L’addestramento è stato condotto su un cluster ad alte prestazioni utilizzando otto GPU NVIDIA A100 con precisione bfloat16, consentendo la gestione efficiente di batch di grandi dimensioni e spazi di caratteristiche ad alta dimensionalità. Per gestire la tokenizzazione della struttura morfologicamente ricca dell’arabo, il team ha utilizzato un tokenizzatore SentencePiece addestrato specificamente sul loro corpus personalizzato, risultando in un vocabolario di 1.024 unità subword.
A differenza dell’addestramento ASR supervisionato convenzionale, che richiede generalmente che ogni clip audio sia abbinato a un’etichetta trascritta con cura, il metodo di CNTXT ha operato interamente su etichette deboli. Queste etichette, sebbene più rumorose di quelle verificate dall’uomo, sono state ottimizzate attraverso un ciclo di feedback che ha prioritizzato il consenso, la coerenza grammaticale e la plausibilità lessicale. Il modello è stato addestrato utilizzando la funzione di perdita Connectionist Temporal Classification (CTC), che è ben adatta per la modellazione di sequenze non allineate – critica per le attività di riconoscimento vocale in cui il timing delle parole parlate è variabile e imprevedibile.
Dominare i benchmark
I risultati parlano da soli. Munsit è stato testato contro i principali modelli ASR open-source e commerciali su sei dataset di benchmark arabi: SADA, Common Voice 18.0, MASC (pulito e rumoroso), MGB-2 e Casablanca. Questi dataset coprono collettivamente decine di dialetti e accenti in tutto il mondo arabo, dall’Arabia Saudita al Marocco.
In tutti i benchmark, Munsit-1 ha raggiunto un tasso di errore medio di parole (WER) del 26,68 e un tasso di errore di caratteri (CER) del 10,05. In confronto, la versione più performante di OpenAI’s Whisper ha registrato un WER medio del 36,86 e un CER del 17,21. Meta’s SeamlessM4T, un altro modello multilingue all’avanguardia, ha ottenuto risultati ancora più alti. Munsit ha superato ogni altro sistema sia su dati puliti che rumorosi e ha dimostrato una particolare robustezza in condizioni rumorose, un fattore critico per applicazioni reali come i call center e i servizi pubblici.
Il divario è stato altrettanto netto contro i sistemi proprietari. Munsit ha superato i modelli ASR arabi di Microsoft Azure, ElevenLabs Scribe e anche la funzione di trascrizione di OpenAI’s GPT-4o. Questi risultati non rappresentano guadagni marginali – rappresentano un miglioramento medio relativo del 23,19% nel WER e del 24,78% nel CER rispetto alla linea di base aperta più forte, stabilendo Munsit come il leader indiscusso nel riconoscimento vocale arabo.
Una piattaforma per il futuro dell’intelligenza vocale araba
Mentre Munsit-1 sta già trasformando le possibilità di trascrizione, sottotitolazione e supporto clienti nei mercati di lingua araba, CNTXT AI vede questo lancio come solo l’inizio. La società prevede una suite completa di tecnologie vocali in lingua araba, incluse la sintesi vocale, gli assistenti vocali e i sistemi di traduzione in tempo reale – tutte basate su un’infrastruttura sovrana e su un’intelligenza artificiale rilevante a livello regionale.
“Munsit è più di un semplice progresso nel riconoscimento vocale”, ha dichiarato Mohammad Abu Sheikh, CEO di CNTXT AI. “È una dichiarazione che l’arabo merita di essere al centro dell’intelligenza artificiale globale. Abbiamo dimostrato che l’intelligenza artificiale di classe mondiale non deve essere importata – può essere costruita qui, in arabo, per l’arabo”.
Con l’ascesa di modelli specifici per regione come Munsit, l’industria dell’intelligenza artificiale sta entrando in una nuova era – un’era in cui la rilevanza linguistica e culturale non sono sacrificate in nome dell’eccellenza tecnica. In effetti, con Munsit, CNTXT AI ha dimostrato che queste due cose sono una e la stessa.












