Intelligenza Artificiale
CNTXT AI lancia Munsit: il sistema di riconoscimento vocale arabo più accurato mai realizzato

In un momento decisivo per l’intelligenza artificiale in lingua araba, CNTXT AI ha svelato Munsit, un modello di riconoscimento vocale arabo di nuova generazione che non solo è il più accurato mai creato per l'arabo, ma supera nettamente giganti globali come OpenAI, Meta, Microsoft ed ElevenLabs nei benchmark standard. Sviluppato negli Emirati Arabi Uniti e adattato alle esigenze dell'arabo fin dalle fondamenta, Munsit rappresenta un importante passo avanti in quella che CNTXT definisce "IA sovrana": una tecnologia sviluppata nella regione, per la regione, ma con competitività globale.
Le basi scientifiche di questo risultato sono esposte nel documento appena pubblicato dal team, "Migliorare il riconoscimento vocale arabo attraverso l'apprendimento su larga scala con supervisione debole", che introduce un metodo di addestramento scalabile ed efficiente in termini di dati, che affronta la persistente scarsità di dati vocali arabi etichettati. Questo metodo – l'apprendimento debolmente supervisionato – ha permesso al team di costruire un sistema che stabilisce un nuovo standard per la qualità della trascrizione sia in arabo standard moderno (MSA) che in oltre 25 dialetti regionali.
Superare la carenza di dati nell'ASR arabo
L'arabo, pur essendo una delle lingue più parlate al mondo e lingua ufficiale delle Nazioni Unite, è da tempo considerato una lingua con scarse risorse nel campo del riconoscimento vocale. Ciò deriva sia dalla sua complessità morfologica e la mancanza di ampi, diversificati e catalogati dataset vocali. A differenza dell'inglese, che beneficia di innumerevoli ore di dati audio trascritti manualmente, la ricchezza dialettale e la frammentata presenza digitale dell'arabo hanno posto sfide significative alla creazione di sistemi di riconoscimento automatico del parlato (ASR) robusti.
Anziché aspettare che il lento e costoso processo di trascrizione manuale si aggiornasse, CNTXT AI ha perseguito un percorso radicalmente più scalabile: la supervisione debole. Il loro approccio è partito da un corpus enorme di oltre 30,000 ore di audio arabo non etichettato, raccolto da diverse fonti. Attraverso una pipeline di elaborazione dati personalizzata, questo audio grezzo è stato ripulito, segmentato ed etichettato automaticamente per produrre un dataset di addestramento di alta qualità di 15,000 ore, uno dei corpora di parlato arabo più grandi e rappresentativi mai assemblati.
Questo processo non si basava sull'annotazione umana. Invece, CNTXT ha sviluppato un sistema multifase per generare, valutare e filtrare ipotesi da più modelli ASR. Queste trascrizioni sono state confrontate utilizzando la distanza di Levenshtein per selezionare le ipotesi più coerenti, quindi sottoposte a un modello linguistico per valutarne la plausibilità grammaticale. I segmenti che non soddisfacevano le soglie di qualità definite sono stati scartati, garantendo che anche senza verifica umana, i dati di training rimanessero affidabili. Il team ha perfezionato questa pipeline attraverso diverse iterazioni, migliorando ogni volta l'accuratezza delle etichette riaddestrando il sistema ASR stesso e reinserendo il sistema nel processo di etichettatura.
Alimentare Munsit: l'architettura conformatrice
Il cuore di Munsit è il modello Conformer, un'architettura di rete neurale ibrida che combina la sensibilità locale degli strati convoluzionali con le capacità di modellazione globale delle sequenze dei trasformatori. Questa progettazione rende il Conformer particolarmente adatto a gestire le sfumature del linguaggio parlato, dove sia le dipendenze a lungo raggio (come la struttura della frase) sia i dettagli fonetici più fini sono cruciali.
CNTXT AI ha implementato una variante estesa del Conformer, addestrandola da zero utilizzando spettrogrammi mel a 80 canali come input. Il modello è composto da 18 livelli e include circa 121 milioni di parametri. L'addestramento è stato condotto su un cluster ad alte prestazioni utilizzando otto GPU NVIDIA A100 con precisione bfloat16, consentendo la gestione efficiente di batch di grandi dimensioni e spazi di feature ad alta dimensionalità. Per gestire la tokenizzazione della struttura morfologicamente ricca dell'arabo, il team ha utilizzato un tokenizzatore SentencePiece addestrato specificamente sul proprio corpus personalizzato, ottenendo un vocabolario di 1,024 unità di sottoparola.
A differenza del training ASR supervisionato convenzionale, che in genere richiede che ogni clip audio sia associata a un'etichetta accuratamente trascritta, il metodo di CNTXT operava interamente su etichette deboli. Queste etichette, sebbene più rumorose di quelle verificate dall'uomo, venivano ottimizzate attraverso un ciclo di feedback che dava priorità al consenso, alla coerenza grammaticale e alla plausibilità lessicale. Il modello è stato addestrato utilizzando Classificazione temporale connessionista (CTC) funzione di perdita, che è adatta alla modellazione di sequenze non allineate, fondamentale per le attività di riconoscimento vocale in cui la tempistica delle parole pronunciate è variabile e imprevedibile.
Dominare i benchmark
I risultati parlano da soli. Munsit è stato testato con i principali modelli ASR open source e commerciali su sei set di dati arabi di riferimento: SADA, Common Voice 18.0, MASC (pulito e rumoroso), MGB-2 e Casablanca. Questi set di dati coprono complessivamente decine di dialetti e accenti del mondo arabo, dall'Arabia Saudita al Marocco.
In tutti i benchmark, Munsit-1 ha ottenuto un tasso di errore medio (WER) di 26.68 e un tasso di errore medio (CER) di 10.05. A titolo di confronto, la versione più performante di Whisper di OpenAI ha registrato un WER medio di 36.86 e un CER di 17.21. SeamlessM4T di Meta, un altro modello multilingue all'avanguardia, ha ottenuto risultati ancora più elevati. Munsit ha superato ogni altro sistema sia su dati puliti che rumorosi, dimostrando una robustezza particolarmente elevata in condizioni di rumore, un fattore critico per applicazioni reali come call center e servizi pubblici.
Il divario era altrettanto netto rispetto ai sistemi proprietari. Munsit ha superato i modelli ASR in arabo di Microsoft Azure, ElevenLabs Scribe e persino la funzionalità di trascrizione GPT-4o di OpenAI. Questi risultati non rappresentano guadagni marginali: rappresentano un miglioramento relativo medio del 23.19% nel WER e del 24.78% nel CER rispetto alla baseline aperta più solida, affermando Munsit come leader indiscusso nel riconoscimento vocale in arabo.
Una piattaforma per il futuro dell'intelligenza artificiale vocale araba
Mentre Munsit-1 sta già rivoluzionando le possibilità di trascrizione, sottotitolazione e assistenza clienti nei mercati di lingua araba, CNTXT AI vede questo lancio solo come l'inizio. L'azienda prevede una suite completa di tecnologie vocali in lingua araba, tra cui sintesi vocale, assistenti vocali e sistemi di traduzione in tempo reale, il tutto basato su infrastrutture sovrane e intelligenza artificiale di rilevanza regionale.
"Munsit è più di una semplice svolta nel riconoscimento vocale", ha affermato Mohammad Abu Sheikh, CEO di CNTXT AI. "È la dimostrazione che l'arabo è all'avanguardia nell'intelligenza artificiale globale. Abbiamo dimostrato che un'intelligenza artificiale di livello mondiale non ha bisogno di essere importata: può essere sviluppata qui, in arabo, per l'arabo".
Con l'ascesa di modelli regionali come Munsit, il settore dell'intelligenza artificiale sta entrando in una nuova era, in cui la rilevanza linguistica e culturale non viene sacrificata nel perseguimento dell'eccellenza tecnica. Infatti, con Munsit, CNTXT AI ha dimostrato che sono la stessa cosa.










