์ธ๊ณต์ง๋ฅ
CNTXT AI, Munsit ์ถ์: ์ญ์ฌ์ ๊ฐ์ฅ ์ ํํ ์๋์ด ์์ฑ ์ธ์ ์์คํ

아랍어 인공 지능의 결정적 순간에, CNTXT AI는 Munsit을 공개했습니다. Munsit은 아랍어를 위해 처음부터 개발된 차세대 아랍어 음성 인식 모델로, 아랍어에서 가장 정확한 모델입니다. 또한 OpenAI, Meta, Microsoft, ElevenLabs를 포함한 글로벌 기업들의 표준 벤치마크에서 압도적으로 우수한 성능을 보여주었습니다. UAE에서 개발되었으며 아랍어를 위해 설계된 Munsit은 CNTXT가 “주권 AI”라고 부르는 기술의 강력한 발전입니다. 주권 AI는 지역에서 개발되어 지역을 위해 사용되지만 글로벌 경쟁력을 갖춘 기술입니다.
이 성과의 과학적 기초는 팀의 새로 발표된 논문 “대규모 약한 지도 학습을 통해 아랍어 음성 인식 개선“에 설명되어 있습니다. 이 논문에서는 약한 지도 학습을 통해 대규모 아랍어 음성 데이터의 부족을 해결하는 방법을介绍합니다. 이 방법을 통해 팀은 현대 표준 아랍어(MSA)와 25개 이상의 지역 방언 모두에서 새로운 수준의 전사 품질을 달성했습니다.
아랍어 음성 인식의 데이터 부족 극복
아랍어는 세계에서 가장 많이 사용되는 언어 중 하나이며 유엔의 공식 언어이지만, 음성 인식 분야에서 저자원 언어로 간주되어 왔습니다. 이는 아랍어의 형태론적 복잡성과 대규모 다iverse한 레이블이 달린 음성 데이터셋의 부족으로 인해 발생합니다. 영어는 수많은 수동으로 전사된 오디오 데이터를 가지고 있지만, 아랍어의 방언豊かさ와 디지털 존재의 단편화는 강력한 자동 음성 인식(ASR) 시스템을 구축하는 데 상당한 도전을 제기했습니다.
CNTXT AI는 수동 전사 프로세スの 느린 속도와 높은 비용을 기다리는 대신, 더 확장 가능하고 효율적인 방법을 추구했습니다. 약한 감독을 통해 대규모 약 30,000시간의 레이블이 없는 아랍어 오디오 데이터를 수집하여 시작했습니다. 이 원시 오디오 데이터는 사용자 지정 데이터 처리 파이프라인을 통해 정리, 분할, 자동 레이블링되어 높은 품질의 15,000시간의 훈련 데이터셋을 생성했습니다. 이는 아랍어 음성 코퍼스 중 가장 큰 것 중 하나입니다.
이 프로세스는 인간의 주석이 필요하지 않았습니다. 대신, CNTXT는 여러 ASR 모델에서 가설을 생성, 평가, 필터링하는 다단계 시스템을 개발했습니다. 이러한 전사본은 레벤슈타인 거리를 사용하여 가장 일관된 가설을 선택하고 언어 모델을 사용하여 그들의 문법적 합理성을 평가했습니다. 품질 임계값을 충족하지 못한 세그먼트는 버려졌습니다. 이는 인간의 검증 없이도 훈련 데이터가 신뢰할 수 있음을 보장했습니다. 팀은 이 파이프라인을 여러 번 반복하여 레이블 정확도를 개선하고 ASR 시스템 자체를 재훈련하여 레이블링 프로세스에 다시 피드백했습니다.
Munsit의 핵심: Conformer 아키텍처
Munsit의 핵심은 컨포머(Conformer) 모델입니다. 컨포머는 지역적 민감성을 제공하는 컨볼루셔널 레이어와 글로벌 시퀀스 모델링 능력을 제공하는 트랜스포머를 결합한 하이브리드 신경망 아키텍처입니다. 이 설계는 컨포머를 특히 음성 언어의 미묘한 처리에 적합하게 만듭니다. 여기서 장거리 의존성(예: 문장 구조)와 세부적인 음성 세부 사항이 모두 중요합니다.
CNTXT AI는 대규모 컨포머 변형을 구현하여 80채널 멜-스펙트로그램을 입력으로 사용하여 처음부터 훈련했습니다. 모델은 18개의 레이어로 구성되어 있으며 약 1.21억 개의 매개변수가 있습니다. 훈련은 8개의 NVIDIA A100 GPU를 사용하는 고성능 클러스터에서 수행되었으며, bfloat16 精度를 사용하여 대규모 배치 크기와 고차원 특징 공간을 효율적으로 처리할 수 있었습니다. 아랍어의 형태론적으로 풍부한 구조의 토큰화에 사용자 지정 코퍼스로 훈련된 SentencePiece 토크나이저를 사용하여 1,024개의 서브워드 유닛으로 구성된 어휘를 생성했습니다.
전통적인 감독付き ASR 훈련과 달리, CNTXT의 방법은 약한 레이블만을 사용하여 작동했습니다. 이러한 레이블은 인간이 검증한 레이블보다 노이즈가 많지만, 합의, 문법적 일관성, 그리고 어휘적 합理성을 우선하는 피드백 루프를 통해 최적화되었습니다. 모델은 연결리스트 시간 분류(CTC) 손실 함수를 사용하여 훈련되었습니다. 이는 비정렬 시퀀스 모델링에 적합하며, 음성 인식과 같은 작업에서 중요한 변수입니다.
벤치마크에서 우세
결과는 명확합니다. Munsit은 6개의 벤치마크 아랍어 데이터셋(SADA, Common Voice 18.0, MASC(클린 및 노이즈), MGB-2, Casablanca)에서 최고의 오픈 소스 및 상업용 ASR 모델과 비교되었습니다. 이러한 데이터셋은 아랍 세계의 수십 개의 방언과 억양을 아우르며, 사우디 아라비아에서 모로코까지 걸쳐 있습니다.
모든 벤치마크에서 Munsit-1은 평균 단어 오류率(WER) 26.68과 문자 오류率(CER) 10.05를 달성했습니다. 비교 대상인 OpenAI의 Whisper는 평균 WER 36.86과 CER 17.21를 기록했습니다. Meta의 SeamlessM4T는 또 다른 상태-of-the-아트 멀티링구얼 모델로, 더 높은 오류율을 보였습니다. Munsit은 모든 시스템을 상대로 클린 및 노이즈 데이터에서 최고의 성능을 보였습니다. 특히 노이즈 환경에서 강한 강건성을 보여주었으며, 콜 센터나 공공 서비스와 같은 실제 응용 분야에서 중요한 요소입니다.
전용 시스템과의 격차도 크게 열려있었습니다. Munsit은 Microsoft Azure의 아랍어 ASR 모델, ElevenLabs Scribe,甚至 OpenAI의 GPT-4o 전사 기능을 모두 능가했습니다. 이러한 결과는 약간의 개선이 아닙니다. 오픈 소스 기준선에 비해 평균적으로 WER 23.19%, CER 24.78%의 상대적인 개선을 달성하여 Munsit을 아랍어 음성 인식의 명확한 리더로 확립했습니다.
아랍어 음성 AI의 미래를 위한 플랫폼
Munsit-1은 이미 아랍어 시장의 전사, 자막, 고객 지원의 가능성을 변革하고 있습니다. 그러나 CNTXT AI는 이 출시를 시작으로 본다. 회사는 아랍어 텍스트-음성, 음성 조수, 실시간 번역 시스템을 포함한 아랍어 음성 기술의 전체 스위트를 상상합니다. 모두 주권 인프라와 지역적으로 관련된 AI에 기반합니다.
“Munsit은 단순히 음성 인식의 돌파구가 아닙니다. 아랍어가 세계 AI의 최전선에 속한다는 선언입니다. 우리는 세계 수준의 AI가 수입될 필요가 없음을 증명했습니다. 그것은 여기, 아랍어를 위해, 아랍어로 구축될 수 있습니다.”라고 CNTXT AI의 CEO인 Mohammad Abu Sheikh는 말했습니다.
지역 특화 모델인 Munsit의 부상과 함께, AI 산업은 새로운 시대로 진입하고 있습니다. 여기서 언어적 및 문화적 관련성은 기술적 우수성을 추구하는 과정에서 희생되지 않습니다. 사실, Munsit을 통해 CNTXT AI는 기술적 우수성과 언어적, 문화적 관련성이 동일한 것임을 보여주었습니다.












