Connect with us

CNTXT AI、史上最精確のアラビア語音声認識システム「Munsit」を発表

人工知能

CNTXT AI、史上最精確のアラビア語音声認識システム「Munsit」を発表

mm

アラビア語の人工知能の分野において重要な瞬間を迎えた CNTXT AI は、次世代のアラビア語音声認識モデル「Munsit」を発表しました。Munsitは、アラビア語で作成された最も精確な音声認識システムであり、OpenAI、Meta、Microsoft、ElevenLabsなどのグローバル企業のシステムを上回る精度を実現しています。アラブ首長国連邦で開発され、アラビア語専用に設計されたMunsitは、CNTXTが「主権AI」と呼ぶ技術の重要な一歩です。この技術は、地域で開発され、地域向けに設計されておりながら、グローバルな競争力を備えています。

この成果の科学的基礎は、チームの新たに公開された論文「アラビア語音声認識の向上を目的とした大規模な弱教師付き学習」に詳しく記述されています。この論文では、アラビア語音声データの長年の不足に対処するためのスケーラブルでデータ効率の良いトレーニング方法が紹介されています。この方法、弱教師付き学習を使用することで、チームは、現代標準アラビア語(MSA)と25以上の地域方言を含む、トランスクリプションの品質を新たな水準に引き上げるシステムを構築しました。

アラビア語ASRのデータ不足を克服する

アラビア語は、世界で最も広く話されている言語の1つであり、国際連合の公用語の1つですが、音声認識の分野では長年にわたって資源が不足している言語とみなされてきました。これは、アラビア語の形態論的複雑さと、大規模で多様なラベル付き音声データセットの不足によるものです。英語は数えきれないほどの手動でトランスクリプトされたオーディオデータを利用できるのに対し、アラビア語の方言の豊かさとデジタル存在の断片化は、強力な自動音声認識(ASR)システムの構築に大きな課題をもたらしてきました。

CNTXT AIは、手動トランスクリプションの遅いそして高コストなプロセスを待つのではなく、よりスケーラブルな道を追求しました。弱教師付き学習です。チームは、様々なソースから集めた30,000時間以上のアラビア語オーディオコーパスから始めました。カスタムビルドのデータ処理パイプラインを使用して、この生のオーディオデータをクリーンアップ、セグメント化、自動ラベル付けして、高品質の15,000時間のトレーニングデータセットを生成しました。これは、集められたことがあるアラビア語音声コーパスの中で最大で最も代表的なものの1つです。

このプロセスは、人間の注釈付けに依存しませんでした。代わりに、CNTXTは、複数のASRモデルからの仮説を生成、評価、フィルタリングするためのマルチステージシステムを開発しました。これらのトランスクリプションは、レーベンシュタイン距離を使用して最も一貫性のある仮説を選択するために相互に比較され、言語モデルを使用してその文法的妥当性を評価するために通過されました。品質基準を満たさないセグメントは破棄され、人間の検証なしでトレーニングデータが信頼できるものであることを保証しました。チームは、このパイプラインを複数のイテレーションを通じて改良し、各回でラベル精度を向上させてASRシステム自体を再トレーニングし、ラベリングプロセスにフィードバックしました。

Munsitの核となるConformerアーキテクチャ

Munsitの中心には、Conformerモデルがあります。これは、局所的な感度を持つ畳み込み層と、長距離の依存関係をモデル化するトランスフォーマーの能力を組み合わせたハイブリッドなニューラルネットワークアーキテクチャです。この設計により、Conformerは、長距離の依存関係(例えば文の構造)と微細な音声的詳細が両方とも重要となる、話された言語を処理することに特に適しています。

CNTXT AIは、Conformerの大規模バリアントを実装し、80チャネルのメルスペクトログラムを入力として使用してから頭からトレーニングしました。モデルは18層で構成され、約1.21億のパラメータを含みます。トレーニングは、高性能クラスターで8つのNVIDIA A100 GPUを使用してbfloat16精度で実行され、大規模なバッチサイズと高次元の特徴空間を効率的に処理できるようになりました。アラビア語の形態論的に豊かな構造のトークン化のために、チームは、カスタムコーパスに特にトレーニングされたSentencePieceトークナイザーを使用し、1,024のサブワードユニットの語彙を生成しました。

従来の教師ありASRトレーニングとは異なり、CNTXTの方法は完全に弱いラベルで動作しました。これらのラベルは、人間による検証されたラベルよりもノイズが多かったですが、コンセンサス、文法的妥当性、語彙的妥当性を優先するフィードバックループを通じて最適化されました。モデルは、Connectionist Temporal Classification (CTC) ロス関数を使用してトレーニングされました。これは、話された言葉のタイミングが可変で予測不可能な音声認識タスクに不可欠な、非同期シーケンスモデリングに適しています。

ベンチマークを支配する

結果は自分で語ります。Munsitは、6つのベンチマークアラビア語データセット(SADA、Common Voice 18.0、MASC(クリーンとノイズ)、MGB-2、Casablanca)で、先行するオープンソースおよび商用のASRモデルと比較されました。これらのデータセットは、サウジアラビアからモロッコまで、アラブ世界の数十の方言とアクセントを網羅しています。

すべてのベンチマークで、Munsit-1は、平均ワードエラーレート(WER)26.68と文字エラーレート(CER)10.05を達成しました。比較として、OpenAIのWhisperの最も優れたバージョンは、平均WER 36.86とCER 17.21を記録しました。MetaのSeamlessM4Tという別のステートオブザアートのマルチリンガルモデルも、さらに高いエラーレートを示しました。Munsitは、すべてのシステムを上回り、クリーンおよびノイズのあるデータで強いパフォーマンスを示しました。特にノイズのある条件では、コールセンターや公共サービスなどのリアルワールドアプリケーションで重要な要素となる、ロバスト性を示しました。

プロプライエタリシステムとのギャップも同様に大きかったです。Munsitは、Microsoft Azureのアラビア語ASRモデル、ElevenLabs Scribe、さらにはOpenAIのGPT-4oトランスクリプト機能を上回りました。これらの結果は、微小な改善ではなく、最も強力なオープン基準と比較して、平均してWER 23.19%、CER 24.78%の相対的な改善を示し、Munsitをアラビア語音声認識の明確なリーダーとして確立しました。

アラビア語ボイスAIの未来のプラットフォーム

Munsit-1はすでに、アラビア語話者の市場でのトランスクリプション、字幕付け、カスタマーサポートの可能性を変革していますが、CNTXT AIは、これがただの始まりであると見ています。会社は、アラビア語のテキスト読み上げ、ボイスアシスタント、リアルタイム翻訳システムを含む、アラビア語ボイステクノロジーのフルスイートを構想しています。すべての技術は、主権インフラストラクチャと地域的に関連するAIに基づいています。

「Munsitは、音声認識のブレークスルーに過ぎない」と、CNTXT AIのCEOであるMohammad Abu Sheikhは述べました。「アラビア語は、世界のAIの最前線に立つべきであるという宣言です。私たちは、世界クラスのAIは輸入する必要がないことを証明しました。アラビア語で、アラビア語のために、ここで開発できます。」

地域固有のモデルであるMunsitの登場とともに、AI業界は、新しい時代に入りました。言語的および文化的な関連性が、技術的優秀性の追求において犠牲になるのではなく、実際には同等であるという時代です。実際、Munsitを通じて、CNTXT AIは、これらが同一であることを証明しました。

アントワーヌは、Unite.AIの創設パートナーであり、ビジョナリーなリーダーです。彼は、AIとロボティクスの未来を形作り、推進するという、揺るぎない情熱に突き動かされています。シリアルエントレプレナーである彼は、AIは電気と同じように社会に大きな変革をもたらすと信じており、破壊的な技術やAGIの潜在能力について熱く語ることがよくあります。

As a futurist、彼は、これらのイノベーションが私たちの世界をどのように形作るかを探求することに尽力しています。さらに、彼は、Securities.ioの創設者であり、未来を再定義し、全セクターを再構築する最先端技術への投資に焦点を当てたプラットフォームです。