インタビュー
Mohammad Abu Sheikh, CNTXT AIの創設者&CEO – インタビュー・シリーズ

Mohammad Abu Sheikhは、MENA地域のAIの風景を変革し、受動的な消費から主権的なイノベーションへの移行を推進しています。CNTXT AIのCEOであり、1000万ドルのAIファンドの創設者として、彼は3つの成功したエグジットを指揮し、10億ドル以上の資金を確保しました。彼の仕事は、言語、文化、データの主権に根ざしたAIエコシステムの基礎を築いています。
CNTXT AIは、クラウドインフラストラクチャ、産業用ソフトウェア、ロボティクスソリューションを提供するデジタル変革会社で、組織が運用を近代化し、データ駆動型の洞察を解放することを支援しています。
あなたがCNTXT AIを開始したきっかけは何ですか?そして、アラビア語圏での主権AIのビジョンはどう始まったのですか?
私たちは、この地域で未活用のデータの豊富さを見ました。AIのスケーリングにおける多くの問題は、データの準備不足から生じるものでした — それが最終的にAIの準備不足を意味します。そこで、私たちはCNTXT AIを開始しました。
最初は、LocAIを構築する際に直面した同じ問題を解決していました… 私たちは、これらの課題を直接、AI71、TII、G42(IIAI)と協力して解決しました。私たちがこれらのエンティティの問題を解決するにつれて、ビジョンは明確になり、事業は成長しました。
あなたは、AIトレーニングのための最大のアラビア語デジタルライブラリを構築する上で重要な役割を果たしました。そこでの最大の課題は何でしたか?それらをどのように克服しましたか?
品質が最大の課題でした。もう1つの課題は、高品質のアラビア語データの限られた入手性でした。アラビア語は深刻に表現が不足しています。オンラインにあるアラビア語コンテンツのわずかな割合しかデジタル化されていません。オンラインコンテンツの3〜5%しかアラビア語ではありません。それはほとんどありません。私たちは、データラベラー、注釈者、データサイエンティストを配置して、データをデジタル化、作成、キュレーションすることで、この問題を解決しました。
CNTXT AIは、文化と計算の交差点で運営しています。MENA地域向けに文化的に関連性のあるソリューションを構築する目標と、最先端のAIイノベーションをバランスよく組み合わせる方法は何ですか?
私たちは、文化に根ざしたモデルを一から構築します。インフラストラクチャから最終製品まで、文化は最初から組み込まれています — それを後から追加するものではありません。私たちは、特定の文化、方言、ニーズを念頭に置いて、設計、イノベーション、構築を行います。アラビア語は1つの言語ですが、地域全体で多くの方言や文化的背景があります。そこで、ローカル製品をローカル国向けに構築します。私たちは、それを実現するために、現地の注釈者、現地の人々と協力しています。
あなたはまた、LocAIの共同創設者であり、SMPL AIファンドのリーダーです。これらのベンチャーは、CNTXT AIの使命をどのように補完していますか?
LocAIは、アプリケーション層 — 人々が実際にやり取りする部分です。CNTXT AIによって構築されたデータとインフラストラクチャの上に直接配置されています。それが成功した理由です。CNTXT AIによって提供されるAI基盤を現実世界で使用できるソリューションに変換します。
一方、SMPL AIは、コミュニティに返還することについてです。初期段階のスタートアップに投資し、地域のAIエコシステムを構築することに焦点を当てています。私たちは、AIを自分たちで構築することで学んだツールや教訓を共有します。そこで、創設者はより速く成長し、一般的な落とし穴を避けることができます。
Munsitは、世界で最も正確なアラビア語音声認識モデルと呼ばれています。このモデルの開発を推進したのは何ですか?そして、为什么今ですか?
このモデルの開発を推進したのは、ただ単に必要性です。
私たちは常に必要性から構築します。市場を見て、時機が熟したのを見ました — 政府機関やプライベートクライアントはすべて、このようなソリューションを求めていました。
既存のモデルは、タスクに十分ではありませんでした。ほとんどは、英語のテクノロジーを基にしてから適応しています。アラビア語から一から設計されていません。私たちが解決しようとしている特定の問題に対して設計されていません。
そこで、私たちは自分で構築することにしました。それはアラビア語から始まるように設計されています。
Munsitの研究では、弱い教師あり学習アプローチを導入しています。アラビア語ASRを大規模にトレーニングする上でそれが何を意味するのか、そしてなぜそれが重要だったのかについて説明してください。
注釈は高価です。そこで、私たちは、手動でトランスクリプションする必要のある大量のオーディオファイルに依存する従来の方法を超越する必要がありました。弱い教師あり学習により、手動でトランスクリプションすることなくスケールアップすることができました — これは特に、データが限られているアラビア語のような言語、そして多くの異なる方言を持つ言語にとって重要です。
代わりに、30,000時間のアラビア語音声の無注釈データから始めました。自動チェックを使用して、生成、フィルタリング、クリーンアップする注釈パイプラインを構築しました。最高品質の15,000時間のデータセットを提供しました — すべて人間によるトランスクリプションなしで。
このアプローチにより、現実の状況における話し手のアラビア語の豊かさを捉えることなく、スクラッチからモデルをトレーニングすることが可能になりました。迅速に、かつ費用効率的に。 この方法がなければ、アラビア語ASRシステムをこの規模で構築することは、数年間、数百万ドル相当の手動作業を必要とするでしょう。
Munsitは、OpenAI、Microsoft、Metaのモデルを超えて、複数のベンチマークで優位性を示しました。アラビア語AIイノベーションの将来について何を示していますか?
アラビア語AIの将来は私たちの手の中にあります。つまり、この成果はそれを証明しています。私たちは、第三者に頼ることなく、地域のために、地域から世界クラスのAIを構築できることを実証しています。Munsitは、次のアラビア語AIイノベーションの波が内部から来ることを示す明確な信号です。
Munsitは将来的にどのように進化するか、CNTXTでのアラビア語音声AIの次のフロンティアは何ですか?
あなたはただ待つ必要があります。言えることは、Munsitと現在CNTXT AIで構築している他のモデルによって動かされる、新しいアラビア語先端のAIソリューションのスイートが近日登場することです。これはただの始まりです。
あなたは「主権AI」という用語についてよく話しています。私にとってそれは何を意味するのか、それが湾岸および広いMENA地域にとって重要な理由は何ですか?
私にとって、主権AIとは、将来を形作るデータ、インフラストラクチャ、モデルに対する完全な所有権と管理権を意味します。それは重要です。私たちが自分の運命を所有し、他の人々が私たちに技術を構築するのを待っているのではなく、自分たちで所有する必要があるからです。
データの主権はすべてです。データは貴重です。私たちがそれを自分の手の中に保つことを確認する必要があります。
私たちが将来を他人に任せ、AIの構築を他人に任せることはできません。この地域のAIの将来は、この地域から来るでしょう。私たちが目指しているものです。
あなたは、起業家および投資家として、MENA地域でAIスタートアップを構築する他の創設者にどのようなアドバイスを与えますか?
今すぐ始めましょう。迅速に動きましょう。失敗を恐れず、より迅速に学び、継続的にイテレーションしましょう。
最も重要なことは、実際の問題を解決することです。地に足をつけ、ユーザーの声に耳を傾け、ただの話題にのみ焦点を当てるのではなく、現実の問題を解決することに重点を置きましょう。新興市場では、関連性と適応性が重要です。
素晴らしいインタビュー、詳しく知りたい読者はCNTXT AIを訪問してください。












