访谈
CNTXT AI创始人兼CEO穆罕默德·阿布·谢赫 – 采访系列

穆罕默德·阿布·谢赫 正在改变中东和北非地区的人工智能格局,推动从被动消费到主权创新。作为CNTXT AI的CEO和一家1亿美元人工智能基金的创始人,他曾领导了三次成功的退出,并获得了超过10亿美元的资金。他的工作为建立一个以语言、文化和数据主权为基础的人工智能生态系统奠定了基础。
我们看到了这个世界地区数据的丰富。许多人工智能扩展问题来自数据准备不足——这最终意味着人工智能准备不足。那就是我们开始CNTXT AI的原因。
最初,我们解决了与LocAI相同的问题……我们在与AI71、TII和G42(IIAI)合作时亲眼目睹了这些挑战。随着我们帮助这些实体解决这些问题,愿景变得更加清晰,业务不断增长。
您在建立最大的阿拉伯语数字图书馆用于人工智能训练方面发挥了关键作用。建立这个图书馆的最大挑战是什么,您是如何克服这些挑战的?
质量是最大的挑战之一。另一个挑战是高质量阿拉伯语数据在线的可用性有限:阿拉伯语在网上严重欠缺。只有小部分阿拉伯语内容被数字化,只有3-5%的在线内容是阿拉伯语。这几乎什么都没有。我们通过部署数据标注员、注释员和数据科学家来数字化、创建和策划数据来解决这个问题。
CNTXT AI处于文化和计算的交叉点。您如何平衡最先进的人工智能创新与为中东和北非地区构建文化相关解决方案的目标?
我们从基础开始构建文化基础模型。从基础设施到最终产品,文化从一开始就被嵌入——这不是我们后来添加的东西。我们设计、创新和构建,考虑到特定的文化、方言和需求,从第一天开始。阿拉伯语是一种语言,但它在整个地区内包含许多方言和文化背景,因此我们为每个国家构建本地产品。我们通过与当地注释员、在他们自己的国家工作的人来实现这一点。
您还联合创立了LocAI,并领导了SMPL AI基金。这些项目如何补充CNTXT AI的使命?
LocAI是应用层——人们实际交互的部分。它直接建立在CNTXT AI构建的数据和基础设施之上。这就是它成功的原因:它将CNTXT AI提供的人工智能基础转化为人们可以使用的现实世界解决方案。
SMPL AI另一方面是关于回馈社区。它专注于投资初创企业,帮助建立区域人工智能生态系统。我们分享了我们从自己构建人工智能中获得的工具和经验,因此创始人可以更快地成长并避免常见的陷阱。
Munsit被称为世界上最准确的阿拉伯语语音识别模型。是什么驱动了该模型的开发,为什么现在?
该模型的开发动机很简单:需要。
我们总是出于需要而构建。我们看到了市场,看到时机已经成熟——政府机构和私营客户都在寻找这样的解决方案。
现有的模型根本无法完成任务。大多数模型都是建立在英语技术之上,然后适配的。它们不是从头开始为阿拉伯语设计的,当然也不是为我们正在解决的问题设计的。
所以我们决定自己构建。它是阿拉伯语第一的——这是我们的设计理念。
Munsit研究背后的弱监督学习方法是什么?为什么它对于大规模训练阿拉伯语ASR至关重要?
注释很昂贵。因此,我们不得不超越依赖大量手动转录的传统方法。弱监督学习帮助我们在不需要手动标注每个音频文件的情况下扩大规模——这对于阿拉伯语尤为重要,阿拉伯语是一种数据和方言有限的语言。
我们从30,000小时的未标注阿拉伯语语音开始。我们建立了一个注释流水线,使用自动检查生成、过滤和清理最佳音频。这样,我们得到了一个高质量的15,000小时数据集——所有这一切都是没有人工转录的。
这种方法使我们能够从头开始训练我们的模型,捕捉真实情况下阿拉伯语的丰富性,快速且经济高效地做到这一点。没有这种方法,在这个规模上构建阿拉伯语ASR系统将需要数年和数百万美元的资金投入。
Munsit在多个基准测试中超越了OpenAI、Microsoft和Meta的模型。这种成就对阿拉伯语人工智能创新前景的意义是什么?
阿拉伯语人工智能的未来掌握在我们自己手中;这正是这一成就所证明的。我们不能再依赖我们不拥有的技术或依赖不优先考虑我们地区的第三方。
Munsit表明,我们可以为地区构建世界级的人工智能——利用当地人才解决当地问题。这是一个明确的信号,下一波阿拉伯语人工智能创新将来自内部。
您如何看待Munsit的未来版本,以及CNTXT AI的阿拉伯语语音人工智能的下一个前沿是什么?
您只需要等待并观察。可以说的是,我们有一个全新的阿拉伯语人工智能解决方案套件即将推出——所有这些都由Munsit和我们目前在CNTXT AI构建的其他模型提供支持。这只是开始。
您经常谈论“主权人工智能”的重要性。对您来说,这个术语意味着什么,为什么它对于海湾和更广泛的中东地区至关重要?
对我来说,主权人工智能意味着拥有对塑造我们未来的数据、基础设施和模型的全部所有权和控制权。这很重要,因为我们需要拥有自己的命运,这一切从数据开始。
数据主权就是一切。数据很珍贵,我们需要确保它保持在我们的手中。
我们不能放弃自己的未来,而让别人为我们构建技术。这个地区的人工智能未来将来自这个地区。这正是我们正在努力的目标。
您如何看待CNTXT AI在未来五年内塑造中东人工智能生态系统的发展?
通过使真正的人工智能准备就绪成为可能。我们进入公司,了解他们的需求,构建数据和人工智能战略,然后帮助他们构建、测试、部署和扩大规模。
如果数据是新的石油,那么非结构化数据就是未经提炼的石油——充满潜力,但在处理之前是无用的。这就是为什么我们构建CNTXT AI来帮助组织清理、结构化和激活他们的数据的原因。因为这就是真正的人工智能转型的开始。
作为企业家和投资者,您会给其他在新兴市场构建人工智能初创企业的创始人什么建议?
现在开始。快速行动。快速失败,学习得更快,并不断迭代。
最重要的是,要为真正的问题构建解决方案。保持脚踏实地——倾听用户,而不是仅仅关注炒作。在新兴市场中,相关性和适应性是关键。
感谢这次精彩的采访,希望了解更多的读者可以访问 CNTXT AI。












