Connect with us

访谈

Mohammad Abu Sheikh,CNTXT AI 的创始人和 CEO – 采访系列

mm

Mohammad Abu Sheikh 正在改变中东和北非地区的人工智能格局,推动从被动消费到主权创新转变。作为 CNTXT AI 的 CEO 和 1000 万美元人工智能基金的创始人,他已经成功退出了三家公司,并获得了超过 10 亿美元的资金支持。他的工作为根植于语言、文化和数据主权的人工智能生态系统奠定了基础。

CNTXT AI 是一家数字转型公司,提供云基础设施、工业软件和机器人解决方案,帮助组织现代化运营并在中东和北非解锁数据驱动的洞察。

是什么启发你创立 CNTXT AI,你对阿拉伯语世界主权人工智能的愿景是如何开始的?

我们看到这个世界的数据被严重低估。很多人工智能扩展的问题来自于数据准备不足——最终意味着人工智能准备不足。这就是我们开始 CNTXT AI 的原因。

最初,我们解决了我们在构建 LocAI 时面临的相同问题。我们亲眼目睹了这些挑战,曾与 AI71、TII 和 G42(IIAI)合作。随着我们帮助这些实体解决这些问题,愿景变得更加清晰,业务不断增长。

你在构建最大的阿拉伯语数字图书馆用于人工智能训练方面发挥了关键作用。构建过程中面临的一些最大挑战是什么,你又如何克服它们?

质量是最大的挑战之一。另一个挑战是高质量阿拉伯语数据在线的可用性有限:阿拉伯语在网上的代表性非常低。只有很小一部分阿拉伯语内容被数字化,只有 3-5% 的在线内容是阿拉伯语。这几乎什么都没有。我们通过部署数据标注员、注释员和数据科学家来数字化、创建和整理数据来克服这个问题。

CNTXT AI 操作在文化和计算的交叉点。如何平衡尖端人工智能创新与为中东和北非地区构建文化相关解决方案的目标?

我们从一开始就构建文化基础的模型。从基础设施到最终产品,文化都是从一开始就融入其中的——这不是我们后来添加的东西。我们设计、创新和构建,考虑到特定的文化、方言和需求,从第一天开始。阿拉伯语是一种语言,但它包含了该地区的许多方言和文化背景,因此我们为当地国家构建本地产品。我们通过与当地注释员、在他们自己的国家的工作人员合作来实现这一点。

你还联合创立了 LocAI,并领导 SMPL AI 基金。这些创业如何补充 CNTXT AI 的使命?

LocAI 是应用层——人们实际交互的部分。它直接建立在 CNTXT AI 构建的数据和基础设施之上。这就是它成功的原因:它将 CNTXT AI 提供的人工智能基础转化为人们可以使用的现实世界解决方案。

SMPL AI另一方面,是关于回馈社区。它专注于投资初创企业和帮助建设区域人工智能生态系统。我们分享了从构建人工智能中获得的工具和经验,这样创始人就可以更快地成长并避免常见的陷阱。

Munsit 被称为世界上最准确的阿拉伯语语音识别模型。是什么驱动了该模型的开发,为什么现在开发?

驱动该模型开发的原因很简单:需要。

我们总是出于必要性来构建。我们看到了市场,看到时机已经成熟——政府机构和私营客户都在寻找这样的解决方案。

现有的模型不适合这项任务。大多数模型都是基于英语技术构建的,然后进行适配。它们不是从一开始就为阿拉伯语设计的,肯定也不是为我们要解决的问题设计的。

所以我们决定自己构建。它是阿拉伯语优先的——这是设计初衷。

Munsit 背后的研究引入了弱监督学习方法。可以解释一下这是什么意思,以及为什么它对于大规模训练阿拉伯语 ASR 至关重要?

注释很昂贵。因此,我们不得不超越依赖大量手动转录的传统方法。弱监督学习帮助我们在不需要手动标记每个音频文件的情况下扩大规模——这对于阿拉伯语尤为重要,阿拉伯语数据有限,方言也很多。

我们没有使用专业转录的音频,而是从 30,000 小时的未标记阿拉伯语语音开始。我们建立了一个注释管道,使用自动化检查生成、过滤和清理最佳音频。这样,我们得到了一个高质量的 15,000 小时数据集——所有这些都没有手动转录。

这种方法使我们能够从头开始训练我们的模型,捕捉真实生活场景中阿拉伯语的丰富性,快速且经济高效地实现。没有这种方法,在这个规模上构建阿拉伯语 ASR 系统将需要几年时间和数百万美元的手动劳动。

Munsit 在多个基准测试中超越了 OpenAI、Microsoft 和 Meta 的模型。这种成就对阿拉伯语人工智能创新未来有什么意义?

阿拉伯语人工智能的未来掌握在我们手中;这正是这一成就所证明的。我们不能再依赖我们不拥有的技术或依赖不优先考虑我们地区的第三方。

Munsit 表明,我们可以使用本地人才解决本地问题,从本地区为本地区构建世界级人工智能。这是一个明确的信号,下一波阿拉伯语人工智能创新将来自内部。

你如何看待 Munsit 在未来版本中的演变,以及 CNTXT 的阿拉伯语语音人工智能的下一个前沿是什么?

你只需要等待并观察。可以说的是,我们有一个全新的阿拉伯语优先人工智能解决方案套件即将推出——所有这些都由 Munsit 和我们目前在 CNTXT AI 建造的其他模型提供支持。这只是开始。

你经常谈论“主权人工智能”的重要性。对你来说,这个术语是什么意思,为什么它对海湾和更广泛的中东地区至关重要?

对我来说,主权人工智能意味着拥有数据、基础设施和模型的全部所有权和控制权,这些数据、基础设施和模型将塑造我们的未来。这很重要,因为我们需要拥有自己的命运,这从拥有自己的数据开始。

数据主权就是一切。数据是宝贵的,我们需要确保它保持在我们的手中。

我们不能把自己的未来交给别人,并且在别人为我们构建技术时坐视不管。这个地区的人工智能未来将来自这个地区。这正是我们正在努力的目标。

你如何看待 CNTXT AI 在未来五年内塑造中东人工智能生态系统的发展?

通过实现真正的人工智能准备。我们进入公司和政府,了解他们的需求,建立数据和人工智能战略,然后帮助他们构建、测试、部署和扩展。

如果数据是新的石油,那么非结构化数据就是未经提炼的石油——充满潜力,但在处理之前是无用的。 这就是为什么我们构建了 CNTXT AI,以帮助组织清洁、结构化和激活他们的数据。因为这就是真正的人工智能转型的开始。

作为企业家和投资者,你会给其他在新兴市场建设人工智能创业公司的创始人什么建议?

现在开始。快速行动。快速失败,学习更快,继续迭代。

最重要的是,解决真正的问题。贴近现实——倾听用户的声音,而不仅仅是热点话题。在新兴市场,相关性和适应性是关键。

感谢这次精彩的采访,希望了解更多的读者可以访问 CNTXT AI

安托万是一位具有远见的领导者和Unite.AI的创始合伙人,他被对塑造和推广AI和机器人人的未来充满不动摇的热情所驱动。作为一位连续创业者,他相信AI将对社会产生与电力一样的颠覆性影响,他经常被听到对颠覆性技术和AGI的潜力大加赞赏。

作为一位未来学家,他致力于探索这些创新将如何塑造我们的世界。另外,他也是Securities.io的创始人,这是一个专注于投资于重新定义未来和重塑整个行业的尖端技术的平台。