面试
Mohammad Abu Sheikh,CNTXT AI 创始人兼首席执行官——访谈系列

穆罕默德·阿布·谢赫 正在改变中东和北非地区的人工智能格局,推动从被动消费向自主创新的转变。作为 CNTXT AI 的首席执行官和一支 10 万美元人工智能基金的创始人,他已成功完成三次退出,并获得了超过 XNUMX 亿美元的融资。他的工作正在为植根于语言、文化和数据主权的人工智能生态系统奠定基础。
我们看到这个地区拥有大量未被充分利用的数据。人工智能扩展过程中的很多问题都源于数据准备不足——这最终意味着人工智能准备不足。这就是我们创立 CNTXT AI 的原因。
最初,我们解决的问题与构建 LocAI 时面临的问题相同……我们在与 AI71、TII 和 G42(IIAI)合作时亲身经历了这些挑战。随着我们帮助这些实体解决这些问题,愿景变得更加清晰,业务也持续增长。
您在建设最大的阿拉伯语AI训练数字图书馆方面发挥了关键作用。您面临的最大挑战是什么?又是如何克服的?
质量是最大的挑战之一。另一个挑战是在线高质量阿拉伯语数据有限:阿拉伯语的代表性严重不足。只有一小部分阿拉伯语内容被数字化,所有在线内容中只有 3-5% 是阿拉伯语。这几乎是微不足道的。我们通过部署数据标注员、注释员和数据科学家来自行数字化、创建和整理数据,从而克服了这个问题。
CNTXT AI 致力于文化与计算的交汇。您如何平衡尖端人工智能创新与为中东和北非地区构建文化相关的解决方案的目标?
我们从零开始构建以文化为根基的模型。从基础设施到最终产品,文化从一开始就根植于模型之中,而非事后添加。我们从第一天起就将特定的文化、方言和需求融入设计、创新和构建之中。阿拉伯语虽然是一种语言,但它却承载着该地区众多的方言和文化背景,因此我们为不同国家/地区打造本地化产品。为此,我们与当地的注释员(他们都是当地的一线人员)合作,在他们自己的国家/地区开展工作。
您还与他人共同创立了 LocAI,并领导了 SMPL AI 基金。这些项目如何与 CNTXT AI 的使命相辅相成?
LocAI 是应用层,即人们实际交互的部分。它位于 CNTXT AI 构建的数据和基础设施之上。这正是它成功的关键:它将 CNTXT AI 提供的人工智能基础转化为人们可以使用的现实解决方案。
另一方面,SMPL AI 致力于回馈社区。它专注于投资早期初创企业,并帮助构建区域 AI 生态系统。我们分享自己在 AI 开发过程中积累的工具和经验,帮助创始人更快地成长,并避免常见的陷阱。
Munsit 被称为世界上最准确的阿拉伯语语音识别模型。是什么推动了该模型的开发?为什么现在才开发?
推动这一模型发展的因素很简单:需求。
我们总是出于需要而进行建设。我们观察了市场,发现时机已经成熟——政府机构和私人客户都在寻求这样的解决方案。
现有的模型根本无法胜任这项任务。大多数模型都是基于英语技术构建,然后再进行调整。它们并非从一开始就为阿拉伯语设计,更不是针对我们正在解决的具体问题而设计的。
所以我们决定自己建一个。设计上,阿拉伯语优先。
Munsit 背后的研究引入了一种弱监督学习方法。您能解释一下这意味着什么吗?为什么它对于大规模训练阿拉伯语 ASR 至关重要?
注释成本高昂。因此,我们必须摒弃依赖大量人工转录的传统方法。弱监督学习帮助我们实现了规模化,无需手动标注每个音频文件——这对于阿拉伯语这种数据有限且方言众多的语言来说尤为重要。
我们没有使用专业转录的音频,而是从 30,000 小时未标注的阿拉伯语语音入手。我们构建了一个标注流程,通过自动化检查生成、筛选和清理最佳语音。这为我们提供了 15,000 小时的高质量数据集,而且完全无需人工转录。
这种方法使我们能够从零开始训练模型,快速且经济高效地捕捉现实生活中阿拉伯语口语的丰富性。如果没有这种方法,构建如此规模的阿拉伯语 ASR 系统将需要数年时间和数百万的人工投入。
Munsit 在多个基准测试中的表现均优于 OpenAI、微软和 Meta 的模型。这一成就对阿拉伯人工智能创新的未来有何启示?
阿拉伯人工智能的未来掌握在我们手中;而这一成就恰恰证明了这一点。我们不能再依赖不属于我们的技术,也不能再依赖不重视我们地区的第三方。
穆西特表明,我们可以在本地打造世界一流的人工智能,立足本地,服务本地——利用本地人才解决本地问题。这清晰地表明,下一波阿拉伯人工智能创新浪潮将源于阿拉伯内部。
您如何看待 Munsit 未来版本的发展,CNTXT 阿拉伯语语音 AI 的下一个前沿是什么?
你们只需拭目以待。我可以说的是,我们即将推出一套全新的、以阿拉伯语为主导的人工智能解决方案——全部由 Munsit 和我们目前在 CNTXT AI 构建的其他模型提供支持。这仅仅是个开始。
您经常谈到“主权人工智能”的重要性。这个词对您来说意味着什么?为什么它对海湾地区以及更广泛的中东和北非地区至关重要?
对我来说,自主AI意味着对塑造我们未来的数据、基础设施和模型拥有完全的所有权和控制权。这一点至关重要,因为我们需要掌握自己的命运,而这始于数据。
数据主权至关重要。数据是宝贵的,我们必须确保它掌握在我们手中。
我们不能放弃自己的未来,坐视他人为我们开发技术。这个地区的人工智能未来将由我们自己创造。这正是我们努力的方向。
您如何看待 CNTXT AI 在未来五年内塑造中东的人工智能生态系统?
通过实现真正的人工智能就绪。我们深入企业和政府,了解其需求,构建数据和人工智能战略,然后帮助他们构建、测试、部署和扩展。
如果数据是新的石油,那么非结构化数据就是未精炼的石油——充满潜力,但在处理之前毫无用处。 这就是我们构建 CNTXT AI 的原因,它旨在帮助企业清理、构建和激活数据。因为真正的 AI 转型由此开始。
从企业家和投资者的角度来看,您会给其他在新兴市场建立人工智能初创企业的创始人什么建议?
现在就开始。快速行动。快速失败,快速学习,并不断迭代。
最重要的是,要针对实际问题进行构建。脚踏实地——倾听用户的声音,而不是只听宣传。在新兴市场,相关性和适应性至关重要。
感谢您的精彩采访,想要了解更多信息的读者可以访问 CNTXT AI.