访谈
阿姆尔·努尔-埃尔丁,LXT 技术副总裁 – 采访系列

阿姆尔·努尔-埃尔丁是 LXT 的技术副总裁。阿姆尔是一位具有 16 年以上专业经验的博士研究科学家,专注于语音/音频处理和机器学习,特别是在自动语音识别(ASR)领域,近年来他还专注于深度学习技术,用于流式端到端语音识别。
LXT 是一家领先的 AI 训练数据提供商,旨在为全球组织提供智能技术。通过与国际贡献者网络的合作,LXT 收集和注释多种模态的数据,具有企业所需的速度、规模和敏捷性。他们的全球专业知识涵盖 145 个国家和 1000 多个语言区域。
您在麦吉尔大学攻读信号处理博士学位,最初是什么吸引您进入这个领域?
我一直想学习工程学,并且真的喜欢自然科学,但更具体地讲,我被数学和物理所吸引。我一直试图弄清楚自然如何运作,以及如何应用这种理解来创造技术。在高中毕业后,我有机会进入医学和其他专业,但我选择了工程学,因为它代表了我心目中数学和物理的完美结合。然后,一旦我选择了它,就有很多可能的路径 – 机械、土木等。但我选择了电气工程,因为它是最接近数学和物理问题的领域,也是现代技术的基础,这一直驱使着我。
在电气工程中,有各种专门化可以选择,通常分为两大类:电信和信号处理,以及电力和电气工程。当选择这两者之间的路径时,我选择了电信和信号处理,因为它更接近于通过物理和方程描述自然。你正在谈论信号,无论是音频、图像还是视频;理解我们如何交流以及我们的感官如何感知信息,以及如何以一种可以让我们利用这种知识来创造和改进技术的方式数学地表示这种信息。
您能否讨论您在麦吉尔大学关于人工带宽扩展(BWE)信息论方面的研究?
在完成学士学位后,我想继续在信号处理领域进行学术研究。完成物理学硕士学位的一年后,我决定转回工程学,攻读音频和语音信号处理的硕士学位,重点研究语音识别。当我准备攻读博士学位时,我想拓宽我的研究领域,除了语音识别应用外,还包括一般的音频和语音处理,以及机器学习和信息论等相关领域。
我的博士研究的载体是窄带语音的带宽扩展。窄带语音是指传统的电话语音。语音的频率内容可以扩展到大约 20 千赫兹,但信息内容的大部分集中在 4 千赫兹以下。带宽扩展是指将语音内容从 3.4 千赫兹(传统电话的上限频率)人工扩展到 8 千赫兹或更高。为了更好地重构缺失的高频内容,仅凭借可用的窄带内容,首先需要量化两个频率带中的语音内容之间的互信息,然后使用该信息训练一个模型,该模型学习这种共享信息;训练后,该模型可以生成高频内容,仅凭借窄带语音和模型对窄带语音和缺失的高频内容之间的关系的了解。量化和表示这种共享的“互信息”是信息论的内容。信息论是研究信号中的信息量化和表示的学科。因此,我的研究是关于将信息论纳入语音的带宽扩展中。
您曾在 Nuance Communications 任职 16 年,现已成为微软的一部分,您从这段经历中得到了什么关键的收获?
从我的角度来看,最重要的收获是,我一直在应用最先进的技术和机器学习技术,并将这些技术应用于现实世界的应用。我有机会在多个领域应用这些技术,包括企业、医疗保健、汽车和移动等。其中一些具体的应用包括虚拟助手、交互式语音应答、语音邮件转文本等,需要正确的表示和转录,例如在医疗保健领域的医生/患者交互中。在这 16 年中,我有幸亲眼目睹并参与了对话式 AI 的演变,从使用隐马尔可夫模型的统计建模,到逐渐被深度学习所取代,如今深度学习已经主导了几乎所有的 AI 方面,包括生成式 AI 和传统的预测或判别式 AI。另一个关键的收获是数据在 AI 模型能力和性能方面的重要性,数据的数量和质量是驱动 AI 模型的关键因素。
您发表了十几篇论文,包括在 IEEE 等著名出版物上发表的论文。在您看来,您发表的最开创性的论文是什么,为什么它很重要?
根据谷歌学术的引用次数,最有影响力的论文是 2008 年发表的一篇题为“基于 Mel 频率倒谱系数的窄带语音带宽扩展”的论文。从高层次上讲,这篇论文的重点是如何使用广泛应用于自动语音识别(ASR)领域的特征表示来重构语音内容。
然而,在我看来,更具创新性的论文是 2011 年发表的一篇题为“基于记忆的高斯混合模型框架用于窄带语音的带宽扩展”的论文。在这项工作中,我提出了一个新的统计建模技术,该技术将语音中的时间信息纳入其中。这种技术的优势在于它可以以最小的额外复杂度来建模语音中的长期信息,并且可以以流式或实时的方式生成宽带语音。
2023 年 6 月,您被 LXT 招聘为技术副总裁,这个职位吸引了您什么?
在加入 LXT 之前,我在学术和职业生涯中一直与数据打交道。事实上,如我之前所提到的,我的一个关键收获是数据在 AI 模型生命周期中的重要性。拥有足够的高质量数据对于实现最先进的深度学习技术至关重要。因此,当我处于一个阶段,正在寻找一个可以学习、拓宽技能并利用我的语音和 AI 经验产生最大影响的环境时,我很幸运地有机会加入 LXT。这是一个完美的契合。LXT 不仅是一家 AI 数据提供商,而且正在快速而稳定的增长之中,我看到了一个机会,可以加入并帮助公司的成长旅程;通过带来语音和 AI 的视角,成为一个数据的终端用户,在过去的许多年里,我一直是 AI 数据科学家的用户。
您在 LXT 的平均一天是什么样的?
我的平均一天从查看最新的研究开始,最近的研究重点是生成式 AI,以及如何将其应用于客户的需求。幸运的是,我有一支优秀的团队,他们非常擅长为客户创建和定制解决方案,以满足他们的特殊 AI 数据需求。因此,我与他们密切合作,以设定议程。
当然,还有战略性的年度和季度规划,以及将战略目标分解为个人团队目标,并跟踪这些计划的进展。至于我们正在开发的功能,我们通常有两条技术轨道。一条是确保我们拥有交付当前和新项目的最佳成果的正确组件。另一条轨道是提高和扩展我们的技术能力,重点是将机器学习融入其中。
您能否讨论一下您在 LXT 工作的机器学习算法类型?
人工智能解决方案正在各个行业中改变企业,我们在 LXT 荣幸地为这些解决方案提供高质量的数据来训练机器学习算法。我们的客户正在从事广泛的应用,包括增强和虚拟现实、计算机视觉、对话式 AI、生成式 AI、搜索相关性和语音及自然语言处理等。我们致力于通过数据生成和增强来为未来机器学习算法和技术提供动力,涵盖每种语言、文化和模态。
在内部,我们也在将机器学习融入内部流程中,以提高和优化我们的数据质量验证、启用人工标注模型等方面的工作,涵盖我们工作的所有数据模态。
语音和音频处理在英语和特别是白人男性方面已经接近完美。您预计要多久时间才能实现所有语言、性别和民族的平等地位?
这是一个复杂的问题,取决于多种因素,包括经济、政治、社会和技术等。但是,很明显,英语的普遍性是推动 AI 发展到现在的主要因素。因此,要达到一个平等的状态,取决于不同民族和人口在线数据的增长速度,以及这种增长的速度将决定我们何时到达那里。
然而,LXT 和类似的公司可以在推动我们朝着更平等的状态发展方面发挥重要作用。只要代表性不足的语言、性别和民族的数据难以获取或根本不可用,变化就会更慢。但我们正在努力做出贡献。凭借对 1000 多个语言区域和 145 个国家的覆盖,LXT 有助于使更多语言的数据变得可及。
您对 LXT 如何加速不同客户的 AI 努力有何设想?
我们的目标是提供数据解决方案,以实现高效、准确和快速的 AI 开发。通过我们在 AI 数据领域 12 年的经验,不仅积累了大量关于客户需求的知识,而且我们还不断完善流程,以提供最高质量的数据、最快的速度和最优的价格。因此,通过致力于为客户提供最佳的 AI 数据质量、效率和价格的结合,我们已成为客户信赖的 AI 数据合作伙伴,如我们的重复客户所证明的,他们继续回到 LXT 以满足他们不断增长和不断演变的 AI 数据需求。我的愿景是巩固、改进和扩展这种 LXT 的“方法”到我们工作的所有数据模态,以及我们现在服务的所有类型的 AI 开发,包括生成式 AI。实现这一目标的关键在于战略性地扩展我们自己的机器学习和数据科学能力,既包括技术,也包括资源。
感谢这次精彩的采访,希望了解更多的读者可以访问 LXT。












