关注我们.

面试

Amr Nour-Eldin,LXT 技术副总裁 – 访谈系列

mm

Amr Nour-Eldin,技术副总裁 龙行通。 Amr 是一名博士。研究科学家,在自动语音识别 (ASR) 背景下的语音/音频处理和机器学习领域拥有超过 16 年的专业经验,近年来特别关注流媒体端的深度学习技术并拥有实践经验- 到终端的语音识别。

龙行通 是人工智能培训数据领域的新兴领导者,为全球组织提供智能技术支持。 LXT 与国际贡献者网络合作,以企业所需的速度、规模和敏捷性跨多种方式收集和注释数据。 他们的全球专业知识涵盖超过 145 个国家和超过 1000 个语言区域。

您在麦吉尔大学攻读信号处理博士学位,您最初对这个领域感兴趣的是什么?

我一直想学习工程学,并且总体上非常喜欢自然科学,但更具体地被数学和物理所吸引。 我发现自己总是试图弄清楚自然是如何运作的,以及如何运用这种理解来创造技术。 高中毕业后,我有机会进入医学和其他行业,但我特别选择了工程学,因为在我看来,它代表了我最喜欢的两个领域的理论和应用的完美结合:数学和物理。 一旦我选择了它,就有很多潜在的路径——机械的、土木的等等。 但我特别选择了电气工程,因为在我看来,它是最接近、也是最难的数学和物理问题类型,我总是觉得这些问题具有挑战性,因此更喜欢这些问题,并且它是现代技术的基础,一直推动着这些问题的发展。我。

在电气工程领域,有多种专业可供选择,这些专业通常分为两大类:电信和信号处理,以及电力和电气工程。 当需要在这两者之间进行选择时,我选择了电信和信号处理,因为它更接近我们通过物理和方程描述自然的方式。 你谈论的是信号,无论是音频、图像还是视频; 了解我们如何沟通以及我们的感官感知什么,以及如何以数学方式表示这些信息,使我们能够利用这些知识来创造和改进技术。

您能否讨论一下您在麦吉尔大学关于人工带宽扩展(BWE)信息论方面的研究?

完成学士学位后,我想继续在信号处理领域进行学术研究。 作为物理学硕士学位的一部分学习光子学一年后,我决定转回工程专业,攻读音频和语音信号处理硕士学位,重点是语音识别。 当我攻读博士学位时,我想将我的领域扩大到通用音频和语音处理以及密切相关的机器学习和信息论领域,而不仅仅是专注于语音识别应用。

我攻读博士学位的工具是窄带语音的带宽扩展。 窄带语音是指传统的电话语音。 语音的频率内容延伸至 20 kHz 左右,但大部分信息内容集中在 4 kHz 以内。 带宽扩展是指人为地将语音内容从 3.4 kHz(传统电话的频率上限)扩展到 XNUMX kHz 或更高。 为了在仅给定可用窄带内容的情况下更好地重建丢失的高频内容,必须首先量化两个频带中语音内容之间的互信息,然后使用该信息来训练学习共享信息的模型; 该模型经过训练后,可用于在仅给出窄带语音以及模型了解的可用窄带语音与丢失的高带内容之间的关系的情况下生成高带内容。 量化和表示共享的“互信息”是信息论的用武之地。信息论是对量化和表示任何信号中的信息的研究。 所以我的研究是关于结合信息理论来改进语音的人工带宽扩展。 因此,我的博士学位更多的是一项跨学科研究活动,我将信号处理与信息论和机器学习结合起来。

您曾在 Nuance Communications(现已成为 Microsoft 的一部分)担任首席语音科学家超过 16 年,您从这段经历中得到的主要收获是什么?

从我的角度来看,最重要的好处是我始终致力于信号处理和机器学习领域最先进的尖端技术,并将该技术应用于实际应用。 我有机会将这些技术应用于跨多个领域的对话式人工智能产品。 这些领域涵盖企业、医疗保健、汽车和移动出行等。 一些特定应用包括虚拟助理、交互式语音响应、语音邮件到文本,以及其他需要正确表示和转录的应用,例如在医疗保健中与医生/患者互动。 在这 16 年里,我有幸亲眼目睹并成为对话式 AI 演变的一部分,从使用隐马尔可夫模型进行统计建模的时代,到深度学习的逐渐接管,再到现在深度学习激增并主导了几乎所有领域。人工智能的各个方面,包括生成人工智能以及传统的预测或判别式人工智能。 从该经验中得到的另一个重要结论是,数据通过数量和质量发挥着至关重要的作用,作为人工智能模型功能和性能的关键驱动因素。

您已经发表了十几篇论文,其中包括在 IEEE 等著名出版物上。 您认为您发表的最具开创性的论文是什么?为什么它很重要?

根据 Google Scholar 的引用次数,最有影响力的一篇论文是 2008 年的一篇论文,题为“基于梅尔倒谱系数的窄带语音带宽扩展”。 从高层次来看,本文的重点是如何使用自动语音识别(ASR)领域广泛使用的特征表示(梅尔频率倒谱系数)来重建语音内容。

然而,在我看来,更具创新性的论文是引用次数第二多的论文,2011 年的一篇论文,题为“用于窄带语音带宽扩展的高斯混合模型框架的基于记忆的逼近”。 在这项工作中,我提出了一种新的统计建模技术,该技术将语音中的时间信息结合起来。 该技术的优点在于,它允许以最小的额外复杂性对语音中的长期信息进行建模,并且仍然允许以流式或实时方式生成宽带语音。

2023 年 XNUMX 月,您是 被任命为 LXT 技术副总裁,是什么吸引你来到这个职位?

在加入 LXT 之前的整个学术和职业经历中,我一直直接与数据打交道。 事实上,正如我之前指出的,我从语音科学和机器学习工作中得到的一个重要收获是数据在人工智能模型生命周期中发挥的关键作用。 拥有足够的正确格式的高质量数据对于最先进的基于深度学习的人工智能的成功至关重要。 因此,当我碰巧处于职业生涯的某个阶段时,我正在寻找一个类似初创公司的环境,在那里我可以学习、拓宽我的技能,并利用我的演讲和人工智能经验产生最大的影响,我很幸运有机会加入LXT。 这是完美的契合。 LXT 不仅是一家以令人印象深刻且持续的速度增长的人工智能数据提供商,而且我还认为它在人工智能专业知识以及客户规模和多样性方面的增长处于完美的阶段,因此在人工智能方面也处于完美的阶段。和人工智能数据类型。 我很高兴有机会加入并帮助其成长之旅; 多年来一直是人工智能数据科学家用户,通过引入数据最终用户的观点来产生巨大影响。

你在 LXT 的平均一天是怎样的?

我每天的工作都是从研究某个主题的最新研究开始,这些主题最近主要围绕生成人工智能,以及我们如何将其应用于客户的需求。 幸运的是,我拥有一支优秀的团队,他们非常擅长根据客户通常专业的人工智能数据需求创建和定制解决方案。 因此,我与他们密切合作来制定该议程。

当然,还有战略年度和季度规划,并将战略目标分解为各个团队目标,并跟上这些计划的发展速度。 至于我们正在做的功能开发,我们一般有两个技术轨道。 一是确保我们拥有正确的部分,以便为我们当前和新的项目提供最佳成果。 另一条轨道是改进和扩展我们的技术能力,重点是将机器学习融入其中。

您能讨论一下您在 LXT 从事的机器学习算法类型吗?

人工智能解决方案正在改变各行各业的业务,LXT 很荣幸能够提供高质量的数据来训练为其提供支持的机器学习算法。我们的客户正在开发广泛的应用程序,包括增强现实和虚拟现实、计算机视觉、对话式人工智能、生成式人工智能、搜索相关性以及语音和自然语言处理 (NLP) 等。我们致力于通过跨每种语言、文化和模式的数据生成和增强来推动未来的机器学习算法和技术。

在内部,我们还结合机器学习来改进和优化我们的内部流程,从自动化数据质量验证到在我们处理的所有数据模式中启用人机循环标签模型。

对于英语,特别是白人来说,语音和音频处理正在迅速接近完美。 您预计需要多长时间才能成为一个跨所有语言、性别和种族的公平竞争环境?

这是一个复杂的问题,取决于多种因素,包括经济、政治、社会和技术等。 但显而易见的是,英语的流行推动人工智能发展到今天的水平。 因此,要达到一个公平竞争的环境,实际上取决于来自不同种族和人群的数据在网上增长的速度,而增长的速度将决定我们何时达到这一目标。

然而,LXT 和类似的公司可以在推动我们走向更加公平的竞争环境方面发挥重要作用。 只要代表性较差的语言、性别和种族的数据难以获取或根本无法获得,这种变化就会来得更慢。 但我们正在努力尽自己的一份力量。 LXT 覆盖 1,000 多种语言区域并在 145 个国家/地区拥有丰富经验,有助于访问更多语言数据。

您对 LXT 如何加速不同客户的人工智能工作有何愿景?

LXT 的目标是提供数据解决方案,以实现高效、准确和更快的人工智能开发。 通过我们在人工智能数据领域12年的经验,我们不仅在数据相关的各个方面积累了关于客户需求的丰富知识,而且还不断调整我们的流程,以提供最高的服务以最快的速度和最优惠的价格提供高质量的数据。 因此,由于我们坚定地致力于为客户提供人工智能数据质量、效率和定价的最佳组合,我们已成为值得信赖的人工智能数据合作伙伴,这一点从我们的回头客不断回到 LXT 中就可以看出。不断增长和发展的人工智能数据需求。 我的愿景是巩固、改进和扩展 LXT“MO”,使其适用于我们处理的所有数据模式以及我们现在服务的所有类型的人工智能开发,包括生成式人工智能。 实现这一目标需要从技术和资源方面战略性地扩展我们自己的机器学习和数据科学能力。

感谢您的精彩采访,想要了解更多信息的读者可以访问 龙行通.

Antoine 是一位富有远见的领导者,也是 Unite.AI 的创始合伙人,他对塑造和推动人工智能和机器人技术的未来有着坚定不移的热情。作为一名连续创业者,他相信人工智能将像电力一样颠覆社会,并经常对颠覆性技术和 AGI 的潜力赞不绝口。

作为一个 未来学家他致力于探索这些创新将如何塑造我们的世界。此外,他还是 证券一个专注于投资重新定义未来和重塑整个行业的尖端技术的平台。