Connect with us

访谈

Phil Hall,LXT 首席增长官 – 采访系列

mm

LXT 首席增长官 Phil Hall 是前 Appen 高管和 Forbes Technology Council 成员。在 Appen 的领导角色中,他管理着 1000 多名员工,并在实现 17 年连续收入增长和持续强劲盈利能力方面发挥了关键作用。在 LXT 的当前角色中,他正在与一支精心挑选的专家团队合作,以实现雄心勃勃的增长目标。

LXT 是人工智能训练数据领域的新兴领导者,旨在为全球组织提供智能技术,包括世界上最大的科技公司。通过与国际贡献者网络合作,LXT 收集和注释多种模态的数据,具有企业所需的速度、规模和敏捷性。他们的全球专业知识涵盖 115 多个国家和 750 多个语言环境。LXT 成立于 2010 年,总部位于加拿大多伦多,在美国、澳大利亚、埃及、英国和土耳其设有办事处。该公司为北美、欧洲、亚太和中东的客户提供服务。

您最初是什么时候发现自己对语言充满热情的?

我对语言的兴趣可以追溯到很久以前,但就我直接参与语言和语言学而言,有一个重要的转折点。我们很早就意识到我们的孩子之一有阅读障碍,当我们与学校讨论额外的支持时,他们说虽然有他们可以使用的程序,但也有我可以作为学校志愿者做的事情来帮助我们的女儿和其他孩子。这进展顺利,我从那里开始学习语言学,并发现自己在两所大学教书。

您在转入语音数据领域之前曾教授语言学,您是什么时候决定转变职业的?

总部位于悉尼的 Appen 正在从家庭客厅里的一个操作转变为一个完全成熟的商业运营。我被告知他们正在寻找语言学家(也许更准确地说,是一位语言学家!),我被介绍给了创始人 Julie 和 Chris Vonwiller。转变过程是渐进的,花了大约两年时间。我不愿意放弃教学——与高成就的学生一起工作既令人振奋又很有趣。但是,尤其是在那些开拓性的年份里,我正在与世界领先的语言技术专家一起解决棘手的问题,激动人心的程度很高。今天被认为是理所当然的事情,当时却非常具有挑战性。

您从退休中走出来加入 LXT。是什么激励您这样做的?

这是一个有趣的问题,因为我当时确实很享受退休生活。事实上,我们的联合创始人和 CEO Mohammad Omar 在我回应他的初步询问几个月前就联系了我,因为我过着悠闲的生活,并没有真正考虑过返回全职工作。在同意接受第一次通话后,Mo 询问了加入 LXT 的可能性,我预计只会礼貌地倾听并拒绝。

但最终,机会实在太好了,无法抗拒。

在与 Mohammad 和 LXT 团队的其他成员交谈时,我立即认识到了一种对语言的共同热情。Mohammad 聚集的团队中充满了富有创造力的思想家,他们拥有无穷的精力,完全致力于公司的使命。

当我了解更多关于 LXT 的机会时,我意识到这是一个我不想错过的机会。这里有一家公司具有巨大的潜力来扩大和增长在我热衷的领域。随着人工智能市场的指数级增长,帮助更多组织从实验转向生产是一个令人兴奋的机会,我很高兴成为其中的一部分。

目前获取大量数据的挑战是什么?

挑战与应用驱动它们一样多样。

从实际角度来看,挑战包括真实性、可靠性、准确性、安全性以及确保数据适合其目的——这还没有考虑到数据采集中固有的众多法律和道德挑战。

例如,支持自动驾驶汽车的技术开发需要收集大量数据,涵盖多种场景,以便汽车能够理解如何应对现实世界的情况。驾驶时会遇到无数边缘情况,需要算法来训练车辆以高精度运行。这些数据集需要涵盖从街道到停车标志再到掉落物体的一切。然后,如果你将其乘以可能发生的天气事件数量,所需的训练数据量会呈指数级增加。进入自动驾驶领域的汽车公司需要建立可靠的数据管道,在没有内部专业知识的情况下自己完成这项工作将需要大量资源。

另一个用例是将现有的语音 AI 产品扩展到新的市场,以占据市场份额和新客户。这不可避免地需要语言数据,并且为了实现准确性,必须从具有目标用户文化背景的本地人中获取语音数据。一旦收集了数据,语音文件就需要被转录以训练产品的 NLP 算法。为多种语言和大量数据做到这一点对于公司来说非常具有挑战性,尤其是如果他们缺乏该领域的内部专业知识。

这些只是大量收集人工智能数据的许多挑战的两个例子,但您可以想象,家庭自动化、移动设备和生物数据收集每个都有其特定的挑战。

LXT 目前如何获取和注释数据?

在 LXT,我们为每个客户以不同的方式收集和注释数据,因为我们所有的合作都是根据客户的规格量身定制的。我们处理各种数据类型,包括音频、图像、语音、文本和视频。对于数据收集,我们与全球网络的承包商合作,在这些不同的模态中收集数据。收集可以从在现实世界环境中获取数据(例如家庭、办公室或车内)到在工作室中与经验丰富的工程师合作(在某些语音数据收集项目中)。

我们的数据注释能力也跨越多种模态。我们的经验始于语音领域,过去 12 年我们已扩展到 115 个国家和 750 多个语言环境。这意味着各大小公司都可以依靠 LXT 来帮助他们进入广泛的市场并捕获新的客户细分。最近,我们扩展到了文本、图像和视频数据,我们的内部平台用于向客户交付高质量的数据。

我们增长的另一个令人兴奋的领域是我们的安全注释工作。就在今年,我们将 ISO 27001 安全设施的全球布局从 2 个扩展到 5 个。我们已经开发了一个游戏规则,可以让我们在几个月内建立新的设施。我们目前在这些安全设施中关注的服务是语音数据注释和转录,但它们可以用于注释多种数据类型。

为什么以这种方式获取数据比合成数据更好?

合成数据是人工智能领域的令人兴奋的发展,特别适用于特定的用例,尤其是很难在现实世界中捕捉到的边缘情况。合成数据的使用正在增加,尤其是在人工智能成熟度的早期阶段,公司仍处于实验模式。然而,我们自己的 研究 表明,随着组织成熟其人工智能战略并将更多模型推向生产,他们更有可能使用依赖于人工注释数据的监督或半监督机器学习方法。

人类在理解细微差别方面比计算机更好,以创建训练 ML 模型以高精度运行所需的数据。人类的监督也对于减少偏见至关重要。

为什么这种数据对语音和自然语言处理如此重要?

为了使语音和自然语言处理算法在预期市场中有效地运行,需要用来自具有目标用户文化背景的本地人的大量数据来训练它们。没有这些数据,语音 AI 的采用将受到严重限制。

此外,收集语音数据时需要考虑环境。如果要训练的语音 AI 解决方案将在汽车中使用,则需要考虑不同的道路和天气条件,这些条件会影响语音并需要被考虑在内。这些是复杂的场景,经验丰富的数据合作伙伴可以提供帮助。

您是否还有其他关于 LXT 的信息想要分享?

首先,我想感谢您提供的机会来分享我们的故事!我想强调,我们的公司致力于帮助所有规模的组织成功实施人工智能计划。我们专注于为全球各地的公司提供高度定制的 AI 数据,已有 12 多年,并且我们很乐意与任何寻求建立可靠的数据管道来支持其 AI 项目的人联系起来。

感谢您这次精彩的采访,希望了解更多的读者可以访问 LXT

安托万是一位具有远见的领导者和Unite.AI的创始合伙人,他被对塑造和推广AI和机器人人的未来充满不动摇的热情所驱动。作为一位连续创业者,他相信AI将对社会产生与电力一样的颠覆性影响,他经常被听到对颠覆性技术和AGI的潜力大加赞赏。

作为一位未来学家,他致力于探索这些创新将如何塑造我们的世界。另外,他也是Securities.io的创始人,这是一个专注于投资于重新定义未来和重塑整个行业的尖端技术的平台。