面试
Phil Hall,LXT 首席增长官 – 访谈系列

LXT 首席增长官 菲尔霍尔 是前澳鹏高管 福布斯技术委员会 成员。 在担任澳鹏的领导职务期间,他管理着一个拥有 1,000 多名员工的部门,并在实现连续 17 年的收入增长和持续强劲的盈利能力方面发挥了关键作用。 他目前在 LXT 任职,正在与精心挑选的专家团队合作,以实现雄心勃勃的增长目标。
龙行通 是人工智能培训数据领域的新兴领导者,为全球组织(包括世界上最大的科技公司)提供智能技术支持。 LXT 与国际贡献者网络合作,以企业所需的速度、规模和敏捷性跨多种方式收集和注释数据。 他们拥有跨越超过 115 个国家和 750 种语言区域的全球专业知识。 LXT 成立于 2010 年,总部位于加拿大多伦多,在美国、澳大利亚、埃及、英国和土耳其设有办事处。 该公司为北美、欧洲、亚太和中东的客户提供服务。
您什么时候开始发现自己对语言充满热情?
从我记事起,我就对语言很感兴趣,但就我对语言和语言学的直接参与而言,对我来说有一个重要的转折点。 我们很早就意识到我们的一个孩子患有阅读障碍,当我们与她的学校谈论额外的支持时,他们说虽然他们可以参加一些项目,但我也可以作为学校的志愿者做一些事情来帮助我们的孩子。女儿和其他孩子。 一切进展顺利,从那里我继续学习语言学,并发现自己在悉尼的两所大学任教。
在进入语音数据领域之前,您正在教授语言学,是什么促使您转移注意力?
总部位于悉尼的澳鹏公司刚刚从一家利用住宅闲置房间经营的企业转型为一家成熟的商业企业。 有人告诉我他们正在寻找语言学家(也许更准确地说,是一名语言学家!),我被介绍给了创始人朱莉和克里斯·冯威勒。 这个转变是渐进的,持续了大约两年的时间。 我不愿意放弃教学——与成绩优异的学生一起工作既鼓舞人心又充满乐趣。 但尤其是在那些开创性的岁月里,我与世界领先的语言技术专家一起解决难题,我的兴奋程度很高。 很多在今天看来是理所当然的事情,在当时却是非常具有挑战性的。
您退休后加入 LXT。 是什么促使您这样做?
这是一个有趣的问题,因为我退休后确实很享受。 事实上,我们的联合创始人兼首席执行官穆罕默德·奥马尔(Mohammad Omar)在我回复他最初的询问之前几个月就找到了我,因为我过着轻松的生活方式,并没有真正考虑过重返全职工作。 在同意接听 Mo 询问加入 LXT 的可能性的第一个电话后,我希望只是礼貌地倾听并拒绝。
但最终,这个机会实在是太好了,让人无法抗拒。
在与 Mohammad 和 LXT 团队的其他成员交谈时,我立即意识到他们对语言有着共同的热情。 穆罕默德组建的团队充满了充满创造力的思想家,他们全心致力于公司的使命。
当我更多地了解 LXT 的机会时,我意识到这是一个我不想错过的机会。 这是一家在我热衷的领域拥有巨大扩张和发展潜力的公司。 随着人工智能市场继续呈指数级增长,有机会帮助更多组织从实验转向生产是一个令人兴奋的机会,我很高兴能成为其中的一员。
当前大规模获取数据背后存在哪些挑战?
挑战与驱动挑战的应用程序一样多种多样。
从实际角度来看,挑战包括真实性、可靠性、准确性、安全性以及确保数据适合其目的,而这还没有考虑到数据采集中固有的越来越多的法律和道德挑战。
例如,支持自动驾驶汽车的技术开发需要在多种场景中收集极大量的数据,以便汽车了解如何应对现实世界的情况。 人们在驾驶时可能会遇到无数的边缘情况,因此为这些车辆提供动力的算法需要涵盖从街道到停车标志再到坠落物体等所有内容的数据集。 然后,如果将其乘以可能发生的天气事件的数量,所需的训练数据量就会呈指数级增长。 涉足自动驾驶领域的汽车公司需要建立可靠的数据管道,而仅靠自己来做到这一点将需要大量资源。
另一个用例是将现有语音人工智能产品扩展到新市场,以占领市场份额和新客户。 这不可避免地需要语言数据,为了实现准确性,从各种人口统计资料中的母语人士那里获取语音数据至关重要。 收集数据后,需要转录语音文件以训练产品的 NLP 算法。 对于公司来说,以多种语言和有效所需的数据量来完成这项工作非常具有挑战性,特别是如果他们缺乏该领域的内部专业知识。
这些只是大规模人工智能数据收集所面临的众多挑战的两个例子,但正如您可以想象的那样,家庭自动化、移动设备和生物识别数据收集也各自面临着特定的挑战。
LXT 当前获取和注释数据的方式有哪些?
在 LXT,我们为每个客户收集和注释不同的数据,因为我们所有的活动都是为了满足客户的规格而量身定制的。 我们处理各种数据类型,包括音频、图像、语音、文本和视频。 在数据收集方面,我们与全球承包商网络合作,以不同的方式收集数据。 收集的范围可以从在家庭、办公室或车内等现实环境中获取数据,到在某些语音数据收集项目中由经验丰富的工程师在工作室中获取。
我们的数据注释功能还涵盖多种模式。 我们的经验始于语音领域,在过去 12 年里,我们已扩展到超过 115 个国家/地区和超过 750 个语言区域。 这意味着各种规模的公司都可以依靠 LXT 来帮助他们打入广泛的市场并捕获新的客户群。 最近,我们已扩展到文本、图像和视频数据,我们的内部平台用于向客户提供高质量的数据。
对我们来说另一个令人兴奋的增长领域是我们的安全注释工作。 就在今年,我们将 ISO 27001 安全设施覆盖范围从全球的两个地点扩大到了五个地点。 我们现在已经制定了一个剧本,使我们能够在几个月内建立新设施。 目前,我们在这些安全设施中关注的服务是语音数据注释和转录,但它们可用于跨多种数据类型的注释。
为什么以这种方式获取数据是合成数据的更好替代方案?
合成数据是人工智能领域令人兴奋的发展,非常适合特定的用例,特别是在现实世界中难以捕获的边缘情况。 合成数据的使用正在增加,特别是在人工智能成熟的早期阶段,因为公司仍处于实验模式。 然而,我们自己的 研究 表明,随着组织成熟其人工智能策略并将更多模型投入生产,他们更有可能使用依赖于人类注释数据的监督或半监督机器学习方法。
人类比计算机更善于理解细微差别,从而创建训练机器学习模型高精度执行所需的数据,而人类监督对于减少偏差也至关重要。
为什么这些数据对语音和自然语言处理如此重要?
为了使语音和自然语言处理算法在其目标市场中有效工作,需要使用来自母语人士的大量数据进行训练,这些数据具有其所代表的最终用户的文化背景。 如果没有这些数据,语音人工智能的采用将受到严重限制。
此外,收集语音数据时需要考虑环境。 例如,如果正在训练的语音人工智能解决方案将在汽车中使用,则需要考虑影响语音的不同道路和天气条件。 这些都是复杂的场景,经验丰富的数据合作伙伴可以提供帮助。
关于LXT,您还有什么想分享的吗?
首先,我要感谢您给我机会分享我们的故事! 我想强调的是,我们公司致力于帮助各种规模的组织成功实施人工智能计划。 12 年来,我们一直致力于为世界各地的公司提供高度定制的 AI 数据,我们很乐意与任何希望创建可靠的数据管道来支持其 AI 项目的人建立联系。
感谢您的精彩采访,想要了解更多信息的读者可以访问 龙行通.












