访谈

Carolyn Harvey,LXT 首席运营官 – 采访系列

mm

Carolyn Harvey 在搜索相关性和机器学习数据注释领域拥有丰富的经验,曾领导和发展了全球运营。Carolyn 目前是 LXT 的首席运营官(COO),她领导公司的全球运营部门,确保所有 AI 数据程序和项目的一致性交付。她专注于大规模高质量数据,建立长期项目的效率,并在大量全球地点扩展。

作为 LXT 的 COO,Carolyn 借助她的丰富经验,致力于开发一流的组织。

您能否简要描述 LXT 的业务以及您作为 COO 的角色?

人工智能依赖于数据来存在,LXT 是一家领先的公司,提供准确、合乎道德的数据来驱动 AI 创新。作为首席运营官,我的角色是监督、领导和扩展我们的全球运营,通过战略、结构和流程来交付最高质量的 AI 数据给我们的客户。我确保我们按时交付各种用例,从生成式 AI 到搜索相关性和自动驾驶汽车等。

LXT 的使命自 2010 年成立以来如何演变?

我们的使命是通过在每种语言、文化和模式下生成和增强数据来驱动未来的技术。我们的目标是帮助各大小公司利用 AI 的巨大益处,通过为他们的模型提供高质量的数据。随着公司使命的演变,我们的服务范围已经扩大,从语言转录和语音采集到包括文本、图像和视频数据采集和注释、生成式 AI 服务等一系列解决方案。我们还扩大了全球范围的 ISO 27001 认证设施,以满足客户日益增长的安全数据服务需求。

是什么推动了 LXT 在 AI 训练数据领域的增长?

各大小组织持续投资于 AI 推动了我们的增长。公司现在知道,AI 是他们保持竞争力的必备条件,而数据驱动着 AI。但并非所有数据都是一样的,成功于 AI 的公司知道,高质量的数据对于创建更准确的 AI 至关重要。

现在,生成式 AI 处于每个人的脑海中,这一趋势为 LXT 带来了更多的增长机会。人类在确保这些解决方案准确、合乎道德和负责方面至关重要。我们提供一系列生成式 AI 服务,包括对大型语言模型的微调、提示创建等。我们的客户知道,要与最终用户建立信任,他们的生成式 AI 产品的输出需要是事实、代表多样化的受众,并且不包含有毒语言。我们可以通过我们的有人参与的服务帮助他们实现这些目标。

生成式 AI 的爆发如何影响 LXT 和其客户?

LXT 已经看到对其 AI 训练数据的需求增加,尤其是核心语言导向的数据,以及与分析、创造力和批判性思维相关的新方面。我们还看到对领域知识和专门的项目工作者配置文件的需求增加。

客户的请求越来越多地超出了过去的机器学习输入的微任务,转向了 LLM 和像 ChatGPT、Gemini 等应用程序所需的更复杂的数据集。我们目前参与了几个创新项目,我们编写提示以混淆生成式 AI,看看它如何响应,然后创建正确的答案。

在未来,这可能会进一步发展为人工通用智能(AGI),其中数据集将映射到更复杂和更复杂的操作。

您有多年的经验在搜索和个性化领域工作,以帮助改进这些算法。目前,领先的公司如何改进搜索相关性,以提供更好的用户体验?

在一个时间宝贵、信息无处不在的世界中,改进搜索相关性可以增强忠诚度、提高转化率、使用户更高效。

搜索相关性始于清理和组织客户的数据,消除可能产生假阳性的任何内容,并通过搜索和推荐引擎可以扫描以生成更精确结果的额外数据字段。借助机器学习和自然语言处理,客户可以赋予搜索引擎更直观地理解用户意图和学习他们的偏好。结果是一个更快的搜索体验,带来更个性化的结果。

达到这一目标需要大量的训练数据,特别注重训练算法如何识别、排名和返回相关实体,以及如何处理拼写错误、语法错误和其他数据异常。我们还建议采用有人参与的(HITL)强化方法,以确保准确的数据、减少偏见,并为最终用户提供更好的搜索体验。随着过去 10 年来机器学习的进步,HITL 对质量审查过程有了更强的关注,这推动了对数据提供商更深入的经验需求。

您能否详细介绍 LXT 对数据注释的方法以及如何确保 AI 训练数据的质量和准确性?

作为运营团队,我们必须首先了解客户如何使用我们提供的数据来开发他们的产品和服务,以确保它符合他们的需求。要实现这一点,我们需要找到具有项目管理和注释经验的专家,尤其是在所需的数据类型方面。

从那里开始,这主要是关于准备和在每个项目开始时找到合适的资源。这包括在范围定义阶段与客户对齐成功因素,以及对项目注释器进行深入的资格和甄选过程,考虑诸如教育背景、特殊兴趣、人口统计学和经验等重要细节。我们还为每个项目开发详细的学习和参考材料作为指南。我们在所有项目生命周期中应用成熟的质量和流程管理监督。我们使用的方法符合并告知行业最佳实践,确保结果符合客户的期望。

所有这些方法都服务于我们的保证数据质量承诺。

LXT 如何处理注释非结构化数据的挑战,非结构化数据占所有数据的 80% 以上?

LXT 已经建立了一个内部注释平台,自动化了注释过程的许多部分,并为工作者提供了结构化和一致的用户界面。在预处理阶段,我们专注于数据准备、输入文件格式化和去除重复等。在后处理中,我们解决数据包装、收集和格式化以交付给客户的问题。

在项目开始之前,我们创建指南并与客户一起审查和迭代整个项目生命周期。我们可以将数据标记过程分解为多个任务,以适当地关注每个项目元素。此外,我们实施质量控制方法来消除错误并实现规模化。

最后,我们的运营卓越团队负责高效和可扩展的项目管理,以确保全球项目的高效率和可扩展性。

LXT 在全球范围内收集数据时面临的一些最大挑战是什么,您如何克服这些挑战?

多样性和偏见是参与者和数据收集中的常见挑战,LXT 和任何 AI 训练数据提供商都会面临。其他挑战包括最近对领域专业知识的需求和向 LLM 和生成式 AI 数据的转变。

我们通过积极主动的候选人池来源来克服这些挑战,我们审查专长、经验、以前的角色、兴趣和人口统计学,以形成团队中多样性,包括性别、分析思维或创造性写作、教育背景等。

一旦我们找到合适的候选人,我们会定期与工作者互动,以建立更有经验、更忠诚和更满意的长期劳动力。

在 AI 评估方面,LXT 如何减轻偏见并确保 AI 系统的输出合乎道德?

正如我之前提到的,确保多样性是许多 AI 训练数据提供商必须解决的挑战,这将有助于减轻偏见并确保合乎道德的输出。

我将再次引用我们的最佳实践,这包括找到多样化和代表性的注释器,并对指南和质量控制措施进行彻底的审查。我们有一个影响力采购策略,允许我们将工作带到新的和多样化的注释器群体中,例如在长尾语言地区。

我们通过使用行业最佳实践、与客户对齐期望以及为项目经理和注释器推动更高的标准来实现合乎道德的输出。沟通也至关重要,包括合规审计、偏见分析和对数据法规和隐私要求的承诺。

LXT 的长期愿景是什么,您如何看待公司在未来五年内的发展?

我们的愿景是提供准确、合乎道德的数据来驱动 AI 和未来的技术的推广,这些技术将增强和改善世界各地人们的体验。

虽然自动化和技术在 AI 中很重要,但也有一个重要的人类组成部分来补充技术。随着我们从简单的自动化任务转向大型语言模型(LLM),从生成式 AI 转向通用人工智能(GAI),将会至关重要的是,AI 产品要忠实地代表人们,无论是那些生成数据的人还是我们的全球社区。

在 LXT,我们努力确保 AI 以积极和变革性的方式使用,反映这些价值观。

感谢这次精彩的采访,希望了解更多的读者可以访问 LXT

安托万是一位具有远见的领导者和Unite.AI的创始合伙人,他被对塑造和推广AI和机器人人的未来充满不动摇的热情所驱动。作为一位连续创业者,他相信AI将对社会产生与电力一样的颠覆性影响,他经常被听到对颠覆性技术和AGI的潜力大加赞赏。

作为一位未来学家,他致力于探索这些创新将如何塑造我们的世界。另外,他也是Securities.io的创始人,这是一个专注于投资于重新定义未来和重塑整个行业的尖端技术的平台。