关注我们.

面试

LXT 首席运营官 Carolyn Harvey – 访谈系列

mm

卡洛琳·哈维 (Carolyn Harvey) 在领导和发展全球业务领域拥有丰富的经验 搜索相关性 ML 数据的排名和注释。卡罗琳 (Carolyn) 现任首席运营官 (COO) 龙行通 她领导公司的全球运营部门,确保所有人工智能数据计划和项目的一致交付。她专注于大规模高质量数据、提高长期计划的效率以及在全球大量地区进行扩展。

作为 LXT 的首席运营官,卡罗琳利用她丰富的经验来发展一个一流的组织。

您能简单介绍一下 LXT 的业务以及您作为首席运营官的角色吗?

人工智能依赖于数据而存在,LXT 是提供准确、符合道德来源的数据以推动人工智能创新的新兴领导者。作为首席运营官,我的职责是通过战略、结构和流程来监督、领导和扩展我们的全球运营,使我们能够向客户提供最高质量的人工智能数据。我确保我们在广泛的用例中按时交付,从生成人工智能到搜索相关性和自动驾驶汽车等等。

自 2010 年成立以来,LXT 的使命如何演变? 

我们的使命是通过跨语言、文化和模式的数据生成和增强来推动未来的技术。我们的目标是通过高质量数据为模型提供支持,帮助各种规模的公司充分利用人工智能带来的令人难以置信的好处。随着公司使命的发展,我们的服务范围从语言转录和语音采集扩展到包括文本、图像和视频的数据采集和注释、生成人工智能服务等在内的广泛解决方案。我们还扩大了 ISO 27001 认证设施的全球覆盖范围,以满足客户对安全数据服务日益增长的需求。

其在人工智能训练数据领域增长的关键驱动力是什么?

各种规模的组织对人工智能的持续投资推动了我们的增长。公司现在知道人工智能是他们保持竞争力的赌注,而数据为人工智能提供动力。但并非所有数据都是平等的,在人工智能领域取得成功的公司都知道,高质量的数据对于创建更准确的人工智能至关重要。

现在,随着每个人都开始关注生成式人工智能,这一趋势为 LXT 带来了更多的增长机会。人类对于确保这些解决方案的准确性、道德性和负责任性至关重要。我们在微调大型语言模型、即时创建等领域提供一系列生成式人工智能服务。我们的客户知道,为了与最终用户建立信任,他们的生成式人工智能产品的输出需要真实、代表多元化的受众,并且不含有毒语言。我们可以通过我们的人性化服务帮助他们实现这些目标。

生成式人工智能的爆炸式增长对 LXT 及其客户有何影响?

由于生成式人工智能,LXT 对其人工智能训练数据的需求不断增加,无论是面向核心语言的数据,还是与分析、创造力和批判性思维相关的新方面。我们还看到对项目工作人员的领域知识和专业档案的需求不断增加。

客户的要求越来越超出了过去对法学硕士的微任务机器学习输入,以及 ChatGPT、Gemini 和许多分支等应用程序所需的更复杂的数据集。我们目前参与了几个创新项目,我们正在编写提示,旨在迷惑生成式人工智能,看看它如何反应,然后创建正确的答案。

未来,这可能会进一步发展为通用人工智能(AGI),其中数据集将映射到更复杂和复杂的动作。

您在搜索和个性化方面拥有多年的经验,可以帮助改进这些算法。领先公司通过哪些方法来提高搜索相关性以提供更好的用户体验?

在时间宝贵、信息无处不在的世界中,提高搜索相关性可以增强忠诚度、提高转化率并提高用户的工作效率。

搜索相关性首先要清理和组织客户的数据,根除任何可能产生误报的内容,并创建额外的数据字段,搜索和推荐引擎可以通过这些字段进行搜索以生成更精确的结果。借助机器学习和自然语言处理,客户可以让他们的搜索引擎更直观地确定用户意图并随着时间的推移了解他们的偏好。其结果是更快的搜索体验,带来更个性化的结果。

实现这一目标需要大量的训练数据,特别关注训练算法如何识别、排名和返回相关实体,以及如何处理拼写错误、语法错误和其他数据异常。我们还建议采用人机交互 (HITL) 强化方法,以确保数据准确、减少偏差,并为最终用户提供更好的搜索体验。随着过去 10 年机器学习的进步,HITL 更加关注质量审核流程,这推动了对数据提供商更深入经验的需求。

您能否详细介绍一下LXT的数据标注方法以及如何确保AI训练数据的质量和准确性?

作为运营团队,我们首先必须了解客户在开发其产品和服务时如何使用我们提供的数据,以确保满足他们的需求。为了实现这一目标,我们需要找到在所需数据类型方面拥有丰富经验的项目管理和注释专家。

从那时起,主要是在每个项目开始时做好准备并找到合适的资源。这包括在范围界定阶段就成功因素与客户保持一致,以及项目注释者的深入资格和审查流程,考虑教育背景、特殊兴趣、人口统计和经验等重要细节。我们还为每个项目定制详细的学习和参考材料作为指南。我们在整个项目生命周期中应用成熟的质量和流程管理监督。我们使用的方法符合行业最佳实践并为行业最佳实践提供信息,确保结果满足客户的期望。

所有这些方法都服务于我们保证的数据质量承诺。

LXT 如何应对注释非结构化数据(占所有数据的 80% 以上)的挑战?

LXT 构建了一个内部注释平台,可以自动执行注释过程的许多部分,并为工作人员提供结构和一致的用户界面。在预处理阶段,我们重点关注数据准备、格式化输入文件和删除重复项等;在后处理阶段,我们重点关注数据打包、整理和格式化以交付给客户。

在项目启动之前,我们会创建指导方针,与客户一起审查这些指导方针,并随着情况的变化在整个项目生命周期中进行迭代。我们可以将数据标记过程分解为多个任务,以正确关注项目的每个元素。此外,还实施质量控制方法来大规模消除错误。

最后,我们的卓越运营团队负责先进的流程管理,以确保我们全球项目的高效率和可扩展性。

LXT 在全球范围内大规模收集数据时面临哪些最大挑战?您如何克服这些挑战?

参与者以及由此产生的数据收集的多样性和偏见往往是 LXT 以及任何人工智能训练数据提供商将面临的最大挑战。其他挑战包括最近对领域专业知识的需求以及随着向法学硕士和生成人工智能数据的转变而迅速变化的环境。

我们通过高度主动的方法来寻找候选人库,从而克服这些挑战,我们会审查专业知识、经验、以前的角色、兴趣和人口统计数据,以便根据性别或其他方面(例如分析思维或创意写作)在团队中形成适当的多样性,教育背景等。

一旦我们找到了合适的候选人,我们就会非常谨慎地定期聘用员工,以长期培养一支更有经验、更忠诚、更满意的员工队伍。

在人工智能评估方面,LXT 如何减少偏见并确保其帮助训练的人工智能系统的道德输出?

如前所述,确保多样性是许多人工智能培训数据提供商必须解决的挑战,这对于减少偏见和确保道德输出大有帮助。

我将再次提及我们的参与最佳实践,其中包括寻找多样化且有代表性的注释者以及彻底的指南和质量控制措施。我们有一个有影响力的采购策略,使我们能够将工作带给不同的新注释者群体,例如长尾语言区域。

我们通过使用行业最佳实践、与客户的期望保持一致并为项目经理和注释者提高更高的标准来实现道德产出。沟通以及合规审计、偏见分析以及对数据监管和隐私要求的承诺都至关重要。

LXT 的长期愿景是什么?您如何看待公司未来五年的发展?

 我们的愿景是提供准确、符合道德的数据,帮助推动人工智能和未来技术的推广,从而增强和改善世界各地人们的体验。

虽然自动化和技术在人工智能中很重要,但也有一个重要的人力组成部分来补充技术。随着我们从简单的自动化任务转向大型语言模型 (LLM),从生成式人工智能转向通用人工智能 (GAI),人工智能产品必须忠实地代表人们,包括生成数据的人和我们的全球社区,这一点至关重要。大的。

在 LXT,我们努力确保以积极且变革的方式使用人工智能,以反映这些价值观。

感谢您的精彩采访,想要了解更多信息的读者可以访问 龙行通.

Antoine 是一位富有远见的领导者,也是 Unite.AI 的创始合伙人,他对塑造和推动人工智能和机器人技术的未来有着坚定不移的热情。作为一名连续创业者,他相信人工智能将像电力一样颠覆社会,并经常对颠覆性技术和 AGI 的潜力赞不绝口。

作为一个 未来学家他致力于探索这些创新将如何塑造我们的世界。此外,他还是 证券一个专注于投资重新定义未来和重塑整个行业的尖端技术的平台。