访谈

Appen 首席执行官 Ryan Kolln – 采访系列

mm

Ryan Kolln 是 Appen 的首席执行官和董事总经理。Ryan 拥有超过 20 年的全球技术和电信行业经验,并对 Appen 的业务和人工智能行业有深刻的理解。

他的职业生涯始于工程师,专注于澳大利亚、亚洲和北美的移动网络数据工程。完成纽约大学的 MBA 后,Ryan 于 2011 年加入波士顿咨询集团(BCG),担任战略顾问。在 BCG 任职期间,他专注于技术和电信,并在各种增长和运营主题上获得了深入的战略专业知识。

2018 年,Ryan 加入 Appen AI,担任公司发展副总裁,领导了 Figure Eight 和 Quadrant 等战略性收购,并支持了中国和联邦部门的建立。在被任命为 CEO 之前,他曾担任首席运营官,负责全球运营和战略。

凭借在技术和电信领域超过 20 年的经验,您的职业道路如何塑造了您领导 Appen 进入快速演变的人工智能领域的方法?

我的职业生涯始于电信工程师,我的角色是建设和优化网络,涉及大量数据、分析和寻找创新解决方案,以优化网络性能和客户体验。

完成纽约大学的 MBA 后,我转向了技术战略和并购的领导角色,专注于更大的战略问题,例如新兴趋势、投资机会和商业模式。这段经历使我对技术和商业方面有了深刻的理解,尤其是在人工智能领域。

在 Appen,我们致力于人工智能和数据的交叉点,我的经验使我能够领导公司,应对人工智能领域的复杂性,包括语音识别、自然语言处理、推荐系统和现在的生成式人工智能。这种战略视野对于人工智能在全球各个行业的转型至关重要。

您自 2018 年以来一直在 Appen 任职,推动了 Figure Eight 和 Quadrant 等重大收购。这些战略举措如何使 Appen 成为人工智能数据服务的领导者,您认为公司的下一个重大机会是什么?

Figure Eight 和 Quadrant 的收购对于扩大我们的人工智能数据能力至关重要,特别是在数据注释和地理位置智能等领域。Figure Eight 的数据注释平台尤其具有影响力。该平台高度可定制,我们已将其用于许多不同领域的工作。最近,我们已利用该平台运行大多数生成式人工智能数据流。

除了收购外,大约 5 年前,我们在中国建立了 Appen 中国业务。我们现在是中国最大的人工智能数据公司,收入几乎是我们最接近的竞争对手的两倍。

展望未来,Appen 的重点是支持生成式人工智能的开发和采用。我们看到在模型构建者和希望将生成式人工智能整合到其产品和运营中的公司中存在重大增长机会。我们认为我们才刚刚开始人工智能浪潮的开始。

数据质量在人工智能模型开发中起着至关重要的作用。您能否分享 Appen 如何确保其数据集的准确性、多样性和相关性,特别是在自然语言处理和计算机视觉等领域,对高质量的 LLM 训练数据需求日益增长的情况下?

Appen 的优势在于我们能够一致地以规模生产高质量的数据。我们与客户密切合作,以了解他们的人工智能模型目标,并通过多层次的方法开发高质量的数据,以满足他们的需求,该方法结合了自动化工具和人工反馈。我们拥有来自 200 多个国家的全球劳动力超过 100 万人,这使我们能够从广泛的视角和经验中策划一组合格和多样化的贡献者。通过严格的质量控制和反馈循环,我们确保数据的准确性、一致性和相关性,并且可以有效地提高人工智能模型的性能。这使人工智能系统能够在现实世界环境中有效运行,并且可以用于提高稳健性和减少偏差,尤其是对于 LLM。

合成数据 生成越来越受欢迎,Appen 在 Mindtech 方面的投资也表明了您对这一领域的兴趣。您能否讨论使用合成或网络抓取数据与众包数据相比的优势和劣势,特别是在训练人工智能模型方面,以及您如何看待合成数据如何补充 Appen 所提供的众包数据?

高质量的数据至关重要,但生产高质量数据可能很昂贵且耗时,这就是为什么合成数据引起了人们的关注。它适用于传统的人工智能/机器学习任务中的结构化数据,特别是在医疗保健和金融等具有严格的隐私法规的行业中,因为它避免使用个人信息。

然而,合成数据通常缺乏真实世界数据的深度和细微差别,特别是在需要多样性和深入专业知识的复杂生成式人工智能任务中。它还可能延续原始数据中的错误或偏差。网络抓取数据,通常用于 LLM,带来了自己的挑战,包括低质量内容、偏差和错误信息,需要仔细策划。

Appen 专门从事的众包数据仍然是“真实数据”。人类专业知识对于生成多样化、复杂的数据至关重要,以提高人工智能模型的准确性并确保其符合人类价值观。

我们认为合成数据是我们人类注释数据的补充。虽然合成数据可以加速过程的某些部分,但人类标记的数据可以确保模型反映真实世界的多样性。两者共同提供了创建高质量人工智能训练数据的平衡方法。

欧盟人工智能法案和其他全球法规正在塑造人工智能开发的道德标准。您如何看待这些法规对 Appen 运营和更广泛的人工智能行业的影响?

欧盟人工智能法案和类似的全球法规可能会通过为人工智能模型开发和性能设定新的道德标准来影响 Appen 的运营。我们可能会看到处理数据、确保模型公平性和解决道德问题的方式发生变化。这可能会导致更严格的流程和对我们方法的潜在调整。

从更广泛的角度来看,这些法规可能会推动整个行业朝着更高的道德标准发展,增加合规成本,并可能减缓某些方面的创新。然而,它们也会推动更大的问责制和透明度,最终可能会带来更负责任和可持续的人工智能开发。

随着人工智能偏差问题的日益增长,Appen 如何确保用于训练人工智能模型的数据集是以道德方式获取的,并且不含偏差,特别是在自然语言处理和计算机视觉等敏感领域?

我们积极努力减少偏差,通过在项目中促进多样性和包容性。令人鼓舞的是,我们的许多客户专注于在数据收集和模型评估任务中捕捉广泛的 демограф特征。我们拥有来自 200 多个国家的全球劳动力超过 100 万人,使我们能够从广泛的视角和经验中策划数据,特别是在自然语言处理和计算机视觉等敏感领域。

自 2019 年以来,我们将最佳实践正式化为《众包道德准则》,展示了我们致力于多样性、公平和众包福祉的承诺。这包括我们致力于公平薪酬、确保我们的众包的声音被听到以及维护严格的隐私保护。通过坚持这些原则,我们旨在提供高质量、以道德方式获取的数据,以支持负责任的人工智能开发。

随着人工智能日益融入汽车、广告和增强现实等行业,Appen 如何定位自己以满足这些领域对专业训练数据日益增长的需求?

在过去的 27 年里,我们为广泛的行业和用例提供了专业的训练数据,并且我们继续随着客户需求的演变而发展。

例如,在汽车行业,我们曾与领先的汽车公司和车内解决方案提供商合作,打造车载语音系统。现在,我们正在帮助客户在新的领域中工作,例如收集驾驶员视频数据,以帮助安全监测驾驶员分心。

在广告领域,我们帮助一个领先的全球广告平台提高了广告的质量和准确性,以提高用户相关性,跨多年实施了一个大型全球计划,评估超过 700 万次。现在,随着许多平台采用生成式人工智能解决方案,我们的众包不仅评估广告的相关性,还帮助评估生成广告的质量。

我们能够做到这一点是因为我们的强大注释平台,可以根据复杂的工作流程和各种数据模式(包括文本、音频、图像、视频和多模态注释)进行定制。但最终,我们能够适应不断变化的行业的能力归结于我们在人工智能开发数据方面的深入专业知识和与客户的牢固合作伙伴关系。

Appen 一直是提供高质量人工智能数据的领导者。展望未来,随着生成式人工智能和 LLM 持续发展和影响全球市场,您如何看待 Appen 的角色演变?

生成式人工智能和 LLM 正在转变各个行业,我们将继续在提供高质量数据以支持这些进步方面发挥关键作用。当谈到全球市场时,我们在 200 多个国家和 500 多种语言中获取数据的能力将变得更加有价值,我们有着在此方面的强大历史,例如帮助像微软这样的公司为 110 多种语言推出机器翻译模型。

随着 LLM 应用程序的部署增长,我们看到对与人类最终用户保持一致(包括本地化功能,以确保语言和文化细微差别在各个全球市场得到解决)的需求日益增长。我们致力于帮助公司开发既高效又负责任的人工智能系统,通过确保用于训练这些模型的数据是多样化、相关且以道德方式获取。

Appen 以支持世界上一些最先进的 LLM 而闻名。Appen 正在关注哪些数据注释和收集方面的创新,以提高这些模型的性能?

我们不断创新我们的数据注释和收集流程,以提高 LLM 的性能。我们关注的一个领域是通过高级人工智能辅助工具提高数据注释的效率和准确性,这些工具可以简化和自动化流程的某些部分,同时保持高质量的标准。

我们可以识别出需要进一步人工输入的数据点,确保注释工作集中在最能产生影响的领域。我们已将诸如 Model Mate 之类的功能集成到我们的平台中,可以帮助加速数据生产并提高数据质量。我们还专注于最佳实践的贡献者管理,这在任务复杂性增加时至关重要。

了解贡献者级别的性能并提供反馈以持续提高我们的人工生成数据的质量。这些创新使我们能够提供支持和细化世界上领先的 LLM 所需的高质量、规模化数据。

随着您担任新任 CEO,您对 Appen 未来的首要任务是什么,您将如何推动公司在竞争激烈的人工智能领域的增长?

作为我担任 CEO 的转型期,我的战略优先事项旨在确保 Appen 在竞争激烈的人工智能领域的领导地位:

  • 支持生成式人工智能模型的开发:在过去的 18 个月里,生成式人工智能已经成为我们服务的关键组成部分,截至 2024 年 6 月,28% 的集团收入来自与生成式人工智能相关的项目,相比 2024 年 1 月的 8%。我们认为生成式人工智能市场具有巨大的潜力,根据行业预测,到 2032 年将达到 1.3 万亿美元。
  • 支持生成式人工智能模型的采用:我们看到在企业采用生成式人工智能解决方案以满足其用例的新细分市场中存在增长机会。虽然目前生成式人工智能项目到达部署的百分比较低,但我们预计 2024/25 财年将是一个转型期,实验将转变为生产,并推动对定制高质量和专业数据的需求。
  • 优化和自动化我们准备数据的方式:通过利用人工智能进行质量保证和自动化数据准备过程的某些步骤。这将使我们能够提高数据质量,同时提高运营效率并改善我们的毛利率。
  • 演变我们的众包工作者体验:我们的新 CrowdGen 平台使我们能够快速灵活地扩展项目,以满足客户的需求,利用人工智能进行自动筛选和项目匹配。这还将改善我们的贡献者体验和个性化支持。Appen 一直是推动数据获取透明度、多样性和公平性的先驱,我们仍然致力于我们的众包道德准则。

这些优先事项将使 Appen 在不断演变的人工智能领域实现可持续的增长和创新。

感谢这次精彩的采访,我们鼓励读者如果希望了解更多信息,请访问 Appen

安托万是一位具有远见的领导者和Unite.AI的联合创始人,他对塑造和推广人工智能和机器人技术的未来充满热情。作为一位连续创业者,他相信人工智能将对社会产生电力的影响一样的颠覆性影响,并经常被发现对颠覆性技术和通用人工智能的潜力大肆赞扬。

作为一位未来学家,他致力于探索这些创新将如何塑造我们的世界。另外,他还是Securities.io的创始人,这是一个专注于投资尖端技术的平台,这些技术正在重新定义未来并重塑整个行业。