报告

高质量AI训练数据的ROI:来自LXT 2025报告的见解

mm

人工智能正在以历史性的速度成熟,高质量AI训练数据的ROI 2025报告由LXT编制,强调了美国企业中正在发生的强大转变。人工智能不再是孤立的创新项目,它已经成为大型组织运作、决策和服务客户的结构性组成部分。报告中最明显的发现是:高质量、人工验证的训练数据现在是决定AI项目是否成功或失败的最重要因素。

AI成熟度已经进入新时代

在整个国家,组织都迅速地攀登了AI成熟度曲线。在传统AI中,83%的企业现在处于运营、系统或转型级别。只有17%仍然处于实验阶段。生成式AI尽管相对年轻,但发展得更快。76%的公司报告称,他们已经在运营或系统能力中使用生成式模型,19%已经达到转型成熟度,这意味着生成式AI已经直接融入到他们的核心业务流程中。

这种转变如此重要的原因是,企业不再仅仅为了探索潜力而进行实验。他们正在部署AI,期待有可衡量的输出:提高效率、减少错误、改善客户体验和创造新的收入来源。随着AI变得更加专业和高风险,支撑这些系统的基础——即训练数据——比以往任何时候都更重要。

AI预算正在增长,数据是首要投资优先事项

报告显示了组织在人工智能方面投资的转变。超过半数公司每年在AI上花费100万美元至7500万美元之间,30%的公司花费超过7500万美元。这些不再是探索性预算;它们是旨在转型核心运营的企业级承诺。

最重要的是,训练数据现在占AI支出的最大份额,达到19%。软件占15%,产品开发占13%,而类似硬件、分析、AI战略和人才等类别占8%至12%之间。这种转向数据优先投资表明了更广泛的行业理解:即使是最强大的模型架构,如果训练数据质量低、过时或不具代表性,也会表现不佳。

组织如何为其AI系统获取数据

企业正在使用多个数据源来构建他们的AI数据基础设施。内部组织数据是最常用的数据源,70%的受访者使用内部数据。此外,62%的受访者构建自己的数据集,56%的受访者将客户或客户数据集纳入他们的训练流水线中。尽管他们严重依赖内部数据源,但59%的组织也转向外部提供商——这承认了专门的技能、大规模采集、多语言覆盖和偏差控制数据集通常需要外部支持。44%的组织使用公共数据集,但质量、许可和合规问题似乎限制了它们的使用。

企业从高质量训练数据中期待的ROI

报告概述了组织在投资高质量训练数据时观察到的核心益处:

  • 在AI项目中更高的成功率,55%的企业报告
  • 客户满意度提高,54%的企业报告
  • 运营效率提高,54%的企业报告
  • 与AI相关的收入增长,53%的企业报告
  • 由于错误减少和模型输出更准确而带来的成本节约
  • 更强的监管合规实践
  • 由于AI系统更可靠而提高的品牌声誉
  • 模型预测中更低的错误率
  • 新AI驱动产品和工具的上市时间更快
  • 偏差控制更好,输出更安全

这些指标反映了从早期采用优先事项(如急于部署生成式AI)转向更可持续的方法的转变,侧重于可靠性、公平性、合规性和长期价值创造。

对AI训练数据的需求正在每个行业中激增

对AI训练数据的需求正在以前所未有的速度增长。根据报告,94%的组织预计他们的训练数据需求将在未来两到五年内增加。几乎四分之一的组织预计需求将大幅增加。只有5%的组织认为他们的需求将保持不变,没有任何组织预计需求会减少。

这种激增是由多种趋势驱动的:多模态AI系统的兴起,在受监管行业中使用案例的扩展,专用AI助手的快速部署,以及在各地区和语言中本地化AI模型的需求。处于最高AI成熟度级别的组织预计其数据需求将增加最多,表明更先进的AI部署需要更多和更好的数据。

数据质量已成为企业的首要要求

当被问及他们在训练流水线中最需要什么时,组织的回答非常一致:80%的组织表示,高质量、准确的数据是他们的首要优先事项。合规数据集紧随其后,52%的组织表示这是他们的首要优先事项,反映了对AI的监管审查日益增长。半数的组织强调了以经济有效的方式获取这些数据的必要性,47%的组织强调了由领域专家创建或审查的数据的重要性,例如医生、律师、工程师和金融分析师。42%的组织表示,道德采购和广泛的数据量需求很重要,36%的组织需要高度专门化的数据集,适用于细分使用场景。区域特定数据也正在成为主要需求,31%的组织表示这是重要的。

这些回答表明了行业的明显转变:企业正在从“大数据”思维转向“高信号数据”思维。精度、上下文和领域专业知识现在超过了原始数据量。

外部数据提供商已成为必不可少的合作伙伴

只有5%的组织表示他们不使用外部数据服务提供商。其余95%的组织依赖外部提供商来填补他们在规模、专业知识或运营能力方面的关键差距。这些提供商支持从数据采集和结构化到偏差检测、PII过滤、模型评估、合成数据生成和领域特定微调等一切。随着AI系统跨越更多语言和模态,并且围绕AI的监管环境日益紧张,外部合作伙伴已成为构建准确、合规和反映现实世界复杂性的数据集的必备条件。

结论:高质量数据现在是AI ROI的引擎

LXT的高质量AI训练数据的ROI 2025报告使一件事变得非常明显:将高质量训练数据视为战略资产(而不是技术附带品)的组织将领导AI转型的下一个十年。随着生成式和传统AI系统在各个行业中得到应用,训练数据背后的质量、多样性和人工验证将决定准确性、公平性、安全性和长期业务价值。投资于专门的、领域对齐数据的企业正在为自己定位,以解锁最高的ROI、最强的竞争优势和快速演变的AI格局中最大的韧性。

安托万是一位具有远见的领导者和Unite.AI的创始合伙人,他被对塑造和推广AI和机器人人的未来充满不动摇的热情所驱动。作为一位连续创业者,他相信AI将对社会产生与电力一样的颠覆性影响,他经常被听到对颠覆性技术和AGI的潜力大加赞赏。

作为一位未来学家,他致力于探索这些创新将如何塑造我们的世界。另外,他也是Securities.io的创始人,这是一个专注于投资于重新定义未来和重塑整个行业的尖端技术的平台。