Datagen 研究表明合成数据的广泛采用

Published December 22, 2021

Updated April 28, 2026

Alex McFarland

由 Datagen 委托进行的一项新研究，该研究是合成数据生成的领导者，发现了合成数据在计算机视觉（CV）领域中被广泛用于推进人工智能（AI）和机器学习（ML）应用的许多有见地的发现。

这项新研究由 Wakefield Research 进行，探索了计算机视觉领域的训练数据，题为“合成数据：2022 年生产就绪 AI 的关键”。它调查了 300 名来自不同行业的 300 个独特组织的 CV 专业人员。

一个主要发现是，该领域开始围绕合成数据汇聚，利用它来解决项目延迟和取消的问题。

该研究的另一个主要点是，训练数据已经成为计算机视觉专业人员的麻烦来源，这导致了公司在 CV 方面的进展变慢。

最常见的问题包括：浪费时间和/或资源来重新训练系统；标注不良导致质量问题；数据覆盖不够，无法满足预期应用的领域；以及缺乏足够的数据量。

这些问题阻碍了项目的进展，并导致了大多数 CV 团队经历了显著的延迟和项目取消。根据调查，99% 的受访者经历了项目取消，80% 的受访者经历了至少 3 个月的项目延迟，33% 的受访者经历了 7 个月或更长时间的项目延迟。

该研究还发现了许多表明合成数据广泛兴趣的趋势。更具体地说，96% 的计算机视觉团队报告称，他们已经在计算机视觉模型的训练和测试中使用了合成数据。

Datagen 还询问了组织使用合成数据的主要动机，团队报告称，其主要用于测试、训练和解决边缘情况。

关于合成数据的益处，受访者表示，最突出的益处是减少生产时间、消除隐私问题、减少偏见、减少标注和标签错误以及改进预测模型。

Ofir Chakon 是 Datagen 的创始人和 CEO。

“合成数据是数据的未来。这是控制和使用我们 AI 系统所需的数据的新方式，”Chakon 说。“随着模拟随时间的改进和其带来的所有益处，它将取代劳动密集的手动数据收集，这种方式在世界发展的速度下已经不再可扩展。”

您可以在此阅读 Datagen 的完整报告 here。

Alex McFarland

Alex McFarland 是一名人工智能记者和作家，探索最新的人工智能发展。他曾与世界各地的众多人工智能初创公司和出版物合作。

Unite.AI