人工智能
Datagen 研究表明合成数据的广泛采用

由 Datagen 委托进行的一项新研究,该研究是合成数据生成的领导者,发现了合成数据在计算机视觉(CV)领域中被广泛用于推进人工智能(AI)和机器学习(ML)应用的许多有见地的发现。
这项新研究由 Wakefield Research 进行,探索了计算机视觉领域的训练数据,题为“合成数据:2022 年生产就绪 AI 的关键”。它调查了 300 名来自不同行业的 300 个独特组织的 CV 专业人员。
合成数据的趋同
一个主要发现是,该领域开始围绕合成数据汇聚,利用它来解决项目延迟和取消的问题。
该研究的另一个主要点是,训练数据已经成为计算机视觉专业人员的麻烦来源,这导致了公司在 CV 方面的进展变慢。
最常见的问题包括:浪费时间和/或资源来重新训练系统;标注不良导致质量问题;数据覆盖不够,无法满足预期应用的领域;以及缺乏足够的数据量。
这些问题阻碍了项目的进展,并导致了大多数 CV 团队经历了显著的延迟和项目取消。根据调查,99% 的受访者经历了项目取消,80% 的受访者经历了至少 3 个月的项目延迟,33% 的受访者经历了 7 个月或更长时间的项目延迟。
广泛的兴趣和采用
该研究还发现了许多表明合成数据广泛兴趣的趋势。更具体地说,96% 的计算机视觉团队报告称,他们已经在计算机视觉模型的训练和测试中使用了合成数据。
Datagen 还询问了组织使用合成数据的主要动机,团队报告称,其主要用于测试、训练和解决边缘情况。
关于合成数据的益处,受访者表示,最突出的益处是减少生产时间、消除隐私问题、减少偏见、减少标注和标签错误以及改进预测模型。
Ofir Chakon 是 Datagen 的创始人和 CEO。
“合成数据是数据的未来。这是控制和使用我们 AI 系统所需的数据的新方式,”Chakon 说。“随着模拟随时间的改进和其带来的所有益处,它将取代劳动密集的手动数据收集,这种方式在世界发展的速度下已经不再可扩展。”
您可以在此阅读 Datagen 的完整报告 here。












