人工智能

Datagen 研究表明合成数据的广泛采用

mm

由 Datagen 委托进行的一项新研究,该研究是合成数据生成的领导者,发现了合成数据在计算机视觉(CV)领域中被广泛用于推进人工智能(AI)和机器学习(ML)应用的许多有见地的发现。

这项新研究由 Wakefield Research 进行,探索了计算机视觉领域的训练数据,题为“合成数据:2022 年生产就绪 AI 的关键”。它调查了 300 名来自不同行业的 300 个独特组织的 CV 专业人员。

合成数据的趋同

一个主要发现是,该领域开始围绕合成数据汇聚,利用它来解决项目延迟和取消的问题。

该研究的另一个主要点是,训练数据已经成为计算机视觉专业人员的麻烦来源,这导致了公司在 CV 方面的进展变慢。

最常见的问题包括:浪费时间和/或资源来重新训练系统;标注不良导致质量问题;数据覆盖不够,无法满足预期应用的领域;以及缺乏足够的数据量。

这些问题阻碍了项目的进展,并导致了大多数 CV 团队经历了显著的延迟和项目取消。根据调查,99% 的受访者经历了项目取消,80% 的受访者经历了至少 3 个月的项目延迟,33% 的受访者经历了 7 个月或更长时间的项目延迟。

广泛的兴趣和采用

该研究还发现了许多表明合成数据广泛兴趣的趋势。更具体地说,96% 的计算机视觉团队报告称,他们已经在计算机视觉模型的训练和测试中使用了合成数据。

Datagen 还询问了组织使用合成数据的主要动机,团队报告称,其主要用于测试、训练和解决边缘情况。

关于合成数据的益处,受访者表示,最突出的益处是减少生产时间、消除隐私问题、减少偏见、减少标注和标签错误以及改进预测模型。

Ofir Chakon 是 Datagen 的创始人和 CEO。

“合成数据是数据的未来。这是控制和使用我们 AI 系统所需的数据的新方式,”Chakon 说。“随着模拟随时间的改进和其带来的所有益处,它将取代劳动密集的手动数据收集,这种方式在世界发展的速度下已经不再可扩展。”

您可以在此阅读 Datagen 的完整报告 here

Alex McFarland 是一名人工智能记者和作家,探索最新的人工智能发展。他曾与世界各地的众多人工智能初创公司和出版物合作。