Connect with us

人工智能

DataGen 获得 1800 万美元投资,用于为 AI 创建合成数据

mm

以色列初创公司 DataGen最近筹集了 1850 万美元的资金,用于创建一个专门为 AI 公司生产合成数据的平台。

任何人工智能公司都面临着同样的核心挑战,即收集训练其 AI 模型所需的数据。高质量的训练数据需求如此之大,以至于它已经催生了一个专门为 AI 公司提供所需数据的子行业。AI 和相关公司总是在寻找新的获取数据的方法。获取这些训练数据的一种方法就是简单地生成或制造数据。

正如 Fortune 报道,DataGen 专门使用自己的机器学习模型为其他公司创建合成数据,特别是图像和视频数据。该公司生成的数据然后被其客户用于训练自己的 AI 模型。根据 DataGen 的 CEO 和创始人 Ofir Chakon 的说法,该公司可以在仅仅几个小时内为客户公司创建一个完整的合成数据集。这比准备数据集所需的时间要快得多,通常需要数周甚至数月的标记数据。

除了速度快之外,合成数据对公司还有其他吸引人的地方。合成数据不带有与真实数据相同的隐私问题。随着更多的法律被制定来保护人们的数据隐私,拥有合成训练数据变得更加有吸引力。技术分析公司 Gartner 的一个估计预测,到 2023 年,世界上约 65% 的人口将受到某种形式的数据隐私法保护。

尽管合成数据不基于真实的人,但它仍然可能存在偏见。合成数据模型生成的数据将具有与原始训练数据相同的模式,这意味着如果数据集存在偏见,那么这些偏见将存在于新生成的数据中。DataGen 有策略来减少生成的数据中的偏差。减少合成数据偏差的一种方法是增加罕见事件的发生率,这意味着如果数据集中某个类别代表性不足,其发生率可以被提升到更平等的水平。

在创建涉及潜在危险场景的数据集时,增加罕见事件的发生率的技术至关重要。考虑一个用于训练自动驾驶汽车的数据集。该车辆必须能够可靠地对罕见事件(如道路上出现坑洼)做出反应。然而,这些事件非常罕见,获取这些事件的训练数据很困难。因此,这些罕见事件的训练数据通常需要被生成。

正如 Chakon 通过 Fortune 解释的:

“我们的客户对创建的数据的所有参数有完全的控制权。现实世界的影响是,一旦部署,就可以确保它将在不同的领域、不同的民族、不同的地理位置或您可以想象的任何环境中正常工作。”

DataGen 使用生成对抗网络(GANs)来生成逼真的现实世界物体和事件的模拟。Chakon 解释说,该公司可以可靠地生成与室内环境或人类感知相关的任何事物的逼真示例。例如,DataGen 生成的图像数据集可以包括用于训练用于仓库物流的机器人拣货臂的对象示例,生成的图像看起来与真实物品无法区分。DataGen 的软件可以通过将视觉网格与物理模拟系统相结合来生成 3D 对象。

DataGen 的投资者包括多位知名人士和公司。投资者包括 Nvidia 人工智能研究部的董事、马克斯·普朗克智能系统研究所,以及 Kaggle 的 CEO Anthony Goldbloom。

博客作者和程序员,专攻 Machine Learning Deep Learning 领域。Daniel 希望帮助他人利用 AI 的力量为社会做好事。