思想领袖

合成数据的崛起及其在人工智能训练中的应用

发布于 2025年8月15日

更新于 2026年5月18日

作者

Gediminas Rickevičius, Oxylabs 的全球合作伙伴高级副总裁

埃隆·马斯克最近宣称，我们已经耗尽了用于训练人工智能模型的人类数据。他的警告是对人工智能需要新数据源的最新评论，尤其是在医疗保健和金融等行业，严格的隐私法规使得数据短缺更加严重。

虽然合成数据并不是新鲜事物，但其重要性持续增长，最近的并购和投资热潮就是明证。然而，合成数据的使用也存在一些深层次的不确定性，尤其是模型崩溃的风险，即大型语言模型（LLM）的输出质量会随着训练数据的简化而下降。如果这个问题无法解决，可能会对生成式人工智能（Gen AI）的未来产生重大影响。

什么是合成数据及其创建方法

合成数据是人工创建的，而不是从真实事件中收集的。目前，人工智能生成的合成数据是最常见的形式，涉及训练模型以检测模式和相关性，然后生成模拟这些统计特性的新数据。

大型语言模型（LLM）被用于生成各种类型的合成数据，包括结构化数据（如表格数据）和非结构化数据（如自由文本、视频和图像）。根据生成的数据类型，使用不同的方法。

例如，生成合成图像数据的两种常见方法是GAN和扩散模型。GAN使用两个神经网络：生成器创建人工版本的真实数据，而判别器识别哪些是真实的，哪些是生成的。两个网络一起工作，生成器尝试“欺骗”判别器，不断提高人工数据的真实性和多样性。扩散模型采用不同的方法，学习扭曲真实数据，然后反转这个过程来“去噪”它。一旦有效训练，扩散模型就可以生成高质量的合成音频和视觉数据。

合成数据的日益重要性

人们对合成数据的兴趣由来已久。然而，在过去的5年里，大型语言模型的快速发展既增加了对合成数据的需求，也创造了更有效的生成合成数据的方法。因此，合成数据的使用量激增。

根据Gartner的预测，到2024年，合成数据将占大型语言模型训练数据的60%，而2021年这一比例仅为1%。有理由相信这个估计基本准确。例如，微软的Phi-4模型尽管规模较小，但在数学和推理基准测试中超越了其他大型语言模型，主要是使用合成数据训练的。同时，亚马逊Alexa的工程师们正在探索使用“教师-学生”模型，其中“教师”模型生成合成数据，然后用于微调较小的“学生”模型。

这一广泛的采用也被市场上的大举动所反映。2021-22年，合成数据领域经历了投资热潮。Gretel AI和Tonic.ai分别获得了5000万美元和3500万美元的B轮融资。之后，MOSTLY AI完成了2500万美元的B轮融资，而Synthesis AI获得了1700万美元的A轮融资。

最近，趋势转向大规模收购。今年春天，NVIDIA收购Gretel将支持这家科技巨头在这一领域的工作。同样，人工智能解决方案公司SAS在2024年11月收购了合成数据初创公司Hazy。

分析公司Cognilytica估计，2021年合成数据生成市场的价值约为1.1亿美元，并预计到2027年将达到11.5亿美元。其他预测表明，该行业的复合年增长率（CAGR）将达到31%，到2030年，市场价值将达到23.3亿美元。

模型崩溃

然而，合成数据的激动人心的潜力伴随着一个重大的缺点：模型崩溃。这是一种现象，即仅使用合成数据训练的大型语言模型开始产生精度较低或多样性较低的输出。

虽然真实世界的数据往往复杂，而合成数据通常被模型简化和浓缩。例如，研究人员发现，一个模型被训练来检测照片中的癌性痣，其准确性与合成训练数据的数量成反比。牛津、剑桥、帝国理工和多伦多大学的学者最近的一项研究发现，滥用模型生成的数据会导致“不可逆转的模型缺陷”。

更糟糕的是，大多数大型语言模型都是“黑盒”，难以理解它们如何响应合成数据。来自莱斯大学和斯坦福大学的研究人员得出结论，没有新鲜的真实世界数据，“未来的生成模型注定会有质量（精度）或多样性（召回率）逐渐下降”。

真实世界数据的持续需求

显然，即使合成数据需求激增，真实世界数据的需求仍然存在。事实上，高质量真实世界数据的需求可能会增加。其原因是两方面的。首先，真实世界数据将始终被需要来训练生成合成数据的AI模型。其次，为了避免模型崩溃，必须不断同步合成数据与真实世界数据。

用于训练合成数据生成AI模型的真实数据

如前所述，今天的大多数合成数据都是使用生成式人工智能（Gen AI）创建的。而这些Gen AI模型必须在真实世界数据上训练，以创建可用的合成数据。这是因为它们只能通过复制真实世界数据集的模式和统计特性来创建合成数据。

考虑最近的一个例子，一家保险公司能够使用合成数据来测试不同的供应商，而不泄露其敏感的客户数据。为了生成这个合成数据集，它必须使用自己的真实世界数据来训练生成合成数据的AI模型。

用于缓解模型崩溃的真实数据

有多种策略可以缓解模型崩溃的风险。这些包括验证和定期审查合成数据集，并在使用生成模型之前检查合成数据的质量。然而，最常见的方法是通过结合合成数据和人类数据来多样化使用的数据。根据Gartner的调查，63%的受访者偏好使用部分合成数据集，只有13%表示使用完全合成数据。

即使添加少量的真实世界数据也可以显著提高模型的性能。来自南加州大学的研究人员发现，公司可以用合成数据替换多达90%的真实数据，而不会看到性能大幅下降。然而，替换最后10%的人类数据会导致性能显著下降。

质量也很重要，如微软的Phi-4成功案例所示。这个大型语言模型主要是在GPT-4o生成的合成数据上训练的。然而，预训练数据（即模型首次训练阶段使用的通用数据集）中包含大量精心策划的、高质量的真实世界数据，包括图书和研究论文。

合成数据可以带来的潜在益处

当合成数据被明智地使用，并与真实世界数据有效地结合时，它有可能解决六个特定的问题：稀缺性、可访问性、同质性、偏差、隐私问题和成本。

数据稀缺性

随着人工智能公司争相占领市场份额和实现新的里程碑，训练大型语言模型所需的数据需求也在不断增加。合成数据有可能填补这一空白，至少根据Gartner的研究。然而，需要注意的是，在预训练数据集中使用大量的真实数据，以及为了避免模型崩溃而与合成数据同步，仍然是必要的。

数据可访问性

越来越多的大型科技公司正在成为数据的守门人，制造了进入壁垒，阻碍了小型玩家的发展。合成数据有可能通过使大量的训练数据变得经济和可及来民主化生成式人工智能。然而，这并不会消除大型科技公司改善真实世界数据访问的责任，因为真实世界数据仍然需要用于训练合成数据生成模型。

数据同质性

在某些领域，如训练自动驾驶AI，真实世界的数据集可能过于同质化。开发者可以生成合成数据来填补数据中的空白，例如在驾驶中不常见的情况。这样，模型就可以为道路上罕见的情况进行训练。

偏差

一些真实世界的数据集包含固有的偏差，合成数据可以被生成以确保人工智能模型获得更平衡的图景。例如，在金融领域，英国金融行为监管局（FCA）认为，合成数据有可能抵消由于某些群体在人类数据集中代表性不足而引起的潜在偏差。

隐私

在医疗保健和金融等领域，隐私要求使得数据短缺更加严重。通过合成数据，公司可以为其模型构建包含特定数据的训练数据集，而不泄露客户隐私。然而，正如英国皇家学会委托的一份报告指出，合成数据“固有私密”的假设是一个“误解”。研究人员指出，合成数据可能会泄露其源数据的信息。

特别是，训练在敏感数据上的模型容易受到模型逆转攻击，黑客可以重建原始数据集的一部分。

成本

一般来说，合成数据的生成成本低于真实世界数据。它还带有标签，这可以节省时间和成本。在一些人工智能训练项目中，高达80%的项目时间都花在了数据准备上，包括标注。这就是为什么专门的公司出现了，旨在以低成本满足硅谷巨头的数据处理需求。

增强而非替代真实数据

合成数据的这些益处可以被利用，但前提是不能将其视为真实数据的替代品。相反，其作用应该是增强真实数据集，提供增加数据点规模的方法。

为了说明这一点，Meta即将推出的大型语言模型LLAMA Behemoth，将在30万亿个数据点上进行训练。显然，在这种规模下找到真实世界的数据是具有挑战性的，如果不是不可能的话。然而，正如前面提到的，使用真实世界的数据仍然是必要的，无论是用于训练生成合成数据的模型，还是用于与合成数据同步以确保准确性并避免模型崩溃。在大型语言模型当前的工作规模下，即使合成数据占训练数据的很大一部分，仍然会对真实世界数据有很大的需求。这意味着围绕数据的控制、访问、偏差、成本和时间等问题仍将存在，需要解决。