AI 101

什么是合成数据？

更新 on 2022 年 12 月 9 日

什么是合成数据？

合成数据是数据科学领域快速扩展的趋势和新兴工具。到底什么是合成数据？简而言之，合成数据由以下部分组成不基于任何现实世界现象或事件的数据，而是通过计算机程序生成的。然而，为什么合成数据对于数据科学变得如此重要？合成数据是如何创建的？让我们来探索这些问题的答案。

什么是综合数据集？

正如“合成”一词所暗示的那样，合成数据集是通过计算机程序生成的，而不是通过现实世界事件的记录组成的。合成数据集的主要目的是具有足够的通用性和鲁棒性，可用于机器学习模型的训练。

为了对机器学习分类器有用，合成数据应该具有一定的属性。虽然数据可以是分类数据、二进制数据或数值数据，但数据集的长度应该是任意的，并且数据应该是随机生成的。用于生成数据的随机过程应该是可控的并且基于各种统计分布。随机噪声也可以放置在数据集中。

如果合成数据用于分类算法，则类分离的量应该是可定制的，以便可以根据问题的要求使分类问题变得更容易或更难。同时，对于回归任务，可以采用非线性生成过程来生成数据。

为什么要使用合成数据？

随着像 TensorfFlow 和 PyTorch 这样的机器学习框架变得更容易使用，并且预先设计的计算机视觉和自然语言处理模型变得更加普遍和强大，数据科学家必须面对的主要问题是数据的收集和处理。公司通常很难获取大量数据来在给定时间范围内训练准确的模型。手工标记数据是一种昂贵且缓慢的数据获取方式。然而，生成和使用合成数据可以帮助数据科学家和公司克服这些障碍，并更快地开发可靠的机器学习模型。

使用合成数据有很多优点。使用合成数据有利于数据科学的最明显方式是，它减少了从现实世界事件中捕获数据的需要，因此，与依赖于现实世界的事件。这意味着可以在短时间内产生大量数据。对于很少发生的事件尤其如此，就好像事件很少在野外发生一样，可以从一些真实的数据样本中模拟更多的数据。除此之外，数据可以在生成时自动标记，从而大大减少标记数据所需的时间。

合成数据还可用于获取边缘情况的训练数据，这些情况可能很少发生，但对于人工智能的成功至关重要。边缘案例是与人工智能的主要目标非常相似但在重要方面有所不同的事件。例如，在设计图像分类器时，仅部分可见的对象可以被视为边缘情况。

最后，合成数据集可以最大限度地减少隐私问题。尝试对数据进行匿名化可能是无效的，因为即使从数据集中删除了敏感/识别变量，其他变量在组合时也可以充当标识符。对于合成数据来说，这不是问题，因为它从一开始就不是基于真人或真实事件。

合成数据的用例

综合数据有各种各样的使用，因为它几乎可以应用于任何机器学习任务。常见用例合成数据包括自动驾驶汽车、安全、机器人、欺诈保护和医疗保健。

合成数据的最初用例之一是自动驾驶汽车，因为合成数据用于在获取真实的道路训练数据困难或危险的情况下为汽车创建训练数据。合成数据对于创建用于训练图像识别系统（例如监控系统）的数据也很有用，比手动收集和标记一堆训练数据要有效得多。使用传统的数据收集和训练方法来训练和开发机器人系统可能会很慢。综合数据允许机器人公司通过模拟来测试和设计机器人系统。欺诈保护系统可以从合成数据中受益，并且可以使用合成数据时不断更新的数据来训练和测试新的欺诈检测方法。在医疗保健领域，合成数据可用于设计准确的健康分类器，同时保护人们的隐私，因为数据不会基于真实的人。

合成数据挑战

虽然合成数据的使用带来了许多优势，但也带来了许多挑战。

创建合成数据时，通常缺乏异常值。异常值自然出现在数据中，虽然经常从训练数据集中删除，但它们的存在对于训练真正可靠的机器学习模型可能是必要的。除此之外，合成数据的质量可能存在很大差异。合成数据通常是使用输入数据或种子数据生成的，因此数据的质量可能取决于输入数据的质量。如果用于生成合成数据的数据存在偏差，则生成的数据可能会延续该偏差。综合数据还需要某种形式的输出/质量控制。它需要根据人工注释的数据进行检查，否则真实的数据是某种形式。

综合数据是如何创建的？

综合数据是使用机器学习技术以编程方式创建的。可以使用决策树等经典机器学习技术，深度学习技术也可以。对合成数据的要求将影响用于生成数据的算法类型。决策树和类似的机器学习模型让公司可以创建非经典的多模式数据分布，并根据真实世界数据的示例进行训练。使用这些算法生成数据将提供与原始训练数据高度相关的数据。对于已知数据典型分布的情况，公司可以通过使用蒙特卡罗方法生成合成数据。

基于深度学习的生成合成数据的方法通常利用变分自动编码器 (VAE) or 生成对抗网络（GAN）。 VAE 是使用编码器和解码器的无监督机器学习模型。 VAE 的编码器部分负责将数据压缩为原始数据集的更简单、紧凑的版本，然后解码器对其进行分析并用于生成基础数据的表示。 VAE 的训练目标是在输入数据和输出之间建立最佳关系，其中输入数据和输出数据都极其相似。

当谈到 GAN 模型时，它们被称为“对抗”网络，因为 GAN 实际上是两个相互竞争的网络。生成器负责生成合成数据，而第二个网络（鉴别器）通过将生成的数据与真实数据集进行比较来运行，并尝试确定哪些数据是假的。当鉴别器捕获到假数据时，生成器会收到通知，并进行更改以尝试由鉴别器获取一批新数据。反过来，鉴别器在检测假货方面变得越来越好。这两个网络相互训练，假货一直变得越来越逼真。