什么是数据增强？

发布时间 2022 年 11 月 21 日

更新 2022 年 12 月 9 日

亚历克斯麦克法兰

对于寻求实施机器学习解决方案的公司来说，最常见的挑战之一是数据不足。通常收集它既昂贵又耗时。同时，机器学习和深度学习模型的性能高度依赖于训练数据的质量、数量和相关性。

这就是数据增强的用武之地。

数据增强可以定义为一组人为增加数据量的技术。这些技术从现有数据生成新数据点，可以包括对数据进行小的更改或使用深度学习模型生成新数据。

数据增强的重要性

在过去的几年里，数据增强技术一直在稳步增长。这有几个原因。一方面，它提高了机器学习模型的性能并导致数据集更加多样化。

许多深度学习应用（例如对象检测、图像分类、图像识别、自然语言理解和语义分割）都依赖于数据增强方法。通过生成新的、多样化的训练数据集，可以提高深度学习模型的性能和结果。

数据增强还降低了数据收集相关的运营成本。例如，数据标记和收集对于公司来说既耗时又昂贵，因此他们依靠通过数据增强技术转换数据集来降低成本。

准备数据模型的主要步骤之一是清理数据，这会产生高精度模型。这种清理过程会降低数据的可表示性，使模型无法提供良好的预测。数据增强技术可以通过创建模型在现实世界中可能遇到的变化来帮助机器学习模型变得更加稳健。

数据增强通常用于图像分类和分割。对视觉数据进行更改是很常见的，生成对抗网络（GAN）用于创建合成数据。用于数据增强的一些经典图像处理活动包括填充、随机旋转、垂直和水平翻转、重新缩放、平移、裁剪、缩放、更改对比度等。

有一些用于数据增强的高级模型：

数据增强的另一个主要应用是自然语言处理（NLP）。由于语言非常复杂，因此增强文本数据可能极具挑战性。

NLP 数据增强有几种主要方法，包括同义词替换、单词插入和单词交换等简单数据增强 (EDA) 操作。另一种常见的方法是回译，即将文本从目标语言重新翻译回原始语言。

值得注意的是，数据增强既有好处也有局限性。

说到好处，数据增强可以通过添加更多训练数据、防止数据稀缺、减少数据过度拟合、提高泛化能力以及解决分类中的类别不平衡问题来提高模型预测准确性。

数据增强还降低了与收集和标记数据相关的成本，实现罕见事件预测，并加强数据隐私。

同时，数据增强的局限性包括增强数据集质量保证的高成本。它还涉及大量的研究和开发，以构建具有高级应用程序的合成数据。

如果您使用 GAN 等数据增强技术，验证可能会很困难。如果原始数据在增强数据中持续存在，那么解决原始数据的固有偏差也具有挑战性。

数据增强是人工增加数据量以训练人工智能模型的最流行方法之一，它被广泛应用于各个领域和行业。

利用数据增强力量的两个最突出的行业是自动驾驶汽车和医疗保健：

自动驾驶汽车： 数据增强对于自动驾驶汽车的发展非常重要。使用强化学习机制构建的模拟环境有助于训练和测试数据稀缺的人工智能系统。可以根据特定要求对仿真环境进行建模，以生成现实世界的示例。
卫生保健： 医疗保健行业也使用数据增强。通常，患者的数据不能用于训练模型，这意味着许多数据在训练过程中被过滤掉。在其他情况下，没有足够的有关特定疾病的数据，因此可以使用现有疾病的变体来扩充数据。

如果您希望扩充数据，则应首先识别数据中的缺口。例如，这可能涉及查找缺失的人口统计信息。所有活动也应支持公司使命，因此，根据信息如何推进使命来确定缺口的优先级至关重要。

下一步是确定从哪里获取丢失的数据，例如通过第三方数据集。评估数据时，您应该考虑成本、完整性以及集成所需的复杂程度和工作量。

数据增强可能需要时间，因此规划时间和资源非常重要。许多第三方数据源需要投资。规划如何收集和获取数据以及评估数据的投资回报率也很重要。

最后一步是确定数据的存储位置，这可能涉及将其添加到 AMS 或其他系统中的字段中。

当然，这只是数据增强过程的基本轮廓。实际过程将包括更多内容，这就是为什么拥有一支由数据科学家和其他专家组成的装备精良的团队至关重要的原因。但通过规划和执行数据增强流程，您可以确保您的组织拥有最佳的数据来进行准确的预测。