思想领袖

我们如何使用小数据集实现深度学习？- 思想领袖

发布于 2019年11月16日

更新于 2026年5月25日

作者

Rebecca James

当谈到跟上新兴的网络安全趋势时，保持对最新发展的了解可能会变得非常繁琐，因为有太多的新闻需要跟进。然而，情况已经发生了戏剧性的变化，因为网络安全领域似乎正在围绕两个词汇旋转——深度学习。

尽管我们最初被深度学习所带来的巨大关注所震惊，但很快就清楚了，深度学习所带来的热潮是当之无愧的。与人类大脑类似，深度学习使得人工智能模型能够通过直接处理文本、图像和音频提示来实现高精度的结果。

到目前为止，人们普遍认为深度学习依赖于一个巨大的数据集，类似于硅谷巨头谷歌和Facebook所拥有的数据集，以解决组织中最复杂的问题。然而，与流行的观点相反，企业可以利用深度学习的力量，即使只有有限的数据集。

为了帮助我们的读者了解如何为他们的组织提供深度学习所需的知识，我们编写了一篇文章，深入探讨（无意双关）企业可以利用深度学习的几种方法，即使只有有限的数据集。

但是，在我们开始讨论文章的正文之前，我们想提出一个小但至关重要的建议——从简单开始。然而，在你开始构建复杂的神经网络之前，先从一些简单的模型开始，例如随机森林，以便熟悉软件。

现在，让我们直接讨论企业可以如何将深度学习技术融入其中，即使只有有限的数据集。

#1- 微调基线模型：

正如我们上面提到的，企业在构建了一个简单的基线深度学习模型后，需要采取的第一步是微调它以适应特定的问题。

然而，微调基线模型听起来比实际操作更困难。微调大数据集以满足企业特定需求的基本思想很简单——你取一个大数据集，与你的领域相似，然后用你的有限数据集微调原数据集的细节。

至于获取大数据集，企业可以依赖ImageNet，它也为图像分类问题提供了一个简单的解决方案。ImageNet托管的数据集为组织提供了数百万张图像，这些图像分散在多个图像类别中，对来自各个领域的企业都很有用，包括但不限于动物图像等。

如果微调预训练模型以满足组织特定需求的过程仍然看起来太麻烦，我们建议你在网上寻找帮助，因为一个简单的谷歌搜索会为你提供数百个教程，告诉你如何微调数据集。

#2- 收集更多数据：

尽管我们的列表中的第二点可能看起来有些多余，但事实是，当谈到深度学习时，数据集越大，获得更准确结果的可能性就越大。

虽然这篇文章的本质在于为拥有有限数据集的企业提供帮助，但我们经常遇到一些“高层领导”，他们认为投资数据收集就像犯了一个大错误。

企业经常忽视深度学习的好处，因为他们不愿意在数据收集上投入时间和精力。如果你的企业不确定需要收集多少数据，我们建议你绘制学习曲线，当将更多数据集成到模型中时，观察模型性能的变化。

与许多CSO和CISO普遍持有的观点相反，有时解决问题的最佳方法是收集更多相关数据。CSO和CISO在这方面的作用非常重要，因为网络攻击的威胁始终存在。2019年，全球网络安全支出达到1031亿美元，这个数字还在不断增长。为了说明这一点，让我们考虑一个简单的例子——假设你正在尝试分类稀有钻石，但只有有限的数据集。最明显的解决方案是收集更多数据!

#3- 数据增强：

虽然我们上面讨论的前两个点都是高效的解决方案，但它们都依赖于一定程度的运气来解决问题。如果你无法通过微调预训练数据集来获得成功，我们建议你尝试数据增强。

数据增强的过程很简单。通过数据增强，输入数据集被修改或增强，以产生新的输出，而不改变标签值。

为了让我们的读者更好地理解数据增强的概念，让我们考虑一张狗的图片。当这张图片被旋转时，观察者仍然可以判断出这是张狗的图片。这正是数据增强的目标——与之相比，旋转一张路的图片会改变仰角，留下很多空间让深度学习算法得出错误的结论，并且违背了使用深度学习的初衷。

当解决图像分类问题时，数据增强在该领域发挥着关键作用，并提供了多种数据增强技术，以帮助深度学习模型深入理解图像的不同分类。

此外，数据增强的可能性几乎是无穷的。企业可以通过多种方式实现数据增强，包括NLP和GAN实验，这使得算法能够生成新数据。

#4- 实现集成效应：

深度学习技术表明，网络是由多个层组成的。然而，相反于许多人的普遍看法，最后一层的作用不是提供一个“不断增加”的特征层次，而是一个集成机制。

一个NIPs论文也表达了这样的观点，即企业即使只有有限的数据集，也应该选择构建更深的网络。通过微调或其他方法，企业可以轻松地操纵集成效应以获得优势。

#5- 集成自动编码器：

尽管我们考虑的第五点相对成功，但我们仍然支持使用自动编码器来预训练网络并正确初始化它。

企业在整合深度学习时面临的最大挑战之一是糟糕的初始化和其带来的陷阱。无监督的预训练通常会导致深度学习技术的执行不佳或不正确，这是自动编码器可以发挥作用的地方。

神经网络的基本概念是创建一个预测输入数据集性质的神经网络。如果你不确定如何使用自动编码器，有很多在线教程可以提供清晰的指示。

总结：

在文章的结尾，我们想重新总结一下我们在整个文章中所说的内容，并添加一个额外的内容——将领域特定知识融入学习过程！不仅将有价值的见解融入学习过程可以加速学习过程，而且还可以让深度学习技术产生更好的和更准确的结果。

Rebecca James

Rebecca 是一位热情的网络安全记者，创意团队领导者和 PrivacyCrypts 的编辑。

Unite.AI

我们如何使用小数据集实现深度学习？- 思想领袖

发现更多