Anderson 视角

图形处理器可能在训练深度神经网络方面更好，而不仅仅是更快

发布于 2021年9月6日

更新于 2026年5月24日

作者

Martin Anderson

来自波兰和日本的研究人员与索尼合作发现，机器学习系统在图形处理器（GPU）而不是中央处理器（CPU）上训练可能在训练过程中包含更少的错误，并产生更好的结果，这与人们通常认为GPU只是执行这些操作更快，而不是更好的理解相矛盾。

这项研究来自亚当·密茨凯维奇大学的心理学和认知科学学院和两所日本大学，共同与索尼计算机科学实验室进行。这项研究表明，不确定性，深度神经网络在面对各种硬件和软件配置时表现出的不确定性，似乎更喜欢更昂贵的图形处理器，并且在测试中发现，仅在CPU上训练的深度神经网络在相同的训练轮数（训练会话过程中系统重新处理训练数据的次数）中产生了更高的错误率。

在这篇论文的补充例子中，我们看到（底部两行），来自各种GPU的类似结果质量，以及（第一行），来自一系列非常有能力的CPU的较差结果。来源：https://arxiv.org/pdf/2109.01451.pdf

奇怪的现象

这些初步发现并不适用于所有流行的机器学习算法，在简单的自动编码器架构中，这种现象并没有出现。

尽管如此，这项工作暗示了复杂神经网络训练有效性的可能“逃离速度”，即覆盖相同的操作以较低的速度和更长的训练时间，并不一定能获得预期的性能平衡。

研究人员建议，这种性能差异可能是特定类型的神经网络所特有的，而GPU特有的处理不确定性方面，通常被视为需要克服的障碍，可能不仅能带来显著的好处，而且可能最终被故意纳入后续系统。该论文还建议，这些发现可能会对脑相关的计算处理提供更深入的见解。

识别出这种方式下GPU提高效率和结果质量的特殊性，有可能对“黑盒”人工智能架构有更深入的了解，甚至可以改善CPU的性能 – 虽然目前，根本原因仍不清楚。

自动编码器与预测神经网络

在研究这些异常现象时，研究人员使用了基本的自动编码器和哈佛大学的预测神经网络PredNet，这是一项2016年的研究，旨在探索和复制人类大脑皮层的行为。

这两种系统都是深度神经网络，旨在通过无监督学习（使用没有标签的数据）合成适当的图像，尽管自动编码器以线性方式处理每批次一个图像，然后产生输出作为下一个图像在循环管道中。自动编码器是在MNIST手写数据库上训练的。

研究人员的测试中，自动编码器是在MNIST数据库上训练的，MNIST数据库包含60,000个训练图像（28x28像素，用于灰度感知的抗锯齿）以及10,000个测试图像。

研究人员的测试中，自动编码器是在MNIST数据库上训练的，MNIST数据库包含60,000个训练图像（28×28像素，用于灰度感知的抗锯齿）以及10,000个测试图像。

相比之下，PredNet评估复杂的视频输入，在这项研究中，PredNet是在FPSI数据集上训练的，FPSI数据集包含了佛罗里达州奥兰多迪士尼世界的一天的全身视频录像（迪士尼是2012年论文的研究合作伙伴之一）。

FPSI中的图像序列，显示了佛罗里达州奥兰多迪士尼世界的一天的第一人称视角。

这两种架构在复杂性方面有很大差异。自动编码器旨在重构图像，而不是预测目标值。相比之下，PredNet具有四个层，每个层由使用卷积长短期记忆（LSTM）的表示神经元组成。

这些层输出上下文预测，然后将其与目标进行比较，以产生一个错误项，该错误项在整个网络中传播。两种模型都使用无监督学习。

自动编码器的简单线性架构和PredNet更复杂的递归网络。

两种系统都在各种硬件和软件配置上进行了测试，包括没有GPU的CPU（英特尔i5-4590、i7-6800K、i5-7600K或AMD Ryzen-5-3600）和具有GPU的CPU（英特尔i5-7600K + NVIDIA GTX-750Ti、i5-7600K + GTX-970、i7-6700K + GTX-1080、i7-7700K + GTX-1080Ti、i7-9700 + RTX-2080Ti、i5-7600K + RTX-2060 Super、AMD Ryzen-5-3600 + RTX-2070 Super或i5-9400 + Titan-RTX）。

交互式进程查看器 htop 被用于确保所有训练都发生在单个线程上（在英特尔i7-6800K上），或四个线程上（在英特尔i5-4590和i5-7600K上），或六个线程上（在AMD Ryzen-5-3600上）。