Anderson 视角
图形处理器可能在训练深度神经网络方面更好,而不仅仅是更快

来自波兰和日本的研究人员与索尼合作发现,机器学习系统在图形处理器(GPU)而不是中央处理器(CPU)上训练可能在训练过程中包含更少的错误,并产生更好的结果,这与人们通常认为GPU只是执行这些操作更快,而不是更好的理解相矛盾。
这项研究来自亚当·密茨凯维奇大学的心理学和认知科学学院和两所日本大学,共同与索尼计算机科学实验室进行。这项研究表明,不确定性,深度神经网络在面对各种硬件和软件配置时表现出的不确定性,似乎更喜欢更昂贵的图形处理器,并且在测试中发现,仅在CPU上训练的深度神经网络在相同的训练轮数(训练会话过程中系统重新处理训练数据的次数)中产生了更高的错误率。

在这篇论文的补充例子中,我们看到(底部两行),来自各种GPU的类似结果质量,以及(第一行),来自一系列非常有能力的CPU的较差结果。来源:https://arxiv.org/pdf/2109.01451.pdf
奇怪的现象
这些初步发现并不适用于所有流行的机器学习算法,在简单的自动编码器架构中,这种现象并没有出现。
尽管如此,这项工作暗示了复杂神经网络训练有效性的可能“逃离速度”,即覆盖相同的操作以较低的速度和更长的训练时间,并不一定能获得预期的性能平衡。
研究人员建议,这种性能差异可能是特定类型的神经网络所特有的,而GPU特有的处理不确定性方面,通常被视为需要克服的障碍,可能不仅能带来显著的好处,而且可能最终被故意纳入后续系统。该论文还建议,这些发现可能会对脑相关的计算处理提供更深入的见解。
识别出这种方式下GPU提高效率和结果质量的特殊性,有可能对“黑盒”人工智能架构有更深入的了解,甚至可以改善CPU的性能 – 虽然目前,根本原因仍不清楚。
自动编码器与预测神经网络
在研究这些异常现象时,研究人员使用了基本的自动编码器和哈佛大学的预测神经网络PredNet,这是一项2016年的研究,旨在探索和复制人类大脑皮层的行为。
这两种系统都是深度神经网络,旨在通过无监督学习(使用没有标签的数据)合成适当的图像,尽管自动编码器以线性方式处理每批次一个图像,然后产生输出作为下一个图像在循环管道中。自动编码器是在MNIST手写数据库上训练的。

研究人员的测试中,自动编码器是在MNIST数据库上训练的,MNIST数据库包含60,000个训练图像(28×28像素,用于灰度感知的抗锯齿)以及10,000个测试图像。
相比之下,PredNet评估复杂的视频输入,在这项研究中,PredNet是在FPSI数据集上训练的,FPSI数据集包含了佛罗里达州奥兰多迪士尼世界的一天的全身视频录像(迪士尼是2012年论文的研究合作伙伴之一)。

FPSI中的图像序列,显示了佛罗里达州奥兰多迪士尼世界的一天的第一人称视角。
这两种架构在复杂性方面有很大差异。自动编码器旨在重构图像,而不是预测目标值。相比之下,PredNet具有四个层,每个层由使用卷积长短期记忆(LSTM)的表示神经元组成。
这些层输出上下文预测,然后将其与目标进行比较,以产生一个错误项,该错误项在整个网络中传播。两种模型都使用无监督学习。

自动编码器的简单线性架构和PredNet更复杂的递归网络。
两种系统都在各种硬件和软件配置上进行了测试,包括没有GPU的CPU(英特尔i5-4590、i7-6800K、i5-7600K或AMD Ryzen-5-3600)和具有GPU的CPU(英特尔i5-7600K + NVIDIA GTX-750Ti、i5-7600K + GTX-970、i7-6700K + GTX-1080、i7-7700K + GTX-1080Ti、i7-9700 + RTX-2080Ti、i5-7600K + RTX-2060 Super、AMD Ryzen-5-3600 + RTX-2070 Super或i5-9400 + Titan-RTX)。
交互式进程查看器 htop 被用于确保所有训练都发生在单个线程上(在英特尔i7-6800K上),或四个线程上(在英特尔i5-4590和i5-7600K上),或六个线程上(在AMD Ryzen-5-3600上)。
鞍点
在自动编码器上,所有配置(包括cuDNN)的平均差异并不显著。对于PredNet,结果更令人惊讶,在CPU和GPU训练之间的损失评估和质量方面存在明显的差异。

PredNet在四个CPU和八个GPU上训练的平均损失结果,网络训练在5000个视频帧和250个批次上,最后1000个帧(50个批次)的平均损失。cuDNN被关闭。
研究人员得出结论,“尽管机制尚不清楚,但GPU硬件似乎具有提高DNN训练的能力。”
结果表明,GPU可能更擅长避免鞍点 – 梯度下降中表示斜坡底部的区域。

梯度下降中的鞍点,源自:https://www.pinterest.com.au/pin/436849232581124086/
鞍点,尽管是障碍,通常被认为在最近关于随机梯度下降(SGD)优化的思考中可以轻松绕过,但这篇新论文表明,GPU可能是唯一能够避免它们的,并且应该重新审视鞍点的影响。












