人工智能
通过基于 CNN 的图像调整大小提高机器学习性能

谷歌研究提出了一种新方法,通过改进数据集中图像在预处理阶段的收缩方式来提高基于图像的计算机视觉训练工作流程的效率和准确性。
在 纸 学习为计算机视觉任务调整图像大小研究人员 Hossein Talebi 和 Peyman Milanfar 利用 CNN 创建了一种新的混合图像大小调整架构,该架构在四个流行的计算机视觉数据集上获得的识别结果有了显着的改进。

拟议的识别和调整大小联合框架。 资料来源:https://arxiv.org/pdf/2103.09950.pdf
该论文指出,目前自动化机器学习流程中使用的重新缩放/调整大小方法已经过时了几十年,并且经常仅使用基本的双线性、双三次和最近邻 调整大小 – 不加区别地处理所有像素的方法。
相比之下,所提出的方法通过 CNN 增强图像数据,并将输入合并到最终通过模型架构的调整大小的图像中。
AI 训练中的图像约束
为了训练处理图像的模型,机器学习框架将包括一个预处理阶段,其中系统地裁剪和处理各种尺寸、颜色空间和分辨率(这将有助于训练数据集)的不同图像。调整为一致的尺寸和稳定的单一格式。
一般来说,这将涉及基于 PNG 格式的一些折衷,其中将在处理时间/资源、文件大小和图像质量之间建立权衡。
在大多数情况下,处理后的图像的最终尺寸非常小。下面我们看到一个 80×80 分辨率图像的示例,其中一些最早的深度伪造数据集 被生成:
由于面部(和其他可能的主体)很少适合所需的平方比,因此可能需要添加黑条(或允许浪费空间)以使图像均匀化,从而进一步减少实际可用的图像数据:

这里,面部是从较大的图像区域中提取的,直到尽可能经济地裁剪以包含整个面部区域。 然而,如右图所示,训练期间不会使用大量剩余区域,从而增加了调整大小数据的图像质量的重要性。
近年来,随着 GPU 能力的提升,新一代 NVIDIA 卡配备了 增加数量 随着视频 RAM (VRAM) 的增加,平均贡献图像大小开始增加,尽管 224×224 像素仍然相当标准(例如,它是视频 RAM 的大小) RESNET-50 数据集)。

未调整大小的 224×244 像素图像。
将批次装入 VRAM
图片尺寸必须相同的原因是 梯度下降,模型随着时间的推移而改进的方法,需要统一的训练数据。
图像必须如此小的原因是它们必须在小批量训练期间加载(完全解压缩)到 VRAM 中,通常每批 6-24 个图像。 每批次图像太少,除了延长训练时间外,没有足够的组材料来很好地概括; 太多,模型可能无法获得必要的特征和细节(见下文)。
训练架构的“实时加载”部分称为 潜在空间。 这是从相同数据(即相同图像)中重复提取特征的地方,直到模型收敛到一种状态,在这种状态下,它拥有对以后未见过的类似类型的数据执行转换所需的所有广义知识。
这个过程通常需要几天的时间,尽管甚至可能需要一个月或更长时间的持续不断的、24/7 的高容量思考才能实现有用的概括。 VRAM 大小的增加仅在一定程度上有帮助,因为即使图像分辨率的微小增加也会对处理能力产生数量级的影响,并且对精度的相关影响可能并不总是有利的。
使用更大的 VRAM 容量来容纳更高的批量大小也是一件好事,因为这样可以获得更快的训练速度 可能会被抵消 通过不太精确的结果。
因此,由于训练架构受到如此的限制,任何能够在管道现有限制内实现改进的东西都是值得注意的成就。
卓越的缩小规模有何帮助
事实证明,训练数据集中包含的图像的最终质量可以改善训练结果,特别是 在物体识别任务中。 2018 年,马克斯·普朗克智能系统研究所的研究人员 争辩 重采样方法的选择显着影响训练性能和结果。
此外,谷歌之前的工作(由新论文作者共同撰写)发现,可以通过以下方式提高分类准确性: 保持控制 数据集图像中的过度压缩伪影。
新重采样器中内置的 CNN 模型将双线性调整大小与“跳跃连接”功能相结合,该功能可以将经过训练的网络的输出合并到调整大小的图像中。
与典型的编码器/解码器架构不同,新提案不仅可以充当前馈瓶颈,还可以充当放大到任何目标尺寸和/或纵横比的逆瓶颈。此外,“标准”重采样方法可以替换为任何其他合适的传统方法,例如 Lanczos。
高频细节
新方法生成的图像实际上似乎将关键特征(最终将被训练过程识别)直接“烘焙”到源图像中。 从美学角度来看,结果是非常规的:

新方法应用于四个网络——Inception V2; DenseNet-121; ResNet-50; 和 MobileNet-V2。 谷歌研究图像下采样/调整大小方法的结果产生了具有明显像素聚集的图像,预测了在训练过程中将辨别的关键特征。
研究人员指出,这些初始实验专门针对图像识别任务进行了优化,并且在测试中,他们的 CNN 驱动的“学习缩放器”能够在此类任务中实现更高的错误率。 研究人员打算将来将该方法应用于其他类型的基于图像的计算机视觉应用。