通过基于CNN的图像重设大小来提高机器学习性能

Published August 19, 2021

Updated April 28, 2026

Martin Anderson

Google Research提出了一种新的方法来提高基于图像的计算机视觉训练工作流的效率和准确性，方法是改进预处理阶段中图像的缩小方式。

在论文 学习图像重设大小用于计算机视觉任务中，研究人员Hossein Talebi和Peyman Milanfar利用CNN创建了一种新的混合图像重设大小架构，这种架构在四个流行的计算机视觉数据集上获得了显著的识别结果改进。

所提出的识别和重设大小的联合框架。 Source: https://arxiv.org/pdf/2103.09950.pdf

该论文观察到，目前在自动机器学习管道中使用的重采样/重设大小方法已经过时，通常只使用基本的双线性、双三次和最近邻重设大小方法，这些方法对所有像素进行无差异的处理。

相比之下，所提出的方法通过CNN增强图像数据，并将该输入合并到最终将通过模型架构的重设大小图像中。

为了训练一个处理图像的模型，机器学习框架将包括一个预处理阶段，在这个阶段，各种大小、颜色空间和分辨率的图像（这些图像将贡献到训练数据集中）将被系统地裁剪和重设大小到一致的尺寸和稳定的单一格式。

通常，这将涉及在PNG格式上进行一些折衷，需要在处理时间/资源、文件大小和图像质量之间进行权衡。

在大多数情况下，处理后的图像的最终尺寸非常小。下面我们看到一些最早的深度伪造数据集生成的80×80分辨率图像：

这是80x80分辨率，某些最早的深度伪造数据集生成的图像。

由于面部（和其他可能的主题）很少适合所需的正方形比例，因此可能需要添加黑色条（或允许浪费空间）以使图像同质化，从而进一步减少实际可用的图像数据：

这里，面部从较大的图像区域中提取，直到它被尽可能经济地裁剪以包含整个面部区域。然而，如右侧所示，剩余区域中很大一部分将不会在训练中使用，这增加了重设大小数据的图像质量的重要性。

随着近年来GPU能力的提高，新一代NVIDIA卡配备了越来越多的视频RAM（VRAM），平均贡献图像大小开始增加，尽管224×224像素仍然相当标准（例如，它是 ResNet-50 数据集的大小）。

未重设大小的224×244像素图像。

图像必须全部为相同大小的原因是梯度下降需要统一的训练数据，梯度下降是模型随时间改进的方法。

图像之所以必须如此小，是因为它们必须在训练期间以小批量（通常为每批6-24张图像）加载（完全解压缩）到VRAM中。批次图像太少，无法很好地泛化，并且会延长训练时间；太多，模型可能无法获得必要的特征和细节（见下文）。

这种“实时加载”的训练架构部分称为潜在空间。这是特征从相同数据（即相同图像）中反复提取，直到模型收敛到一个状态，在该状态下它具有所有必要的泛化知识，以便在稍后对类似类型的未见数据执行转换。

此过程通常需要几天时间，但也可能需要一个月或更长时间的不断和不间断的高容量24/7认知来实现有用的泛化。VRAM大小的增加只在一定程度上有帮助，因为即使是图像分辨率的小幅增加也会对处理能力产生数量级的影响，并且可能不会始终对准确性有利。

使用更大的VRAM容量来容纳更大的批次大小也是一个混合的祝福，因为通过这种方式获得的更快的训练速度可能会被不太精确的结果所抵消。

因此，由于训练架构受到如此多的限制，在现有管道限制内实现任何改进都是一个显著的成就。

训练数据集中图像的最终质量已被证明对训练结果有改进作用，特别是在对象识别任务中。2018年，马克斯·普朗克智能系统研究所的研究人员认为重采样方法的选择在训练性能和结果方面有显著影响。

此外，Google之前的工作（由新论文的作者共同撰写）发现，通过在数据集图像中控制压缩伪影，可以提高分类准确率。

Google Research提出的下采样算法的CNN架构。

新型重采样器中内置的CNN模型将双线性重设大小与“跳过连接”功能相结合，可以将训练网络的输出合并到重设大小的图像中。

与典型的编码器/解码器架构不同，新提议不仅可以作为前馈瓶颈，还可以作为任何目标大小和/或宽高比的上采样逆瓶颈。此外，可以用Lanczos等其他传统方法替换“标准”重采样方法。

新方法产生的图像似乎将最终由训练过程识别的关键特征“烘焙”到源图像中。在美学上，结果是非传统的：

新方法应用于四个网络 – Inception V2；DenseNet-121；ResNet-50；和MobileNet-V2。Google Research图像下采样/重设大小方法的结果产生了明显的像素聚集，预测了训练过程中将要识别的关键特征。

研究人员指出，这些初步实验仅针对图像识别任务进行了优化，他们的CNN驱动的“学习重采样器”能够在此类任务中实现改进的错误率。研究人员计划在未来将该方法应用于其他类型的基于图像的计算机视觉应用。

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai

Unite.AI