使用机器学习对高分辨率图像进行降采样

发布于 2021年9月28日

更新于 2026年5月24日

作者

Martin Anderson

英国的新研究提出了一种改进的机器学习方法来调整图像大小，基于图像内容的各个部分的感知价值，而不是不加区别地减少所有像素的尺寸（以及质量和可提取的特征）。

作为人工智能驱动的压缩系统日益增长的兴趣的一部分，这种方法可能最终会告知新的通用图像压缩编解码器，尽管这项工作是由医疗成像驱动的，在医疗成像中，高分辨率图像的任意下采样可能会导致生命攸关信息的丢失。

新系统的表示性架构。间隔变形模块产生一个变形图，与图像中的感兴趣区域相对应。红点的密度和方向表示这些区域。该图不仅用于下采样，还用于在训练过程的另一端重新上采样图像内容时重构主要感兴趣区域。来源: https://arxiv.org/pdf/2109.11071.pdf

该系统对图像应用语义分割 – 图片中的广泛块，表示为图像中的颜色块，包括图中识别的实体，例如 ‘道路’、‘自行车’、‘病变’ 等。然后使用语义分割图的排列来计算不应过度下采样的图像部分。

题为 学习下采样以分割超高分辨率图像 的新论文是伦敦大学学院医学图像计算中心的研究人员和微软剑桥健康智能部门的研究人员之间的合作。

计算机视觉系统的训练受到GPU容量的限制。数据集可能包含许多图像，需要从中提取特征，但即使是工业范围的GPU也往往在24gb的VRAM上达到峰值，持续的短缺影响了可用性和成本。

这意味着数据必须以可管理的批次通过GPU的有限张量核心，计算机视觉训练工作流中通常使用8-16张图像。

没有很多明显的解决方案：即使VRAM无限，CPU架构也能在不形成架构瓶颈的情况下从GPU处理的吞吐量中受益，但非常高的批次大小往往会以牺牲对最终算法有用的详细转换为代价而获得高级特征。

增加输入图像的分辨率将意味着您需要使用较小的批次大小来适应“潜在空间”中的数据，这反过来又可能会产生一个“古怪”且过拟合的模型。

添加额外的GPU也无济于事，至少在大多数架构中是如此：虽然多GPU设置可以加快训练时间，但也可能会损害训练结果的完整性，就像两个相邻的工厂在同一产品上工作，只有一个电话线来协调他们的努力。

所剩无几的是，计算机视觉数据集中的典型图像的最相关部分可以使用新方法在自动调整大小时保持完整，当高分辨率图像必须降低分辨率以适应机器学习管道时。

这是一个与机器学习数据集中丢失性伪影问题相分开的挑战，在自动调整大小的管道中，质量会丢失，因为压缩编解码器抛弃了太多（通常不可恢复）的信息。

相反，在这种情况下，即使保存到无损图像格式（例如带有LZW压缩的PNG），也无法恢复在调整大小时（例如将磁共振成像（MRI）扫描从通常的创纪录的尺寸降低到更可信的典型256×256或512×512像素分辨率）丢弃的信息。

为了使事情变得更糟糕，根据框架的要求，通常会将黑色边框添加到矩形源图像中作为常规数据处理任务，以产生真正的正方形输入格式用于神经网络处理，从而进一步减少可用于潜在关键数据的空间。

伦敦大学学院和微软的研究人员提议使调整大小的过程更加智能，有效地利用管道中的一个通用阶段来突出感兴趣的区域，将一些解释负担从最终将通过的机器学习系统中卸载出来。

该方法，研究人员声称，改进了2019年的一个提议（图像如下），该提议试图通过关注对象的边界来实现类似的收益。

来自 ‘高效分割: 学习边界附近的下采样’, Marin 等人，2019 年。 来源: https://arxiv.org/pdf/1907.07156.pdf

正如新工作所指出的，这种方法假设感兴趣的区域聚集在边界，而来自医疗成像的示例，例如注释的癌症区域，取决于更高层次的上下文，并且可能作为图像中更广泛区域内的容易丢弃的细节出现，而不是在边缘。

新研究提出了一种称为变形模块的 可学习的下采样器，它与一个并行的分割模块联合训练，因此可以被语义分割中识别的感兴趣区域所告知，并在下采样过程中优先考虑这些区域。

作者在几个流行的数据集上测试了该系统，包括城市景观、深球和一个本地前列腺癌组织学数据集，’PCa-Histo’。

三个方法: 左侧，现有的 ‘统一’ 下采样；中间，2019 年论文中的 ‘最佳边缘’ 方法；右侧，新系统背后的架构，受语义分割层中的实体识别的启发。

曾经有人尝试过一种类似的方法，用于 2019 年提出的分类器，但当前论文的作者声称，这种方法不能充分地规则化强调区域，可能会在医疗成像的背景下错过至关重要的区域。

新系统中的变形模块是一个小的卷积神经网络（CNN），而分割层是一个使用 HRNetV2-W48 的深度CNN架构。用于城市景观测试的金字塔场景解析网络（PSP-net）作为一个理智检查层。

使用新框架测试了上述数据集，使用统一重采样（习惯方法）、2019年的最佳边缘方法和新方法的语义分割利用。

作者报告说，新方法在 识别和区分最临床重要的类别 上显示出 明显的优势，准确率提高了15-20%。他们进一步观察到，这些类别之间的距离通常被定义为“从健康到癌症的阈值”。

三个方法的类别交并比（IoU）分析: 左侧，标准重采样；中间，最佳边缘；右侧，新方法。城市景观被下采样到仅64 x 128，PCaHisto下采样到80 x 800，DeepGlobe下采样到300像素平方。

报告指出，他们的方法 可以学习下采样策略，better 保留信息并实现更好的权衡。，并得出结论，新框架 可以高效地学习在下采样时“投资”有限的像素预算以实现最高的整体分割准确率回报。

本特征文章的主图来自 thispersondoesnotexist.com。更新时间：格林尼治时间下午 3:35，用于纠正文本错误。

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai

Unite.AI