通过机器学习缩小高分辨率图像

发布时间 2021 年 9 月 28 日

马丁安德森

英国的新研究提出了一种改进的机器学习方法，根据图像内容各个部分的感知值来调整图像大小，而不是不加区别地减小图像中所有像素的尺寸（从而降低质量和可提取特征）。图片。

作为人们对人工智能驱动压缩系统日益增长的兴趣的一部分，这种方法最终可以为通用图像压缩提供新的编解码器，尽管这项工作的动机是健康成像，其中对高分辨率医学图像的任意下采样可能会导致挽救生命的信息的丢失。

新系统的代表性架构。间隙变形模块产生与图像中感兴趣的区域相对应的变形图。红点的密度和方向指示这些区域。该图不仅用于下采样，而且当图像内容在训练过程的另一侧不均匀地重新放大时，用于重建主要兴趣区域。资料来源：https://arxiv.org/pdf/2109.11071.pdf

该系统适用语义分割图像 - 宽块，在上图中表示为颜色块，包含图片内可识别的实体，例如 '路', '自行车', “病变”，等人。然后使用语义分割图的配置来计算照片的哪些部分不应过度下采样。

有权 学习下采样以分割超高分辨率图像，新文是伦敦大学学院医学图像计算中心的研究人员与微软剑桥医疗保健智能部门的研究人员合作的成果。

计算机视觉系统的训练很大程度上受到 GPU 容量的限制。数据集可能包含数千个需要从中提取特征的图像，但即使是工业级 GPU 也往往会达到 24GB VRAM 的峰值，持续短缺影响可用性和成本。

这意味着数据必须通过 GPU 的有限 Tensor 核心以可管理的批次进行馈送，其中包含许多计算机视觉训练工作流程中典型的 8-16 个图像。

没有很多明显的解决方案：即使 VRAM 是无限的，并且 CPU 架构可以适应 GPU 的这种吞吐量而不形成架构瓶颈，非常高的批量大小往往会以牺牲更详细的转换为代价来获得高级功能这对于最终算法的实用性可能至关重要。

提高输入图像的分辨率意味着你必须使用更小的批量大小来将数据拟合到 GPU 训练的“潜在空间”中。反过来，这很可能会导致模型“异常”且过拟合。

添加额外的 GPU 也没有帮助，至少在最常见的架构中是这样：虽然多 GPU 设置可以加快训练时间，但它们也会损害训练结果的完整性，就像两个相邻的工厂只用一部手机生产同一产品一样线来协调他们的努力。

剩下的就是，当必须缩小高分辨率图像以适应 ML 管道时，可以使用新方法在自动调整大小时完整地保留计算机视觉数据集的典型图像中最相关的部分。

这是对以下问题的单独挑战机器学习数据集中的有损伪影，由于压缩编解码器丢弃了太多（通常无法恢复）信息，自动调整管道大小会导致质量损失。

相反，在这种情况下，即使保存为无损图像格式（例如使用 LZW 压缩的 PNG），也无法恢复在调整磁共振成像 (MRI) 扫描图像大小时通常会丢弃的信息。破纪录的尺寸到更可信的典型 256×256 或 512×512 像素分辨率。

更糟糕的是，根据框架的要求，作为常规数据处理任务，通常会在矩形源图像中添加黑色边框，以便为神经网络处理生成真正的方形输入格式，从而进一步减少潜在的可用空间关键数据。

相反，伦敦大学学院和微软的研究人员建议使调整大小过程更加智能，有效地利用管道中一直以来的通用阶段来突出显示感兴趣的区域，从而减轻机器学习系统的一些解释负担。图像最终会过去。

研究人员声称，该方法改进了 2019 年的产品（下图），该产品通过将质量注意力集中在边界对象。

摘自 Marin 等人于 2019 年发表的《高效分割：学习靠近语义边界的下采样》。 资料来源：https://arxiv.org/pdf/1907.07156.pdf

正如新工作指出的那样，这种方法假设感兴趣的区域聚集在边界处，而医学成像的示例（例如带注释的癌症区域）取决于更高级别的上下文，并且可能在图像中更广泛的区域中显示为容易丢弃的细节，而不是在边缘。

新的研究提出了一个 可学习的下采样器 称为变形模块，与并行分割模块联合训练，因此可以了解语义分割所识别的感兴趣区域，并在下采样过程中对这些区域进行优先排序。

作者在几个流行的数据集上测试了该系统，包括风情, 深地球以及本地前列腺癌组织学数据集“PCa-Histo”。

三种方法：左侧是现有的“均匀”下采样；中间是 2019 年论文中的“最佳边缘”方法；右侧是新系统背后的架构，由语义分割层中的实体识别提供信息。

类似的方法已经被尝试用于分类器在提出2019，但当前论文的作者认为，这种方法没有充分规范重点区域，可能会遗漏医学成像环境中的重要区域。

新系统中的变形模块是一个小型卷积神经网络（CNN），而分割层是一个深度CNN架构，采用 HRNetV2-W48。金字塔场景解析网络（PSP网络）被用作 CityScapes 测试的健全性检查层。

使用新框架对上述数据集进行了测试，使用了均匀重采样（惯用方法）、2019 年的最佳边缘方法以及新方法对语义分割的利用。

作者报告说，新方法表明 “在识别和区分最重要的临床类别方面具有明显优势”，准确率提升15-20%。他们进一步观察到，这些类别之间的距离通常被定义为“从健康到癌症的阈值”。

三种方法的类交并集 (IoU) 分析：左，标准重采样；中间，最佳边缘；没错，就是新方法。CityScapes 被下采样至仅 64 x 128，PCaHisto 下采样至 80 x 800，DeepGlobe 下采样至 300 像素平方。

报告指出，他们的方法 “可以学习下采样策略，更好地保存信息并实现更好的权衡。”，得出的结论是 新框架 “可以有效地学习在下采样时将有限的像素预算投入到哪里，以实现最高的分割精度整体回报”.

本文主图来自 thispersondoesnotexist.com。已于格林威治标准时间下午 3:35 更新，修复文本错误。

相关话题：医疗保健医学影像研究

马丁安德森

机器学习作家，人体图像合成领域专家。曾任 Metaphysic.ai 研究内容主管。
个人网站：马丁南德森.ai
联系我们 [email protected]
推特：@manders_ai

联合人工智能