人工智能

新工具可以向研究人员展示 GAN 从图像中遗漏的内容

更新 on 2022 年 12 月 9 日

最近，来自 MIT-IBM Watson AI 实验室的一组研究人员创建了一种方法，可以显示生成对抗网络在被要求生成图像时从图像中遗漏的内容。该研究被称为 看到GAN无法生成的内容，最近在国际计算机视觉会议上发表。

生成对抗网络在过去的几年里，它们变得更加强大、复杂和广泛使用。他们已经非常擅长渲染充满细节的图像，只要该图像被限制在相对较小的区域内。然而，当 GAN 用于生成较大场景和环境的图像时，它们的表现往往不佳。在要求 GAN 渲染充满许多物体和物品的场景（例如繁忙的街道）的场景中，GAN 通常会忽略图像的许多重要方面。

据麻省理工学院新闻报道该研究的部分开发者是麻省理工学院电气工程与计算机科学系的研究生 David Bau。 Bau 解释说，研究人员通常专注于完善机器学习系统关注的内容，并辨别如何将某些输入映射到某些输出。然而，Bau 还解释说，了解机器学习模型忽略哪些数据通常同样重要，研究团队希望他们的工具能够激发研究人员关注被忽略的数据。

Bau 对 GAN 的兴趣是因为它们可以用来研究神经网络的黑盒性质并获得网络如何推理的直觉。鲍此前曾开发过一种工具，可以识别特定的人工神经元簇，将它们标记为负责表示现实世界的物体，如书籍、云彩和树木。 Bau 还使用过名为 GANPaint 的工具，该工具使艺术家能够使用 GAN 从照片中删除和添加特定特征。 Bau 表示，GANPaint 应用程序揭示了 GAN 的一个潜在问题，当 Bau 分析图像时，这个问题变得显而易见。正如鲍告诉麻省理工学院新闻：

“我的导师一直鼓励我们超越数字，仔细审视实际图像。当我们观察时，这个现象立即出现：人们被选择性地淘汰。”

虽然机器学习系统旨在从图像中提取模式，但它们最终也可能会忽略相关模式。 Bau 和其他研究人员尝试在各种室内和室外场景中训练 GAN，但在所有不同类型的场景中，GAN 都遗漏了汽车、路标、人、自行车等场景中的重要细节。即使当遗漏的物体对于相关场景很重要。

研究团队假设，当 GAN 在图像上进行训练时，GAN 可能会发现更容易捕获更容易表示的图像模式，例如景观和建筑物等大型静止物体。它学习这些模式而不是其他更难以解释的模式，例如汽车和人。众所周知，GAN 在生成图像时经常省略重要的、有意义的细节，但 MIT 团队的研究可能是第一次证明 GAN 会省略图像中的整个对象类。

研究团队指出，即使忽略人类在查看图像时关心的物体，GAN 也有可能实现其数值目标。如果 GANS 生成的图像将用于训练复杂系统像自动驾驶汽车一样，应该仔细检查图像数据，因为人们确实担心标志、人和其他汽车等关键对象可能会被排除在图像之外。 Bau 解释说，他们的研究表明了为什么模型的性能不应仅基于准确性：

“我们需要了解网络正在做什么和没有做什么，以确保他们做出我们希望他们做出的选择。”