人工智能
深度学习模型可能难以识别人工智能生成的图像

一篇新论文的研究结果表明,最先进的人工智能识别和解释人工智能合成图像的能力明显低于人类,这在未来的环境中可能会引起担忧,因为机器学习模型越来越多地使用合成数据进行训练,而且不一定知道数据是否“真实”。

我们看到 resnext101_32x8d_wsl 预测模型在“百吉饼”类别中表现不佳。在测试中,如果核心目标词(在本例中为“百吉饼”)未出现在前五个预测结果中,则视为识别失败。 资料来源:https://arxiv.org/pdf/2208.10760.pdf
新研究测试了两类基于计算机视觉的识别框架:物体识别和视觉问答(质量保证).

左边是物体识别系统的推理成功和失败; 右侧是 VQA 任务,旨在以更具探索性和更有意义的方式探索 AI 对场景和图像的理解。 资料来源:https://arxiv.org/pdf/2105.05312.pdf 和 https://arxiv.org/pdf/1505.00468.pdf
在图像合成框架生成的精选数据集上测试了十个最先进的模型 达尔-E 2 与 中途,在两种类型的测试中,表现最好的模型只能达到 60% 和 80% 的 top-5 准确率,而 图像Net 在非合成的真实世界数据上进行训练,在相同类别中分别可以达到 91% 和 99%,而人类的表现通常明显更高。
解决周边问题 分布转移 (又称“模型漂移”,即预测模型从训练数据转移到“真实”数据时预测能力会下降),论文指出:
人类能够识别生成的图像并轻松回答相关问题。我们得出的结论是:a) 深度模型难以理解生成的内容,经过微调后可能会做得更好;b) 生成的图像与真实照片之间存在较大的分布偏差。这种分布偏差似乎与类别相关。
鉴于上周的事件发生后,大量合成图像已经涌入互联网 轰动的开源 强者的 稳定扩散 潜在扩散合成模型,自然会出现这样一种可能性:随着“假”图像涌入行业标准数据集,例如 常见的抓取多年来,准确度的变化可能会受到“不真实”图像的显著影响。
尽管合成数据已 预示 作为数据匮乏的计算机视觉研究领域的潜在救世主,该领域通常缺乏超大规模管理的资源和预算,稳定扩散图像的新洪流(以及自出现以来合成图像的普遍增长) 商业化 of 达尔-E 2) 不太可能全部带有方便的标签、注释和主题标签,以便在贪婪的机器视觉系统从互联网上抓取它们时将它们区分为“假的”。
开源图像合成框架的发展速度明显超过了我们对这些系统中的图像进行分类的能力,导致 人们对“假图像”检测的兴趣日益浓厚 系统,类似于 深度检测 系统,但任务是评估整个图像而不是 面部的部分.
这个 新文 标题为 深度模型在理解生成的图像方面有多好?,来自旧金山机器学习初创公司 Quintic AI 的 Ali Borji。
时间
该研究早于 Stable Diffusion 发布,实验使用 DALL-E 2 和 Midjourney 生成的 17 个类别的数据,包括 象, 蘑菇, 比萨, 椒盐卷饼, 拖拉机 与 兔.
图像是通过网络搜索和 Twitter 获取的,并且符合 DALL-E 2 的政策(至少, 当时),不包含任何人脸图像。 仅选择人类可识别的高质量图像。
策划了两组图像,一组用于对象识别和 VQA 任务。

用于对象识别的每个测试类别中存在的图像数量。
测试物体识别
对于对象识别测试,测试了全部在 ImageNet 上训练的 XNUMX 个模型: 亚历克斯网, 残差网络152, 移动网络V2, 密集网, 下一步, 谷歌网, 残差网络101, 盗梦空间_V3, 戴特和 ResNext_WSL.
测试系统中,某些类别的粒度比其他类别更细,因此需要应用平均方法。例如,ImageNet 包含三个与“时钟”相关的类别,因此需要定义某种仲裁指标,在该指标下,只要任何类型的“时钟”出现在任何图像的前五个标签中,就视为成功。

每个模型在 17 个类别中的表现。
本轮表现最佳的模型是 resnext101_32x8d_ws,其 top-60 准确率接近 1%(即在 80 次猜测中,其首选预测是图像所体现的正确概念的次数),top-XNUMX 准确率达到 XNUMX%(即,所需概念至少在模型对图片的 XNUMX 次猜测中的某处列出)。
作者认为,该模型的良好表现源于其训练目标是在社交媒体平台中进行弱监督的标签预测。然而,作者指出,这些领先的结果明显低于 ImageNet 在真实数据上所能达到的准确率(91% 和 99%)。他认为,这是由于 ImageNet 图像(这些图像也是从网络上抓取的)与生成图像的分布存在巨大差异造成的。
该系统最困难的五个类别(按难度顺序排列)是 风筝, 龟, 松鼠, 墨镜 与 头盔。 该论文指出, 风筝 类经常与 气球, 降落伞 与 伞,尽管这些区别对于人类观察者来说很容易区分。
某些类别,包括 风筝 与 龟,导致所有模型普遍失败,而其他模型(特别是 椒盐卷饼 与 拖拉机)在测试模型中几乎取得了普遍的成功。

极化类别:选择的一些目标类别要么欺骗所有模型,要么很容易让所有模型识别。
作者假设这些发现表明所有物体识别模型可能都有相似的优点和缺点。
测试视觉问答
接下来,作者在开放式和自由形式的 VQA 上测试了 VQA 模型,其中使用了二元问题(即答案只能为“是”或“否”的问题)。论文指出,近期最先进的 VQA 模型在以下方面能够达到 95% 的准确率: VQA-v2 数据集.
在这一阶段的测试中,作者整理了 50 张图像,并围绕它们提出了 241 个问题,其中 132 个为肯定答案,109 个为否定答案。 平均问题长度为 5.12 个单词。
本轮使用了 OFA模型,一个与任务无关和模态无关的框架,用于测试任务的全面性,最近是该领域的领先得分者 VQA-v2 测试标准集。 OFA 在生成的图像上得分为 77.27%,而其在 VQA-v94.7 测试标准集中的得分为 2%。
论文作者认为,部分原因可能是生成的图像包含 VQA-v2 数据集中没有的语义概念,而且 VQA 测试的问题可能比 VQA-v2 问题的一般标准更具挑战性,但他认为前一种原因更有可能。
数据流中的LSD?
检讨
人工智能合成图像的新扩散,可以呈现自然界中不存在的核心概念的即时连接和抽象,并且通过传统方法生成将非常耗时,可能会给弱监督数据带来一个特殊问题——收集系统可能无法优雅地失败——很大程度上是因为它们不是为处理大量、未标记的合成数据而设计的。
在这种情况下,这些系统可能会将一定比例的“奇怪”的合成图像归入错误的类别,仅仅是因为这些图像具有实际上不属于同一类别的不同物体。

“宇航员骑马”或许已经成为新一代图像合成系统最具象征意义的视觉效果——但如果不小心,这些“不真实”的关系可能会进入真实的检测系统。 来源:https://twitter.com/openai/status/1511714545529614338?lang=en
除非可以在训练前的预处理阶段防止这种情况,否则这种自动化管道可能会导致不可能甚至怪异的关联被训练到机器学习系统中,从而降低其有效性,并有将高级关联传递到下游系统和子类的风险和类别。
或者说,脱节的合成图像可能会对后续系统的准确性产生“寒蝉效应”,最终会出现新的或经过修改的架构,试图解释 特设 合成图像,撒网太广。
无论如何,后稳定扩散时代的合成图像可能会让计算机视觉研究部门感到头疼,正是该部门的努力才使得这些奇怪的创作和功能成为可能——尤其是因为它危及该部门的希望,即数据的收集和管理最终可以比现在更加自动化,并且成本和时间都更低。
首次发布于 1 年 2022 月 XNUMX 日。














