存根 深度学习模型可能难以识别人工智能生成的图像 - Unite.AI
关注我们.

人工智能

深度学习模型可能难以识别人工智能生成的图像

mm
更新 on

一篇新论文的研究结果表明,最先进的人工智能识别和解释人工智能合成图像的能力明显不如人类,这在机器学习模型越来越多地接受合成数据训练的未来环境中可能会令人担忧。并且不一定知道数据是否“真实”。

在这里,我们看到 resnext101_32x8d_wsl 预测模型在“百吉饼”类别中挣扎。 在测试中,如果核心目标词(在本例中为“百吉饼”)未出现在前五个预测结果中,则认为发生了识别失败。 资料来源:https://arxiv.org/pdf/2208.10760.pdf

在这里,我们看到 resnext101_32x8d_wsl 预测模型在“百吉饼”类别中挣扎。 在测试中,如果核心目标词(在本例中为“百吉饼”)未出现在前五个预测结果中,则认为发生了识别失败。 资料来源:https://arxiv.org/pdf/2208.10760.pdf

新研究测试了两类基于计算机视觉的识别框架:物体识别和视觉问答(质量保证).

左边是物体识别系统的推理成功和失败; 右侧是 VQA 任务,旨在以更具探索性和更有意义的方式探索 AI 对场景和图像的理解。 资料来源:https://arxiv.org/pdf/2105.05312.pdf 和 https://arxiv.org/pdf/1505.00468.pdf

左边是物体识别系统的推理成功和失败; 右侧是 VQA 任务,旨在以更具探索性和更有意义的方式探索 AI 对场景和图像的理解。 资料来源:https://arxiv.org/pdf/2105.05312.pdf 和 https://arxiv.org/pdf/1505.00468.pdf

在图像合成框架生成的精选数据集上测试了十个最先进的模型 达尔-E 2中途,在两种类型的测试中,表现最好的模型只能达到 60% 和 80% 的 top-5 准确率,而 图像Net 在非合成的真实世界数据上进行训练,在相同类别中分别可以达到 91% 和 99%,而人类的表现通常明显更高。

解决周边问题 分布转移 (又名“模型漂移”,当预测模型从训练数据转移到“真实”数据时,预测能力会下降),论文指出:

“人类能够识别生成的图像并轻松回答有关图像的问题。 我们的结论是:a)深度模型很难理解生成的内容,并且在微调后可能会做得更好;b)生成的图像和真实照片之间存在很大的分布变化。 分布变化似乎取决于类别。

鉴于上周的事件之后,大量合成图像已经充斥互联网 轰动的开源 强者的 稳定扩散 潜在扩散合成模型,随着“假”图像涌入行业标准数据集,例如 常见的抓取,多年来准确性的变化可能会受到“不真实”图像的显着影响。

尽管合成数据已 预示 作为数据匮乏的计算机视觉研究领域的潜在救世主,该领域通常缺乏超大规模管理的资源和预算,稳定扩散图像的新洪流(以及自出现以来合成图像的普遍增长) 商业化 of 达尔-E 2)不太可能都带有方便的标签、注释和主题标签,以便贪婪的机器视觉系统从互联网上刮掉它们,从而将它们区分为“假货”。

开源图像合成框架的发展速度明显超过了我们对这些系统中的图像进行分类的能力,导致 人们对“假图像”检测越来越感兴趣 系统,类似于 深度检测 系统,但任务是评估整个图像而不是 面部的部分.

新文 标题为 深度模型在理解生成的图像方面有多好?,来自旧金山机器学习初创公司 Quintic AI 的 Ali Borji。

时间

该研究早于 Stable Diffusion 发布,实验使用 DALL-E 2 和 Midjourney 生成的 17 个类别的数据,包括 , 蘑菇, 比萨, 椒盐卷饼, 拖拉机.

测试识别和 VQA 系统面临挑战以识别最重要的关键概念的图像示例。

测试识别和 VQA 系统面临挑战以识别最重要的关键概念的图像示例。

图片是通过网络搜索和 Twitter 获得的,并且根据 DALL-E 2 的政策(至少, 当时),不包含任何人脸图像。 仅选择人类可识别的高质量图像。

策划了两组图像,一组用于对象识别和 VQA 任务。

用于对象识别的每个测试类别中存在的图像数量。

用于对象识别的每个测试类别中存在的图像数量。

测试物体识别

对于对象识别测试,测试了全部在 ImageNet 上训练的 XNUMX 个模型: 亚历克斯网, 残差网络152, 移动网络V2, 密集网, 下一步, 谷歌网, 残差网络101, 盗梦空间_V3, 戴特ResNext_WSL.

测试系统中的某些类比其他类更细化,因此需要应用平均方法。 例如,ImageNet 包含保留“时钟”的三个类,因此有必要定义某种仲裁度量,其中在任何图像的前五个获得的标签中包含任何类型的任何“时钟”都被视为成功在那种情况下。

每个模型在 17 个类别中的表现。

每个模型在 17 个类别中的表现。

本轮中表现最好的模型是 resnext101_32x8d_ws,top-60 的准确率接近 1%(即,在五个猜测中首选预测是图像中体现的正确概念的次数),top-80 的准确率达到 XNUMX%(即所需的概念至少列在模型对图片的五种猜测中的某个位置)。

作者认为该模型的良好性能归因于它是针对社交媒体平台中的主题标签的弱监督预测进行训练的。 然而,作者指出,这些领先结果明显低于 ImageNet 在实际数据上能够实现的结果,即 91% 和 99%。 他认为这是由于 ImageNet 图像(也是从网络上抓取的)和生成图像的分布之间的巨大差异造成的。

该系统最困难的五个类别(按难度顺序排列)是 风筝, , 松鼠, 墨镜头盔。 该论文指出, 风筝 类经常与 气球, 降落伞,尽管这些区别对于人类观察者来说很容易区分。

某些类别,包括 风筝,导致所有模型普遍失败,而其他模型(特别是 椒盐卷饼拖拉机)在测试模型中几乎取得了普遍的成功。

极化类别:选择的一些目标类别要么欺骗所有模型,要么很容易让所有模型识别。

极化类别:选择的一些目标类别要么欺骗所有模型,要么很容易让所有模型识别。

作者假设这些发现表明所有物体识别模型可能都有相似的优点和缺点。

测试视觉问答

接下来,作者使用二元问题(即答案只能是“是”或“否”的问题)在开放式和自由形式的 VQA 上测试了 VQA 模型。 该论文指出,最近最先进的 VQA 模型能够在 VQA-v2 数据集.

在这一阶段的测试中,作者整理了 50 张图像,并围绕它们提出了 241 个问题,其中 132 个为肯定答案,109 个为否定答案。 平均问题长度为 5.12 个单词。

本轮使用了 OFA模型,一个与任务无关和模态无关的框架,用于测试任务的全面性,最近是该领域的领先得分者 VQA-v2 测试标准集。 OFA 在生成的图像上得分为 77.27%,而其在 VQA-v94.7 测试标准集中的得分为 2%。

测试 VQA 部分的示例问题和结果。 “GT”是“Ground Truth”,即正确答案。

测试 VQA 部分的示例问题和结果。 “GT”是“Ground Truth”,即正确答案。

该论文的作者认为,部分原因可能是生成的图像包含 VQA-v2 数据集中缺少的语义概念,并且为 VQA 测试编写的问题可能更具挑战性 VQA-v2 问题的一般标准,尽管他认为前一种原因的可能性更大。

数据流中的LSD?

检讨 人工智能合成图像的新扩散,可以呈现自然界中不存在的核心概念的即时连接和抽象,并且通过传统方法生成将非常耗时,可能会给弱监督数据带来一个特殊问题——收集系统可能无法优雅地失败——很大程度上是因为它们不是为处理大量、未标记的合成数据而设计的。

在这种情况下,可能存在这样的风险:这些系统会将一定比例的“奇怪”合成图像归入不正确的类别,仅仅是因为这些图像具有不同的对象,而这些对象并不真正属于在一起。

“宇航员骑马”也许已经成为新一代图像合成系统最具象征意义的视觉效果,但如果不小心的话,这些“不真实”的关系可能会进入真实的检测系统。 来源:https://twitter.com/openai/status/1511714545529614338?lang=en

“宇航员骑马”也许已经成为新一代图像合成系统最具象征意义的视觉效果,但如果不小心的话,这些“不真实”的关系可能会进入真实的检测系统。 来源:https://twitter.com/openai/status/1511714545529614338?lang=en

除非可以在训练前的预处理阶段防止这种情况,否则这种自动化管道可能会导致不可能甚至怪异的关联被训练到机器学习系统中,从而降低其有效性,并有将高级关联传递到下游系统和子类的风险和类别。

或者,脱节的合成图像可能会对后续系统的准确性产生“寒蝉效应”,因为最终会出现新的或修改后的架构来尝试解释 特设 合成图像,撒网太广。

无论哪种情况,后稳定扩散时代的合成图像都可能成为计算机视觉研究部门的一个头痛问题,他们的努力使这些奇怪的创造和能力成为可能——尤其是因为它危及了该部门的希望,即数据的收集和管理可以最终将比现在更加自动化,并且成本和耗时要少得多。

 

首次发布于 1 年 2022 月 XNUMX 日。