Anderson 视角
使用 AI 幻觉来评估图像真实性

来自俄罗斯的新研究提出了一种非传统的方法来检测不真实的 AI 生成图像 – 不是通过提高大型视觉语言模型 (LVLMs) 的准确性,而是通过故意利用它们的 倾向于产生幻觉。
这种新颖的方法使用 LVLMs 提取图像的多个“原子事实”,然后应用 自然语言推理 (NLI) 来系统地测量这些语句之间的矛盾 – 实际上将模型的缺陷转化为检测违反常识的图像的诊断工具。

WHOOPS! 数据集中的两张图像,以及 LVLM 模型自动生成的语句。左边的图像是真实的,导致描述一致,而右边的不寻常图像导致模型产生幻觉,产生矛盾或虚假语句。 来源:https://arxiv.org/pdf/2503.15948
当被要求评估第二张图像的真实性时,LVLM 可以看到 有什么 不对劲,因为图像中的骆驼有三个驼峰,这在 自然界中是未知的。
然而,LVLM最初将 >2 个驼峰 与 >2 个动物 混淆,因为这是你在“骆驼图片”中看到三个驼峰的唯一方式。然后它继续产生更不可能的幻觉(即“两个头”),而不是详细描述最初引起它怀疑的不可能的额外驼峰。
研究人员发现,LVLM 模型可以以本地方式执行此类评估,其性能与(或优于)为此类任务进行了 微调 的模型相当。由于微调复杂、昂贵,并且在下游应用方面容易出现问题,因此发现一种利用当前 AI 革命中最大的障碍之一的本地用途是一种对文献中一般趋势的新颖变奏。
开放评估
作者断言,这种方法的重要性在于它可以使用 开源 框架部署。虽然像 ChatGPT 这样的高级和高投资模型可能(论文承认)在此任务中提供更好的结果,但对于我们大多数人(尤其是爱好者和 VFX 社区)来说,这项研究的真正价值在于将新突破纳入本地实现的可能性;相反,所有预定用于专有商业 API 系统的内容都可能受到撤回、任意价格上涨和反映公司的企业关注而不是用户的需求和责任的审查政策的影响。
新论文 的标题为 不要抵制幻觉,利用它们:使用 NLI 和原子事实估计图像真实性,它来自五位来自斯科尔科沃理工学院(Skoltech)、莫斯科物理技术学院、俄罗斯公司 MTS AI 和 AIRI 的研究人员。该工作有一个 附件 GitHub 页面。
方法
作者使用以色列/美国 WHOOPS! 数据集 进行该项目:

WHOOPS! 数据集中的不可能图像示例。值得注意的是,这些图像组装了可信的元素,而且它们的不可能性必须基于这些不兼容方面的连接来计算。 来源:https://whoops-benchmark.github.io/
数据集包括 500 个合成图像和 10,874 个注释,专门设计用于测试 AI 模型的常识推理和组合理解能力。它是与使用文本到图像系统(如 Midjourney 和 DALL-E 系列)生成具有挑战性的图像的设计师合作创建的 – 生成自然捕捉困难或不可能的场景:

WHOOPS! 数据集的进一步示例。 来源:https://huggingface.co/datasets/nlphuji/whoops
这种新方法分三个阶段工作:首先,LVLM(特别是 LLaVA-v1.6-mistral-7b)被提示生成多个简单的语句 – 称为“原子事实” – 来描述图像。这些语句使用 多样性束搜索 生成,以确保输出的多样性。

多样性束搜索通过优化多样性增强的目标来产生更好的字幕选项。 来源:https://arxiv.org/pdf/1610.02424
接下来,每个生成的语句都使用自然语言推理模型与其他语句进行系统比较,分配反映语句之间是否蕴涵、矛盾或中立的分数。
矛盾表明图像中存在幻觉或不真实的元素:

检测管道的模式。
最后,该方法将这些成对的 NLI 分数聚合成一个单一的“真实性分数”,该分数量化生成的语句的整体一致性。
研究人员探索了不同的聚合方法,基于聚类的方法表现最佳。作者将 k-means 聚类 算法应用于将个别 NLI 分数分为两个聚类,并选择较低值聚类的 质心 作为最终指标。
使用两个聚类直接与二元分类任务的二元性相对应,即区分真实和不真实的图像。逻辑类似于简单地选择最低分数;然而,聚类允许指标代表多个事实的平均矛盾,而不是依赖于单个 异常值。
数据和测试
研究人员在 WHOOPS! 基准测试数据集上测试了他们的系统,使用旋转 测试分割(即 交叉验证)。测试的模型是 BLIP2 FlanT5-XL 和 BLIP2 FlanT5-XXL,在分割中,以及 BLIP2 FlanT5-XXL,在零次格式(即无需额外训练)。
对于遵循指令的基准,作者提示 LVLMs 使用短语 ‘这是否不寻常?请用简短的句子简要说明’,这在 先前的研究 中被发现是检测不真实图像的有效方法。
评估的模型是 LLaVA 1.6 Mistral 7B、LLaVA 1.6 Vicuna 13B 和两个大小(7/13 亿参数)的 InstructBLIP。
测试程序集中在 102 对真实和不真实(“奇怪”)图像上。每对图像由一个正常图像和一个违反常识的对应图像组成。
三个人类注释器标记了图像,达成 92% 的一致性,表明人类对什么构成“奇怪”有强烈的共识。评估方法的准确性是通过它们正确区分真实和不真实图像的能力来衡量的。
系统使用三重交叉验证进行评估,随机打乱数据并固定种子。作者在训练期间调整了蕴涵分数(逻辑上同意的语句)和矛盾分数(逻辑上冲突的语句)的权重,而“中立”分数固定为零。最终准确性是作为所有测试分割的平均值计算的。

在五个生成的事实子集上比较不同的 NLI 模型和聚合方法,按准确性衡量。
关于上述初始结果,论文指出:
‘[聚类] 方法脱颖而出,成为表现最好的方法之一。这意味着聚合所有矛盾分数至关重要,而不是仅关注极端值。此外,最大 NLI 模型 (nli-deberta-v3-large) 在所有聚合方法中都优于其他模型,表明它更有效地捕捉到了问题的本质。’
作者发现,最佳权重一致地偏向矛盾而非蕴涵,表明矛盾对于区分不真实图像更具信息量。他们的方法在所有测试的零次方法中表现出色,接近微调的 BLIP2 模型的性能:

在 WHOOPS! 基准测试中各种方法的性能。微调 (ft) 方法出现在顶部,而零次 (zs) 方法列在下面。模型大小表示参数的数量,准确性用作评估指标。
他们还注意到,InstructBLIP 的性能比具有相同提示的可比 LLaVA 模型更好。虽然承认 GPT-4o 的更高准确性,但论文强调作者偏好于展示实用的开源解决方案,并显然可以合理地声称在显式利用幻觉作为诊断工具方面的新颖性。
结论
然而,作者承认他们的项目欠 2024 年 FaithScore 的恩惠,这是一项由德克萨斯大学达拉斯分校和约翰霍普金斯大学合作的项目。

FaithScore 评估的工作原理。首先,识别 LVLM 生成的答案中的描述性语句。接下来,将这些语句分解为个别原子事实。最后,将这些原子事实与输入图像进行比较以验证其准确性。下划线文本突出显示目标描述内容,而蓝色文本表示产生的幻觉,允许 FaithScore 提供事实正确性的可解释度量。 来源:https://arxiv.org/pdf/2311.01477
FaithScore 通过验证生成的描述与图像内容的一致性来衡量 LVLM 生成的描述的忠实度,而这篇新论文的方法则通过使用自然语言推理在生成的事实中显式地利用 LVLM 幻觉来检测不真实的图像。
这项新工作自然依赖于当前语言模型的怪癖,以及它们产生幻觉的倾向。如果模型开发有朝一日能够带来一个完全不产生幻觉的模型,即使这项新工作的总体原理也将不再适用。然而,这仍然是一个 具有挑战性的前景。
首次发布于 2025 年 3 月 25 日,星期二
