Anderson 视角
使用 AI 的幻觉来评估图像的真实性

来自俄罗斯的新研究提出了一种非传统的方法来检测不真实的 AI 生成的图像——不是通过提高大型视觉语言模型(LVLMs)的准确性,而是通过故意利用它们的倾向于产生幻觉。
这种新颖的方法使用 LVLMs 提取图像的多个“原子事实”,然后应用自然语言推理(NLI)来系统地测量这些语句之间的矛盾——有效地将模型的缺陷转化为检测违反常识的图像的诊断工具。

两个来自 WHOOPS!数据集的图像,以及 LVLM 模型自动生成的语句。左侧的图像是真实的,导致描述一致,而右侧不寻常的图像导致模型产生幻觉,产生矛盾或虚假的语句。 来源:https://arxiv.org/pdf/2503.15948
当被要求评估第二个图像的真实性时,LVLM 可以看到有些东西不对劲,因为所描绘的骆驼有三个驼峰,这在自然界中是未知的。
然而,LVLM最初将“>2 个驼峰”与“>2 个动物”混淆,因为这是你可能在一个“骆驼图片”中看到三个驼峰的唯一方式。然后,它继续产生比三个驼峰更不可能的东西(即“两个头”),并且从不详细说明似乎触发了它怀疑的东西——不太可能的额外驼峰。
研究人员发现,LVLM 模型可以本地执行此类评估,并且其性能与(或优于)专门为此类任务微调的模型相当。由于微调复杂、昂贵且在下游应用中容易出现问题,因此发现一种本地使用方法来利用当前 AI 革命中最大的障碍之一是一种令人耳目一新的转折。
开放评估
作者认为,这种方法的重要性在于它可以使用开源框架来部署。虽然像 ChatGPT 这样的高级和高投资模型(该论文承认)在此任务中可能会提供更好的结果,但对于我们大多数人(尤其是爱好者和 VFX 社区)来说,这项研究的真正价值在于将新突破纳入本地实现的可能性;相反,所有预定用于专有商业 API 系统的内容都可能被撤回、价格任意上涨,并且遵循公司的企业利益而不是用户的需求和责任。
新论文题为《不要与幻觉作斗争,利用它们:使用 NLI 和原子事实来估计图像的真实性》,由五位研究人员在斯科尔科沃理工学院(Skoltech)、莫斯科物理技术学院和俄罗斯公司 MTS AI 和 AIRI 合作完成。该工作有一个GitHub 页面。
方法
作者使用以色列/美国的WHOOPS!数据集进行此项目:

来自 WHOOPS!数据集的不可能图像的示例。值得注意的是,这些图像组装了可信的元素,并且它们的不可能性必须基于这些不兼容的方面的连接来计算。 来源:https://whoops-benchmark.github.io/
数据集由 500 个合成图像和超过 10,874 个注释组成,专门设计用于测试 AI 模型的常识推理和组合理解能力。它是由设计师与使用文本到图像系统(如Midjourney和 DALL-E 系列)生成具有挑战性的图像的结果——产生在自然界中难以或不可能捕捉到的场景:

来自 WHOOPS!数据集的更多示例。 来源:https://huggingface.co/datasets/nlphuji/whoops
新方法分三个阶段工作:首先,LVLM(特别是LLaVA-v1.6-mistral-7b)被提示生成多个简单的语句——称为“原子事实”——来描述一个图像。这些语句使用多样性束搜索生成,以确保输出的多样性。

多样性束搜索通过优化多样性增强的目标来产生更好的字幕选项。 来源:https://arxiv.org/pdf/1610.02424
接下来,每个生成的语句都被系统地与其他语句进行比较,使用自然语言推理模型来分配反映语句对之间是否蕴涵、矛盾或中立的分数。
矛盾表明图像中存在幻觉或不真实的元素:

检测管道的模式。
最后,方法将这些成对的 NLI 分数聚合成一个单一的“真实性分数”,该分数量化生成的语句的整体连贯性。
研究人员探索了不同的聚合方法,发现基于聚类的方法表现最佳。作者将k-means 聚类算法应用于将个别 NLI 分数分成两个聚类,并选择较低值聚类的质心作为最终的度量指标。
使用两个聚类与分类任务的二元性质一致,即区分真实和不真实的图像。逻辑与简单地选择最低分数类似;然而,聚类允许度量代表多个事实的平均矛盾,而不是依赖于单个异常值。
数据和测试
研究人员在 WHOOPS!基准测试集上测试了他们的系统,使用旋转测试集(即交叉验证)。测试的模型包括 BLIP2 FlanT5-XL 和 BLIP2 FlanT5-XXL,在分割中,以及 BLIP2 FlanT5-XXL,在零次格式(即无需额外训练)。
对于遵循指令的基准,作者使用短语 ‘这是不寻常的吗?请简要用一句话解释’ 来提示 LVLMs,这是先前的研究发现有效的方法,用于发现不真实的图像。
评估的模型包括 LLaVA 1.6 Mistral 7B、LLaVA 1.6 Vicuna 13B 和两个大小(7/13 亿参数)的 InstructBLIP。
测试过程集中在 102 对真实和不真实(“奇怪”)图像上。每对图像由一个正常图像和一个违反常识的对应图像组成。
三个人类注释者标记了图像,达成了 92% 的一致性,表明人类对“奇怪”图像的看法有很强的一致性。评估方法的准确性是通过它们正确区分真实和不真实图像的能力来衡量的。
系统使用三倍交叉验证进行评估,数据被随机打乱,使用固定种子。作者在训练期间调整了蕴涵分数(逻辑上同意的语句)和矛盾分数(逻辑上冲突的语句)的权重,而“中立”分数被固定为零。最终的准确性是通过所有测试集的平均值来计算的。

在五个生成的事实子集上,比较不同 NLI 模型和聚合方法的准确性。
关于上述初始结果,该论文指出:
‘[聚类] 方法脱颖而出,成为最好的表现之一。这意味着聚合所有矛盾分数至关重要,而不是仅关注极端值。此外,对于所有聚合方法,最大 NLI 模型(nli-deberta-v3-large)优于所有其他模型,表明它更有效地捕捉到了问题的本质。’
作者发现,最佳权重始终偏爱矛盾而不是蕴涵,这表明矛盾对于区分不真实的图像更具信息量。他们的方法在所有测试的零次方法中表现最佳,接近微调的 BLIP2 模型的性能:

在 WHOOPS!基准测试集上评估不同方法的性能。微调(ft)方法出现在顶部,而零次(zs)方法列在下面。模型大小表示参数数量,准确性用作评估指标。
他们还注意到,InstructBLIP 在给定相同提示的情况下比可比的 LLaVA 模型表现更好。虽然承认 GPT-4o 的更高准确性,但该论文强调了作者偏好于展示实用、开源的解决方案,并且似乎可以合理地声称在显式利用幻觉作为诊断工具方面具有新颖性。
结论
然而,作者承认他们的项目欠 2024 年 FaithScore 的恩惠,这是一项由德克萨斯大学达拉斯分校和约翰霍普金斯大学合作的研究。

FaithScore 评估的插图。首先,识别 LVLM 生成的答案中的描述性语句。接下来,将这些语句分解为个别的原子事实。最后,将这些原子事实与输入图像进行比较,以验证其准确性。下划线文本突出显示目标描述内容,而蓝色文本表示幻觉语句,允许 FaithScore 提供可解释的客观描述准确性度量。 来源:https://arxiv.org/pdf/2311.01477
FaithScore 通过验证描述性语句与图像内容的一致性来衡量 LVLM 生成的描述的忠实度,而新论文的方法则明确利用 LVLM 的幻觉来检测不真实的图像,方法是使用自然语言推理来识别生成的事实中的矛盾。
新工作当然依赖于当前语言模型的怪癖和它们倾向于产生幻觉的特性。如果模型开发有朝一日能够产生完全不产生幻觉的模型,即使新工作的总体原则也将不再适用。然而,这仍然是一个具有挑战性的前景。
首次发表于 2025 年 3 月 25 日星期二












