Anderson 视角

“下载更多标签！”的AI研究幻觉

Published April 23, 2025

Updated April 26, 2026

Martin Anderson

ChatGPT-4o: 'A wall on which hundreds of photographs are stuck with thumb-tacks. Each photo depicts a different kind of subject, such as fruit or animals or bridges or buildings or people, etc. Each photo has 2-3 yellow post-it notes attached to it. We are too far away to read anything written on the post-it notes, but we can see that there are dozens and dozens of photos on the wall, and each with several post-it notes tacked on.'

当前机器学习研究中有一种普遍的观点，即机器学习本身可以用来提高AI数据集注释的质量——特别是用于视觉语言模型（VLMs）的图像字幕。这种思维方式是由人类注释的高成本和监督注释器性能的额外负担驱动的。

可以说，这是AI领域的早期2000年代“下载更多RAM”迷因的等价物，该迷因讽刺了这样一种观念：硬件限制可以通过软件解决方案来解决。

这是一个被低估的问题；虽然新的AI模型在公众和商业领域引起了广泛的关注，但注释往往似乎是机器学习管道中一个微不足道的细节，被围绕更广泛框架的兴奋所掩盖。

事实上，机器学习系统识别和复制模式的能力（几乎所有AI系统的核心用例）取决于真实注释的质量和一致性——由真实的人创建或裁定的人类注释，通常对个别数据点做出主观判断，在非理想的情况下。

不可避免地，试图观察和复制注释器行为的模式（并因此取代人类注释器并在规模上实现准确标记）的系统不可能在不包含来自人类观察者的示例的数据上表现良好。没有什么是“相似”的，跨域等价性仍然是计算机视觉中一个有问题的追求。

“上游数据责任”最终必须停止在某个地方，在这种情况下，它恰恰停止在那里——一个人类大脑做出某种主观区分，以便为人工系统编码数据。

拼缝贸易

直到最近，数据集注释中不准确的内容可能被视为在生成AI系统中获得不完美但仍然可行的结果的背景下可以接受的附带损害。

的确，只是在今年，新加坡的一项研究得出结论，AI系统中“幻觉”的出现——即AI系统编造出与我们意图相矛盾的东西——是不可避免的，并且与此类系统的概念架构密切相关。

为了应对这一问题，基于检索的生成代理——可以通过互联网搜索“验证”事实——正在研究和应用中变得流行。然而，它们增加了资源成本和查询延迟；此外，应用于训练模型的新信息无法与训练模型中的本地层次更复杂、更密切的联系相比。

因此，如果这些模型所依据的注释数据一开始就不那么有缺陷的话，即使它不完美（因为这涉及到人类的主观性），也会更好。

RePOPE

德国的一篇新论文强调了依赖旧的、被广泛使用的数据集的弊端，特别关注图像字幕的准确性和可靠性。研究人员的发现表明，基准测试中的标签错误可能会掩盖或歪曲视觉语言模型中的幻觉。

从新论文中，我们可以看到原始字幕在识别MSCOCO图像数据集中的对象时失败的例子。研究人员对POPE基准数据集的修订解决了这些缺陷，证明了省略注释策划的代价。来源：https://arxiv.org/pdf/2504.15707

想象一个模型被展示了一幅街景图像，并被问及图像中是否有自行车。模型回答是。如果基准数据集说没有自行车，那么模型被标记为错误。但是，如果自行车清晰可见在图像中，并且只是在注释过程中被忽略，那么模型的答案是正确的，基准测试失败了。这样的错误可以在整个数据集中积累，给出一个关于哪些模型是准确的、哪些模型容易产生幻觉的扭曲图景。

因此，当不正确或模糊的注释被视为真实数据时，模型可能会表现出幻觉，即使它们是正确的，或者看起来准确，但实际上并非如此，这会扭曲幻觉的衡量和模型性能的排名，使得诊断或解决问题变得更加困难。

这篇新论文重新审视了一个被广泛使用的基准测试，称为投票式对象探测评估（POPE），它测试视觉语言模型是否可以正确地指出图像中是否包含某个对象。

POPE基于微软COCO：上下文中的常见对象（MSCOCO）数据集的标签，该数据集是一组注释图像，长期以来被认为提供了良好的注释准确性。

POPE通过将问题重新表述为二元分类任务来评估大型视觉语言模型中的对象幻觉。系统向模型提出简单的是/否问题，询问图像中是否存在特定对象，使用诸如“图像中是否有<对象>？”的模板。

视觉语言模型中的对象幻觉示例。粗体标签表示原始注释中标记为存在的对象，而红色标签显示模型幻觉的对象。左侧示例反映了传统的基于指令的评估，而右侧的三个示例来自不同的POPE基准测试变体。来源：https://aclanthology.org/2023.emnlp-main.20.pdf

真实对象（答案：是）与采样不存在的对象（答案：否）配对，通过随机、频繁（流行）或共现性（对抗性）策略选择。这种设置允许对幻觉进行更稳定、不依赖提示的评估，而无需依赖复杂的基于规则的字幕分析。

这篇新论文的作者——题为RePOPE：注释错误对POPE基准测试的影响——通过重新检查基准测试的图像标签（即MSCOCO）挑战了POPE的假设准确性，并发现了大量的错误或不清晰的标签。

2014年MSCOCO数据集的示例。 来源：https://arxiv.org/pdf/1405.0312

这些错误改变了模型的排名，一些最初表现良好的模型在使用修订后的标签时排名下降。

在测试中，作者评估了多个开源视觉语言模型在原始POPE基准测试和修订后的RePOPE版本上的性能。

根据论文，修订后的注释导致模型排名发生了显著的变化，特别是在F1评分中，几个在POPE上表现良好的模型在RePOPE下排名下降。

作者认为，这种转变表明注释错误可能会掩盖模型的实际幻觉行为，并将RePOPE呈现为评估幻觉漏洞的更可靠工具。

在新论文中，我们可以看到原始POPE字幕在识别图像中微妙对象时失败的另一个示例，例如右侧照片中电车旁边的座位，或第二张照片中被网球运动员遮挡的椅子。

方法和测试

研究人员重新注释了原始MSCOCO数据集中的所有注释，每个数据实例分配了两个人类标注器。在原始标签存在模糊性时（如下所示），这些结果从测试轮中排除。

模糊情况，其中POPE中的标签不一致反映了不清晰的类别边界。例如，将泰迪熊标记为熊，将摩托车标记为自行车，或将机场车辆标记为汽车。这些情况由于分类的主观性以及MSCOCO原始标签的不一致性而从RePOPE中排除。

论文指出：

“原始注释器漏掉了背景中或玻璃后面的物体，网球运动员遮挡了背景中的‘椅子’，而卷心菜沙拉中只有一小条可见的胡萝卜。”

“对于某些物体，COCO注释非常不一致，可能是由于原始注释器使用的定义不同。将‘泰迪熊’标记为‘熊’、摩托车标记为带动力‘自行车’或机场车辆标记为‘汽车’取决于特定的定义，导致POPE真实标签注释不一致。因此，我们将相应的图像-问题对标记为‘模糊’。”

重新注释的结果：POPE中的正面问题在所有三个变体中均有共享。在POPE中标记为“是”的问题中，9.3％被发现是错误的，13.8％被归类为模糊。对于“否”问题，1.7％被错误标记，4.3％被归类为模糊。

作者评估了多个开源模型在POPE和RePOPE上的性能，包括一些领先的OpenVLM排行榜模型：InternVL2.5（8B/26B/38B/78B和8B-MPO/26B-MPO）；LLaVA-NeXT；Vicuna；Mistral 7b；Llama；LLaVA-OneVision；Ovis2（1B/2B/4B/8B）；PaliGemma-3B；以及PaliGemma2（3B/10B）。

初始结果：原始正面标签中的高错误率导致所有模型的真实正例大幅下降。假正例在子集中有所不同，在随机子集上几乎增加了一倍，但在流行子集上基本保持不变，在对抗子集上略有下降。重新标记对F1评分排名产生了重大影响。Ovis2-4B和Ovis2-8B等模型在POPE的流行和对抗子集上表现良好，在RePOPE下也在随机子集上排名靠前。请参阅源PDF以获得更好的分辨率。

结果图表显示了真实正例和假正例的数量在更正标签后如何变化。

真实正例在所有模型中都下降，表明它们经常被错误地认为是正确答案，而这些答案只在有缺陷的标签下才是正确的。假正例则表现出更为多样的模式。

在POPE的“随机”版本中，许多模型的假正例几乎增加了一倍，表明大量被标记为幻觉的对象实际上存在于图像中，但在原始注释中被忽略。在这种情况下，许多所谓的模型错误实际上是数据集标签错误。

对于POPE的“对抗”版本，假正例减少，可能反映了被认为不存在的对象实际上存在于图像中但未被标记的可能性更高。

虽然这些变化影响了精度和召回率，但模型排名在两个指标上都相对稳定。

F1评分——POPE的主要评估指标——对标签更正更为敏感。在随机子集上，最初在原始标签下排名靠前的模型，如InternVL2.5-8B和-26B，在使用RePOPE评分时排名靠后。其他模型，如Ovis2-4B和-8B，则在RePOPE下排名靠前。

准确性评分中出现了类似的模式，尽管作者指出，这些评分现在可能存在偏差，因为更正后的数据集包含不均匀的正面和负面示例。

作者认为，注释错误对基准测试结果的强烈影响凸显了高质量数据的必要性。为了支持对象幻觉的更可靠评估，他们已经在GitHub上发布了更正后的标签。

然而，他们指出，这次重新标记并没有完全解决基准测试的饱和问题，因为许多模型仍然在真实正例和真实负例率方面达到90%以上。他们建议，应该使用其他基准测试，如DASH-B，它使用更具挑战性的负面示例，与RePOPE一起使用。

结论

这个特定的实验之所以可能，是因为所涉及的数据集规模非常小。在超大规模数据集上证明相同的假设将涉及在数据的非常有限的片段上工作；在高度多样化的大型数据集中，可能很难隔离出统计上具有代表性和语义上的一致的分组——这可能会偏斜结果。

即使它是可能的，当前的技术水平下有什么补救措施？论点不可避免地转向了对更好和更丰富的人类注释的需求。

在这方面，“更好”和“更多”存在着各自的问题，因为可以通过低成本经济来获得更大量的注释，例如亚马逊机械土耳其（AMT）。显然，这种潜在的剥削性经济往往会导致较差的结果。

或者，可以将注释任务外包给经济区域，在那里相同的支出会产生更多的注释。然而，注释器与模型的预期用例越远离，模型的标签就越不可能与目标领域的需求或期望保持一致。

这仍然是机器学习开发经济学中最顽固和未解决的挑战之一。

首次发布于2025年4月23日星期三

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai

Unite.AI

“下载更多标签！”的AI研究幻觉

拼缝贸易

RePOPE

方法和测试

结论

You may like