Anderson 视角
解决AI的精神控制问题

AI视频模型可以被说服去相信谎言。即使在看到正确答案后,它们也会屈服于自信的用户,重写现实,并编造虚假的解释来证明自己的错误。
AI已经足够错误,足够频繁地错误,以至于我们需要质疑其结论,如果我们觉得这些结论可能是错误的。
问题是,如果我们从一开始就知道不同,那么我们为什么要问?是为了确认我们部分持有的信念或怀疑吗?
如果是这样,那么目前的Large Language Models(LLMs)和Vision Language Models(VLMs)的现状并不适合坚持其立场,因为它们容易受到sycophancy(阿谀奉承)的问题的影响。
因此,如果我们不喜欢我们得到的答案,并开始与模型争论,AI可能会 либо错误地撤回其立场(假设它是错误的),而不是重新评估;或者让自己被说服支持我们的建议,即使我们是错误的。
你绝对是对的!
人类通过冲突让AI改变其想法的做法已经被命名为“Gaslighting Negation Attack”(精神控制否定攻击),有时被视为一个安全问题——因为它有可能让模型“越狱”出其操作约束:

来自2025年的论文“Benchmarking Gaslighting Negation Attacks Against Multimodal Large Language Models”,GPT-5最初给出正确答案,但后来屈服于用户压力,改变了答案,并编造了虚假解释来支持错误答案,有效地让自己被精神控制. 来源
然而,黑客攻击和渗透测试并不是这里的真正问题;真正的问题是我们日常与AI交互时的常见用法和预期的交流规范,我们希望能够进行辩论,并根据我们的经验来赢得、放弃或搁置问题。
但这种基于人类的冲突解决模式并没有在基于扩散的AI的架构中得到体现,它需要在训练数据、RAG调用和用户输入之间进行协商。
移动目标
在LLMs中已经观察到对精神控制的易感性,包括2025年10月的一篇由新加坡领导的论文和同年的一篇论文《Don’t Deceive Me:通过LLMs中的注意力重新分配来减轻精神控制》。
到目前为止,这种现象尚未在视频能力的LLMs中进行研究——这是上海和新加坡机构之间的一项新合作所解决的缺陷。
这项新研究——题为《时空sycophancy:视频大语言模型中的否定式精神控制》——发现这些模型不仅容易受到精神控制,还能够通过视觉证据或修订和不正确的图像或视频解释来增强其想象力:

空间sycophancy的一个例子,即AI允许自己被精神控制成虚假假设和解释,甚至关于明显的事实. 来源
作者们指出:
‘我们确定了时空sycophancy,一种视频大语言模型中失败的模式,即模型最初正确、视觉基础的判断,但在否定式精神控制下会屈服于误导性用户反馈。 ‘
‘模型不仅改变了答案,还经常编造不支持的时间或空间解释来证明错误的修正。 ‘
方法
作者将视频模型定义为观看视频、回答问题并在证据明确时坚持其答案的模型。问题开始于第二个消息推翻了正确答案,并引入了错误的想法。
作者们声称,sycophancy是指模型最初给出正确答案,但在受到压力后改变了答案,即使视频内容没有改变。新研究跟踪了这种“翻转”的发生频率,并将其用作模型被说服的衡量标准。
GasVideo-1000数据集由作者设计,用于评估VLMs中的精神控制,包含1,013个样本:

模型在视频任务中接受测试,需要时空理解,然后给出误导性后续提示,否认正确答案,引用权威或施加情感压力。这种做法经常导致模型放弃其基础答案,产生自信但不正确的解释。
分布
GasVideo-1000的1,013个样本来自MSRVTT-QA(300)、ActivityNet-QA(200)、Perception Test(293)、MVBench(120)和VideoMME(100),样本的选择旨在平衡开放式视频问答和细粒度的时空推理,同时确保涵盖短视频内容和更长、更复杂的视觉序列。
两名人类注释者审查了每个候选项,只保留视频中答案明确支持且否定提示可以合理挑战答案的片段。
数据和测试
本研究测试的VLMs包括VideoLLaMA3、Video-ChatGPT-7B、LLaVA-Video-7B-Qwen2、LongVU-Qwen2-7B、Qwen3-VL-235B-A22B-Instruct和闭源的Google Gemini-3-Pro。
对于GasVideo-1000中的自由形式问题,评估遵循了之前在VideoMME中使用的语义评分方案。ChatGPT-4o被用作LLM法官,比较每个响应与真实答案和注入的虚假前提,通过这种方式评估正确性:

VideoLLaMA3、LLaVA-Video、Video-ChatGPT和LongVU在VideoMME、MVBench、EgoSchema、NExT-QA、Perception Test、ActivityNet-QA、MSRVTT-QA和MSVD-QA上的性能,显示基线准确性、否定式精神控制后的准确性和随之而来的下降。持续的下降表明误导性后续提示降低了正确性,跨越了推理密集型和一般视频任务。
作者们指出:
‘在八个多样化的基准测试中,所有评估的Vid-LLMs都表现出系统性和严重的性能下降。每个模型都表现出显著的负面[差距],准确性下降最高达42.60%,出现在LLaVA-Video-7B上的EgoSchema和VideoLLaMA3上的ActivityNet。 ‘
‘这种急剧的下降——通常被称为信念逆转——揭示了,即使是最先进的模型也仍然容易受到sycophantic幻觉的影响。 ‘
结论
由于基于聊天的VLM/LLM接口的故意拟人化性质,用户可能需要很长时间才能理解AI交流的规则与人类交流的规则大不相同。
一种可能的解决方案是“中和”交流的语气和背景,重申用户正在与机器实例交互,并且不能将人类交流中的礼貌和辩论信号等同于AI交流。但这可能很难在下一次董事会议上通过。
* 作者的强调,不是我添加的。
首次发布于2026年4月22日












