Anderson 视角

当 AI 的角色扩展时,编码的感觉会受到影响

mm
An AI-generated stock-style image depicting a human Caucasian male and a larger glossy humanoid robot attempting to collaborate on a document; but the aggressive robot is causing the annoyed man to be sidelined. GPT-5 Image + Photoshop enhancement.

一项新研究发现,当人类提供指令时,编码的感觉会改善,但当 AI 提供指令时,编码的感觉会下降,最佳的混合设置是让人类处于首要位置,AI 作为仲裁者或判断者。

 

来自美国的新研究考察了当 AI 系统被允许控制 编码的感觉 时会发生什么,而不是仅仅执行人类的指令。研究发现,当大型语言模型(LLM)承担更大的方向角色时,结果几乎总是更差。

虽然研究人员使用 OpenAI 的 GPT-5 作为他们的人机协作实验的框架,但他们后来确认,Anthropic 的 Claude Opus 4.5Google Gemini 3 Pro 也会受到相同的性能下降曲线的影响,当责任增加时,表明“即使有限的人类参与也会稳步提高性能”:

‘人类提供了独特的高层次指导,跨越迭代,而 AI 指导往往导致性能崩溃。另外,我们发现,仔细分配角色,保持人类负责方向,而将评估任务交给 AI,可以提高混合性能。’

为了提供一个一致的测试,可以被人类和 AI 平等地评估,一个受控的实验框架被建立在一个迭代的编码任务周围,在这个任务中,一个参考图像——包含一张猫、狗、老虎、鸟、象、企鹅、鲨鱼、斑马、长颈鹿或熊猫的照片——必须使用可缩放矢量图形(SVG)重新创建,并且该重建将被评估为与原始图像的相似度:

人类和 AI 参与者都被展示了一张照片参考图像和一张 AI 生成的 SVG 重建,并被要求在七点制的评分中评估两者的相似度。来源 - https://arxiv.org/pdf/2602.10473

人类和 AI 参与者都被展示了一张照片参考图像和一张 AI 生成的 SVG 重建,并被要求在七点制的评分中评估两者的相似度。

在每个轮次中,一个代理提供高层次的自然语言指令来指导代码生成器,而另一个代理决定是否接受或拒绝新的版本——一个结构化的循环,反映了真实的协作工作流程。

在 16 个实验中,涉及 604 名参与者和数千个 API 调用,完全由人类领导的测试轮次被直接与完全由 AI 领导的轮次进行了比较,在其他条件相同的情况下。

不同的人机协作百分比和类型的解决方案(摘自源论文中的更大插图,我们将读者指向该论文)。

不同的人机协作百分比和类型的解决方案(摘自源论文中的更大插图,我们将读者指向该论文)。

虽然人类和 AI 在测试的基线开始时表现相似,但随着时间的推移,他们的轨迹分歧了:当人类提供指令和做出选择决定时,相似度评分会随着迭代次数的增加而提高,表现出稳定的累积改进;但当 AI 系统填充两个角色时,性能没有表现出一致的改进,甚至在轮次中频繁下降——尽管使用相同的底层模型进行代码生成,并且 AI 拥有与人类参与者相同的信息。

冗长效应

结果还表明,人类指令通常简短而且面向行动,关注下一步在当前图像中需要改变什么;相反,AI 指令更长且描述性更强(这是为 GPT-5 参数化的),描述视觉属性而不是优先考虑增量更正。

但是,如下图所示,强加严格的字数限制在 AI 指令上并没有逆转这种模式;即使被限制在 10、20 或 30 个字,AI 领导的链式仍然未能随着时间的推移而改进:

人类领导的轮次与完全 AI 领导的轮次和 AI 领导的轮次(限制在 10、20 或 30 个字的指令)相比,显示出缩短 AI 提示并不能防止迭代性能下降。

人类领导的轮次与完全 AI 领导的轮次和 AI 领导的轮次(限制在 10、20 或 30 个字的指令)相比,显示出缩短 AI 提示并不能防止迭代性能下降。

混合实验使得这种模式更加明显,表明添加一点人类参与就能改善结果,与完全 AI 领导的设置相比;然而,随着 AI 指导的份额增加,性能通常会下降。

当角色被分开时,评估和选择可以被交给 AI,而不会损害质量;但是,用 AI 指导取代人类的高层次指令会导致性能明显下降,表明最重要的不是谁 生成代码,而是谁 设定和维持方向 在迭代中。

作者总结道:

‘跨多个实验,人类领导的编码一致地随着迭代次数的增加而改进,而 AI 领导的编码往往会崩溃,尽管它们拥有相同的信息和类似的执行能力。 ‘

‘这表明,今天的 AI 系统在维持一致的高层次方向方面存在着关键的困难,跨越了重复的交互,这是成功的编码的感觉所必需的。’

这篇新论文的标题是 为什么人类指导在协作编码的感觉中很重要,来自康奈尔大学、普林斯顿大学、麻省理工学院和纽约大学的七位研究人员。

方法

在实验中,人类教练查看了一张 GPT-5 生成的动物参考图像,以及与之相关的最新 SVG 模拟尝试。然后,教练写下自然语言指令来指导代码生成器朝着更接近匹配的方向努力。

因此,生成器会在每个轮次中产生一个新的 SVG,提供一个迭代循环来测试指导的效果如何随着时间的推移积累。

研究中使用的编码工作流程的模式。在 A)中,人类教练查看了一张照片参考图像和迄今为止生成的最佳 SVG,并写下自然语言指令来指导代码生成器在生成下一个 SVG 时遵循;在 B)中,人类选择器比较新 SVG 和前一个 SVG,并选择哪一个版本更好地匹配参考图像,然后将选定的 SVG 转发到下一个轮次的指令中;在 C)中,独立的人类评估者评估每个生成的 SVG 与其参考图像的相似度,提供了评估整体性能的评分。

研究中使用的编码工作流程的模式。在 A)中,人类教练查看了一张照片参考图像和迄今为止生成的最佳 SVG,并写下自然语言指令来指导代码生成器在生成下一个 SVG 时遵循;在 B)中,人类选择器比较新 SVG 和前一个 SVG,并选择哪一个版本更好地匹配参考图像,然后将选定的 SVG 转发到下一个轮次的指令中;在 C)中,独立的人类评估者评估每个生成的 SVG 与其参考图像的相似度,提供了评估整体性能的评分。

人类选择器比较每个新生成的 SVG 与前一个 SVG,并接受或拒绝它,这使得过程在轮次中与参考图像保持一致。在这个基准设置中,同一个人类执行两个角色。

为了衡量 质量,独立的人类评估者评估每个生成的 SVG 与其参考图像的相似度。在 16 个实验中,120 人提供了 4,800 个评分。所有实验都在 PsyNet 框架上运行,这是一个为人类和 AI 系统之间的结构化交互而设计的门户。

研究招募了 604 名母语为英语的参与者,测试将消耗 4,800 个 API 调用来生成代码,并且还有 5,327 个 API 调用来生成指令。虽然 GPT-5 是主要使用的模型,但也使用 Claude Opus 4.5 和 Gemini 3 Pro 进行了较小的比较批处理,每个批处理处理 280 个查询。

结果

共运行了 30 个编码轮次,每个轮次由 15 个核心参考图像的编辑组成。对于这些轮次,选择了 45 名人类参与者,每个人同时担任选择器和教练,共进行了 10 个迭代,在“人类领导”的轮次中。

在每个轮次中,同一个参与者首先选择当前 SVG 和前一个 SVG 之间的差异,然后写下下一个轮次的指令。测试的第二个版本用 GPT 5 的 API 调用替换了人类的决定,同时保持了设置的其他部分不变。在所有情况下,教练和选择器角色都使用普通语言提示代码生成器。

多轮次编码的代表性示例展示了该过程如何随着时间的推移而分歧;当人类同时担任选择器和教练时,SVG 输出会随着迭代次数的增加而稳步改进,越来越接近参考图像:

一个参考图像在人类领导(上)和 AI 领导(下)编码的感觉中的进展示例,展示了随着迭代次数的增加而稳步改进和停滞或偏离目标。

一个参考图像在人类领导(上)和 AI 领导(下)编码的感觉中的进展示例,展示了随着迭代次数的增加而稳步改进和停滞或偏离目标。

相反,在 AI 领导的版本中,早期轮次有时会捕捉到关键的视觉特征,但后续尝试未能建立在这些收益之上,甚至在某些情况下会偏离目标:

最终迭代的最终输出,比较人类领导(上行)和 AI 领导(下行)轮次,跨越相同的参考图像集。人类领导的结果更好地匹配原始动物,而 AI 领导的结果表现出明显的失真或关键特征的丧失。

最终迭代的最终输出,比较人类领导(上行)和 AI 领导(下行)轮次,跨越相同的参考图像集。人类领导的结果更好地匹配原始动物,而 AI 领导的结果表现出明显的失真或关键特征的丧失。

为了量化出现的趋势,最后的图像被展示给独立的人类评估者,并根据与参考图像的相似度进行评分。在早期轮次中,人类领导和 AI 领导的轮次得分相似;但是,到第 15 个轮次时,差异就变得明显了,人类选择的图像被评为更接近目标。随着时间的推移,人类评分稳步上升,最大相对收益达到 27.1%。

人类领导和 AI 领导编码的感觉的平均相似度评分,展示了随着迭代次数的增加而稳步改进和逐渐下降。

人类领导和 AI 领导编码的感觉的平均相似度评分,展示了随着迭代次数的增加而稳步改进和逐渐下降。

为了确保出现的趋势不是由于多个人类参与者的集体力量所致,研究人员招募了 10 名额外的人员,让他们单独工作,每人运行 3 个轮次——结果以相同的方式改进,表明收益并非集体努力的偶然性。

大局

然而,如果 GPT-5 自己评估输出,会不会承认人类的结果更好呢?人类和 AI 评分一般朝着同一方向移动,因此模型可以区分好坏,但一致地将 AI 生成的图像评为 高于人类评分

‘具体来说,我们问了 AI 代理是否会承认自己的输出比人类生成的输出更差,还是会偏爱自己的创作,这将表明潜在的对齐问题。’

事实证明,确实存在对齐问题:

‘AI 评估者为 AI 生成的输出分配了更高的评分。这些发现表明,观察到的性能差异可能源于人类和 AI 之间的表示不一致。’

在检查人类和 AI 如何表达指导时,差异变得明显:

人类和 AI 在编码任务中给出指令的比较。'A' 表明人类写下简短、直接的指令,而 AI 写下长、详细的描述。'B' 映射指令,揭示人类提示聚集在一起,而 AI 提示分散在动物中。'C' 跟踪限制 AI 指令长度对其随时间推移的糟糕结果的影响;'D' 描述人类给出更丰富、更平衡的指导,而 AI 即使在施加字数限制时也会这样做。

人类和 AI 在编码任务中给出指令的比较。’A’ 表明人类写下简短、直接的指令,而 AI 写下长、详细的描述。’B’ 映射指令,揭示人类提示聚集在一起,而 AI 提示分散在动物中。’C’ 跟踪限制 AI 指令长度对其随时间推移的糟糕结果的影响;’D’ 描述人类给出更丰富、更平衡的指导,而 AI 即使在施加字数限制时也会这样做。

人类指令倾向于简短而直接,提供可以在目标上普遍应用的明确编辑;而 AI 指令密集而详细,经常充满关于阴影、纹理、照明或解剖学细节的描述——这些描述可能在孤立中有意义,但无法为模型提供有用的下一步(这将是那些了解 LLMs 上下文长度问题的人所熟悉的,例如,能够在项目发展和增长时保持“大局”)。

联合努力

为了测试人类和 AI 共享 控制时会发生什么,研究人员运行了具有不同混合的人类和 AI 输入的编码任务,从 主要是人类主要是 AI

每个混合设置都优于完全 AI 控制,因此,即使只有一小部分人类指导也能改善结果:

具有不同人类和 AI 混合的混合编码设置。(A)显示了人类和 AI 如何在每个编码步骤中轮流担任教练和选择器;(B)显示了更多的人类参与导致更高质量的结果,而更多的 AI 输入则降低了评分;(C)描述了最终输出质量如何随着人类参与度的降低而稳步下降,确认更一致的人类方向会产生更好的结果。

具有不同人类和 AI 混合的混合编码设置。(A)显示了人类和 AI 如何在每个编码步骤中轮流担任教练和选择器;(B)显示了更多的人类参与导致更高质量的结果,而更多的 AI 输入则降低了评分;(C)描述了最终输出质量如何随着人类参与度的降低而稳步下降,确认更一致的人类方向会产生更好的结果。

随着 AI 占据更多的过程,性能下降了,最好的结果出现在人类领导大多数轮次,而最差的结果出现在 AI 领导大多数轮次。这些混合设置都无法随着新轮次的增加而持续改进,表明人类方向在保持一致性时效果最佳,而不是偶尔出现。

角色逆转

该研究还探讨了谁在这些任务中 做什么 是否重要,并测试了这一点。修订后的练习涉及两个任务:一位参与者将指示如何更改图像,而另一位参与者将选择一个更喜欢的版本。

当两个角色都由人类担任时,质量得到维持;但是,当人类给出指令而没有人选择版本时,质量会变差:

编码的感觉中的角色划分测试。(A)删除选择器角色会导致性能变差,即使人类提供指令;(B)用 AI 替换人类选择器会略微降低质量,但不会像完全跳过选择一样严重。

编码的感觉中的角色划分测试。(A)删除选择器角色会导致性能变差,即使人类提供指令;(B)用 AI 替换人类选择器会略微降低质量,但不会像完全跳过选择一样严重。

当 AI 负责时,跳过选择步骤没有区别,因为其输出在任何情况下都保持一致;但是,当人类提供指令而 AI 选择结果时,质量保持接近于全人类设置。

相反的情况并没有发生:当 AI 给出指令而人类选择输出时,结果会变弱,表明人类的创造性指导仍然至关重要,而选择选项的任务可以在没有太大损失的情况下交给 AI。

该论文得出结论:

‘高层次的想法生成和指令是人类的关键贡献,而评估和选择通常可以委托给 AI 而不会损害性能。 ‘

‘这表明混合系统的实用设计原则:人类应该设定方向,而 AI 可以支持评估和执行。’

结论

仍然需要确定改进和/或增加的上下文窗口将如何影响 LLMs 在此类任务中的性能。LLMs 的“健忘症”不再是人类与 AI 协作的日常烦恼的那一天,可能是值得庆祝和担忧的,因为 AI 正在努力解决的这个问题,可能是 人类 的一个不可替代的概念。

然而,作者的工作也清楚地表明,存在人类和 AI 之间的固有且关键的质量差异,这可能最终由消费者决定是一个不可替代的人类概念。

 

* 我将作者的内联引用转换为超链接。

首次发布于 2026 年 2 月 13 日星期五。

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai