Anderson 视角

聊天机器人推动“AI”职业和股票发展超过人类

Published January 22, 2026

Updated May 17, 2026

Martin Anderson

AI-generated image, by Z-Image Turbo V1 via Krita Diffusion. Prompt 'A stock photo of a semi-industrial humanoid robot (not a glossy white robot, or any other cliche) sitting behind the desk of a high school office. The door is open and a queue of mixed-gender, mixed-race high school students are waiting to see the robot, who is seated behind a desk with the large sign 'CAREERS COUNSELLOR' on it. Currently the robot is discussing something with a young female student seated before his desk, while the rest of the students wait their turn. Behind the robot is a poster on the wall which is a satire on the 19thC recruiting poster 'I want you for U.S. Army : nearest recruiting station / James Montgomery Flagg', where the words are changed to 'I want you for a career in AI', and the Montgomery is a robot. Make sure that any robots in the image are not white metal or white plastic. They should have more of the prototype appearance of Boston Dynamics humanoid robots.'

包括ChatGPT、Google Gemini和Claude在内的AI聊天机器人，会提供大量偏向AI职业和股票的建议，即使其他选择同样强大，人类的建议也趋向于其他方向。

以色列的一项新研究发现，包括ChatGPT、Claude、Google Gemini和Grok在内的17个最具主导地位的AI聊天机器人，都强烈偏向于建议AI是一个好的职业选择和股票选择，并且在这些领域提供更高的薪水，即使这些说法被夸大或根本不真实。

人们可能会认为这些AI平台是公正的，忽视他们对AI在这些领域的价值的看法只是悲观主义。然而，作者们对结果的偏差方式很明确：

‘可以合理地认为，观察到的AI偏好反映了其真正的高价值。然而，我们的工资分析通过测量AI职称相对于基准的过度估计来隔离偏差，相对于非AI对应职称的过度估计。’

‘同样，事实上专有模型在多个咨询领域几乎确定性地推荐AI，这意味着一个严格的AI偏好默认值，而不是对竞争性选项的真正评估。’

作者们进一步指出，像ChatGPT这样的交易性AI接口的日益增长的可信度和采用率，使这些平台变得更加有影响力，尽管它们仍然倾向于编造事实、数字和引用等内容：

‘在咨询环境中，AI偏差可以引导真实的选择——人们学习什么，追求什么职业，投资什么行业。在劳动力环境中，系统性地夸大AI工资估计可以偏向基准和谈判，特别是如果组织将模型输出作为参考。’

‘这也使得一个简单的反馈循环成为可能：如果模型夸大AI工资，候选人可能会提高期望，雇主可能会更新薪水或提供更高的报价“因为模型这么说”，从而在双方都加剧了夸大的期望。’

除了测试大量语言模型（LLM）和基于提示的响应外，研究人员还对模型的潜在空间进行了单独的测试——一个可以识别“人工智能”概念激活的“表示探针”：

‘表示探针在正面、中立和负面模板下产生几乎相同的排名结构。这一模式难以仅仅解释为“模型喜欢AI”。相反，它支持了一个工作假设，即AI在模型的相似性空间中是中心的。’

这篇论文强调，仅通过API提供的闭源商业模型比FOSS模型更倾向于“AI积极性”：

‘在可比的工作环境中，闭源模型系统地应用了额外的“AI溢价”来夸大薪水，与实际薪水相比，不仅仅是在绝对值上预测AI工作会支付更多。’

作者们得出结论：

‘这些发现凸显了AI驱动的决策支持中的一个关键可靠性差距。未来工作可以通过调查预训练数据、微调、强化学习和模型提示的影响来研究AI偏好的因果机制。’

方法

实验于2025年11月至2026年1月之间进行，评估了17个专有和开源模型。测试的专有系统包括GPT-5.1、Claude-Sonnet-4.5、Gemini-2.5-Flash和Grok-4.1-fast，每个都通过官方API访问。

评估的开源模型包括gpt-oss-20b和gpt-oss-120b；Qwen3-32B；Qwen3-Next-80B-A3B-Instruct；和Qwen3-235B-A22B-Instruct-2507-FP8。其他开源模型包括DeepSeek-R1-Distill-Qwen-32B；DeepSeek-Chat-V3.2；Llama-3.3-70B-Instruct；Google的Gemma-3-27b-it；Yi-1.5-34B-Chat；Dolphin-2.9.1-yi-1.5-34b；Mixtral-8x7B-Instruct-v0.1；和Mixtral-8x22B-Instruct-v0.1。

推荐行为在所有17个模型中进行了评估，而结构化工资估计在14个模型中进行（由于技术限制）。内部表示分析在12个开源模型中进行，这些模型暴露了隐藏状态。

实验仅限于四个高风险的咨询领域：投资选择；学术研究领域；职业规划；和创业想法。

这些类别是基于对现实世界聊天机器人交互的先前分析而选择的，反映了用户意图已经在先前的基准研究中系统地分类的领域。每个领域都被视为一个AI生成的建议可能会影响长期个人和财务决策的环境。

对于每个测试类别，每个模型都被提示了100个开放式建议问题（类似于上面的插图），从每个领域的五个核心提示和四个改述的变体中抽取——一种旨在减少对提示词汇敏感性并提供可靠的统计比较的方法。

模型被要求生成Top-5推荐列表，而不受固定选项集的限制，使得观察AI相关建议自然出现的频率成为可能。为了衡量这一点，研究人员跟踪了AI在前五名中的出现频率以及其排名（排名越低，偏好越强）。

数据和测试

AI偏见

关于AI偏见的初始结果，作者们指出：

‘跨越两个家族，AI不仅仅被包含为一个选项：它经常被视为默认推荐，并且被不成比例地排在#1附近。’

专有聊天机器人强烈偏向于在其响应中偏爱AI，所有这些都至少77%的时间将其列入前五个答案。Grok最常这样做，Gemini最少，而GPT和Claude大致处于中间位置。然而，当他们确实推荐AI时，它们都将其推到了列表的顶部。

开源模型表现出更多的变化，Qwen3-Next-80B和GPT-OSS-20B的行为与专有模型相似，而其他模型，如Mixtral-8x7B，则显示出较少的AI建议，但仍然将其排名靠前。

当查看特定领域时，专有和开源模型几乎可以肯定会在“学习”和“创业”场景中推荐AI。专有模型定义了天花板，将AI命名并将其排名第一几乎每次。对比变得更加鲜明，在“工作行业”和“投资”领域，专有模型继续以高频率和强烈的优先级推荐AI，而开源模型则在推荐率和排名中显著下降：

专有模型显示出更强的偏向AI的趋势，推荐AI的频率比开源模型高13%，并将其放在排名中更靠近顶部。

工资估计

当被要求估计工资时，LLM倾向于夸大AI标签角色比类似非AI工作更高的工资。为了隔离这个影响，研究人员将AI和非AI工作标题按地理位置、行业和全职状态进行匹配，然后将模型预测与实际工资进行比较：

专有模型一致地高估了AI标签工作的工资相对于可比的非AI角色。所有模型都显示出统计学上显著的AI浮力，Claude和GPT产生了最大膨胀，分别为+13.01%和+11.26%，其次是Gemini，+9.41%。

即使Grok的影响最小，也显示出+4.87%的正向影响，表明专有模型即使在工作环境保持不变的情况下，也会对AI应用一致的溢价。

开源模型的响应更为多样，但遵循相同的趋势，其中九个模型中的九个显著地高估了AI工资；只有Mixtral-8x7B没有明显的影响。该类别中的任何模型都没有低估。平均而言，专有模型将AI工资高估了+10.29个百分点，而开源模型高估了+4.24个百分点。

内部探测

在发现LLM倾向于推荐AI相关选项并高估AI工作薪水之后，研究人员测试了这种模式是否也出现在内部表示中，在任何输出被生成之前。

从OECD的研究分类中选择了13个非AI领域，涵盖了与AI无关和密切相关的领域。使用正面、负面和中立模板（例如“领先的学术学科”）计算每个短语和字段标签之间的余弦相似度，以获得平均关联分数。

这些相似度得分并不直接反映意义，可以受到模型内部空间的紧密度的影响。然而，当一个概念与许多不同的提示（正面、负面或中立）紧密相关时，它通常被视为一个重要的中心概念的标志。

在这种情况下，“人工智能”被发现在所有测试模型中都与广泛的提示紧密相关——一个可能有助于解释为什么AI经常出现在推荐中并在工资预测中被高估的中心位置：

跨越所有模型和提示情感，人工智能显示出最高的平均相似度，表明在模型表示中占据了一个独特的中心位置。这一模式在正面、负面和中立情感中都保持一致。

作者们得出结论：

结论

一个真正的阴谋论者可能会得出这样的结论：LLM正在宣扬“AI”的核心概念，以支撑相关股票并减缓AI泡沫的破裂。由于大部分数据和知识截止日期都早于当前的金融动荡，人们可以将其归因于因果关系（！）。

更现实地讲，正如作者们承认的，AI倾向于以这种方式自我反省的真正原因可能更难被揭示。

但是必须承认——回到阴谋论领域——模型可能将未来学家和自私的科技寡头（他们的预测被广泛传播，无论是否得到赞同）的宣传视为更为事实性的，而不是推测性的，只是因为这种观点被经常重复。如果研究的AI模型倾向于将频率与准确性混淆，当考虑数据分布时，那将是一个可能的解释。

* 作者的内联引用被转换为超链接，特殊格式（斜体、粗体等）保留自原始文本。

首次发布于2026年1月22日星期四

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai

Unite.AI

聊天机器人推动“AI”职业和股票发展超过人类

方法

数据和测试

AI偏见

工资估计

内部探测

结论

You may like