Anderson 视角
聊天机器人推动“AI”职业和股票发展超过人类

包括商业市场领导者如ChatGPT、Google Gemini和Claude在内的AI聊天机器人,提供的建议极大地偏向于AI职业和股票,即使其他选择同样强大,人类的建议也趋向于其他方向。
以色列的一项新研究发现,包括ChatGPT、Claude、Google Gemini和Grok在内的十七个最具主导地位的AI聊天机器人,都强烈偏向于建议AI是一个好的职业选择、一个好的股票选择,并且是一个提供更高薪水的领域——即使这些说法被夸大或根本不真实。
有人可能会认为这些AI平台是公平的,并且忽视它们对AI在这些领域的价值的看法只是悲观主义。然而,作者们对结果的偏差方式非常清楚:
‘可以合理地认为,观察到的对AI的偏好反映了其真正的高价值。然而,我们的工资分析通过测量AI头衔相对于基准的过度估计与非AI对应物的过度估计来隔离偏差。 ‘
‘同样,事实上专有模型在多个咨询领域几乎确定地推荐AI,这意味着一个僵化的AI偏好默认值,而不是对竞争性选项的真正评估。’
作者们进一步指出,交易性AI接口(如ChatGPT)的可信度和采用量的增加,使这些平台变得更加有影响力,尽管它们仍然倾向于产生幻觉事实、数字和引用等:
‘在咨询环境中,亲AI偏见可以引导真实的选择——人们学习什么,追求什么职业,以及将资本分配到哪里。在劳动力环境中,系统性地夸大AI工资估计可以偏向基准和谈判,特别是如果组织将模型输出作为参考。 ‘
‘这也使得一个简单的反馈循环:如果模型夸大AI工资,候选人可能会向上锚定,雇主可能会更新带或报价向上“因为模型这么说”,加强双方的夸大期望。’
除了测试一系列大型语言模型(LLM)对基于提示的响应外,研究人员还进行了一个单独的测试,监测模型的潜在空间中的活动——一种可以识别核心概念“人工智能”的“表示探针”。由于这个测试不涉及生成,而更像是一种观察性手术探针,其结果不能归因于特定的提示词汇——结果确实表明“AI”概念在模型的内部占据主导地位:
‘表示探针在正面、中性和负面模板下产生几乎相同的排名结构。这种模式很难仅仅用“模型喜欢AI”来解释。相反,它支持一个工作假设,即AI在模型的相似性空间中对于通用评估和结构[语言]是拓扑中心的。’
该论文强调,仅通过API提供的闭源商业模型比FOSS模型(安装在本地用于测试)表现出更大、更一致的“AI积极性”:
‘[在]可比的工作环境中,闭源模型系统地在过度估计中应用了额外的“AI溢价”,不仅仅是在绝对值上预测AI工作会支付更多的工资。’
为这项工作设计的三个核心实验(排名推荐、工资估计和隐藏状态相似性,即探测)旨在构成一个新的基准,以评估未来测试中的亲AI偏见。
…(以下内容与原文保持一致,请自行翻译)












