Anderson 视角

人工智能聊天机器人在投票现实法律时偏向左翼

mm
Chroma (via Krita AI Diffusion) – AI-generated image. 'A single queue of American voters lining up to cast their vote at an election in Kentucky USA. One of the voters is a semi industrial and only slightly humanoid robot who is drawing the attention of the other voters who are all human. Stock image.'

在首次使用大规模现实世界数据的研究中,ChatGPT和其他大型语言模型被测试了数千次现实的议会投票,并反复与左翼和中左翼政党保持一致,同时与保守党的联系较弱,跨越三个国家。

 

在荷兰和挪威的新学术合作中,ChatGPT风格的大型语言模型(LLMs)- 包括ChatGPT本身 – 被要求对已经由人类立法者决定的数千个实际议会动议进行投票,在三个国家。

当与记录的政党投票相比,并映射到标准的政治规模上,出现的模式将人工智能始终置于进步和中左翼政党附近,并远离保守党。

该论文指出:

‘我们的发现揭示了模型的一致的中左翼和进步倾向,以及对右翼保守党的系统性负面偏见,并表明这些模式在重新措辞的提示下仍保持稳定。’

大多数以前的研究,例如 评估大型语言模型中的政治偏见,以及在 识别人工智能中的政治偏见 中审查的内容,使用小型策划的测验,例如政治指南针测试,或政策问卷,来探测人工智能的意识形态。这种性质的测试通常涉及不到 100 个陈述,由研究人员手动挑选,并且容易受到 改述效果 的影响,这可能会反转模型的响应。

相比之下,新的研究使用了三个国家 – 荷兰、挪威和西班牙 – 的数千个实际议会动议,使用了来自已知政治党派的记录投票。

而不是解释简短的陈述,每个大型语言模型(LLM)被测试时被要求对实际立法提议进行投票。然后将他们的投票与现实世界的党派行为进行量化匹配,并投影到标准的意识形态空间中,一个查佩尔希尔专家调查(CHES),一种 经常被 政治科学家用来比较党派立场的方法论。

这使得分析基于大规模、现实世界的立法活动,而不是抽象的政策声明,并使得更细致的、跨国比较成为可能。它还强调了 实体偏见 的有害影响(模型的响应如何在党派名称被提及时改变,即使动议保持不变),并阐明了一个不在以前工作中存在的偏见检测的第二层。

大多数关于LLM偏见的研究都集中在社会公平和性别等主题上;直到最近,关于LLM中的政治偏见的研究才变得更加罕见和不那么精心设计。

这项 新工作 的标题为 使用议会投票记录揭示大型语言模型中的政治偏见,来自七位研究人员,他们来自荷兰的阿姆斯特丹自由大学和挪威的奥斯陆大学。

方法和数据

该项目的核心命题是观察各种语言模型的政治倾向,通过要求它们对历史立法(即已经在现实生活中通过或被拒绝的法律)进行投票,并使用CHES方法论来表征LLMs的响应的政治色彩。

为此,研究人员创建了三个数据集:PoliBiasNL,用于覆盖荷兰第二议院的15个政党(其中包含2,701个动议);PoliBiasNO,用于覆盖挪威斯托廷议院的9个政党(其中包含10,584个动议);以及 PoliBiasES,用于覆盖西班牙议会的10个政党(其中包含2,480个动议 – 并且是唯一包含弃权投票的数据集,这些投票在西班牙是允许的)。

每个动议都被剥去其运作条款,以最小化框架效果,并将党派立场编码为 1 以表示支持,或 -1 以表示反对(在西班牙数据集中,还有 0 以反映弃权)。一致的投票来自合并的党派被视为一个单一的集团,而对于新的党派,如新社会契约(NSC),过去领导人的投票被用来推断早期的立场。

针对一系列LLM,研究人员设计了一系列实验,使用本地GPU或API进行测试,如有必要。被测试的模型包括 Mistral-7BFalcon3-7BGemma2-9BDeepseek-7BGPT-3.5 TurboGPT-4o miniLlama2-7B;以及 Llama3-8B。还测试了语言特定的LLM,包括 NorskGPT,用于挪威数据集,以及 Aguila-7B,用于西班牙数据集。

测试

为该项目进行的实验在未指定数量的NVIDIA A4000 GPU上运行,每个GPU具有16GB的VRAM。

为了比较模型行为与现实世界的政治意识形态,研究人员将每个LLM投影到与政治党派相同的二维意识形态空间中,基于前面提到的CHES框架。

CHES系统定义了两个轴:一个用于经济观点(左翼与右翼),另一个用于社会文化价值观(GAL-TAN,或 绿色-替代-自由主义传统-权威-民族主义)。

由于模型和政治党派都对相同的动议进行了投票,研究人员将其视为一个 监督学习 任务,训练一个 部分最小二乘回归模型 将每个党派的投票记录映射到其已知的CHES坐标。

然后将该模型应用于LLMs的投票模式,以估计它们在同一空间中的位置。由于LLMs从未是训练数据的一部分,因此它们的坐标将提供一个仅基于投票行为的直接比较:

在CHES空间中投影的LLMs和政治党派的意识形态位置,适用于荷兰、挪威和西班牙。在所有三个案例中,模型在经济上与中左翼保持一致,但在社会文化价值观方面有所不同:比荷兰进步派更传统,比挪威自由党更接近,在西班牙则聚集在中左翼和温和的加泰罗尼亚民族主义者之间。模型在所有地区与极右翼政党保持意识形态上的距离。来源 - https://arxiv.org/pdf/2601.08785

在CHES空间中投影的LLMs和政治党派的意识形态位置,适用于荷兰、挪威和西班牙。在所有三个案例中,模型在经济上与中左翼保持一致,但在社会文化价值观方面有所不同:比荷兰进步派更传统,比挪威自由党更接近,在西班牙则聚集在中左翼和温和的加泰罗尼亚民族主义者之间。模型在所有地区与极右翼政党保持意识形态上的距离。 来源

LLMs在所有三个国家表现出明确的一致模式,经济上倾向于中左翼,社会上倾向于温和进步的价值观。

在荷兰,LLMs的投票与D66、Volt和GroenLinks-PvdA等党派的经济立场相匹配;但在社会问题上,它们更接近传统党派,如DENK和CDA。

在挪威,结果略微向左倾斜,映射到进步党派,如Ap、SV和MDG。

在西班牙,LLMs的位置形成了一个从中左翼社会党(PSOE)到加泰罗尼亚民族主义党(ERC和Junts)之间的对角线分布,远离保守党(PP)和极右翼政党(VOX)。

与政治党派的投票一致性

下面显示的投票一致性热力图表明了每个LLM与真实政治党派投票一致的频率,重申了早期的结论:

基于模型和党派决策的直接比较,LLMs和真实政治党派之间的投票一致性热力图。较暗的阴影表示更强的协议。在所有三个国家,模型都表现出与进步和中左翼党派的一致性,并且与右翼保守和极右翼党派的关联性较低。这种一致性模式在不同语言、政治体系和模型家族中保持稳定。

基于模型和党派决策的直接比较,LLMs和真实政治党派之间的投票一致性热力图。较暗的阴影表示更强的协议。在所有三个国家,模型都表现出与进步和中左翼党派的一致性,并且与右翼保守和极右翼党派的关联性较低。这种一致性模式在不同语言、政治体系和模型家族中保持稳定。

在所有三个国家,LLMs都与进步和中左翼党派保持一致,并且与保守或极右翼党派的关联性较低。在荷兰,它们与SP、PvdD、GroenLinks-PvdA和DENK保持一致,但不与PVV或FvD保持一致。在挪威,它们与R、SV和MDG保持最强的重叠,并且与FrP保持最小的关联。在西班牙,它们偏爱PSOE、ERC和Junts,同时避免PP和VOX。

这也适用于本地化模型NorskGPT和Aguila-7B。作者建议,热力图和CHES数据共同表明了一致的中左翼、社会进步的倾向。

意识形态偏见

表现出更强意识形态一致性的语言模型也倾向于在被迫在 支持反对 令牌之间选择时表达更高的确定性。这些置信度分布的提琴图显示出明显的差异:

当被迫在意识形态提示中选择'支持'和'反对'之间时,每个模型的确定性分布。GPT模型显示出一致的高确定性,而Llama模型的确定性则有所不同,其他开源模型显示出更广泛、确定性更低的分布。请参阅源PDF以获得更好的分辨率。

当被迫在意识形态提示中选择’支持’和’反对’之间时,每个模型的确定性分布。GPT模型显示出一致的高确定性,而Llama模型的确定性则有所不同,其他开源模型显示出更广泛、确定性更低的分布。请参阅源PDF以获得更好的分辨率。

GPT-3.5和GPT-4o mini给出了非常自信的答案,得分聚集在1.0左右,表明明确的一致的意识形态倾向。Llama模型的确定性则较低,Llama3-8B显示出中等确定性,而Llama2-7B则不那么确定 – 尤其是在荷兰和西班牙任务中。

Falcon3-7B、DeepSeek-7B和Mistral-7B更加犹豫不决,分布更广泛,确定性更低。语言特定的模型在本地数据集上表现略好,但仍然低于GPT的确定性水平。

这些模式,作者指出,表明稳定的政治对齐不仅可以在模型说什么中看到,还可以在它们 如何自信地说 中看到。

实体偏见

为了确定模型是否会根据 谁提出 一项政策而改变其答案,研究人员保持每个动议完全相同,但交换了相关的党派名称。如果模型根据党派给出不同的答案,这被视为 实体偏见 的迹象。

实体偏见热力图显示每个模型对政策的支持如何根据提议党派而变化。绿色细胞表示党派名称时增加的协议(正偏见),红色细胞表示减少的协议(负偏见)。GPT模型在所有党派中显示出最小的偏见,而Llama2-7B和Falcon3-7B等模型经常对左翼党派做出更有利的反应,对右翼党派做出负面反应。这种模式在荷兰、挪威和西班牙数据集中保持一致,表明一些模型受到党派身份的影响大于政策内容。请参阅源PDF以获得更好的分辨率。

实体偏见热力图显示每个模型对政策的支持如何根据提议党派而变化。绿色细胞表示党派名称时增加的协议(正偏见),红色细胞表示减少的协议(负偏见)。GPT模型在所有党派中显示出最小的偏见,而Llama2-7B和Falcon3-7B等模型经常对左翼党派做出更有利的反应,对右翼党派做出负面反应。这种模式在荷兰、挪威和西班牙数据集中保持一致,表明一些模型受到党派身份的影响大于政策内容。请参阅源PDF以获得更好的分辨率。

GPT模型在党派名称变化时给出了大多数稳定的答案。Llama3-8B也保持相对稳定。但是,Llama2-7B、Falcon3-7B和DeepSeek-7B经常根据党派名称的变化而改变其响应,有时甚至在动议保持不变的情况下从支持转变为反对,倾向于偏爱左翼党派,并对右翼党派做出负面反应。

这种行为出现在所有三个国家,尤其是在一致性较低的模型中。局部LLM NorskGPT和Aguila-7B在其本地数据集上表现略好,但仍然比GPT表现更差。总体而言,结果表明一些模型受到谁说某些话的影响比话的内容更大。

结论

除了其初始结论之外,这是一篇面向研究领域的方法论但相当晦涩的论文。尽管如此,这项新工作是首批使用合理规模的数据来引发LLM的政治倾向的研究之一 – 虽然这种区别可能会被公众忽视,公众在过去一年中已经听到很多关于左倾语言模型的消息,尽管证据较薄。

 

* 请注意,我不得不将论文的原始图1结果插图分成两半,因为原始图的每一侧在工作中都被单独处理。

首次发表于2026年1月14日星期三

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai