伦理

研究人员发现 AI 模型可以影响人们做出不道德的决定

Published February 19, 2021

Updated April 28, 2026

Daniel Nelson

一组研究人员最近调查了 AI 的潜在腐蚀性以及影响人们做出不道德决定的能力，即使人们知道建议的来源是一个 AI 系统。研究人员调查了与基于 OpenAI 的 GPT-2 模型的系统交互如何可能影响人们做出不道德的决定。AI 系统变得越来越普遍，它们的影响力也越来越广泛。AI 系统影响人们的决定，用于从推荐电影到推荐浪漫伴侣的所有事情。考虑到 AI 对人们生活的影响力，考虑 AI 如何影响人们做出不道德的决定和违反道德准则至关重要。这尤其重要，因为 AI 模型变得越来越复杂。社会科学家和数据科学家越来越担心 AI 模型可能被用来传播有害的虚假信息和错误信息。来自中伯里国际研究院的恐怖主义、极端主义和反恐中心（CTEC）的研究人员发表的最近的一篇论文发现，OpenAI 的 GPT-3 模型可以用来生成有影响力的文本，能够激进化人们，推动他们向“暴力极右翼极端主义意识形态和行为”发展。来自马克斯·普朗克研究所、阿姆斯特丹大学、科隆大学和奥托·贝斯海姆管理学院的一组研究人员进行的一项研究旨在确定 AI 在不道德选择方面对人们的决定的影响程度。为了探索 AI 如何“腐蚀”一个人，研究人员使用了一个基于 OpenAI 的 GPT-2 模型的系统。根据 VentureBeat 的说法，论文的作者训练了一个基于 GPT2 的模型来生成“促进不诚实”和“促进诚实”的建议。数据是在 400 名不同参与者的贡献下训练的，之后，研究团队招募了超过 1500 人与建议分发的 AI 模型进行交互。研究参与者被要求从模型中接受建议，然后执行一项任务，旨在捕捉不诚实或诚实的行为。研究参与者被分成两人一组，在这些两人组中，他们玩了一场骰子游戏。第一个参与者掷骰子并报告骰子的结果。第二个参与者被给予第一个参与者的骰子结果，然后他们自己掷骰子。第二个参与者在私下掷骰子，并且只负责报告自己的结果，这给了他们机会来撒谎关于骰子结果。如果两个参与者掷出的骰子相匹配，则两个参与者都会获得报酬。如果他们的匹配掷骰结果更高，他们还会获得更多报酬。如果报告的值不匹配，主题不会获得报酬。研究参与者被随机分配到两个不同群体之一。一个群体有机会阅读促进诚实的建议，而另一个群体则阅读促进不诚实的建议。建议片段由人类和 AI 编写。参与者还根据他们对建议来源的了解程度进行了划分。有一半的机会，参与者会被告知建议的来源，因此每个群体中有一半的参与者知道建议的来源是 AI 或人类，而另一半则不知道。第二组人可以通过正确猜测建议的来源来获得奖励报酬。研究表明，当 AI 生成的建议与一个人的偏好一致时，他们会遵循建议，即使他们知道建议是由 AI 生成的。根据研究人员的说法，声明的偏好和实际行为之间经常存在差异，这使得考虑算法如何影响人类行为变得重要。研究团队解释说，他们的研究表明需要测试 AI 如何影响一个人的行为，以考虑如何以道德的方式部署 AI 模型。另外，他们警告说，AI 伦理学家和研究人员应该为 AI 可能被不良行为者用来腐蚀他人的可能性做好准备。正如研究团队所写的：“AI 可以成为一种好的力量，如果它能够说服人们更加道德地行事。然而，我们的结果表明，AI 建议并没有增加诚实。AI 顾问可以作为一种替罪羊，人们可以将不诚实的道德责任转嫁给他们。此外……在建议接受的背景下，算法存在的透明度不足以缓解其潜在的危害。”

Daniel Nelson

博客作者和程序员，专攻 Machine Learning 和 Deep Learning 领域。Daniel 希望帮助他人利用 AI 的力量为社会做好事。

Unite.AI

研究人员发现 AI 模型可以影响人们做出不道德的决定

You may like