伦理

研究人员开发算法以防止人工智能中的不良行为

Published November 26, 2019

Updated April 5, 2026

Ljubinko Zivkovic

随着人工智能在各个领域的发展和优势，人们也发现了其不良的副作用，例如人工智能中的种族和性别偏见。因此，sciencealert.com 提出了一个问题：“科学家如何确保先进的思考系统是公平的，甚至是安全的？”

答案可能在斯坦福大学和马萨诸塞大学阿默斯特分校的研究人员提交的报告中，报告标题为预防智能机器的不良行为。正如 eurekaalert.org 在其关于此报告的文章中所述，人工智能现在开始处理敏感任务，因此“政策制定者要求计算机科学家提供保证，即自动系统的设计旨在最小化，甚至完全避免，不良结果，例如过度风险或种族和性别偏见。”

研究人员提交的报告“概述了一种新技术，该技术将模糊的目标（例如避免性别偏见）转化为精确的数学标准，从而使机器学习算法能够训练人工智能应用程序以避免这种行为。”

目的，如斯坦福大学计算机科学助理教授和论文的首席作者 Emma Brunskill 所述，“我们希望推进尊重其人类用户的价值观的人工智能，并证明我们对自主系统的信任是合理的。”

想法是用数学术语定义“不安全”或“不公平”的结果或行为。这将使研究人员能够“创建算法，以高置信度学习如何避免这些不良结果。”

第二个目标是“开发一套技术，使用户能够轻松指定他们想要约束的不良行为类型，并使机器学习设计师能够预测，使用过去数据训练的系统在应用于现实世界的情况下是可靠的。”

ScienceAlert 表示，该团队将此新系统命名为塞尔多尼安算法，以艾萨克·阿西莫夫著名的《基础》系列科幻小说中的核心人物命名。马萨诸塞大学阿默斯特分校计算机科学助理教授、论文的首位作者 Philip Thomas 表示，“如果我使用塞尔多尼安算法进行糖尿病治疗，我可以指定不良行为意味着危险的低血糖或低血糖症。”

“我可以告诉机器，‘当你试图改进胰岛素泵的控制器时，不要做出会增加低血糖症频率的改变。’大多数算法都没有提供一种方法来对行为施加这种约束；它不在早期设计中。”

Thomas 补充说，“这个塞尔多尼安框架将使机器学习设计师更容易将行为避免指令构建到各种算法中，以一种可以评估训练系统在现实世界中正常运行的概率的方式。”

就她而言，Emma Brunskill 也指出，“思考如何创建最好地尊重安全性和公平性等价值观的算法对于越来越依赖人工智能的社会至关重要。”

Unite.AI

研究人员开发算法以防止人工智能中的不良行为

You may like