伦理
研究人员开发算法以防止人工智能的不良行为

随着人工智能在各个领域的发展和应用,人们也开始关注其可能带来的不良后果,例如人工智能中的种族和性别偏见。因此,科学家们提出一个问题:“如何确保先进的思考系统能够公平和安全?”
答案可能在斯坦福大学和马萨诸塞大学阿默斯特分校的研究人员的一份报告中,题为《防止智能机器的不良行为》。正如科学警报网站(sciencealert.com)所报道的,这份报告指出,人工智能现在开始处理敏感任务,因此“政策制定者要求计算机科学家提供保证,即自动系统的设计可以最小化甚至完全避免不良后果,例如过度风险或种族和性别偏见。”
这份报告概述了一种新技术,可以将模糊的目标(如避免性别偏见)转化为精确的数学标准,从而使机器学习算法能够训练人工智能应用以避免这种行为。
斯坦福大学计算机科学助理教授和论文的首席作者艾玛·布伦斯基尔(Emma Brunskill)指出,“我们希望发展出尊重人类用户价值观并证明我们对自主系统的信任的人工智能。”
研究人员的想法是用数学术语定义“不安全”或“不公平”的结果或行为,这将使得创建能够从数据中学习如何避免这些不良后果的算法成为可能。
第二个目标是开发一套技术,使得用户可以轻松地指定他们想要约束的不良行为,并使得机器学习设计者能够预测系统在现实世界中的应用是否值得信赖。
科学警报网站报道称,这个新系统被称为“塞尔多尼亚算法”(Seldonian),以艾萨克·阿西莫夫(Isaac Asimov)的科幻小说《基础》系列中的主角命名。马萨诸塞大学阿默斯特分校计算机科学助理教授和论文的第一作者菲利普·托马斯(Philip Thomas)指出,“如果我使用塞尔多尼亚算法来治疗糖尿病,我可以指定不良行为是指危险的低血糖或低血糖症。”
“我可以告诉机器,‘当你试图改进胰岛素泵的控制器时,不要做出可能增加低血糖症频率的改变。’大多数算法都不提供这种方式来约束行为;这在早期设计中没有被包括在内。”
托马斯补充说,“这个塞尔多尼亚框架将使机器学习设计者更容易地将行为避免指令构建到各种算法中,以便他们能够评估训练系统在现实世界中正常运行的概率。”
对于她的部分,艾玛·布伦斯基尔也指出,“思考如何创建最好地尊重安全和公平等价值观的算法是必不可少的,因为社会越来越依赖人工智能。”












