人工智能
新研究试图改进仇恨言论检测算法

社交媒体公司,尤其是Twitter,一直面临着关于如何标记言论和决定哪些账户被禁的批评。根本问题几乎总是与他们用来监控在线帖子的算法有关。人工智能系统在这项任务中远远不完美,但人们正在不断努力改进它们。
其中包括一项来自南加州大学的新研究,试图减少某些可能导致种族偏见的错误。
无法识别上下文
一个没有得到足够关注的问题是,旨在阻止仇恨言论传播的算法实际上会放大种族偏见。这发生在算法无法识别上下文并最终标记或阻止少数群体的推文时。
算法在上下文方面最大的问题是,它们对某些群体识别术语(如“黑人”、“同性恋”和“跨性别”)过于敏感。算法将这些术语视为仇恨言论分类器,但它们经常被这些群体的成员使用,背景很重要。
为了解决上下文盲点问题,研究人员创建了一个更能识别上下文的仇恨言论分类器。新的算法不太可能错误地将一篇帖子标记为仇恨言论。
算法
研究人员在开发新算法时考虑了两个新因素:群体识别符的上下文以及帖子中是否存在仇恨言论的其他特征,例如去人性化语言。
布伦丹·肯尼迪(Brendan Kennedy)是一名计算机科学博士生,也是这项研究的共同首席作者,该研究于7月6日在ACL 2020上发表。
“我们希望将仇恨言论检测更接近于现实世界应用的准备就绪,”肯尼迪说。
“仇恨言论检测模型通常在引入现实世界数据(如社交媒体或其他在线文本数据)时会‘崩溃’或产生不良预测,因为它们被训练数据中的社会识别术语与仇恨言论关联所偏见。”
算法经常不准确的原因是,它们被训练在高度偏斜的数据集上,仇恨言论的比例极高。因此,算法无法学习如何处理现实世界中的社交媒体实际情况。
雷恩教授是自然语言处理的专家。
“关键是模型不应忽略识别符,而应将其与正确的上下文匹配,”雷恩说。
“如果你从一个不平衡的数据集中训练一个模型,模型开始识别奇怪的模式并不恰当地阻止用户。”
为了测试算法,研究人员使用了两个社交媒体网站的随机文本样本,这些网站的仇恨言论比例很高。文本首先由人类手动标记为偏见或去人性化语言。然后,研究人员的模型与现有模型比较,比较它们在不恰当地标记非仇恨言论方面的性能,使用了12,500篇《纽约时报》文章,这些文章中没有仇恨言论。虽然现有模型能够以77%的准确率识别仇恨言论和非仇恨言论,但研究人员的模型达到了90%的准确率。
“这项工作本身并不能使仇恨言论检测完美,但它使得进展了一步,这是一个很多人正在努力的巨大项目,”肯尼迪说。
“除了防止社交媒体对受保护群体成员的帖子被不当审查外,我们希望我们的工作能够确保仇恨言论检测不会造成不必要的伤害,通过强化与社会群体的偏见和去人性化的虚假关联。”












