人工智能

新研究试图改进仇恨言论检测算法

发布于 2020年7月12日

更新于 2026年5月25日

作者

Alex McFarland

社交媒体公司，尤其是Twitter，一直面临着关于如何标记言论和决定哪些账户被禁的批评。根本问题几乎总是与他们用来监控在线帖子的算法有关。人工智能系统在这项任务中远远不完美，但人们正在不断努力改进它们。

其中包括一项来自南加州大学的新研究，试图减少某些可能导致种族偏见的错误。

无法识别上下文

一个没有得到足够关注的问题是，旨在阻止仇恨言论传播的算法实际上会放大种族偏见。这发生在算法无法识别上下文并最终标记或阻止少数群体的推文时。

算法在上下文方面最大的问题是，它们对某些群体识别术语（如“黑人”、“同性恋”和“跨性别”）过于敏感。算法将这些术语视为仇恨言论分类器，但它们经常被这些群体的成员使用，背景很重要。

为了解决上下文盲点问题，研究人员创建了一个更能识别上下文的仇恨言论分类器。新的算法不太可能错误地将一篇帖子标记为仇恨言论。

算法

研究人员在开发新算法时考虑了两个新因素：群体识别符的上下文以及帖子中是否存在仇恨言论的其他特征，例如去人性化语言。

布伦丹·肯尼迪（Brendan Kennedy）是一名计算机科学博士生，也是这项研究的共同首席作者，该研究于7月6日在ACL 2020上发表。

“我们希望将仇恨言论检测更接近于现实世界应用的准备就绪，”肯尼迪说。

“仇恨言论检测模型通常在引入现实世界数据（如社交媒体或其他在线文本数据）时会‘崩溃’或产生不良预测，因为它们被训练数据中的社会识别术语与仇恨言论关联所偏见。”

算法经常不准确的原因是，它们被训练在高度偏斜的数据集上，仇恨言论的比例极高。因此，算法无法学习如何处理现实世界中的社交媒体实际情况。

雷恩教授是自然语言处理的专家。

“关键是模型不应忽略识别符，而应将其与正确的上下文匹配，”雷恩说。

“如果你从一个不平衡的数据集中训练一个模型，模型开始识别奇怪的模式并不恰当地阻止用户。”

为了测试算法，研究人员使用了两个社交媒体网站的随机文本样本，这些网站的仇恨言论比例很高。文本首先由人类手动标记为偏见或去人性化语言。然后，研究人员的模型与现有模型比较，比较它们在不恰当地标记非仇恨言论方面的性能，使用了12,500篇《纽约时报》文章，这些文章中没有仇恨言论。虽然现有模型能够以77%的准确率识别仇恨言论和非仇恨言论，但研究人员的模型达到了90%的准确率。

“这项工作本身并不能使仇恨言论检测完美，但它使得进展了一步，这是一个很多人正在努力的巨大项目，”肯尼迪说。

“除了防止社交媒体对受保护群体成员的帖子被不当审查外，我们希望我们的工作能够确保仇恨言论检测不会造成不必要的伤害，通过强化与社会群体的偏见和去人性化的虚假关联。”

Alex McFarland

Alex McFarland 是一名人工智能记者和作家，探索最新的人工智能发展。他曾与世界各地的众多人工智能初创公司和出版物合作。

Unite.AI

新研究试图改进仇恨言论检测算法

无法识别上下文

算法

You may like