人工智能

新研究尝试改进仇恨言论检测算法

Published July 12, 2020

Updated April 5, 2026

Alex McFarland

社交媒体公司，尤其是Twitter，一直面临着批评，批评他们如何标记言论和决定哪些账户被封禁。根本问题几乎总是与他们用来监控在线帖子的算法有关。人工智能系统在这项任务中远远不完善，但是在改进它们方面正在不断努力。

其中包括一项来自南加州大学的新研究，该研究试图减少可能导致种族偏见的某些错误。

无法识别上下文

一个没有得到足够关注的问题是，旨在阻止仇恨言论传播的算法实际上会放大种族偏见。这发生在算法无法识别上下文并最终标记或阻止少数群体的推文时。

算法在上下文方面存在的最大问题是，它们对某些群体识别术语（如“黑人”、“同性恋”和“变性人”）过于敏感。算法将这些术语视为仇恨言论分类器，但它们经常被这些群体的成员使用，环境很重要。

为了解决上下文失明的问题，研究人员创建了一个更能识别上下文的仇恨言论分类器。新的算法不太可能错误地将帖子标记为仇恨言论。

算法

研究人员在开发新算法时考虑了两个新因素：与群体识别符相关的上下文，以及帖子中是否存在其他仇恨言论特征，例如去人性化语言。

布伦丹·肯尼迪（Brendan Kennedy）是计算机科学博士生，也是该研究的共同首席作者，该研究于7月6日在ACL 2020上发表。

“我们希望将仇恨言论检测更接近于现实世界应用，”肯尼迪说。

“仇恨言论检测模型通常会’崩溃’，或生成不良预测，当它们被引入现实世界数据（如社交媒体或其他在线文本数据）时，因为它们被训练数据偏向于将社会识别术语的出现与仇恨言论关联起来。”

算法经常不准确的原因是，它们是在高度不平衡的数据集上训练的，仇恨言论的比率极高。因此，算法无法学习如何处理社交媒体在现实世界中的实际情况。

教授向是自然语言处理的专家。

“对于模型来说，关键是不要忽略标识符，而是将它们与正确的上下文匹配，”任说。

“如果你从不平衡的数据集中训练一个模型，模型开始选择奇怪的模式并不恰当地阻止用户。”

为了测试算法，研究人员使用了两个社交媒体网站的随机文本样本，这些网站仇恨言论的比率很高。文本首先被人类手动标记为有偏见或去人性化。然后，使用12,500篇《纽约时报》文章（无仇恨言论）来衡量现有模型与研究人员自己的模型在不恰当地标记非仇恨言论方面的差异。虽然现有模型能够实现77%的准确率来识别仇恨言论和非仇恨言论，但研究人员的模型更高，达到90%。

“这项工作本身并不能使仇恨言论检测完美，但这是一个巨大的项目，很多人正在努力，我们的工作只是取得了渐进式的进展，”肯尼迪说。

“除了防止社交媒体对保护群体成员的帖子进行不当审查外，我们希望我们的工作能够确保仇恨言论检测不会造成不必要的伤害，通过强化偏见和去人性化与社会群体之间的虚假关联。”

Alex McFarland

Alex McFarland 是一名人工智能记者和作家，探索最新的人工智能发展。他曾与世界各地的众多人工智能初创公司和出版物合作。

Unite.AI

新研究尝试改进仇恨言论检测算法

无法识别上下文

算法

You may like