人工智能

研究人员开始训练人工智能来对抗网络上的仇恨言论

Published September 27, 2019

Updated April 28, 2026

Ljubinko Zivkovic

网络上的虚假新闻和仇恨言论已经成为每分钟的问题。IkigaiLab 的报告显示，Facebook 和 Twitter 最近关闭了超过 15 亿和 7000 万个账户，仅仅是为了尝试遏制全球虚假新闻和仇恨言论的传播。

然而，目前，这项任务需要大量的人力和几乎不间断的工作时间，仅仅是为了处理仇恨言论的冰山一角。为了解决这个问题，许多实验室的研究人员开始训练人工智能（AI）来帮助完成这项庞大的任务。

Ikigai 引用了 Rosetta 系统，该系统由 Facebook 用于理解上传到社交媒体上的新闻、图像或其他内容的真实性。正如所解释的，Rosetta 扫描“单词、图片、语言、字体、帖子日期等变量，并尝试判断所呈现的信息是否真实。”在系统收集信息后，考虑到 AI 尚未完全“掌握暗示、引用、轻蔑和内容发布的背景”，人类审查员接管并指导 AI 系统来发现仇恨言论和虚假新闻。

为了进一步开发 AI 系统的能力，以便能够涵盖所有可能的细微差别，UC Santa Barbara 和 Intel 的研究人员团队，如 TheNextWeb (TNW) 报道，“从 Reddit 和 Gab 的最糟糕的社区中收集了成千上万的对话，并使用它们来开发和训练 AI 对抗仇恨言论。”

根据他们的报告，为了实现这一点，研究人员联合小组创建了一个特定的数据集，包含“成千上万个专门策划的对话，充满仇恨言论。”他们还使用了由 Justin Caffier of Vox 编制的 Reddit 群组列表，这些群组主要以使用仇恨言论为特征。

研究人员最终收集了“超过 22,000 条 Reddit 评论和超过 33,000 条 Gab 评论”。他们发现，这两个网站显示出 类似的热门仇恨关键词，但分布非常不同。

他们指出，由于这些差异，社交媒体一般很难实时干预，因为仇恨言论的流动如此之大，以至于需要无数的人来跟踪它。

为了解决这个问题，研究团队开始训练 AI 进行干预。他们的初始数据库被发送给 Amazon Turk 工人进行标记。标记了仇恨言论的个别实例后，工人想出了短语，AI 将用于“阻止用户在未来发布类似的仇恨言论。”

基于此，团队“运行了该数据集及其干预数据库，通过各种机器学习和自然语言处理系统，创建了一个在线仇恨言论干预 AI 的原型。”

结果非常好，但由于开发仍处于早期阶段，该系统尚未准备好被积极使用。正如所解释的，“该系统在理论上应该检测仇恨言论，并立即向发布者发送消息，告知他们为什么不应该发布明显代表仇恨言论的内容。这不仅仅依赖于关键词检测——为了使 AI 工作，它必须正确理解上下文。”

Ljubinko Zivkovic

前外交官和联合国翻译，目前自由撰稿人/作家/研究员，专注于现代技术、人工智能和现代文化。

Unite.AI

研究人员开始训练人工智能来对抗网络上的仇恨言论

You may like