人工智能

人工智能仇恨言论检测可打击刻板印象和虚假信息

发布时间

9个月前

2023 年 8 月 13 日

哈兹卡·萨吉德

如今，互联网已成为全球沟通和联系的命脉。然而，通过这种前所未有的在线连接，我们也目睹了人类行为的阴暗面，即仇恨言论、刻板印象和有害内容。这些问题已经渗透到社交媒体、在线论坛和其他虚拟空间，对个人和社会造成持久损害。因此，需要仇恨言论检测。

据皮尤研究中心41%的美国成年人表示，他们亲身遭遇过网络虐待，25%的人是严重骚扰的受害者。

为了营造更加积极和尊重的网络环境，采取积极主动的措施并利用技术的力量势在必行。在这方面，人工智能（AI）提供了创新的解决方案来检测和解决仇恨言论和刻板印象。

当前缓解技术的局限性以及主动采取措施的必要性

目前减轻仇恨言论的措施有限。他们无法有效遏制有害内容在网上的传播。这些限制包括：

主要依靠人工审核和静态算法的反应性方法很难跟上仇恨言论的快速传播。
数量庞大的在线内容让人工审核人员不堪重负，导致响应延迟并错过了有害言论的实例。
此外，上下文理解和不断发展的语言细微差别对自动化系统准确识别和解释仇恨言论实例提出了挑战。

为了解决这些限制并营造更安全的在线环境，必须采取积极主动的措施。通过采用人工智能驱动的措施，我们可以加强我们的数字社区，鼓励包容性和有凝聚力的在线世界。

使用人工智能识别和标记仇恨言论

在打击仇恨言论的斗争中，人工智能成为强大的盟友，利用机器学习 (ML) 算法快速准确地识别和标记有害内容。通过分析大量数据，人工智能模型可以学习识别与仇恨言论相关的模式和语言细微差别，使它们能够有效地对攻击性内容进行分类和响应。

至训练人工智能模型为了准确仇恨言论使用检测、监督和无监督学习技术。监督学习涉及提供仇恨言论和无害内容的标记示例，以教导模型区分这两个类别。相比之下，无监督和半监督学习方法利用未标记的数据来发展模型对仇恨言论的理解。

利用人工智能反言论技术来打击仇恨言论

反言论成为一种强有力的打击策略仇恨言论通过直接挑战和解决有害的叙述。它涉及生成有说服力和信息丰富的内容，以促进同理心、理解和宽容。它使个人和社区能够积极参与创建积极的数字环境。

虽然各个反语音模型的具体细节可能会根据人工智能技术和开发方法的不同而有所不同，但一些常见的功能和技术包括：

自然语言生成 (NLG)： 反语音模型使用 NLG 以书面或口头形式产生类似人类的响应。这些回应是连贯的，并且与它所反击的仇恨言论的具体实例相关。
情绪分析： 人工智能反言论模型利用情绪分析来评估仇恨言论的情绪基调，并相应地调整他们的反应。这确保了反驳既具有影响力又具有同理心。
语境理解： 通过分析仇恨言论的背景，反言论模型可以针对特定问题或误解生成响应，从而有助于更有效、更有针对性的反言论。
数据多样性： 为了避免偏见并确保公平，反言语模型在代表不同观点和文化细微差别的不同数据集上进行训练。这有助于产生包容性和文化敏感的反应。
从用户反馈中学习： 反语音模型可以通过学习用户反馈来不断改进。这种反馈循环允许模型根据现实世界的交互来完善其响应，从而随着时间的推移提高其有效性。

使用人工智能打击仇恨言论的示例

人工智能反言语技术的一个现实例子是“重定向方法“ 由开发谷歌的拼图和登月 CVE。重定向方法使用有针对性的广告来接触容易受到极端主义意识形态和仇恨言论影响的个人。这种人工智能驱动的方法旨在劝阻个人不要参与有害内容，并促进同理心、理解和远离极端主义信仰。

研究人员还开发了一种新颖的人工智能模型，称为仇恨双帽据报道，这是打击网上仇恨言论的有效工具 IEEE 计算社会系统汇刊。它支持语言的双向分析，增强上下文理解，以准确确定仇恨内容。这一进步旨在减轻仇恨言论对社交媒体的破坏性影响，为更安全的在线互动提供潜力。

同样，研究人员在密歇根大学利用人工智能来打击在线仇恨言论，使用一种称为举例规则 (RBE)。这种方法利用深度学习，从仇恨内容的示例中学习对仇恨言论进行分类的规则。这些规则应用于输入文本，以准确识别和预测在线仇恨言论。

仇恨言论检测模型的伦理考虑

为了最大限度地发挥人工智能驱动的反言语模型的有效性，伦理方面的考虑是最重要的。然而，平衡言论自由和禁止传播有害内容以避免审查很重要。

开发和部署人工智能反语音模型的透明度对于培养用户和利益相关者之间的信任和责任至关重要。此外，确保公平同样重要，因为人工智能模型的偏见可能使歧视和排斥长期存在。

例如，旨在识别仇恨言论的人工智能可能会无意中放大种族偏见。研究发现，领先的仇恨言论人工智能模型将非裔美国人的推文标记为攻击性的可能性高出 1.5 倍。他们将推文标记为仇恨言论的可能性是其他人的 2.2 倍非裔美国人英语。对 155,800 个与仇恨言论相关的 Twitter 帖子的研究中出现了类似的证据，凸显了解决人工智能内容审核中的种族偏见的挑战。

在另一根据一项研究，研究人员测试了四种用于仇恨言论检测的人工智能系统，发现它们都难以准确识别有毒句子。为了诊断这些仇恨言论检测模型中的确切问题，他们创建了 18 种仇恨言论类型的分类法，包括诽谤和威胁性语言。他们还强调了 11 种阻碍人工智能的场景，例如在非仇恨言论中使用脏话。结果，该研究产生了仇恨检查，一个包含近 4,000 个示例的开源数据集，旨在增强 AI 模型对仇恨言论细微差别的理解。