人工智能

TextFooler算法愚弄NLP AI

更新 on 2022 年 12 月 9 日

尽管自然语言处理算法和系统近年来变得令人印象深刻，但它们仍然容易受到一种称为“对抗性示例”的利用。精心设计的短语的对抗性示例可能会导致 NLP 系统以意想不到的和不良的方式运行。人工智能程序可能会对这些奇怪的例子做出错误的行为，因此，人工智能研究人员正在尝试设计方法来防止对抗性例子的影响。

最近，来自香港大学和新加坡科学技术研究局的一组研究人员合作创建了一种算法，可以证明对抗性示例的危险性。据《连线》报道，该算法被称为文字傻瓜由研究团队开发，它通过巧妙地改变句子的某些部分来发挥作用，影响 NLP 分类器解释句子的方式。例如，该算法将一个句子转换为另一个相似的句子，并将该句子输入到一个分类器中，该分类器旨在确定评论是负面还是正面。原句是：

“角色，不可能 人为的 情况，是 完全 脱离现实。”

改成了这句话：

“角色，不可能 设计 情况，是 充分 脱离现实。”

这些微妙的变化促使文本分类器将评论分类为正面而不是负面。研究团队在几个不同的数据集和文本分类算法上测试了相同的方法（将某些单词与同义词交换）。研究团队报告称，他们能够将算法的分类准确率从 10% 降至 90%。尽管事实上阅读这些句子的人会将它们解释为具有相同的含义。

在 NLP 算法和人工智能越来越频繁使用的时代，以及评估医疗索赔或分析法律文件等重要任务中，这些结果令人担忧。目前尚不清楚对抗性示例对当前使用的算法有多大危险。世界各地的研究团队仍在试图确定它们能产生多大的影响。最近，斯坦福大学以人为中心的人工智能小组发表的一份报告表明，对抗性例子可能会欺骗人工智能算法并被用来实施税务欺诈。

最近的研究存在一些局限性。例如，虽然加州大学欧文分校计算机科学助理教授 Sameer Singh 指出，所使用的对抗方法是有效的，但它依赖于人工智能架构的一些知识。人工智能必须反复探测，直到找到有效的单词组，而这种重复的攻击可能会被安全程序注意到。 Singh 和同事对此主题进行了自己的研究，发现 OpenAI 算法等先进系统在收到某些触发短语提示时可以发送种族主义、有害的文本。

在处理照片或视频等视觉数据时，对抗性示例也是一个潜在问题。一个著名的例子涉及对小猫的图像应用某些微妙的数字转换，从而提示图像分类器将其解释为显示器或台式电脑。在另一个例子中，加州大学伯克利分校教授 Dawn Song 所做的研究发现，对抗性例子可以用来改变计算机视觉系统感知路标的方式，这可能对自动驾驶汽车造成潜在危险。

香港-新加坡团队所做的研究可以帮助人工智能工程师更好地了解人工智能算法存在哪些类型的漏洞，并有可能设计出防范这些漏洞的方法。例如，集成分类器可用于减少对抗性示例欺骗计算机视觉系统的机会。通过这种技术，使用了许多分类器并对输入图像进行了轻微的变换。大多数分类器通常会辨别图像真实内容的各个方面，然后将其聚合在一起。结果是，即使少数分类器被愚弄，大多数分类器也不会被愚弄，并且图像将被正确分类。