统计模型帮助检测社交媒体上的虚假信息

Published December 11, 2021

Updated April 5, 2026

Alex McFarland

美国大学的一位数学教授与他的合作团队一起开发了一个可以检测社交媒体帖子中虚假信息的统计模型。

机器学习越来越多地被用于阻止虚假信息的传播，但仍然存在一个主要障碍，即“黑盒”问题。这指的是当研究人员不了解机器如何得出与人类训练者相同的决定时。

美国大学数学和统计学系的助理教授佐伊斯·布库瓦拉斯（Zois Boukouvalas）使用了一个关于COVID-19的推特数据集，展示了统计模型如何在大事件如流行病或灾难期间检测社交媒体上的虚假信息。

布库瓦拉斯和他的同事，包括美国大学的学生凯特林·莫罗尼（Caitlin Moroney）和计算机科学教授纳塔莉·雅普科维奇（Nathalie Japkowics），展示了模型的决策如何与人类的决策一致，在新发表的研究中。

“我们希望了解机器在做出决定时的思考过程，以及它如何和为什么与训练它的人类保持一致，”布库瓦拉斯说。“我们不希望因为模型做出有偏见的决定而阻止某人的社交媒体账户。”

该团队使用的方法是一种依赖于统计的机器学习。统计模型有效，并提供了另一种对抗虚假信息的方法。

该模型实现了高预测性能，并将112条真实和虚假推文的测试集分类为几乎90%的准确率。

“这个发现的重要性在于我们的模型在提供透明度的同时实现了准确率，”布库瓦拉斯继续说。“深度学习方法无法实现这种准确率和透明度。”

研究人员在测试数据集之前准备训练模型，因为人类提供的信息可能引入偏见和黑盒。

研究人员根据一套关于虚假信息中使用的语言的预定义规则，将推文标记为虚假信息或真实信息。该团队还考虑了人类语言的细微差别和与虚假信息相关的语言特征。

在训练模型之前，马里兰大学巴尔的摩县的社会语言学教授克里斯汀·马林森（Christine Mallinson）确定了与虚假信息、偏见和新闻媒体中不太可靠的来源相关的写作风格的推文。

“一旦我们将这些输入添加到模型中，它就会尝试了解导致良好信息和不良信息分离的根本因素，”雅普科维奇说。“它正在学习背景和单词之间的相互作用。”

研究人员现在将致力于改进模型的用户界面，以及检测包含图像或其他多媒体的社交媒体帖子中的虚假信息的能力。统计模型需要学习各种不同元素如何相互作用以创建虚假信息。

布库瓦拉斯和雅普科维奇都认为，人类的智慧和新闻素养是阻止虚假信息传播的关键。

“通过我们的工作，我们设计基于机器学习的工具来提醒和教育公众，以消除虚假信息，但我们坚信人类需要在不传播虚假信息的第一步中发挥积极作用，”布库瓦拉斯说。

Related Topics:AI artificial intelligence COVID-19 misinformation

Alex McFarland

Alex McFarland 是一名人工智能记者和作家，探索最新的人工智能发展。他曾与世界各地的众多人工智能初创公司和出版物合作。

Unite.AI