人工智能

使用机器学习重新识别被禁的社交媒体评论者

发布于 2021年5月25日

更新于 2026年5月24日

作者

Martin Anderson

约翰霍普金斯大学的研究人员开发了一种深度度量方法来识别在线评论者，他们可能以前的账户被暂停或使用多个账户来操纵在线社区的良好信仰，例如Reddit和Twitter。

该方法在一篇由NLP研究员Aleem Khan领导的新论文中被提出，不需要输入数据被自动或手动注释，并且即使只有小样本文本可用，也能改进之前尝试的结果，即使文本在训练时不在数据集中。

该系统提供了一个简单的数据增强方案，使用不同大小的嵌入在包含超过3亿条评论的高容量数据集上进行训练，涵盖了100万个不同的用户账户。

约翰霍普金斯重新识别系统的模型架构，其中基本组件是1）文本内容，2）子Reddit功能和3）发布时间/日期。来源：https://arxiv.org/pdf/2105.07263.pdf

该框架基于Reddit使用数据，考虑文本内容、子Reddit放置和发布时间。三个因素与多种嵌入方法（包括一维卷积和线性投影）结合，并由注意力机制和最大池化层辅助。

尽管该系统集中在文本领域，但研究人员认为其方法可以应用于视频或图像分析，因为所得算法在高层次上操作频率发生，尽管训练数据点的输入长度各不相同。

避免“话题漂移”

这种研究可能陷入的一个陷阱是过度强调不同账户的帖子中特定话题或主题的重复出现，而作者们在系统设计中已经明确解决了这个问题。

虽然用户可能会重复或迭代地写作某个思路，但话题可能会随时间而演变和“漂移”，从而降低其作为身份识别关键的价值。作者将这种潜在陷阱描述为“以错误的理由正确”——约翰霍普金斯大学之前研究过的陷阱。

训练方法

该系统使用混合精度训练，这是一种由百度和NVIDIA在2018年提出的创新方法，通过使用半精度浮点数（16位浮点值）代替32位浮点值，减少了内存需求的一半。数据在两个V100 GPU上进行训练，平均训练时间为72小时。

该方案采用简化的文本编码，卷积编码器仅限于2-4个子词。虽然这种框架的平均长度最多为5个子词，但研究人员发现，这种经济性不仅没有影响排名性能，而且增加子词到最多5个实际上降低了排名准确性。

数据集

研究人员从2020年Pushshift Reddit Corpus数据集中得出一个包含3亿Reddit帖子的数据集，称为百万用户数据集（MUD）。

该数据集包括所有Reddit作者在2015年7月至2016年6月之间发布的100-1000条帖子。这种随时间的采样方式为研究提供了足够的历史长度，并降低了不在研究目标范围内的偶发性垃圾帖子的影响。

约翰霍普金斯重新识别项目的派生数据集统计。

结果

下图显示了随着排名准确性在训练过程中每小时测试一次，结果的累积改进。在六个小时后，该系统超过了相关先前计划的基准成就。

在一次消融研究中，研究人员发现从工作流中删除子Reddit功能对排名准确性影响惊人的小，表明该系统推广得很好，具有强大的特征工具。

发布频率作为重新识别签名

这也表明该框架可以转移到其他评论或发布系统中，只要有文本内容和发布日期/时间，即使只有这些信息，也可以将发布频率作为一个有价值的识别签名。

研究人员指出，尝试在单个子Reddit的内容中执行相同的估计将带来更大的挑战，因为子Reddit本身充当话题代理，可能需要额外的方案来填补这一角色。

该研究尽管在这些限制下仍然能够取得有前途的结果，只是系统在高容量下表现更好，可能在帖子量低的情况下重新识别用户会更加困难。

开发工作

与许多监督学习计划不同，霍普金斯重新识别方案中的特征是离散和强大的，因此随着数据量的增加，系统的性能会明显改善。

研究人员对通过采用更细粒度的发布时间分析方法来开发该系统感兴趣，因为常规垃圾邮件发送者（自动或手动）的可预测时间表容易被这种方法识别，这将使得更有效地从主要针对恶意用户的研究中消除机器人内容，或者帮助识别自动内容成为可能，特别是在这种情况下，on times, since the often predictable schedules of rote spammers (automated or otherwise) are susceptible to identification by such an approach, and this would make it possible to either more effectively eliminate robot content from a study primarily aimed at vexatious users, or to aid in identifying automated content。