Anderson 视角

识别 Instagram 众包欺诈者使用机器学习

发布于 2022年6月28日

更新于 2026年5月24日

作者

Martin Anderson

意大利和伊朗的研究人员声称已经开发出第一个能够识别 Instagram 平台上“众包欺诈”（crowdturfing）活动的机器学习系统。众包欺诈者是指进行“个人资料建设”服务的真实人，他们在平台上出售这些服务。这些服务通常涉及通过点赞、评论等方式来提高目标账户的参与度和曝光度。

该新方法声称其准确率约为 95%，并使用自然语言处理（NLP）系统中的半监督学习。研究人员表示，他们的系统是第一个能够可靠地识别出非自动化账户（即真实人）进行虚假、付费的个人资料参与和提升的众包欺诈检测系统。

为了实现这一目标，研究人员从 11 个众包欺诈平台提供商那里购买了 1293 个众包欺诈个人资料，以获取训练他们的众包欺诈检测器的数据。由于 Instagram 有有效的反自动化措施，研究人员指出，为了利用该平台的庞大用户群体进行商业目的，人们已经转向支付真正有影响力的 Instagram 用户来“战略性地”与“客户”账户进行互动，主要是通过分享评论或与帖子相关的活动。

在训练模型后，研究人员将其应用于分析 20 位“超级影响者”的参与个人资料，每位影响者都有超过 100 万的关注者，结果表明“超过 20% 的参与度是人工制造的”。

该论文的标题为《我们都生活在真人秀中吗？通过自我训练识别 Instagram 众包欺诈》，由意大利帕多瓦大学和伊朗伊玛目雷扎大学的五位研究人员共同撰写。

违反 Instagram 服务条款

与 Twitter 不同，Twitter 因为其致力于帮助研究而受到社会媒体研究人员的青睐，Instagram 不仅没有提供 API 或更新的数据转储来帮助研究人员，而且还禁止机器驱动的浏览在其服务条款中。因此，研究人员的首要任务是从他们的指导机构审查委员会获得豁免，理由是之前的工作使用了类似的方法来调查“地下活动”。

研究人员为他们的研究目的创建了新的 Instagram 账户，并从众包欺诈平台提供商那里购买了众包欺诈服务。所有这些账户在实验结束后都被删除，这避免了“合法”用户的参与。研究人员没有透露被研究的影响者账户或众包欺诈平台服务的名称。

另一个伦理障碍是，研究人员无法获得被研究的影响者的同意，因为这可能会改变他们的行为，这也得到了机构审查委员会的豁免。

最后，由于 Instagram 允许“手动收集”数据，研究人员通过将他们的自动化抓取工具设置为“人类速度”来妥协他们的服务条款违规，这需要五个月的数据收集阶段。

人类出售

研究人员从 11 个（未命名的）提供商那里购买了 100 个“假粉丝”个人资料。

论文指出：

‘所有我们选择的提供商都保证交付能够通过点赞和评论目标个人资料来提高他们的参与度的粉丝。 ‘

‘这些 CT 个人资料被认为是高质量的粉丝，通常比“基础”假个人资料更贵。这些提供商的可靠性得到了像 TrustPilot 这样的著名评论平台的支持。’

来自论文的统计数据，关于（匿名化的）CT 平台提供商，每个都是‘腐败’的真实世界影响者账户的市场。该表格概述了提供商报告的信息和研究人员通过分析每个来源购买的 100 个个人资料而获得的信息。来源：https://arxiv.org/pdf/2206.12904.pdf

论文指出，购买一个 Instagram 影响者的平均成本并不高，大约为 100 个“高质量”粉丝 3 美元。研究人员报告称：

‘大多数提供商在几小时内交付粉丝。他们提供掉粉保护，这意味着客户购买的粉丝数量将随着时间的推移保持稳定，或者新粉丝将被交付以补充失去的粉丝。’

研究人员报告称，他们的一些新 Instagram 账户在一个月后损失了 15-20% 的 CT 粉丝，但在某些情况下，他们获得了比预期更多的粉丝。对于最昂贵的 CT 提供商（表格中的 CT-10），一个月后只损失了三个粉丝。

论文指出，关注/被关注比率会随着对 CT 提供商的付款而变得更加“真实”，第二贵的提供商提供的比率非常接近标准用户的基准。

众包欺诈 Instagram 账户的一个特征是，其个人资料很少被设置为“私人”（这是一个事实，使得数据可以从购买的假粉丝中提取出来，因为大多数分析都集中在个人资料和相关评论上），但这不应被视为可靠的“信号”。

‘加入这些平台的人们感兴趣的是生成最少数量的帖子，使他们可靠，除了少数情况（CT-4，CT-10）。低质量个人资料显示出非常高的关注/被关注不平衡，平均帖子数量接近 0，远远低于 CT 个人资料。’

数据

研究人员通过浏览器自动化框架 Selenium 收集了数据。所得数据集包括 1293 个 CT 个人资料和 1307 个非 CT 用户的个人资料信息。

这种相对较低的样本量使得将 Selenium 设置为合理的人类速度在合理的时间内成为可能。另外，研究人员指出，半监督学习技术的代表/解释能力非常适合较小的数据集。在进行了彻底的实验后，使用了完全监督模型，研究人员得出结论：

‘[结果] 在半监督模式下与在监督模式下没有显著差异。这表明 CT 个人资料共享非常相似的特征，并且算法可以通过少量标记数据收敛。’

研究人员从“损害”用户的个人资料页面源代码中收集了所有可用的数据，包括通常在渲染时被遮挡的详细信息，例如 #videos 元素。

然后，他们通过删除方差为零或非常低的数据特征来预处理数据特征，并最终将任何分类或非数字数据转换为严格的数字或布尔特征。

最终数据集的特征。

方法和探索

除了 Selenium 之外，实验中使用的技术包括：带有基于变换器的管道的 SpaCy 版本；scikit learn 的自训练分类器；以及 Instaloader 框架。

由于这篇论文处理的是一个目标（即自动推断 Instagram 上的腐败账户），这与迄今为止的主要兴趣点（即自动推断 Instagram 上的自动化机器人活动）有所不同，因此没有像样的先前工作可以进行比较。

研究人员采用了广泛的方法来研究可用的购买用户，（他们认为可以将其描述为“假的”而不是仅仅“非 CT”，因为这些真实账户正在进行非自然、付费的参与活动），这些方法涉及了一系列与 NLP 相关的技术。

在研究的方面中，包括语言分析（在 CT 世界中，几乎总是默认为英语，尽管 CT 平台也提供非英语地理位置粉丝）；评论数量（其中假用户非常接近真实用户的频率，以免被发现）；以及常用词分析：

假用户和真实用户的词云。

论文指出，假账户中“dokter”一词的普遍性似乎与一个特定的内部活动有关：

‘“dokter”[出现在] 1069 个不同的评论中。通过进一步调查散播[这个]词的账户，我们发现了一个看起来像是一个 botnet 的小部分，其目标是向“Instagram 医生”账户发送垃圾邮件。所有这些医生的个人资料都有一个 WhatsApp 商务链接，一旦点击，就会开始一个带有完成消息的聊天。

据研究人员推断，这个奇怪的残余物可能是他们在寻找真实 Instagram 用户活动时偶然发现的一个大型 botnet 的残余。

总共，研究人员从 248,388 个独特的 Instagram 用户的帖子中收集了 603,007 条评论，其中，作者估计 55,719 个是众包欺诈账户。

论文指出，收集的数据中女性主题的主导地位很有趣。使用 GPU-PDMM（一种为 Twitter 上的必然短帖子开发的技术）从 121,822 条评论的语料库中提取了 12,830 条合适的评论，算法发现，在考虑 12 名男性和 8 名女性的内容时，大多数评论都与女性相关的主题有关。