关注我们.

人工智能

使用机器学习检测“专业”恶意在线评论

mm

中美之间的一项新研究合作提供了一种方法,通过利用此类评论者的签名行为来检测旨在削弱竞争对手或促进勒索的恶意电子商务评论。

该系统名为 恶意用户检测模型 (MMD),利用 度量学习, 一种技术 常用 在计算机视觉和 推荐系统,与循环神经网络(RNN)一起识别和标记此类审稿人的输出,论文将其命名为 专业恶意用户 (PMU)。

伟大的! 1 星

大多数在线电子商务评论提供两种形式的用户反馈:星级评分(或满分 10 分的评分)和基于文本的评论,在典型情况下,这些评论在逻辑上是对应的(即,差评会伴随着差评)。评级低)。

然而,PMU 通常会颠覆这种逻辑,要么留下不好的文本评论并给出高评级,要么留下差的评级并给出良好的评论。

这允许用户的评论造成声誉损害,而不会触发电子商务网站部署的相对简单的过滤器来识别和解决恶意负面评论者的输出。如果基于自然语言处理 (NLP) 的过滤器识别出评论文本中的谩骂内容,则该“标记”会被 PMU 分配的高星(或小数)评级有效地取消,从而有效地将恶意内容呈现为“中性” ,从统计的角度来看。

从试图识别此类行为的协作过滤系统的角度来看,恶意评论如何在统计上与真实评论混合在一起的示例。 资料来源:https://arxiv.org/pdf/2205.09673.pdf

从试图识别此类行为的协作过滤系统的角度来看,恶意评论如何在统计上与真实评论混合在一起的示例。  资料来源:https://arxiv.org/pdf/2205.09673.pdf

新论文指出,PMU 的目的通常是向在线零售商勒索金钱,以换取修改负面评论和/或承诺不再发布负面评论。 在某些情况下,演员 特设 个人 寻求折扣,尽管 PMU 经常被 临时工 受害人的竞争对手。

掩盖负面评论

当前一代用于此类评论的自动检测器使用协作过滤或 基于内容的模型,并且正在寻找清晰且明确的“异常值”——在两种反馈方法中一致负面的评论,并且与评论情绪和评级的总体趋势明显不同的评论。

此类过滤器关键的另一个经典特征是高发布频率,而 PMU 只会偶尔进行战略性发布(因为每次评论可能代表一个单独的委员会,也可能代表旨在混淆“频率”指标的较长策略中的一个阶段) )。

因此,新论文的研究人员将专业恶意评论的奇怪极性整合到一个专用系统中,从而产生了一种算法,几乎可以与人类评论者在评级和评论之间的差异中“嗅出老鼠”的能力相提并论。文本内容。

MMD 的概念架构由两个核心模块组成:恶意用户分析(MUP)和注意力度量学习(MLC,灰色)。

MMD 的概念架构由两个核心模块组成:恶意用户分析(MUP)和注意力度量学习(MLC,灰色)。

与先前方法的比较

作者表示,由于 MMD 是第一个尝试根据 PMU 的精神分裂症发帖风格来识别 PMU 的系统,因此没有直接的先前作品可以与之进行比较。 因此,研究人员将他们的系统与传统自动过滤器经常依赖的许多组件算法进行比较,包括 K-means++ 聚类; 可敬的 统计异常值检测 (草皮); 海萨德; 半悲伤; CNN-悲伤;和 诽谤用户检测推荐系统 (SDRS)。

作者声称,根据 Amazon 和 Yelp 的标记数据集进行测试,MMD 能够以最高的准确率识别专业的在线批评者。 粗体代表MMD,星号(*)表示最佳性能。 在上述情况下,MMD 仅在两项任务中被击败,其中一项是被已纳入其中的独立技术 (MUP) 击败,但默认情况下该技术并未针对手头的任务提供工具。

作者声称,根据 Amazon 和 Yelp 的标记数据集进行测试,MMD 能够以最高的准确率识别专业的在线批评者。 粗体代表MMD,星号(*)表示最佳性能。 在上述情况下,MMD 仅在两项任务中被击败,其中一项是被已纳入其中的独立技术 (MUP) 击败,但默认情况下该技术并未针对手头的任务提供工具。

在本例中,MMD 与来自淘宝和京东的未标记数据集进行比较,使其实际上成为一项无监督学习任务。 再次强调,MMD 仅通过其自身的一项组成技术进行了改进,高度适合用于测试目的的任务。

在本例中,MMD 与来自淘宝和京东的未标记数据集进行比较,使其实际上成为一项无监督学习任务。 再次强调,MMD 仅通过其自身的一项组成技术进行了改进,高度适合用于测试目的的任务。

研究人员观察到:

“在所有四个数据集上,我们提出的模型 MMD (MLC+MUP) 在 F 分数方面优于所有基线。 请注意,MMD 是 MLC 和 MUP 的组合,这确保了它相对于一般监督和无监督模型的优越性。

该论文还表明 MMD 可以作为传统自动过滤系统的有用预处理方法,并提供了许多数据集的实验结果,包括 基于用户的协同过滤 (UBCF), 基于项目的协同过滤 (国际商业联合会), 矩阵分解 (MF-eALS), 贝叶斯个性化排名 (MF-BPR),和 神经协同过滤 (NCF)。

命中率 (人力资源) 和 归一化贴现累积收益 (NDCG)在这些测试增强的结果中,作者指出:

“在所有四个数据集中,MMD 在 HR 和 NDCG 方面显着改进了推荐模型。 具体来说,MMD可以将HR的表现平均提升28.7%,HDCG的表现平均提升17.3%。

通过删除专业恶意用户,MMD 可以提高数据集的质量。 没有这些专业恶意用户的造假 [回馈],数据集变得更多 [直觉的].'

这个 标题为 利用推荐系统中的度量学习检测专业恶意用户s,来自吉林大学计算机科学与技术系的研究人员; 中国科学院智能信息处理北京重点实验室; 和新泽西州罗格斯大学商学院。

数据与方法

检测 PMU 是一项多模式挑战,因为必须考虑两个非等效参数(数值星/十进制评级和基于文本的审核)。 新论文的作者声称,之前的工作还没有解决这一挑战。

MMD 采用 分层双注意力循环神经网络 (HDAN)将评论内容同化为情绪分数。

使用 HDAN 将评论投影到情感分数中,HDAN 贡献词嵌入和句子嵌入以获得情感分数。

使用 HDAN 将评论投影到情感分数中,HDAN 贡献词嵌入和句子嵌入以获得情感分数。

HDAN 使用注意力机制为每个单词和每个句子分配权重。 在上图中,作者指出,这个词 显然应该比评论中的竞争词赋予更大的权重。

对于该项目,HDAN 将四个数据集的产品评级作为基本事实。 数据集是  Amazon.com; Yelp 的 RecSys (2013); 以及来自淘宝和京东的两个“现实世界”(而非实验)数据集。

MMD 利用度量学习,它尝试估计实体之间的准确距离,以表征数据中整个关系组的特征。

MMD 开头为 一键编码 通过潜在因素模型 (LFM) 选择用户和项目,从而获得基本评分。 同时,HDAN 将评论内容作为辅助数据投影到情绪评分中。

然后将结果处理为恶意用户分析 (MUP) 模型,该模型输出 情感差距向量 – 评论文本内容的评级和估计情绪分数之间的差异。 这样,PMU第一次可以被分类和标记。

基于注意力的聚类度量学习。

基于注意力的聚类度量学习。

聚类度量学习 (MLC) 使用这些输出标签来建立一个度量,根据该度量计算用户评论恶意的概率。

人体测试

除了上面详述的定量结果之外,研究人员还进行了一项用户研究,要求 20 名学生仅根据内容和星级来识别恶意评论。 参与者被要求对评论进行评分 0 (对于“普通”审稿人)或 1 (对于专业的恶意用户)。

正常评论和恶意评论的比例为 50/50,学生们平均标记了 24 个真正的正面用户和 24 个真正的负面用户。 相比之下,MMD 平均能够标记 23 个真正的阳性用户和 24 个真正的阴性用户,几乎达到人类水平的辨别能力,并超越了任务的基线。

学生 vs MMD。 星号[*]表示最佳结果,粗体表示MMD的结果。

学生 vs MMD。 星号[*]表示最佳结果,粗体表示MMD的结果。

作者总结:

从本质上讲,MMD 是一种通用解决方案,它不仅可以检测本文探讨的专业恶意用户,而且可以作为恶意用户检测的通用基础。 有了更多的数据,如图像、视频或声音,MMD 的想法可以指导检测标题和内容之间的情感差距,这对于应对不同应用中的不同屏蔽策略具有光明的前景。

 

首次发布于 20 年 2022 月 XNUMX 日。

机器学习作家,人体图像合成领域专家。曾任 Metaphysic.ai 研究内容主管。
个人网站: 马丁南德森.ai
联系我们 [电子邮件保护]
推特:@manders_ai