关注我们.

为什么人工智能不能提供更好的产品推荐

人工智能

为什么人工智能不能提供更好的产品推荐

mm

如果你对冷门的东西感兴趣,那么有两个原因可以解释为什么你搜索的商品和产品可能与你的兴趣关联性不如“主流”同龄人;要么你是一个货币化的“边缘案例”,只有当你的经济购买力处于较高水平时,你的兴趣才会得到满足(例如,与……相关的产品和服务) “财富管理”);或者你使用的搜索算法正在利用 协同过滤 (CF),有利于大多数人的利益。

由于协同过滤比其他可能更强大的算法和框架更便宜、更成熟,因此这两种情况都有可能适用。

基于 CF 的搜索结果将优先考虑那些在“像您这样的人”中受欢迎的商品,因为主机框架可以最好地了解您是哪种类型的消费者。

如果您对向主机系统提供数据分析信息持谨慎态度 - 例如,不愿意按下 Netflix 和其他视频内容服务中的“赞”按钮 - 您很可能会在与系统的最初交互中被归类为相当笼统的类别,而您收到的推荐将反映最流行的趋势。

在流媒体平台上,这可能意味着无论你对什么感兴趣,它都会推荐当前“热门”的节目和电影,比如真人秀和法医谋杀纪录片。图书推荐平台也是如此,它往往会随意推荐当前和最近的畅销书。

从理论上讲,即使是数据谨慎的用户最终也应该根据他们使用这些系统的方式和他们搜索的内容从此类系统中获得更好的结果,因为大多数搜索框架给予用户编辑其使用历史记录的能力有限。

任何你喜欢的颜色,只要是黑色

然而,根据奥地利的一项新研究,协同过滤相对于 基于内容的过滤 (旨在定义产品之间的关系,而不仅仅是考虑总体受欢迎程度)和其他替代方法,使搜索系统倾向于长期 人气偏见,其中明显受欢迎的结果被推送给不太可能对其感兴趣的最终用户。

论文发现,对热门商品不感兴趣的用户收到的推荐“明显比对热门商品有中等或高度兴趣的用户差”,而且(或许是同义反复)热门商品的推荐频率高于不热门商品。研究人员还得出结论,对热门商品兴趣较低的用户往往拥有更丰富的用户画像,这可能会改善推荐系统——只要推荐系统能够摆脱对“从众”指标的依赖就好了。

比较用户档案的受欢迎程度和复杂性表明,对主流内容不感兴趣的“边缘”用户实际上有更多的潜在内容可供推荐系统挖掘; 但由于此类用户不符合趋势,这似乎是一个失去的机会。 资料来源:https://arxiv.org/pdf/2203.00376.pdf

将受欢迎程度与用户资料的复杂性进行比较表明,对主流内容不感兴趣的“边缘”用户实际上拥有更多潜在内容可供推荐系统挖掘;但由于此类用户不符合趋势,因此似乎失去了机会。 资料来源:https://arxiv.org/pdf/2203.00376.pdf

这个 标题为 基于协同过滤的多媒体推荐系统中的流行度偏差,来自格拉茨现在的 Center GmbH 和格拉茨科技大学的研究人员。

涵盖的领域

这篇新论文以先前研究各个领域(例如图书推荐)的工作为基础,研究了四个领域:数字图书(通过 BookCrossing 数据集);电影(通过 电影镜头); 音乐(通过 Last.fm); 和动漫(来自 MyAnimeList).

该研究针对数据集应用了四种流行的多媒体推荐系统(MMRS)协同过滤算法 分裂 根据用户对“流行”结果的接受倾向,将用户分为三组: 低流行音乐, 医学流行音乐流行音乐. 根据最不受欢迎、平均受欢迎和最可能青睐“热门”结果的程度,将用户组筛选为 1000 个大小相等的组。

作者在评论结果时表示:

“[我们]发现多媒体项目被推荐的概率与该项目的流行度密切相关[并且]流行度较低的用户(LowPop)收到的多媒体推荐在统计上比中等(MedPop)和高流行度的用户要差得多(HighPop)对流行商品的倾向……

我们的结果表明,尽管对热门商品兴趣不大的用户往往拥有最多的用户资料,但他们获得的推荐准确率却最低。因此,未来需要开展研究,以减轻 MMRS 在商品和用户层面的流行度偏差。

评估的算法中有两种 K最近邻居 (KNN)变体, 用户KNN 和 UserKNNAvg。 其中第一个不会生成目标用户和项目的平均评分。 A 非负 矩阵分解 还测试了变体(NMF)以及 CoClustering 算法。

评估协议将推荐任务视为一项预测挑战,由研究人员根据平均绝对误差 (MAE) 进行衡量,并针对五倍交叉验证协议进行衡量,该协议超过了训练数据和测试数据之间通常的 80/20 比例。

结果表明,协同过滤几乎可以保证流行度偏差。 可以说,问题在于,目前将 CF 纳入其搜索算法的价值数十亿美元的公司是否认为这是一个问题。

在对四种流行的协作过滤推荐进行研究的所有四个数据集中,每个结果都表明流行的媒体项目比不流行的产品更有可能被推荐。

在对四种流行的协作过滤推荐进行研究的所有四个数据集中,每个结果都表明流行的媒体项目比不流行的产品更有可能被推荐。

“轻松”的出路

尽管协同过滤越来越多地被用作更广泛的搜索算法策略的一个组成部分,但它在搜索领域占有重要地位,而且其逻辑和潜在盈利能力非常容易理解。

CF 本质上是将评估内容价值的任务转移给了终端用户,并将他们对内容的吸收情况作为衡量其价值及其对其他用户潜在吸引力的指标。打个比方,它本质上是一张“茶水间闲聊”地图。

基于内容的过滤 (CBF) 更加困难,但可能会提供更相关的结果。在计算机视觉领域,目前越来越多的研究正在对视频内容进行分类和 试图推导 通过分析电影和电视输出中的音频和视频来了解领域、特征和高级概念。

这是过去五年的众多研究项目之一,试图从电影内容中获取语义特征,以生成更智能的“相邻”推荐。 资料来源:https://arxiv.org/pdf/1701.00199.pdf

这是过去五年中众多研究项目之一,旨在从电影内容中获取语义特征,以便生成更智能的“相邻”推荐。 资料来源:https://arxiv.org/pdf/1701.00199.pdf

然而,这是一个相对较新的追求,并且与当前量化、隔离和利用领域知识中的高级概念和特征的更普遍的斗争有关。

谁使用协同过滤?

截至撰写本文时,Netflix 的 经常批评 推荐引擎仍然专注于各种协作过滤方法,应用各种 辅助技术 不断尝试生成更多与用户相关的推荐。

亚马逊的搜索引擎 进化 从早期基于用户的协同过滤,到如今更加注重顾客购买历史的商品协同过滤方法。当然,这会导致不同类型的不准确性,例如 过滤气泡或者过分强调稀疏数据。在后一种情况下,如果一位不常光顾亚马逊的顾客进行了一次“不寻常”的购买,比如为一位热爱歌剧的朋友买了一套轻歌剧,那么可能没有足够的替代产品来反映顾客自身的偏好,从而阻止这次购买对他们自己的推荐产生影响。

Facebook 也广泛使用协同过滤, 与其他方法相结合,也由 LinkedIn、YouTube 和推特。

 

首次发布于 2 年 2022 月 XNUMX 日。

机器学习作家,人体图像合成领域专家。曾任 Metaphysic.ai 研究内容主管。
个人网站: 马丁南德森.ai
联系我们 [电子邮件保护]
推特:@manders_ai