Connect with us

Anderson 视角

使用 AI 预测大片电影

mm
ChatGPT-4o and Adobe Firefly

虽然电影和电视行业常被视为创意和开放的行业,但它们长期以来一直是风险规避的。高昂的制作成本(可能会失去海外拍摄的优势,至少对于美国项目来说)和分散的制作格局使得独立公司难以承担重大损失。

因此,在过去的十年中,行业对机器学习是否能够检测到观众对拟议的电影和电视项目的反应中的趋势或模式越来越感兴趣。

主要的数据来源仍然是尼尔森系统(提供规模,但其根源在于电视和广告)和基于样本的方法,例如焦点小组,它们用策划的人口统计学换取规模。此类别还包括免费电影预览的评分反馈——然而,在那时,大部分制作预算已经花费了。

大热门理论

最初,ML系统利用传统的分析方法,例如线性回归、K-Nearest Neighbors随机梯度下降决策树和森林,以及神经网络,通常以更接近预AI统计分析的风格组合,例如2019年中佛罗里达大学的一项计划,预测成功的电视节目基于演员和编剧(以及其他因素)的组合:

2018年的一项研究根据角色和/或编剧(大多数剧集由多人编写)的组合评估了剧集的表现。来源:https://arxiv.org/pdf/1910.12589

2018年的一项研究根据角色和/或编剧(大多数剧集由多人编写)的组合评估了剧集的表现。 来源:https://arxiv.org/pdf/1910.12589

最相关的相关工作,至少在野外部署(尽管经常受到批评),是在推荐系统领域:

典型的视频推荐管道。目录中的视频使用可能手动注释或自动提取的功能进行索引。推荐是通过两个阶段生成的:首先选择候选视频,然后根据从查看偏好中推断的用户配置文件对其进行排名。来源:https://www.frontiersin.org/journals/big-data/articles/10.3389/fdata.2023.1281614/full

典型的视频推荐管道。目录中的视频使用可能手动注释或自动提取的功能进行索引。推荐是通过两个阶段生成的:首先选择候选视频,然后根据从查看偏好中推断的用户配置文件对其进行排名。 来源:https://www.frontiersin.org/journals/big-data/articles/10.3389/fdata.2023.1281614/full

然而,这些方法分析的是已经成功的项目。在新节目或电影的案例中,尚不清楚什么样的基准事实最适用——至少因为公众口味的变化,加上数据源的改进和增强,意味着通常没有几十年的连续数据。
这是冷启动问题的一个实例,其中推荐系统必须在没有任何先前交互数据的情况下评估候选项。在这种情况下,传统的协同过滤会失效,因为它依赖于用户行为模式(例如查看、评分或共享)来生成预测。问题在于,对于大多数新电影或节目来说,尚不具备足够的观众反馈来支持这些方法。

康卡斯特预测

康卡斯特技术人工智能的一篇新论文,联合乔治华盛顿大学,提出了解决这个问题的方案,通过使用结构化元数据提示语言模型关于未发行的电影。

输入包括演员、类型、简介、内容评级、情绪和奖项,模型返回一个可能的未来热门电影的排名列表。

作者使用模型的输出作为观众兴趣的替代品,当没有参与数据时,希望避免早期偏向已经知名的标题。

非常短(三页)的论文,题为《使用LLM预测电影热门》,来自康卡斯特技术人工智能的六位研究人员和乔治华盛顿大学的一位研究人员,指出:

我们的结果表明,LLM在使用电影元数据时可以显著优于基准。这一方法可以作为多种用例的辅助系统,实现每日和每周发布的大量新内容的自动评分。

通过在编辑团队或算法在累积足够的交互数据之前提供早期见解,LLM可以简化内容审查流程。

随着LLM效率的持续改进和推荐代理的崛起,本工作的见解具有价值和适应广泛领域的能力。

如果这种方法被证明是强大的,它可以通过引入一种可扩展的方法来减少行业对回顾性指标和大力宣传的标题的依赖,预先标记出有前途的内容。

方法和数据

作者概述了一个四阶段的工作流程:从未发行的电影元数据中构建一个专用数据集;建立一个基准模型进行比较;使用自然语言推理和基于嵌入的预测来评估合适的LLM;并通过生成模式中的提示工程来优化输出,使用Meta的Llama 3.13.3语言模型。

由于作者声明,没有公开可用的数据集提供了直接测试他们的假设的方法(因为大多数现有集合都在LLM之前,并且缺乏详细的元数据),他们从康卡斯特娱乐平台中构建了一个基准数据集,该平台为数千万用户提供服务,跨越直接和第三方接口。

数据集跟踪新发行的电影,以及它们是否后来变得流行,流行度是通过用户交互定义的。

集合专注于电影而不是系列,作者指出:

我们专注于电影,因为它们比电视系列受到外部知识的影响较小,从而提高了实验的可靠性。

标签是通过分析标题在不同时间窗口和列表大小下变得流行所需的时间来分配的。LLM是使用元数据字段(如类型、简介、评级、时代、演员、工作人员、情绪、奖项和角色类型)提示的。

为了比较,作者使用了两个基准:随机排序;和流行嵌入(PE)模型(我们稍后会讨论)。

项目使用大型语言模型作为主要排名方法,生成具有预测流行度评分和伴随理由的有序电影列表——这些输出是由旨在使用结构化元数据指导模型预测的提示工程策略塑造的。

提示策略将模型视为“编辑助手”,负责根据仅结构化元数据识别最有可能流行的即将上映的电影,并负责重新排序固定标题列表,而不引入新项目,并以JSON格式返回输出。

每个响应由一个排名列表、分配的流行度评分、排名的理由和对任何先前影响结果的例子的引用组成。这些多个级别的元数据旨在提高模型的上下文理解和预测未来观众趋势的能力。

测试

实验遵循两个主要阶段:最初,作者测试了几种模型变体以建立基准,包括识别出performing比随机排序更好的版本。

第二,他们在生成模式下测试了大型语言模型,通过将其输出与更强的基准进行比较,而不是随机排名,提高了任务的难度。

这意味着模型必须比已经表现出一定预测能力的系统做得更好。因此,作者断言,评估更好地反映了现实世界的条件,在现实世界中,编辑团队和推荐系统很少在模型和偶然之间选择,而是在具有不同预测能力的竞争系统之间选择。

无知的优势

在这种设置中,一个关键的限制是模型的知识截止日期和电影的实际发布日期之间的时间间隔。由于语言模型是在六到十二个月之前的数据上训练的,因此它们没有访问发布后信息的权限,确保预测仅基于元数据,而不是任何学习的观众响应。

基准评估

为了构建基准,作者使用三个嵌入模型生成了电影元数据的语义表示:BERT V4Linq-Embed-Mistral 7B;和Llama 3.3 70B,量化为8位精度以满足实验环境的约束。

Linq-Embed-Mistral因其在MTEB(大规模文本嵌入基准)排行榜上的首位而被选入。

每个模型生成了候选电影的向量嵌入,然后将其与每次发布前几周中最受欢迎的前100个标题的平均嵌入进行比较。

流行度是使用余弦相似度之间的嵌入来推断的,较高的相似度得分表示较高的预测吸引力。每个模型的排名准确性是通过测量其性能与随机排序基准的比较来评估的。

流行嵌入模型相对于随机基准的性能改进。每个模型都使用四个元数据配置进行测试:V1仅包括类型;V2仅包括简介;V3组合类型、简介、内容评级、角色类型、情绪和发布时代;V4将演员、工作人员和奖项添加到V3配置中。结果显示了更丰富的元数据输入如何影响排名准确性。

流行嵌入模型相对于随机基准的性能改进。每个模型都使用四个元数据配置进行测试:V1仅包括类型;V2仅包括简介;V3组合类型、简介、内容评级、角色类型、情绪和发布时代;V4将演员、工作人员和奖项添加到V3配置中。结果显示了更丰富的元数据输入如何影响排名准确性。 来源:https://arxiv.org/pdf/2505.02693

结果(如上所示)表明,BERT V4和Linq-Embed-Mistral 7B在识别前三名最受欢迎的标题方面表现最强,尽管两者在预测单个最受欢迎的项目方面略有不足。

最终,BERT被选为与LLM进行比较的基准模型,因为其效率和整体收益超过了其局限性。

LLM评估

研究人员使用两种排名方法评估性能:成对列表。成对排名评估模型是否正确地对两个项目进行排序;列表排名考虑候选项目的整个有序列表的准确性。

这种组合使得不仅可以评估个别电影对是否正确排序(局部准确性),还可以评估整个候选列表是否反映了真实流行度顺序(全局准确性)。

使用完整的、非量化模型,以防止性能损失,确保LLM预测和嵌入基准之间的比较是一致且可复制的。

指标

为了评估语言模型预测电影流行度的有效性,使用了排名和分类两种类型的指标,特别关注识别前三名最受欢迎的标题。

应用了四个指标:准确度@1衡量最受欢迎的项目在第一个位置出现的频率;逆序排名捕获了预测列表中顶部实际项目的排名,方法是取其位置的逆;归一化折扣累积收益(NDCG@k)评估了整个排名与实际流行度的匹配程度,较高的分数表示更好的对齐;和回忆@3衡量了真正流行的标题在模型的前三项预测中出现的比例。

由于大多数用户参与发生在排名菜单的顶部,因此评估重点关注k的较低值,以反映实际用例。

大型语言模型相对于BERT V4的性能改进,以跨排名指标的百分比增益衡量。结果是每个模型-提示组合的十次运行的平均值,突出显示了前两个值。报告的数字反映了所有指标的平均百分比改进。

大型语言模型相对于BERT V4的性能改进,以跨排名指标的百分比增益衡量。结果是每个模型-提示组合的十次运行的平均值,突出显示了前两个值。报告的数字反映了所有指标的平均百分比改进。

Llama模型3.1(8B)、3.1(405B)和3.3(70B)的性能是通过测量相对于早期建立的BERT V4基准的指标改进来评估的。每个模型使用一系列提示进行测试,以检查输入详细程度对预测质量的影响。

作者指出:

最好的性能是使用Llama 3.1(405B)和最具信息量的提示实现的,其次是Llama 3.3(70B)。根据观察到的趋势,当使用复杂和冗长的提示(MD V4)时,通常会导致更复杂的语言模型在各种指标上实现更好的性能。然而,它对添加的信息类型很敏感。

当提示中包括演员奖项时,性能会改善——在这种情况下,前五位主演在每部电影中获得的主要奖项数量。这种更丰富的元数据是最详细的提示配置的一部分,优于排除了演员认可的更简单版本。这种好处在更大的模型中最为明显,Llama 3.1(405B)和3.3(70B),两者都表现出更强的预测准确性,当给出这个声望和观众熟悉度的额外信号时。

相比之下,小型模型Llama 3.1(8B)在提示变得稍微详细时表现改善,进展从类型到简介,但在添加更多字段时会下降,表明模型缺乏整合复杂提示的能力,从而导致更弱的泛化。

当提示仅限于类型时,所有模型都低于基准,表明有限的元数据不足以支持有意义的预测。

结论

LLM已成为生成式人工智能的代名词,这可能解释了为什么它们被应用于其他方法可能更合适的领域。即使如此,我们仍然对它们在不同行业中可以做什么知之甚少,所以让它们尝试一下是有意义的。

在这种情况下,就像股票市场和天气预报一样,历史数据只能在一定程度上作为未来预测的基础。在电影和电视节目中,交付方法本身现在是一个移动目标,与1978年至2011年间有线电视、卫星电视和便携式媒体(VHS、DVD等)代表的一系列过渡性或演变的历史干扰形成鲜明对比。

任何预测方法都无法考虑到其他制作的成功或失败可能影响拟议属性的可行性的程度——然而,这往往是电影和电视行业的现实,这个行业喜欢追随潮流。

尽管如此,LLM如果使用得当,可能有助于在冷启动阶段加强推荐系统,为一系列预测方法提供有用的支持。

 

首次发布于2025年5月6日,星期二

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai