Anderson 视角

使用 AI 预测大片电影

发布于 2025年5月6日

更新于 2026年5月19日

作者

Martin Anderson

尽管电影和电视行业通常被视为创意和开放的行业，但它们长期以来都很保守。高昂的制作成本（可能会失去海外地点的优势，至少对于美国项目来说是这样）和分散的制作格局使得独立公司难以承担重大损失。

因此，在过去的十年里，行业对机器学习是否能够检测到观众对拟议的电影和电视项目的反应趋势或模式越来越感兴趣。

主要的数据来源仍然是尼尔森系统（提供规模，但其根源在于电视和广告）和基于样本的方法，例如焦点小组，这些方法用精心策划的人口统计学换取规模。后者还包括来自免费电影预览的评分卡反馈，但是在那时，大部分制作预算已经花费完毕。

大热门理论

最初，机器学习系统利用传统的分析方法，例如线性回归、K-最近邻、随机梯度下降、决策树和森林，以及神经网络，通常以更接近于预先存在的AI的统计分析风格，例如2019年中佛罗里达大学预测成功电视节目的计划，基于演员和编剧（以及其他因素）的组合：

2018年的一项研究根据角色和/或编剧的组合评估了剧集的表现（大多数剧集由多于一个人编写）。 来源：https://arxiv.org/pdf/1910.12589

最相关的相关工作，至少是在野外部署的工作，是在推荐系统领域：

典型的视频推荐管道。目录中的视频使用可能手动注释或自动提取的功能进行索引。推荐是通过两个阶段生成的：首先选择候选视频，然后根据从查看偏好中推断出的用户配置文件对它们进行排名。来源：https://www.frontiersin.org/journals/big-data/articles/10.3389/fdata.2023.1281614/full

然而，这种方法分析的是已经成功的项目。在新节目或电影的案例中，不清楚什么样的基本事实最适用——最不重要的是，公众口味的变化，加上数据源的改进和扩展，意味着通常没有几十年的连续数据可用。

这是冷启动问题的一个实例，其中推荐系统必须在没有任何先前交互数据的情况下评估候选项。在这种情况下，传统的协同过滤会失效，因为它依赖于用户行为（例如查看、评分或分享）中的模式来生成预测。问题是，对于大多数新电影或节目，尚未有足够的观众反馈来支持这些方法。

康卡斯特预测

康卡斯特技术AI的一篇新论文，联合乔治华盛顿大学，提出了一个解决方案，通过使用语言模型提示关于未发行电影的结构化元数据。

输入包括演员表、类型、简介、内容评级、情绪和奖项，模型返回一个可能的未来热门电影的排名列表。

作者使用模型的输出作为观众兴趣的替代品，当没有参与数据可用时，希望避免早期偏向已经知名的标题。

非常短（三页）的论文，题为使用LLM预测电影热门，来自康卡斯特技术AI的六位研究人员和乔治华盛顿大学的一位研究人员，指出：

‘我们的结果表明，LLM在使用电影元数据时可以显著优于基线。这种方法可以作为多种用例的辅助系统，实现每日和每周发布的大量新内容的自动评分。 ‘

‘通过在编辑团队或算法在积累足够的交互数据之前提供早期见解，LLM可以简化内容审查流程。 ‘

‘随着LLM效率的持续改进和推荐代理的崛起，本工作的见解具有价值，并且可以适应广泛的领域。 ‘

如果这种方法被证明是强大的，它可以通过在发行前标记有前途的内容来减少行业对回顾性指标和大力宣传的标题的依赖。因此，编辑团队可以在发行前获得早期的、基于元数据的观众兴趣预测，而不是等待用户行为来发出需求信号。

方法和数据

作者概述了一个四阶段工作流程：从未发行的电影元数据构建一个专用数据集；建立一个基线模型进行比较；使用自然语言推理和基于嵌入的预测来评估合适的LLM；以及使用Meta的Llama 3.1和3.3语言模型在生成模式下优化输出。

由于作者指出，没有公开可用的数据集提供直接的方法来测试他们的假设（因为大多数现有集合在LLM之前就已经存在，并且缺乏详细的元数据），他们从康卡斯特娱乐平台构建了一个基准数据集，该平台为数千万用户提供服务，跨越直接和第三方接口。

该数据集跟踪新发行的电影，以及它们后来是否变得流行，流行度是通过用户交互来定义的。

该集合专注于电影而不是系列，作者指出：

‘我们专注于电影，因为它们比电视系列受到外部知识的影响较小，从而提高了实验的可靠性。 ‘

标签是通过分析电影在不同时间窗口和列表大小上变得流行所需的时间来分配的。LLM是使用元数据字段（如类型、简介、评级、时代、演员、工作人员、情绪、奖项和角色类型）提示的。

为了比较，作者使用了两个基线：随机排序；和流行嵌入（PE）模型（稍后会详细介绍）。

该项目使用大型语言模型作为主要排名方法，生成有预测流行度评分和附加理由的电影有序列表——这些输出是由设计用于使用结构化元数据指导模型预测的提示工程策略塑造的。

提示策略将模型视为“编辑助理”，其任务是确定哪些即将上映的电影最有可能流行，仅基于结构化元数据，然后重新排列固定标题列表不引入新项目，并以JSON格式返回输出。
每个响应由一个排名列表、分配的流行度评分、排名的理由和对任何先前示例的引用组成，这些示例影响了结果。这些多个元数据级别旨在提高模型的上下文理解及其预测未来观众趋势的能力。

测试

实验遵循两个主要阶段：最初，作者测试了几个模型变体以建立基线，包括确定哪个版本的性能优于随机排序方法。

其次，他们以生成模式测试了大型语言模型，通过将其输出与更强的基线进行比较，而不是随机排名，提高了任务的难度。
这种方法意味着模型必须比已经表现出一定预测能力的系统做得更好。因此，作者认为，评估更好地反映了现实世界的条件，在那里编辑团队和推荐系统很少在模型和偶然之间选择，而是在具有不同预测能力的竞争系统之间选择。

无知的优势

该设置中的一个关键约束是模型的知识截止日期与电影的实际发行日期之间的时间间隔。由于语言模型是在六到十二个月之前的数据上训练的，因此它们没有任何发行后信息，确保预测完全基于元数据，而不是任何学习的观众反应。

基线评估

为了构建基线，作者使用三个嵌入模型生成了电影元数据的语义表示：BERT V4；Linq-Embed-Mistral 7B；和Llama 3.3 70B，量化为8位精度以满足实验环境的约束。

Linq-Embed-Mistral因其在MTEB（大规模文本嵌入基准）排行榜上的首位而被选中。

每个模型生成了候选电影的向量嵌入，然后将其与每部电影发行前几周最受欢迎的100部电影的平均嵌入进行比较。

使用余弦相似度推断了流行度，较高的相似度得分表示预测的吸引力更高。通过测量每个模型的性能与随机排序基线的比较来评估其排名准确性。

流行嵌入模型相对于随机基线的性能改进。每个模型使用四种元数据配置进行测试：V1仅包括类型；V2仅包括简介；V3将类型、简介、内容评级、角色类型、情绪和发行时代结合起来；V4在V3配置中添加了演员、工作人员和奖项。结果显示了更丰富的元数据输入如何影响排名准确性。来源：https://arxiv.org/pdf/2505.02693

结果（如上所示）表明，BERT V4和Linq-Embed-Mistral 7B在识别前三部最受欢迎的电影时取得了最大的改进，尽管它们在预测单个最受欢迎的项目时略微逊色。
BERT最终被选为基线模型，因为其效率和整体收益超过了其局限性。

LLM评估

研究人员使用两种排名方法评估性能：成对和列表。成对排名评估模型是否正确地相对于另一个项目进行排序；列表排名考虑整个候选项目的有序列表的准确性。

这种组合使得不仅可以评估模型是否正确地对个别电影对进行排序（局部准确性），还可以评估整个候选列表如何反映真实流行度顺序（全局准确性）。

使用完整的、非量化模型，以防止性能损失，确保LLM预测和嵌入基线之间的比较是一致且可复制的。

指标

为了评估语言模型预测电影流行度的有效性，使用了排名和分类两种类型的指标，特别关注识别前三部最流行的电影。

应用了四个指标：准确度@1衡量最流行的项目出现在第一位置的频率；逆序排名捕获了预测列表中顶部实际项目的排名，方法是取其位置的逆；归一化折扣累积收益（NDCG@k）评估了整个排名与实际流行度的匹配程度，较高的分数表示更好的对齐；以及回顾@3衡量了真正流行的标题在模型的前三项预测中出现的比例。

由于大多数用户参与发生在排名菜单的顶部，因此评估重点关注k的较低值，以反映实际用例。

大型语言模型相对于BERT V4的性能改进，按排名指标的百分比增幅计算。结果是每个模型-提示组合的十次运行的平均值，最高的两个值突出显示。报告的数字反映了所有指标的平均百分比改进。

评估了Llama模型3.1（8B）、3.1（405B）和3.3（70B）的性能，通过测量相对于早先建立的BERT V4基线的指标改进来实现。每个模型都使用一系列提示进行测试，从最小到信息丰富，以检查输入详细程度对预测质量的影响。
作者指出：

‘最好的性能是使用Llama 3.1（405B）和最具信息量的提示实现的，其次是Llama 3.3（70B）。根据观察到的趋势，当使用复杂且冗长的提示（MD V4）时，通常会导致更复杂的语言模型在各种指标上表现更好。然而，它对添加的信息类型很敏感。 ‘

当提示中包括演员奖项时，性能会改善——在这种情况下，前五位演员在每部电影中获得的主要奖项数量。这种更丰富的元数据是最详细的提示配置的一部分，优于排除了演员认可的更简单版本。这种好处在更大的模型中最为明显，Llama 3.1（405B）和3.3（70B）都表现出更强的预测准确性，当给予这种声望和观众熟悉度的附加信号时。

相比之下，小型模型Llama 3.1（8B）在提示变得稍微更详细时表现会改善，例如从类型到简介，但当添加更多字段时会下降，表明该模型缺乏整合复杂提示的能力，从而导致更弱的泛化。

当提示仅限于类型时，所有模型都未能优于基线，表明有限的元数据不足以支持有意义的预测。