Anderson 视角

使用 AI 总结冗长的“如何操作”视频

发布于 2022年8月16日

更新于 2026年5月23日

作者

Martin Anderson

如果您是那种为了获取所需信息而加速观看 YouTube 教程视频的人，或者查看视频的转录文本以获取基本信息，或者希望 WikiHow 能够创建一个更简洁的教程视频版本，那么来自 UC Berkeley、Google 研究院和布朗大学的新项目可能会引起您的兴趣。

该项目的标题为 TL;DW？使用任务相关性和跨模式显著性总结教程视频，该新论文详细介绍了创建一个 AI 辅助的视频总结系统，该系统可以识别视频中的相关步骤并丢弃其他内容，生成简洁的总结，快速切入正题。

WikiHow 利用现有的长视频片段来生成虚假总结，这些总结提供了训练系统的基础真相。 来源：https://arxiv.org/pdf/2208.06773.pdf

生成的总结只有原始视频运行时间的一小部分，同时也记录了多模式（即基于文本）的信息，以便未来系统能够自动创建 WikiHow 风格的博客文章，这些文章能够自动解析冗长的教程视频，生成简洁、可搜索的短文章，配有插图，可能节省时间和挫败感。

该系统称为 IV-Sum（“教程视频总结器”），它使用开源的 ResNet-50 计算机视觉识别算法，以及其他几种技术，来识别长源视频中的相关帧和片段。

IV-Sum 的概念工作流程

该系统是在伪总结的基础上训练的，这些伪总结是从 WikiHow 网站的内容结构中生成的，在那里，真实的人经常将流行的教程视频转换为更平坦的基于文本的多媒体形式，经常使用来自源教程视频的短片段和动态 GIF 图片。

讨论该项目使用 WikiHow 总结作为系统的基础真相数据时，作者们指出：

‘WikiHow Videos 网站上的每一篇文章都包含一个主要的教程视频，演示一个任务，通常包括促销内容、剪辑教练对着摄像头说话而没有视觉信息的任务，以及不重要的步骤。 ‘

‘希望获取任务概述的观众更喜欢没有所有上述不相关信息的更短的视频。 WikiHow 文章（例如，如何制作寿司米）包含了这些内容：包含所有重要步骤的文本，伴有说明任务各个步骤的图像/剪辑。’

方法

总结过程的第一阶段涉及使用相对低效、弱监督算法生成伪总结和帧级重要性评分，用于大量网络抓取的教程视频，每个视频只有一个任务标签。

接下来，训练一个教程总结网络，使用这些数据。该系统采用自动转录的语音（例如 YouTube 自己的 AI 生成字幕）和源视频作为输入。

该网络由视频编码器和片段评分变换器（SST）组成，训练由伪总结中分配的重要性评分引导。最终总结是通过连接具有高重要性评分的片段来创建的。

从论文中可以看出：

‘我们伪总结生成管道背后的主要直觉是，假设有很多视频来演示一个任务，那么对于任务至关重要的步骤可能会出现在多个视频中（任务相关性）。 ‘

‘另外，如果一个步骤很重要，演示者通常会在执行步骤之前、期间或之后对着摄像头说话。因此，使用自动语音识别（ASR）获得的视频字幕很可能会引用这些关键步骤（跨模式显著性）。’

为了生成伪总结，首先将视频统一分割为片段，然后根据视觉相似性将片段分组为“步骤”（上图中的不同颜色）。然后，根据“任务相关性”和“跨模式显著性”（即 ASR 文本和图像之间的相关性）为这些步骤分配重要性评分。具有高评分的步骤然后被选中来代表伪总结中的阶段。

该系统使用 跨模式显著性 来帮助确定每个步骤的相关性，通过比较解释后的语音与视频中的图像和动作。这是通过使用预训练的视频-文本模型来实现的，每个元素都在 MIL-NCE 损失下联合训练，使用由 DeepMind 等开发的 3D CNN 视频编码器。

通过计算任务相关性和跨模式分析阶段的平均值，获得一个总的重要性评分。

数据

为此过程生成了一个初始的伪总结数据集，包含了两个先前数据集的内容——COIN，一个包含 11,000 个与 180 个任务相关的视频的 2019 年数据集；以及 Cross-Task，它包含 4,700 个教程视频，其中 3,675 个被用于研究。Cross-Task 中有 83 个不同的任务。

上面是 COIN 的示例，下面是 Cross-Task 的示例。 来源分别为：https://arxiv.org/pdf/1903.02874.pdf 和 https://openaccess.thecvf.com/content_CVPR_2019/papers/Zhukov_Cross-Task_Weakly_Supervised_Learning_From_Instructional_Videos_CVPR_2019_paper.pdf

使用同时出现在两个数据集中的视频，并且只使用一次，研究人员能够获得 12,160 个视频，涵盖 263 个不同的任务，内容时长为 628.53 小时。

为了填充 WikiHow 基础的数据集，并为系统提供基础真相，作者们抓取了 WikiHow Videos 中所有长教程视频，以及与每个步骤相关的图像和视频片段（即 GIF）。因此，WikiHow 衍生内容的结构将作为新系统中步骤的个性化模板。

使用 ResNet50 提取的特征来跨匹配视频中的精选部分，并执行步骤的定位。在 5 秒视频窗口内找到最相似的图像作为锚点。

然后这些更短的片段被拼接成视频，组成模型训练的基础真相。

为每个输入视频中的每一帧分配标签，以声明它们是否属于输入总结，研究人员为每个视频分配了一个帧级二进制标签和通过所有帧的重要性评分获得的平均总结评分。

在这一阶段，教程视频中的“步骤”现在与基于文本的数据相关联，并被标记。