人工智能
使用 AI 总结冗长的“如何操作”视频

如果您是那种为了获取所需信息而加速播放 YouTube 教程视频的人;或者查看视频的文字记录以获取隐藏在冗长和常常带有赞助商的运行时间中的基本信息;或者希望 WikiHow 创建了教程视频的更简洁版本;那么来自 UC Berkeley、Google 研究和布朗大学的新项目可能会引起您的兴趣。
该项目的标题为 TL;DW?使用任务相关性和跨模式显著性总结教程视频,新论文 详细介绍了创建一个 AI 辅助的视频总结系统,该系统可以识别视频中的相关步骤并丢弃其他所有内容,从而生成简短的摘要,快速切入正题。
生成的摘要只有原始视频运行时间的一小部分,同时还记录了多模式(即基于文本)的信息,以便未来系统可以潜在地自动创建 WikiHow 风格的博客文章,能够自动解析冗长的教程视频,生成简洁、可搜索的短文章,配有插图,可能节省时间和挫折感。
新系统称为 IV-Sum(“教程视频摘要”),使用开源的 ResNet-50 计算机视觉识别算法,以及其他几种技术,来识别长源视频中的相关帧和段。
该系统是在 WikiHow 网站的内容结构上训练的,WikiHow 网站上的真实人经常将流行的教程视频转换为更平坦、基于文本的多媒体形式,通常使用来自源教程视频的短片段和动态 GIF 图像。
讨论该项目使用 WikiHow 摘要作为系统的基准数据时,作者表示:
‘WikiHow Videos 网站上的每篇文章都包含一个主要的教程视频,演示一个任务,通常包括促销内容、对着摄像头说话的教练片段,没有任务的视觉信息,以及不关键的步骤。 ‘
‘想要任务概述的观众更喜欢没有所有这些不相关信息的更短的视频。 WikiHow 文章(例如,如何制作寿司米)包含了这些:包含视频中所有重要步骤的文本,配有插图/片段,演示任务中的各个步骤。’
生成的数据库称为 WikiHow 摘要,包含 2,106 个输入视频及其相关摘要。这比视频总结项目通常需要的数据集大小要大得多,通常需要昂贵且劳动密集的手动标记和注释——一个过程在新工作中基本上已经自动化了,因为总结教程(而不是一般)视频的范围更为有限。
IV-Sum 利用时间 3D 卷积神经网络表示,而不是特征帧表示,并且论文中详细的消融研究证实,该方法的所有组件对于系统的功能都是必不可少的。
IV-Sum 与各种可比框架(包括 CLIP-It)进行了比较,CLIP-It 的一些作者也参与了该项目的工作。

IV-Sum 在可比方法中表现良好,可能是由于其更受限制的应用范围,与一般的视频总结计划相比。有关指标和评分方法的详细信息,请参见本文下方。
方法
总结过程的第一阶段涉及使用相对低强度的弱监督算法来生成大量网络爬取的教程视频的伪摘要和 帧级重要性评分,每个视频只有一个任务标签。
接下来,训练一个教程总结网络,使用这些数据。该系统以自动转录的语音(例如 YouTube 为视频生成的 AI 生成的字幕)和源视频作为输入。
该网络由视频编码器和段评分变换器(SST)组成,训练由分配给伪摘要的重要性评分引导。最终的摘要是通过连接具有高重要性评分的段来创建的。
从论文中:
‘我们伪摘要生成流水线背后的主要直觉是,给定许多任务视频,任务中关键的步骤可能会出现在多个视频中(任务相关性)。 ‘
‘另外,如果一个步骤很重要,演示者通常会在执行步骤之前、期间或之后对其进行讲解。因此,使用自动语音识别(ASR)获得的视频字幕很可能会引用这些关键步骤(跨模式显著性)。’

要生成伪摘要,首先将视频统一分成段,并根据视觉相似性将段分组为“步骤”(上图中的不同颜色)。然后根据“任务相关性”和“跨模式显著性”(即 ASR 文本和图像之间的相关性)为这些步骤分配重要性评分。然后选择高评分步骤来代表伪摘要中的阶段。
该系统使用 跨模式显著性 来帮助确定每个步骤的相关性,通过比较解释的语音与视频中的图像和操作。 这是通过使用预训练的视频文本模型来完成的,每个元素都在 MIL-NCE 损失下联合训练,使用由 DeepMind 等开发的 3D CNN 视频编码器。
然后,从任务相关性和跨模式分析阶段计算出一个一般的重要性评分。
数据
最初为此过程生成了一个伪摘要数据集,包含两个先前数据集的大部分内容——COIN,一个包含 11,000 个与 180 个任务相关的视频的 2019 年数据集;和 Cross-Task,其中包含 4,700 个教程视频,其中 3,675 个用于研究。Cross-Task 包含 83 个不同的任务。

上面是 COIN 的示例;下面是 Cross-Task 的示例。 来源分别为:https://arxiv.org/pdf/1903.02874.pdf 和 https://openaccess.thecvf.com/content_CVPR_2019/papers/Zhukov_Cross-Task_Weakly_Supervised_Learning_From_Instructional_Videos_CVPR_2019_paper.pdf
使用两个数据集中仅出现一次的视频,研究人员能够获得 12,160 个视频,涵盖 263 个不同的任务,总共 628.53 小时的内容。
为了填充 WikiHow 基础数据集,并为系统提供基准数据,作者爬取了 WikiHow Videos 中所有长教程视频,以及与每个步骤相关的图像和视频片段(即 GIF)。因此,WikiHow 的派生内容结构将作为新系统中步骤的模板。
使用 ResNet50 提取的特征来匹配 WikiHow 图像中的精选视频段,并执行步骤的定位。5 秒视频窗口内最相似的图像用作锚点。
然后这些较短的片段被拼接成视频,构成了模型训练的基准数据。
为每个输入视频中的每一帧分配标签,以指示它们是否属于输入摘要,研究人员为每个视频分配了帧级二进制标签,并通过所有段中的重要性评分获得平均摘要评分。
在这一阶段,教程视频中的“步骤”现在与基于文本的数据相关联,并且被标记。
训练、测试和指标
最终的 WikiHow 数据集被分成 1,339 个测试视频和 768 个验证视频——这是一个值得注意的增加,相比于专门用于视频分析的非原始数据集的平均大小。
视频和文本编码器在新的网络中联合训练,使用 S3D 网络,权重从预训练的 HowTo100M 模型中加载,使用 MIL-NCE 损失。
模型使用 Adam 优化器,学习率为 0.01,批大小为 24,在八个 NVIDIA RTX 2080 GPU 上进行分布式训练,总共 24GB 的分布式 VRAM。
IV-Sum 与各种 CLIP-It 场景进行了比较,按照 类似 先前 工作进行了比较,包括对 CLIP-It 的研究。使用的指标是精度、召回率和 F 分数,跨三个无监督基线(请参见论文中的详细信息)。
结果列在前面的图像中,但研究人员还指出,CLIP-It 在测试的各个阶段错过了 IV-Sum 没有错过的几个可能的步骤。他们将此归因于 CLIP-It 使用的数据集比新的 WikiHow 语料库小得多。
影响
这项研究的长期价值可能是使教程视频片段更容易被传统搜索引擎索引,并能够为视频生成 Google 经常从较长的文章中提取的那种还原式“摘要”片段。
显然,任何可以减少我们对视频内容进行线性和专属关注的 AI 辅助过程的开发都可能对营销人员产生影响,他们可能认为视频的不透明度是他们唯一能让我们参与的方式。
由于“有价值”的内容难以确定,用户贡献的视频在媒体消费者方面享有很大的宽容度,容忍了产品植入、赞助插播和视频价值主张中常见的自我宣传。像 IV-Sum 这样的项目承诺,最终,视频内容的子方面将变得细粒度和可分离,从而与许多人认为的“球ast”无关的内容广告和非内容即兴发挥分离。
最初发布于 2022 年 8 月 16 日。2022 年 8 月 16 日 14:52 更新,删除了重复的短语。


