Anderson 视角

使用 AI 总结冗长的“如何操作”视频

mm

如果您是那种为了获取所需信息而加速观看 YouTube 教程视频的人,或者查看视频的转录文本以获取基本信息,或者希望 WikiHow 能够创建一个更简洁的教程视频版本,那么来自 UC Berkeley、Google 研究院和布朗大学的新项目可能会引起您的兴趣。

该项目的标题为 TL;DW?使用任务相关性和跨模式显著性总结教程视频,该 新论文 详细介绍了创建一个 AI 辅助的视频总结系统,该系统可以识别视频中的相关步骤并丢弃其他内容,生成简洁的总结,快速切入正题。

WikiHow 利用现有的长视频片段来生成虚假总结,这些总结提供了训练系统的基础真相。来源:https://arxiv.org/pdf/2208.06773.pdf

WikiHow 利用现有的长视频片段来生成虚假总结,这些总结提供了训练系统的基础真相。 来源:https://arxiv.org/pdf/2208.06773.pdf

生成的总结只有原始视频运行时间的一小部分,同时也记录了多模式(即基于文本)的信息,以便未来系统能够自动创建 WikiHow 风格的博客文章,这些文章能够自动解析冗长的教程视频,生成简洁、可搜索的短文章,配有插图,可能节省时间和挫败感。

该系统称为 IV-Sum(“教程视频总结器”),它使用开源的 ResNet-50 计算机视觉识别算法,以及其他几种技术,来识别长源视频中的相关帧和片段。

IV-Sum 的概念工作流程

IV-Sum 的概念工作流程

该系统是在伪总结的基础上训练的,这些伪总结是从 WikiHow 网站的内容结构中生成的,在那里,真实的人经常将流行的教程视频转换为更平坦的基于文本的多媒体形式,经常使用来自源教程视频的短片段和动态 GIF 图片。

讨论该项目使用 WikiHow 总结作为系统的基础真相数据时,作者们指出:

‘WikiHow Videos 网站上的每一篇文章都包含一个主要的教程视频,演示一个任务,通常包括促销内容、剪辑教练对着摄像头说话而没有视觉信息的任务,以及不重要的步骤。 ‘

‘希望获取任务概述的观众更喜欢没有所有上述不相关信息的更短的视频。 WikiHow 文章(例如,如何制作寿司米)包含了这些内容:包含所有重要步骤的文本,伴有说明任务各个步骤的图像/剪辑。’

方法

总结过程的第一阶段涉及使用相对低效、弱监督算法生成伪总结和 帧级重要性评分,用于大量网络抓取的教程视频,每个视频只有一个任务标签。

接下来,训练一个教程总结网络,使用这些数据。该系统采用自动转录的语音(例如 YouTube 自己的 AI 生成字幕)和源视频作为输入。

该网络由视频编码器和片段评分变换器(SST)组成,训练由伪总结中分配的重要性评分引导。最终总结是通过连接具有高重要性评分的片段来创建的。

从论文中可以看出:

‘我们伪总结生成管道背后的主要直觉是,假设有很多视频来演示一个任务,那么对于任务至关重要的步骤可能会出现在多个视频中(任务相关性)。 ‘

‘另外,如果一个步骤很重要,演示者通常会在执行步骤之前、期间或之后对着摄像头说话。因此,使用自动语音识别(ASR)获得的视频字幕很可能会引用这些关键步骤(跨模式显著性)。’

为了生成伪总结,首先将视频统一分割为片段,然后根据视觉相似性将片段分组为“步骤”(上图中的不同颜色)。然后,根据“任务相关性”和“跨模式显著性”(即 ASR 文本和图像之间的相关性)为这些步骤分配重要性评分。具有高评分的步骤然后被选中来代表伪总结中的阶段。

为了生成伪总结,首先将视频统一分割为片段,然后根据视觉相似性将片段分组为“步骤”(上图中的不同颜色)。然后,根据“任务相关性”和“跨模式显著性”(即 ASR 文本和图像之间的相关性)为这些步骤分配重要性评分。具有高评分的步骤然后被选中来代表伪总结中的阶段。

该系统使用 跨模式显著性 来帮助确定每个步骤的相关性,通过比较解释后的语音与视频中的图像和动作。这是通过使用预训练的视频-文本模型来实现的,每个元素都在 MIL-NCE 损失下联合训练,使用由 DeepMind 等开发的 3D CNN 视频编码器

通过计算任务相关性和跨模式分析阶段的平均值,获得一个总的重要性评分。

数据

为此过程生成了一个初始的伪总结数据集,包含了两个先前数据集的内容——COIN,一个包含 11,000 个与 180 个任务相关的视频的 2019 年数据集;以及 Cross-Task,它包含 4,700 个教程视频,其中 3,675 个被用于研究。Cross-Task 中有 83 个不同的任务。

上面是 COIN 的示例,下面是 Cross-Task 的示例。来源分别为:https://arxiv.org/pdf/1903.02874.pdf 和 https://openaccess.thecvf.com/content_CVPR_2019/papers/Zhukov_Cross-Task_Weakly_Supervised_Learning_From_Instructional_Videos_CVPR_2019_paper.pdf

上面是 COIN 的示例,下面是 Cross-Task 的示例。 来源分别为:https://arxiv.org/pdf/1903.02874.pdf 和 https://openaccess.thecvf.com/content_CVPR_2019/papers/Zhukov_Cross-Task_Weakly_Supervised_Learning_From_Instructional_Videos_CVPR_2019_paper.pdf

使用同时出现在两个数据集中的视频,并且只使用一次,研究人员能够获得 12,160 个视频,涵盖 263 个不同的任务,内容时长为 628.53 小时。

为了填充 WikiHow 基础的数据集,并为系统提供基础真相,作者们抓取了 WikiHow Videos 中所有长教程视频,以及与每个步骤相关的图像和视频片段(即 GIF)。因此,WikiHow 衍生内容的结构将作为新系统中步骤的个性化模板。

使用 ResNet50 提取的特征来跨匹配视频中的精选部分,并执行步骤的定位。在 5 秒视频窗口内找到最相似的图像作为锚点。

然后这些更短的片段被拼接成视频,组成模型训练的基础真相。

为每个输入视频中的每一帧分配标签,以声明它们是否属于输入总结,研究人员为每个视频分配了一个帧级二进制标签和通过所有帧的重要性评分获得的平均总结评分。

在这一阶段,教程视频中的“步骤”现在与基于文本的数据相关联,并被标记。

训练、测试和指标

最终的 WikiHow 数据集被分成 1,339 个测试视频和 768 个验证视频——这是一个值得注意的增加,相比于专门用于视频分析的非原始数据集的平均大小。

新网络中的视频和文本编码器是在 S3D 网络上联合训练的,权重从预训练的 HowTo100M 模型中加载,使用 MIL-NCE 损失函数。

该模型使用 Adam 优化器,学习率为 0.01,批大小为 24,使用分布式数据并行将训练分布在八个 NVIDIA RTX 2080 GPU 上,总共 24GB 的分布式 VRAM。

IV-Sum 然后与各种 CLIP-It 场景进行比较,按照 类似 先前 工作进行,包括对 CLIP-It 的研究。使用的指标包括精度、召回率和 F 分数,跨三个无监督基线(见论文详情)。

结果如前图所示,但研究人员还指出,CLIP-It 在测试的各个阶段错过了 IV-Sum 没有错过的几个可能步骤。他们将此归因于 CLIP-It 使用的数据集比新的 WikiHow 语料库小得多。

影响

这项研究的长期价值可能在于使教程视频片段更容易被传统搜索引擎索引,并能够为视频生成类似于 Google 会从长文章中提取的 结果中的“摘要” 样式的摘要。

显然,开发任何可以减少我们对视频内容线性和排他性关注的 AI 辅助过程都可能对营销人员产生影响,他们可能认为视频的不透明性是唯一能让我们完全参与的方式。

由于有价值的内容难以确定,用户贡献的视频享受了媒体消费者对产品植入、赞助插播和视频价值主张中常见的自我提升的宽容。像 IV-Sum 这样的项目承诺,最终,视频内容的子方面将变得更细致、可分离,摆脱许多人认为是内容中的“-ballast”——即内置广告和非内容即兴发挥。

 

首次发布于 2022 年 8 月 16 日。2022 年 8 月 16 日 14:52 更新,删除了重复短语。

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai