人工智能

使用人工智能总结冗长的“操作方法”视频

更新 on 2022 年 12 月 9 日

主图：DALL-E 2

如果您喜欢加快 YouTube 操作视频的速度以获得您真正想要的信息；查阅视频的文字记录，收集隐藏在漫长且经常有赞助商的运行时间中的重要信息；或者希望 WikiHow 能够抽出时间来创建教学视频中信息的耗时较少的版本；那么您可能会对加州大学伯克利分校、谷歌研究中心和布朗大学的一个新项目感兴趣。

标题 TL；DW？总结具有任务相关性和跨模式显着性的教学视频是，新文详细介绍了人工智能辅助视频摘要系统的创建过程，该系统可以识别视频中的相关步骤并丢弃其他所有内容，从而生成快速切入主题的简短摘要。

IV-Sum 项目利用 WikiHow 对现有长视频剪辑的文本和视频信息进行开发来生成虚假摘要，为训练系统提供基本事实。 资料来源：https://arxiv.org/pdf/2208.06773.pdf

生成的摘要仅占原始视频运行时间的一小部分，同时在此过程中还会记录多模式（即基于文本的）信息，以便未来的系统有可能自动创建能够自动解析的 WikiHow 风格的博客文章将冗长的操作视频转换为简洁且可搜索的短文，并附有插图，可能会节省时间并减少挫败感。

新系统称为 IV-总和 （“教学视频摘要器”），并使用开源 RESNET-50 计算机视觉识别算法以及其他几种技术可以将长源视频的相关帧和片段分开。

IV-Sum 的概念工作流程。

该系统根据 WikiHow 网站内容结构生成的伪摘要进行训练，真实的人们经常将流行的教学视频转化为更扁平的、基于文本的多媒体形式，经常使用取自源教学视频的短片和动画 GIF。

在讨论该项目使用 WikiHow 摘要作为系统的真实数据来源时，作者指出：

'每一篇文章都维基百科视频网站由一个主要的教学视频组成，演示了一项任务，其中通常包括宣传内容、教师对着镜头讲话的剪辑（没有任务的视觉信息）以及对执行任务并不重要的步骤。

“想要大致了解该任务的观众会更喜欢没有上述所有不相关信息的较短视频。 WikiHow 文章（例如，参见如何制作寿司饭）正是包含这样的内容：相应的文本包含列出的视频中的所有重要步骤，并附有说明任务中各个步骤的图像/剪辑。

从网络抓取中得到的数据库称为 维基百科摘要。该数据库包含 2,106 个输入视频及其相关摘要。这是一个比通常可用于视频摘要项目的数据集要大得多的数据集，视频摘要项目通常需要昂贵且劳动密集型的手动标记和注释——由于摘要范围更受限制，这一过程在新工作中已基本实现自动化教学（而非一般）视频。

IV-Sum 利用时态 3D 卷积神经网络表示，而不是先前类似作品所采用的基于帧的表示，论文中详细介绍的消融研究证实，该方法的所有组件对于系统的功能都是至关重要的。

IV-Sum 对各种类似框架进行了良好的测试，包括剪辑它（该论文的几位作者也参与了这项工作）。

IV-Sum 与同类方法相比得分很高，这可能是因为与一般的视频摘要计划相比，其应用范围更受限制。本文后面将详细介绍指标和评分方法。

付款方式

摘要过程的第一阶段涉及使用相对省力的弱监督算法来创建伪摘要和逐帧重要性得分用于大量网络抓取的教学视频，每个视频中只有一个任务标签。

接下来，根据这些数据训练教学摘要网络。该系统采用自动转录的语音（例如，YouTube 自己的人工智能为视频生成的字幕）和源视频作为输入。

该网络包括视频编码器和分段评分转换器（SST），训练由伪摘要中分配的重要性分数指导。最终摘要是通过连接获得高重要性分数的片段来创建的。

从论文：

“我们的伪摘要生成流程背后的主要直觉是，给定一个任务的许多视频，对该任务至关重要的步骤可能会出现在多个视频中（任务相关性）。

“此外，如果某个步骤很重要，演示者通常会在执行之前、期间或之后谈论该步骤。因此，使用自动语音识别 (ASR) 获得的视频的字幕可能会引用这些关键步骤（跨模式显着性）。

为了生成伪摘要，视频首先被统一划分为片段，然后根据视觉相似性将片段分组为“步骤”（上图中的不同颜色）。然后根据“任务相关性”和“跨模式显着性”（即 ASR 文本和图像之间的相关性）为这些步骤分配重要性分数。然后选择高分步骤来表示伪摘要中的阶段。

该系统采用 跨模态显着性 通过将解释的语音与视频中的图像和动作进行比较，帮助确定每个步骤的相关性。这是通过使用预训练的视频文本模型来实现的，其中每个元素都在 MIL-NCE 损失下联合训练，使用 3D CNN 视频编码器由 DeepMind 等公司开发。

然后根据这些任务相关性和跨模式分析阶段的计算平均值获得一般重要性得分。

时间

为该过程生成了一个初始伪摘要数据集，其中包含两个先前数据集的大部分内容 - COIN，2019 年的集合，包含与 11,000 个任务相关的 180 个视频；和交叉任务，其中包含 4,700 个教学视频，其中 3,675 个用于研究。 Cross-Task 具有 83 种不同的任务。

以上，来自 COIN 的示例；下面来自交叉任务。 来源分别：https://arxiv.org/pdf/1903.02874.pdf 和 https://openaccess.thecvf.com/content_CVPR_2019/papers/Zhukov_Cross-Task_Weakly_Supervised_Learning_From_Instructional_Videos_CVPR_2019_paper.pdf

通过使用两个数据集中仅出现过一次的视频，研究人员能够获得涵盖 12,160 个不同任务的 263 个视频以及数据集的 628.53 小时内容。

为了填充基于 WikiHow 的数据集，并为系统提供基本事实，作者抓取了所有长教学视频的 WikiHow 视频，以及与每个步骤相关的图像和视频剪辑（即 GIF）。因此，WikiHow 衍生内容的结构将作为新系统中步骤个性化的模板。

通过 ResNet50 提取的特征用于交叉匹配 WikiHow 图像中精选的视频部分，并执行步骤的本地化。使用 5 秒视频窗口内获得的最相似图像作为锚点。

然后将这些较短的剪辑拼接成视频，其中包含模型训练的基本事实。

标签被分配给输入视频中的每个帧，以声明它们是否属于输入摘要，每个视频从研究人员处接收帧级二进制标签，并通过所有帧的重要性分数获得平均摘要分数在段中。

在此阶段，每个教学视频中的“步骤”现在都与基于文本的数据相关联并进行了标记。