Connect with us

Unite.AI

使用机器学习恢复过度压缩的社交媒体视频

人工智能

使用机器学习恢复过度压缩的社交媒体视频

Published August 19, 2022

Updated May 23, 2026

By

Martin Anderson

Main image source: DALL-E 2

最近的研究提出了一种有效且新颖的方法，用于恢复用户上传视频的细节和分辨率，该视频在平台如微信和YouTube上被自动压缩以节省带宽和存储空间。

新方法与之前方法相比，能够更准确地恢复细节。来源：https://arxiv.org/pdf/2208.08597.pdf

新方法与之前方法相比，能够更准确地恢复细节。来源：https://arxiv.org/pdf/2208.08597.pdf

与之前的方法不同，新方法不使用通用训练数据来升级和采样视频，而是为每一帧压缩视频生成一个降级特征图（DFM），从而有效地概述了帧中由于压缩而受损或退化的区域。

从新论文的消融研究中可以看出，使用DFM可以更准确地估计损伤。

从新论文的消融研究中可以看出，使用DFM可以更准确地估计损伤。

恢复过程利用卷积神经网络（CNN）等技术，根据DFM中的信息进行指导和聚焦，从而使新方法超越之前方法的性能和准确性。

研究人员通过上传高质量视频到四个流行的分享平台，下载压缩结果，并开发了一个计算机视觉管道来学习压缩伪影和细节损失，从而获得了该过程的基准真值。

研究人员的新UVSSM数据集的示例。

研究人员的新UVSSM数据集的示例。

研究材料已被编译成一个名为“用户在社交媒体上分享的视频”（UVSSM）的HQ/LQ数据集，并已在百度网盘上公开下载（密码：rsqw），以便后续研究项目使用。

UVSSM数据集中的两个等效HQ/LQ样本的比较。

UVSSM数据集中的两个等效HQ/LQ样本的比较。

系统的代码，称为“视频恢复通过自适应降级感知”（VOTES），也已在GitHub上发布，尽管其实现需要一些依赖项。

该论文题为“恢复用户在社交媒体上分享的视频”，由深圳大学的三位研究人员和香港理工大学电子和信息工程系的一位研究人员共同撰写。

从伪影到事实

能够恢复网页抓取视频的质量，而不像Gigapixel等程序那样引入过多的细节，这对计算机视觉研究领域有着重要的影响。

计算机视觉研究通常依赖于从YouTube和Twitter等平台获取的视频，但这些平台使用的压缩方法和编解码器是保密的，无法轻易地根据伪影模式或其他视觉指标确定。

大多数使用网页抓取视频的项目并不是研究压缩，而是必须为可用的压缩视频质量做出让步，因为他们没有访问原始高质量视频的权限。

因此，能够忠实地恢复这些视频的质量和分辨率，而不引入来自其他计算机视觉数据集的下游影响，这将有助于避免计算机视觉项目目前必须为降级视频源做出的常见变通和妥协。

尽管YouTube偶尔会宣布其视频压缩方法的重大变化（如VP9），但没有一个平台会明确透露其压缩用户视频的整个过程或确切的编解码器和设置。

方法

之前的基于深度学习的视频恢复方法涉及通用特征提取， либо作为单帧恢复的方法， либо在利用光流的多帧架构中。

所有这些方法都必须应对“黑盒”效应，即它们无法检查压缩效果的核心技术，因为不确定这些技术是什么或如何为特定用户上传的视频配置。

VOTES则试图直接从原始和压缩视频中提取显著特征，并确定将泛化到多个平台标准的转换模式。

VOTES的简化概念架构。

VOTES的简化概念架构。

VOTES使用一个专门开发的降级感知模块（DSM）来提取卷积块中的特征。多个帧然后被传递到特征提取和对齐模块（FEAM），然后被传递到降级调制模块（DMM）。最后，重构模块输出恢复的视频。

数据和实验

在新工作中，研究人员专注于恢复上传到微信平台的视频，但他们希望确保所得到的算法可以适应其他平台。

事实证明，一旦他们为微信视频获得了有效的恢复模型，将其适应Bilibili、Twitter和YouTube只需要每个平台90秒（在一台配备4个NVIDIA Tesla P40 GPU和96GB VRAM的机器上）。

将成功的微信模型适应其他视频分享平台证明是相当简单的。

将成功的微信模型适应其他视频分享平台证明是相当简单的。

为了填充UVSSM数据集，研究人员收集了264个视频，时长在5-30秒之间，每个帧率为30fps，来源于移动电话摄像头或互联网。视频的分辨率为1920 x 1080或1280 x 270。

内容（见前图）包括城市景观、风景、人物和动物等，均可通过Creative Commons Attribution许可在公共数据集中使用，允许重用。

作者将214个视频上传到微信，使用五种不同品牌的移动电话，获得微信的默认视频分辨率（960×540），这是最“严厉”的转换之一。

原始HQ帧的三个放大部分；同一帧的平台降级压缩版本；计算的降级；和VOTES关注的“工作区域”

原始HQ帧的三个放大部分；同一帧的平台降级压缩版本；计算的降级；和VOTES关注的“工作区域”

对于与其他平台的比较，研究人员上传了50个不在原始214个视频中的视频到Bilibili、YouTube和Twitter。这些视频的原始分辨率为1280×270，下载版本为640×360。

这使得UVSSM数据集包含364对原始（HQ）和共享（LQ）视频，其中214对来自微信，50对来自Bilibili、YouTube和Twitter。

实验中，10个随机视频被选为测试集，4个作为验证集，剩余的200个作为核心训练集。实验进行了五次，使用K折交叉验证，结果在这些实例中进行了平均。

在视频恢复测试中，VOTES被比较到STDF。在分辨率增强方面，它被测试到EDVR、RSDN、VSR_TGA和BasicVSR。Google的单阶段方法COMISR也被包括在内，尽管它不适合其他先前的工作类型。

方法被测试在UVSS和REDS数据集上，VOTES取得了最高的分数：

作者认为，定性结果也表明VOTES优于之前的系统：

REDS恢复的竞争方法的视频帧。指示性分辨率-请参阅论文以获取最终分辨率。

REDS恢复的竞争方法的视频帧。指示性分辨率-请参阅论文以获取最终分辨率。

首次发表于2022年8月19日。

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai