人工智能
使用机器学习恢复过度压缩的社交媒体视频
中国的新研究提供了一种有效且新颖的方法来恢复用户上传视频的细节和分辨率 自动压缩 微信、YouTube等平台,以节省带宽和存储空间。
与之前可以基于通用训练数据对视频进行放大和上采样的方法相反,新方法反而导出了 退化特征图 (DFM) 针对压缩视频的每一帧——有效地概述了帧中因压缩而损坏或恶化最严重的区域。
利用卷积神经网络 (CNN) 等技术的恢复过程由 DFM 中的信息引导和集中,使新方法超越了先前方法的性能和准确性。
研究人员将高质量视频上传到四个流行的共享平台,下载压缩结果,并开发了一个能够抽象地学习压缩伪像和细节损失的计算机视觉管道,从而获得了该过程的基本事实,以便可以跨领域应用许多平台可以根据完全合适的数据将视频恢复到接近原始的质量。
研究中使用的材料已被编译成名为 HQ/LQ 的数据集 在社交媒体上分享的用户视频 (UVSSM),并已制成 可供下载 (密码: RSQW)在百度,以利于后续研究项目寻求开发恢复平台压缩视频的新方法。
系统的代码,称为 通过自适应退化传感进行视频修复 (投票),也已 发布于 GitHub,尽管它的实现需要许多基于拉的依赖项。
纸 标题为 恢复社交媒体上分享的用户视频,来自深圳大学的三位研究人员和香港理工大学电子及信息工程系的一位研究人员。
从文物到事实
有时无需通用工具即可恢复网络抓取视频的质量 过多 Gigapixel(以及大多数类似范围的流行开源软件包)等程序提供的细节“幻觉”可能会对计算机视觉研究领域产生影响。
对基于视频的 CV 技术的研究经常依赖于从 YouTube 和 Twitter 等平台获得的视频,这些平台所使用的压缩方法和编解码器受到严密保护,无法根据伪像模式或其他视觉指标轻松收集,并且可能 定期改变.
大多数利用网络视频的项目都不是 研究 压片,并且必须 做津贴 对于平台提供的压缩视频的可用质量,因为它们无法访问用户上传的原始高质量版本。
因此,能够忠实地恢复此类视频的更高质量和分辨率,而不引入不相关的计算机视觉数据集的下游影响,可以帮助避免 CV 项目目前必须为降级视频源做出的频繁的解决方法和调整。
尽管 YouTube 等平台偶尔会宣扬压缩用户视频方式的重大变化(例如 VP9),它们都没有明确揭示用于精简用户上传的高质量文件的整个过程或确切的编解码器和设置。
因此,提高用户上传的输出质量已成为一项重要任务 德鲁伊 艺术 在过去十年左右的时间里,发生了各种(大多数未经证实的) “解决方法” 进进出出时尚。
付款方式
先前基于深度学习的视频恢复方法涉及通用特征提取,无论是作为单帧恢复的方法还是在利用 光流 (即,在恢复当前帧时考虑相邻帧和后面的帧)。
所有这些方法都必须应对“黑匣子”效应——它们无法检查核心技术中的压缩效果,因为不确定核心技术是什么,或者如何为任何特定用户配置它们- 上传的视频。
相反,VOTES 寻求直接从原始视频和压缩视频中提取显着特征,并确定可推广到多个平台标准的转换模式。
VOTES 使用专门开发的退化传感模块(DSM,见上图)来提取卷积块中的特征。 然后,多个帧被传递到特征提取和对齐模块 (FEAM),然后将这些帧分流到降级调制模块 (DMM)。 最后,重建模块输出恢复后的视频。
数据与实验
在这项新工作中,研究人员将精力集中在恢复上传到微信平台和从微信平台重新下载的视频上,但他们担心确保所得算法可以适用于其他平台。
事实证明,一旦他们获得了微信视频的有效恢复模型,将其应用于 Bilibili、Twitter 和 YouTube,每个平台的每个自定义模型的单个 epoch 只需要 90 秒(在运行 4 个 NVIDIA Tesla P40 GPU 的机器上,总共 96GB 显存)。
为了填充 UVSSM 数据集,研究人员收集了 264 个时长在 5 到 30 秒之间的视频,每个视频的帧速率为 30 fps,这些视频直接来自手机摄像头或来自互联网。 这些视频的分辨率均为 1920 x 1080 或 1280 x 270。
内容(参见前面的图片)包括城市景观、风景、人物和动物以及各种其他主题,并且可以通过知识共享归属许可在公共数据集中使用,从而允许重复使用。
作者使用五种不同品牌的手机向微信上传了 214 个视频,获得了微信默认的视频分辨率 960×540(除非源视频已经小于这些尺寸),这是流行平台上最“惩罚性”的转换之一。
为了后续与其他平台的转换例程进行比较,研究人员上传了 50 个视频 不能 包含在 Bilibili、YouTube 和 Twitter 的原始 214 中。 视频的原始分辨率为1280×270,下载版本为640×360。
这使得 UVSSM 数据集共有 364 对原始 (HQ) 和共享 (LQ) 视频,其中微信有 214 个,Bilibili、YouTube 和 Twitter 各有 50 个。
在实验中,随机选择 10 个视频作为测试集,200 个作为验证集,剩下的 XNUMX 个作为核心训练集。 实验进行了五次 K折交叉验证,对这些实例的结果进行平均。
在视频恢复测试中,VOTES 与时空变形融合进行了比较(标准发展基金)。 对于分辨率增强,它针对增强型可变形卷积进行了测试(EDVR), RSDN,具有时间组注意力的视频超分辨率(VSR_TGA), 基本振动时效. 谷歌的 单阶段法 委员会 也被包括在内,尽管它不符合其他先前作品的架构类型。
该方法针对 UVSS 和 红人 数据集,VOTES 得分最高:
作者认为,定性结果也表明 VOTES 相对于先前系统的优越性:
首次发布于 19 年 2022 月 XNUMX 日。