人工智能
使用电影预告片和机器学习识别有害视频内容

瑞典媒体委员会的一篇研究论文概述了一种可能的新方法,用于自动识别“有害内容”,通过分别考虑音频和视频内容,并使用人工注释的数据作为可能令观众感到不安的材料的指导索引。
题为《这是否有害?从视频中学习预测有害评级》的论文,论文说明了机器学习系统需要考虑整个场景的背景,并说明了无害内容(例如幽默或讽刺内容)可能被误解为有害的许多方式,特别是在视频分析中采取了不够复杂和多模态的方法——因为电影的音乐音轨经常被用在意想不到的方式中,要么是为了让观众感到不安,要么是为了安慰观众,并且作为视觉组件的对比而不是补充。
可能有害的视频数据集
研究人员指出,该领域的有用发展因电影的版权保护而受到阻碍,这使得创建通用开源数据集变得困难。他们还观察到,到目前为止,类似的实验由于对完整电影的标签稀疏而受到影响,这导致了以前的工作过于简化了贡献的数据,或者只关注数据的一个方面,例如主导颜色或对话分析。
为了解决这个问题,研究人员编制了一个包含4000个视频片段的数据集,这些片段是将预告片剪辑成大约10秒钟的长度,然后由专业的电影分类人员进行标注,这些人员负责监督瑞典新电影的评级应用,许多人具有儿童心理学的专业资格。
在瑞典的电影分类系统中,“有害”内容的定义是基于其可能产生焦虑、恐惧和其他负面影响的倾向。研究人员指出,由于该评级系统涉及的直觉和本能与科学一样多,因此“有害内容”的定义参数很难量化并植入自动系统中。
定义有害内容
论文进一步指出,早期的机器学习和算法系统在解决这个挑战时使用了特定的检测标准,包括视觉检测血液和火焰、爆炸的声音和镜头长度的频率等受限的有害内容定义,并且多领域方法似乎更有可能提供一种更好的方法来自动评级有害内容。
瑞典研究人员在Kinetics-400人体运动基准数据集数据集上训练了一个8×8 50层神经网络模型,并创建了一个架构,旨在融合视频和音频预测。
实际上,使用预告片解决了创建此类数据集的三个问题:它避免了版权问题;预告片的湍流和更高的镜头频率(与原电影相比)允许更高的注释频率;并且它确保电影中暴力或令人不安的内容的低发生率不会使数据集失衡并意外地将其归类为适合儿童的内容。
结果
一旦模型被训练,瑞典研究人员将系统测试到视频片段中。
在《深海》(2012)的预告片中,用于测试系统的两个模型(随机采样标签与概率标签)成功地将电影分类为适合11岁及以上观众的电影。

来源:https://arxiv.org/pdf/2106.08323.pdf
对于《分离》(2018)中一个怪物反派被介绍的场景,双框架再次正确地估计了目标年龄范围为11+/15+。

然而,来自《第二次机会》(2014)预告片的片段带来了更大的困难,因为模型无法同意人类注释的场景,该场景被归类为“BT”(普遍接受)。实际上,算法已经检测到潜在的危害,而人类评估者没有将其归因于它。

虽然研究人员证明该系统具有高准确率,但确实发生了一些故障,例如来自《城市之国》(2011)的片段,该片段中有一名被拘留的裸体男子被步枪威胁。
在这种情况下,系统将11+评级分配给了该片段,与人类注释相反。

意图和有害性的不和谐
论文指出,在评估《赃银》(2020)预告片的片段时,系统正确地根据视觉和语言方面将“普遍”评级分配给了该片段(尽管角色正在讨论枪支,但意图是喜剧性的),但被不和谐的威胁音乐所困惑,这可能具有讽刺的背景。

同样,在《为了萨玛》(2019)预告片中,威胁性的音乐内容与视觉内容不匹配,系统再次难以区分这两个组件以做出统一的判断,涵盖片段的音频和视频内容。

最后,系统正确地在《处女山》(2015)预告片片段中导航音频/视频不和谐,该片段包含一些威胁性的视觉提示(例如,破碎的窗户),但被音乐所削弱。因此,框架正确地猜测该片段被评为“普遍”(BT)。

研究人员承认,这种系统专门针对儿童,其结果不太可能推广到其他类型的观众。他们还指出,通过这种线性方式编码“有害”内容可能会导致算法评级系统变得不那么不可预测,但注意到开发此类方法可能会导致思想的不必要压制:
“评估内容是否有害是一个微妙的问题。信息自由和保护敏感群体之间存在一个重要的平衡行为。我们相信这项工作朝着正确的方向迈出了一步,通过尽可能透明地说明用于评估有害性的标准。此外,我们相信将有害性与适当性区分开来是使有害内容分类更加客观的重要一步。”
“…检测有害内容也对在线平台(如YouTube)感兴趣。在这些平台上,信息自由和保护之间的平衡变得更加重要,并因算法的专有性质而变得更加复杂。”












