人工智能
使用电影预告片和机器学习识别有害视频内容

瑞典媒体委员会的一篇研究论文概述了一种可能的新方法,用于自动识别“有害内容”,通过分别考虑音频和视频内容,并使用人工注释的数据作为可能令观众感到不安的材料的指导索引。
题为《这是否有害?从视频中学习预测有害评级》的论文,论文说明了机器学习系统需要考虑整个场景的背景,并说明了在不使用多模态方法分析视频时,如何将无害的内容(例如幽默或讽刺内容)误解为有害的内容,尤其是因为电影的音乐音轨经常被用来让观众感到不安或放心,并作为视觉组件的对比而不是补充。
可能有害的视频数据集
研究人员指出,到目前为止,在这个领域的有用发展受到电影的版权保护的阻碍,这使得创建通用开源数据集变得困难。他们还观察到,之前的实验由于对完整电影的标签稀疏而受到影响,这导致了之前的工作过于简化了贡献的数据,或者只关注数据的一个方面,例如主导颜色或对话分析。
为了解决这个问题,研究人员编制了一个包含4000个视频片段的数据集,这些片段是将预告片剪辑成大约10秒钟的长度,然后由专业的电影分类人员对其进行标注,这些人员负责监督在瑞典对新电影的评级,许多人具有儿童心理学的专业资格。
在瑞典的电影分类系统中,“有害”内容的定义是基于其可能产生焦虑、恐惧和其他负面影响的倾向。研究人员指出,由于这个评级系统涉及到直觉和本能以及科学,因此“有害内容”的定义参数很难量化并植入自动系统中。
定义有害内容
该论文进一步指出,之前的机器学习和算法系统在解决这个挑战时使用了特定的面检测标准,包括视觉检测血液和火焰、爆炸的声音和镜头长度的频率等有害内容的限制定义,并且多领域方法似乎更有可能提供一种更好的方法来自动评级有害内容。
瑞典研究人员在Kinetics-400人体运动基准数据集数据集上训练了一个8×8 50层神经网络模型,并创建了一个架构来融合视频和音频预测。
实际上,使用预告片解决了创建此类数据集的三个问题:它避免了版权问题;预告片的湍流和更高的镜头频率(与原电影相比)允许更高的标注频率;并且它确保整个电影中暴力或令人不安的内容的低发生率不会使数据集失衡并意外地将其归类为适合儿童的内容。
结果
模型训练完成后,瑞典研究人员将系统测试到视频片段上。
在《深海》(2012)的预告片中,用于测试系统的两个模型(随机采样标签和概率标签)成功地将电影归类为适合11岁及以上的观众。

来源:https://arxiv.org/pdf/2106.08323.pdf
对于《Discarnate》(2018)中一个怪物反派被介绍的场景,双框架再次正确地估计了目标年龄范围为11+/15+。

然而,《第二次机会》(2014)的预告片剪辑带来了更大的困难,因为模型无法与人类注释达成一致,人类注释将该场景归类为“BT”(普遍接受)。实际上,算法已经检测到潜在的有害性,而人类评估者并没有将其归类为有害。

尽管研究人员声称该系统具有高准确率,但仍然发生了一些失败,例如《城市之国》(2011)中一个被拘留的裸体男子被步枪威胁的场景。
在这种情况下,系统将该剪辑归类为11+,与人类注释相反。

意图和有害性的不和谐
该论文指出,在评估《Paydirt》(2020)的预告片剪辑时,系统正确地根据视觉和语言方面将剪辑归类为“普遍”(尽管角色正在讨论枪支,但意图是喜剧性的),但被不和谐的威胁性音乐混淆,这可能具有讽刺性的背景。

同样,在《为了萨玛》(2019)的预告片中,音乐内容的威胁风格与视觉内容不符,系统再次难以区分这两个组件以做出统一的判断,涵盖剪辑的音频和视频内容。

最后,系统正确地在《处女山》(2015)的预告片剪辑中导航音频/视频不和谐,该剪辑包含一些威胁性的视觉提示(例如,破碎的窗户),但被音乐所削弱。因此,框架正确地猜测该剪辑被归类为“普遍”(BT)。

研究人员承认,这种系统专门针对儿童,其结果不太可能推广到其他类型的观众。他们还指出,通过这种线性方式编码“有害”内容可能会导致算法评级系统变得不那么不可预测,但注意到在开发此类方法时可能会出现不想要的思想压制:
“评估内容是否有害是一个微妙的问题。存在一个平衡的行为之间的自由和保护敏感群体。我们相信这项工作朝着正确的方向迈出了一步,通过尽可能透明地说明用于评估有害性的标准。另外,我们相信将有害性与适当性分开是使有害内容分类更客观的重要一步。”
“…检测有害内容也对在线平台(如YouTube)感兴趣。在这些平台上,平衡信息自由和保护之间的行为变得更加重要,并且由于算法的专有性质而变得更加复杂。”
