スタブ 映画の予告編と機械学習を使用して有害なビデオ コンテンツを特定する - Unite.AI
私達と接続

Artificial Intelligence

映画の予告編と機械学習を使用して有害なビデオ コンテンツを特定する

mm
更新中 on

スウェーデンメディア評議会の研究論文では、オーディオコンテンツとビデオコンテンツを別々に検討し、人間が注釈を付けたデータを視聴者を不安にさせる可能性のある素材のガイドインデックスとして使用することで、「有害なコンテンツ」を自動的に識別する可能性のある新しいアプローチの概要を説明しています。

題さ これは有害ですか? ビデオから有害性評価を予測する方法を学ぶ 機械学習システムがシーンのコンテキスト全体を考慮する必要性を示し、ビデオ分析に対するそれほど洗練されていないマルチモーダルなアプローチでは、無害なコンテンツ (ユーモアや風刺コンテンツなど) が有害であると誤解される可能性があるさまざまな方法を示しています。特に、映画の音楽サウンドトラックは、視聴者を落ち着かせたり安心させたり、視覚的な要素を補完するものではなく対比として、予期せぬ方法で使用されることが多いためです。

有害な可能性のあるビデオのデータセット

研究者らは、この分野での有用な開発は映画の著作権保護によって妨げられており、そのため一般化されたオープンソース データセットの作成が問題になっていると指摘しています。 彼らはまた、これまでの同様の実験では、長編映画のラベルがまばらであることが問題となっており、これが原因となるデータを過度に単純化したり、主要な色やセリフなどのデータの XNUMX つの側面のみに焦点を当てたりする以前の研究につながっていることも観察しています。分析。

これに対処するために、研究者らは 4000 個のビデオ クリップのビデオ データセットを編集し、予告編を長さ約 XNUMX 秒のチャンクに切り分け、スウェーデンの新作映画の評価の適用を監督する専門の映画分類者によってラベル付けしました。児童心理学の専門資格。

スウェーデンの映画分類システムでは、「有害な」コンテンツは、子供に不安、恐怖、その他の悪影響を与える可能性のある傾向に基づいて定義されています。 研究者らは、この評価システムには科学と同じくらい直観や本能が関与しているため、「有害なコンテンツ」を定義するパラメータを定量化し、自動化システムに組み込むのが難しいと指摘しています。

害の定義

この論文はさらに、この課題に対処する初期の機械学習およびアルゴリズム システムでは、有害の制限された定義の中でもとりわけ、血や炎の視覚的検出、破裂音、ショットの長さの頻度など、特定のファセット検出を基準として使用していたことを観察しています。マルチドメインのアプローチは、有害なコンテンツを自動的に評価するためのより良い方法論を提供する可能性が高いと考えられます。

スウェーデンの研究者は、Kinetics-8 人間の動きのベンチマークで 8×50 の 400 層ニューラル ネットワーク モデルをトレーニングしました。 データセット、ビデオとオーディオの予測を融合するように設計されたアーキテクチャを作成しました。

実際、トレーラーを使用すると、この種のデータセットの作成に関する XNUMX つの問題が解決されます。著作権の問題が回避されます。 (元の映画と比較して)予告編の乱気流が増加し、ショットの頻度が高いため、注釈の頻度が高くなります。 また、映画全体で暴力的または不穏なコンテンツの発生率が低いため、データセットのバランスが崩れ、誤って子供に適したものとして分類されることがなくなります。

結果

モデルがトレーニングされると、スウェーデンの研究者はビデオクリップに対してシステムをテストしました。

このトレーラーでは、 ディープ (2012) では、システムのテストに使用された 11 つのモデル (ランダムにサンプリングされたラベルと確率的ラベル) により、映画を XNUMX 歳以上の視聴者に適したものとして分類することに成功しました。

出典:https://arxiv.org/pdf/2106.08323.pdf

出典:https://arxiv.org/pdf/2106.08323.pdf

からのシーンについては、 ディスカーネート (2018) 巨大なアンタゴニストが登場する場合、二重フレームワークは再び対象年齢範囲を 11 歳以上/15 歳以上と正しく推定しました。

ただし、予告編からのクリップ セカンドチャンス (2014) は、モデルがシーンを「BT」(普遍的に受け入れられる) として分類した人間による注釈と一致できなかったため、より大きな困難をもたらしました。 事実上、このアルゴリズムは、人間の評価者が原因とみなしていない潜在的な危害を検出したことになります。

研究者らはシステムの精度スコアが高いことを証明していますが、このクリップのようないくつかの失敗は発生しました。 都市国家 (2011)では、ライフルで脅されて拘束された裸の男が登場します。

この場合、人間による注釈とは対照的に、システムはクリップに 11+ の評価を割り当てました。

意図と有害性の不協和音

この論文は、予告編のクリップを評価する際に次のように述べています。 ペイダート (2020) では、システムは視覚的および言語的側面に基づいてクリップに「普遍的」評価を正しく割り当てます (登場人物たちは銃器について話し合っていますが、意図はコメディ的です) が、使用されている不協和音を伴う脅迫的な音楽によって混乱しています。風刺的な文脈。

映画の予告編でも同様に サマ用 (2019) の場合、音楽コンテンツの脅威的なスタイルがビジュアル コンテンツと一致せず、システムは XNUMX つのコンポーネントを解きほぐして、クリップのオーディオ コンテンツとビデオ コンテンツの両方をカバーする統一的な判断を行うことが再び困難になります。

最後に、システムはトレーラー クリップ内のオーディオ/ビデオの不協和音を正しくナビゲートします。 ヴァージンマウンテン (2015) には、音楽によって損なわれるいくつかの脅威的な視覚的手がかり (つまり、壊れた窓) が含まれています。 したがって、フレームワークは、クリップが「ユニバーサル」(BT) と評価されていると正しく推測します。

研究者らは、この種のシステムはもっぱら子供に焦点を当てており、結果が他のタイプの視聴者にうまく一般化する可能性は低いことを認めています。 彼らはまた、この直線的な方法で「有害な」コンテンツを成文化することは、予測不可能性が低いアルゴリズムによる評価システムにつながる可能性があると示唆していますが、そのようなアプローチの開発においては、アイデアが望ましくない抑圧を受ける可能性があることに注意してください。

「コンテンツが有害かどうかの評価はデリケートな問題です。 情報の自由と機密性の高いグループの保護との間には、重要なバランスをとる必要があります。 私たちは、この研究が、有害性を評価するために使用される基準について可能な限り透明性を保つことによって、正しい方向への一歩を踏み出したと信じています。 さらに、有害性と適切性を区別することは、有害なコンテンツの分類をより客観的にするための重要なステップであると考えています。

「…有害なコンテンツの検出は、YouTube などのオンライン プラットフォームにとっても興味深いことです。 このようなプラットフォームでは、情報の自由と保護の間のバランスをとることがさらに重要になり、担当するアルゴリズムの独自の性質によってさらに複雑になります。」