कृत्रिम बुद्धिमत्ता

हानिकारक वीडियो सामग्री की पहचान मूवी ट्रेलर और मशीन लर्निंग के साथ

Published June 16, 2021

Updated April 5, 2026

Martin Anderson

स्वीडिश मीडिया काउंसिल के एक शोध पत्र में ‘हानिकारक सामग्री’ की स्वचालित पहचान के लिए एक संभावित नई दृष्टिकोण का रूपरेखा तैयार किया गया है, जिसमें ऑडियो और वीडियो सामग्री को अलग-अलग माना जाता है, और मानव-annotated डेटा को परेशान करने वाली सामग्री के लिए एक मार्गदर्शक सूचकांक के रूप में उपयोग किया जाता है।

इस शीर्षक के साथ क्या यह हानिकारक है? वीडियो से हानिकारकता रेटिंग की भविष्यवाणी सीखना, पत्र पेपर में दृश्य के पूरे संदर्भ को ध्यान में रखने के लिए मशीन लर्निंग सिस्टम की आवश्यकता को दर्शाता है, और यह दर्शाता है कि हानिरहित सामग्री (जैसे कि हास्य या व्यंग्य सामग्री) को एक कम जटिल और बहुस्तरीय वीडियो विश्लेषण दृष्टिकोण में हानिकारक के रूप में गलत तरीके से व्याख्या किया जा सकता है – कम से कम इसलिए कि एक फिल्म का संगीत साउंडट्रैक अक्सर अप्रत्याशित तरीकों से उपयोग किया जाता है, या तो दर्शक को असहज करने के लिए या दर्शक को आश्वस्त करने के लिए, और दृश्य घटक के पूरक के रूप में नहीं बल्कि एक प्रतिपक्षी के रूप में।

संभावित रूप से हानिकारक वीडियो का एक डेटासेट

शोधकर्ताओं ने टिप्पणी की है कि इस क्षेत्र में उपयोगी विकास को फिल्मों के कॉपीराइट संरक्षण द्वारा बाधित किया गया है, जो सार्वजनिक स्रोत डेटासेट बनाने को समस्याग्रस्त बना देता है। वे यह भी देखते हैं कि अब तक, इसी तरह के प्रयोगों को पूर्ण लंबाई वाली फिल्मों के लिए लेबल की कमी से पीड़ित किया गया है, जिसके परिणामस्वरूप पिछले कार्य ने डेटा को सरल बना दिया है, या केवल डेटा के एक ही पहलू पर ध्यान केंद्रित किया है, जैसे कि प्रमुख रंग या संवाद विश्लेषण।

इस समस्या को हल करने के लिए, शोधकर्ताओं ने लगभग दस सेकंड की लंबाई के टुकड़ों में कटे हुए 4000 वीडियो क्लिप का एक वीडियो डेटासेट तैयार किया है, जिन्हें स्वीडन में नए फिल्मों के लिए रेटिंग के आवेदन की देखरेख करने वाले पेशेवर फिल्म वर्गीकरणकर्ताओं द्वारा लेबल किया गया है, जिनमें से कई के पास बाल मनोविज्ञान में पेशेवर योग्यता है।

स्वीडिश फिल्म वर्गीकरण प्रणाली के तहत, ‘हानिकारक’ सामग्री को बच्चों में चिंता, भय, और अन्य नकारात्मक प्रभाव पैदा करने की संभावित प्रवृत्ति के आधार पर परिभाषित किया जाता है। शोधकर्ताओं ने टिप्पणी की है कि चूंकि यह रेटिंग प्रणाली विज्ञान के साथ-साथ अंतर्ज्ञान और प्रवृत्ति को शामिल करती है, इसलिए ‘हानिकारक सामग्री’ की परिभाषा के मापदंडों को एक स्वचालित प्रणाली में क्वांटिफाई और स्थापित करना मुश्किल है।

हानि की परिभाषा

पत्र आगे देखता है कि इस चुनौती का सामना करने वाले पहले के मशीन लर्निंग और एल्गोरिदमिक सिस्टम ने विशिष्ट सुविधा का पता लगाने का उपयोग मानदंड के रूप में किया है, जिसमें रक्त और आग की दृश्य पहचान, फट जाने की आवाज, और शॉट लंबाई की आवृत्ति शामिल है, और एक बहुस्तरीय दृष्टिकोण हानिकारक सामग्री की स्वचालित रेटिंग के लिए एक बेहतर विधि प्रदान करने की संभावना है।

स्वीडिश शोधकर्ताओं ने Kinetics-400 मानव आंदोलन बेंचमार्क डेटासेट पर एक 8×8 50-परत वाले न्यूरल नेटवर्क मॉडल को प्रशिक्षित किया, और वीडियो और ऑडियो पूर्वानुमानों को मिलाने के लिए एक वास्तुकला तैयार की।

वास्तव में, ट्रेलर का उपयोग इस प्रकार के डेटासेट बनाने के लिए तीन समस्याओं का समाधान करता है: यह कॉपीराइट मुद्दों को समाप्त करता है; ट्रेलरों की तुलना में मूल फिल्मों की तुलना में अधिक अशांति और उच्च शॉट आवृत्ति की अनुमति देता है, जो एक बड़ी आवृत्ति के साथ एनोटेशन की अनुमति देता है; और यह सुनिश्चित करता है कि एक पूरी फिल्म में हिंसक या परेशान करने वाली सामग्री की कम घटना डेटासेट को असंतुलित नहीं करती है और इसे गलती से बच्चों के लिए उपयुक्त नहीं मानती है।

परिणाम

एक बार मॉडल प्रशिक्षित हो जाने के बाद, स्वीडिश शोधकर्ताओं ने प्रणाली का परीक्षण वीडियो-क्लिप के खिलाफ किया।

इस द डीप (2012) के ट्रेलर में, परीक्षण के लिए उपयोग किए गए दो मॉडल (यादृच्छिक नमूना लेबल बनाम संभाव्य लेबल) ने सफलतापूर्वक फिल्म को 11 वर्ष और उससे अधिक आयु के दर्शकों के लिए उपयुक्त के रूप में वर्गीकृत किया।

स्रोत: https://arxiv.org/pdf/2106.08323.pdf

डिस्कार्नेट (2018) के एक दृश्य में जहां एक दुश्मन प्रतिपक्षी की शुरुआत होती है, दोहरी फ्रेमवर्क ने फिर से सही ढंग से लक्ष्य आयु सीमा का अनुमान लगाया कि 11+/15+।

हालांकि, ए सेकेंड चांस (2014) के ट्रेलर का एक क्लिप अधिक कठिनाई पेश करता है, क्योंकि मॉडल मानव एनोटेशन के साथ सहमत नहीं हो पाया, जिसने दृश्य को ‘बीटी’ (सार्वजनिक रूप से स्वीकार्य) के रूप में वर्गीकृत किया था। वास्तव में, एल्गोरिदम ने संभावित हानि का पता लगाया है जिसे मानव मूल्यांकनकर्ताओं ने इसके लिए जिम्मेदार नहीं ठहराया है।

शोधकर्ताओं का दावा है कि प्रणाली के लिए एक उच्च सटीकता स्कोर है, लेकिन कुछ विफलताएं हुईं, जैसे कि सिटी स्टेट (2011) का एक क्लिप, जिसमें एक नग्न आदमी को एक राइफल से धमकी दी जा रही है।

इस मामले में, प्रणाली ने क्लिप को 11+ रेटिंग सौंपी है, जो मानव एनोटेशन के विपरीत है।

इरादे और हानिकारकता का विरोधाभास

पत्र यह भी देखता है कि पेडर्ट (2020) के ट्रेलर के एक क्लिप का मूल्यांकन करते समय, प्रणाली ने दृश्य और भाषाई पहलुओं (हालांकि पात्र आग्नेयास्त्रों पर चर्चा कर रहे हैं, इरादा हास्य है) के आधार पर क्लिप को ‘सार्वजनिक’ रेटिंग सौंपी, लेकिन व्यंग्य संदर्भ में उपयोग किए जाने वाले धमकी भरे संगीत से भ्रमित हो गई।

इसी तरह, फॉर समा (2019) के फिल्म के ट्रेलर में, संगीत सामग्री की धमकी भरी शैली दृश्य सामग्री से मेल नहीं खाती है, और एक बार फिर, प्रणाली को दोनों घटकों को एक समान निर्णय लेने के लिए अलग करने में कठिनाई होती है जो क्लिप की ऑडियो और वीडियो सामग्री दोनों को कवर करती है।

अंत में, प्रणाली वर्जिन माउंटेन (2015) के ट्रेलर के एक क्लिप में ऑडियो/वीडियो विरोधाभास को सफलतापूर्वक नेविगेट करती है, जिसमें कुछ धमकी भरे दृश्य संकेत हैं (जैसे कि एक टूटी हुई खिड़की) जो संगीत द्वारा कमजोर हो जाते हैं। इसलिए, फ्रेमवर्क सही ढंग से अनुमान लगाता है कि क्लिप ‘सार्वजनिक’ (बीटी) रेटिंग है।

शोधकर्ताओं का मानना है कि इस प्रकार की प्रणाली विशेष रूप से बच्चों पर केंद्रित है, और परिणाम अन्य प्रकार के दर्शकों के लिए अच्छी तरह से सामान्य नहीं होंगे। वे यह भी सुझाव देते हैं कि ‘हानिकारक’ सामग्री को इस रूप में कोडिफाई करने से एल्गोरिदमिक रेटिंग प्रणाली कम अप्रत्याशित हो सकती है, लेकिन वे इस तरह के दृष्टिकोण के विकास में विचारों के अवांछित दमन की संभावना को भी नोट करते हैं:

‘सामग्री को हानिकारक मानना एक नाजुक मुद्दा है। सूचना की स्वतंत्रता और संवेदनशील समूहों की रक्षा के बीच एक महत्वपूर्ण संतुलन है। हम मानते हैं कि यह काम सही दिशा में एक कदम है, जो हानिकारकता का मूल्यांकन करने के लिए उपयोग किए जाने वाले मानदंडों के बारे में पारदर्शी होने के लिए। इसके अलावा, हम मानते हैं कि हानिकारकता को उपयुक्तता से अलग करना हानिकारक सामग्री की वर्गीकरण को अधिक विषयगत बनाने के लिए एक महत्वपूर्ण कदम है।’

‘…हानिकारक सामग्री का पता लगाना यूट्यूब जैसे ऑनलाइन प्लेटफ़ॉर्म के लिए भी रुचिकर है। ऐसे प्लेटफ़ॉर्म पर, स्वतंत्रता और सुरक्षा के बीच संतुलन और भी महत्वपूर्ण हो जाता है और एल्गोरिदम के स्वामित्व स्वरूप द्वारा जटिल हो जाता है।’

Related Topics:censorship media research

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai