בינה מלאכותית

זיהוי תוכן וידאו מזיק עם טריילרים של סרטים ולמידת מכונה

Published June 16, 2021

Updated April 5, 2026

Martin Anderson

מאמר מחקר מהמועצה השוודית לתקשורת מציג גישה חדשה אפשרית לזיהוי אוטומטי של “תוכן מזיק”, על ידי בחינה נפרדת של תוכן אודיו ווידאו, והיא משתמשת בנתונים מוערים על ידי בני אדם כמדריך לחומר שעלול להטריד צופים.

בשם האם זה מזיק? למידה לחזות דירוגי מזיקות מווידאו, המאמר מדגים את הצורך במערכות למידת מכונה לקחת בחשבון את ההקשר המלא של סצנה, ומדגים את הדרכים הרבות שבהן תוכן תמים (כגון תוכן הומוריסטי או סאטירי) עלול להיות מוטעה כמזיק בגישה פחות סופיסטית ורב-מודאלית לניתוח וידאו – לא רק משום שהפסקול המוזיקלי של סרט רבים משמש בדרכים בלתי צפויות, הן כדי לערער או לרכך את הצופה, וכנגדנית ולא כמשלים לרכיב הוויזואלי.

מאגר נתונים של וידאו מזיקים

החוקרים מציינים כי פיתוחים מועילים בתחום זה הוא מוגבל על ידי הגנת זכויות יוצרים של סרטים, מה שהופך את יצירת מאגרי נתונים פתוחים וכלליים לבעייתי. הם גם מציינים כי עד כה, ניסויים דומים סבלו ממחסור בתוויות לסרטים באורך מלא, מה שהוביל לעבודה קודמת שפשטה את הנתונים, או התמקדה רק באחד היבטים של הנתונים, כגון צבעים דומיננטיים או ניתוח דיאלוג.

כדי לפתור בעיה זו, החוקרים הרכיבו מאגר נתונים של 4000 קטעי וידאו, טריילרים שנחתכו לחלקים באורך של כ-10 שניות, שאז סומנו על ידי מסווגי סרטים מקצועיים שמפקחים על יישום דירוגים לסרטים חדשים בשוודיה, רבים מהם עם תואר אקדמי בפסיכולוגיה ילדים.

במערכת השוודית לדירוג סרטים, “תוכן מזיק” מוגדר על בסיס הפוטנציאל שלו ליצור רגשות חרדה, פחד ואפקטים שליליים אחרים בילדים. החוקרים מציינים כי מאחר שמערכת הדירוג הזו כוללת כמות רבה של אינטואיציה והרגש, הפרמטרים להגדרת “תוכן מזיק” קשים לכמת ולהטמיע במערכת אוטומטית.

הגדרת נזק

המאמר מציין עוד כי מערכות למידת מכונה ואלגוריתמיות קודמות שפתרו את האתגר הזה השתמשו בגילוי פנים ספציפי כקריטריון, כולל גילוי ויזואלי של דם ולהבות, קול של פיצוץ, ותדירות אורך צילום, בין היתר, וכי גישה רב-תחומית נראית ככלי טוב יותר לדירוג אוטומטי של תוכן מזיק.

החוקרים השוודים אימנו מודל נוירוני 8×8 בעל 50 שכבות על בסיס ה-Kinetics-400 dataset, ויצרו ארכיטקטורה שתוכננה לאחד הבטחות וידאו ואודיו.

בעצם, השימוש בטריילרים פותר שלוש בעיות ליצירת מאגר נתונים מסוג זה: הוא מונע בעיות זכויות יוצרים; התדירות הגבוהה יותר והתנועה המוגברת של טריילרים (בהשוואה לסרטים המקוריים) מאפשרת תדירות גבוהה יותר של סימון; והוא מבטיח כי התופעה הנמוכה של תוכן אלים או מטריד בסרט שלם לא תפריע למאזן המאגר ותסווג אותו בטעות כמתאים לילדים.

תוצאות

כאשר המודל הוכשר, החוקרים השוודים בדקו את המערכת נגד קטעי וידאו.

בטריילר למעמקים (2012), שני המודלים ששימשו לבדיקת המערכת (תוויות מדגמיות אקראיות נגד תוויות תכופות) סיווגו בהצלחה את הסרט כמתאים לצופים מגיל 11 ומעלה.

Source: https://arxiv.org/pdf/2106.08323.pdf

לסצנה מDiscarnate (2018) שבה מוצג אנטגוניסט מפלצתי, הכונן הדואלי שוב חיזה בהצלחה את טווח הגיל היעד כ-11+/15+.

אולם, קטע מהטריילר לההזדמנות השנייה (2014) הציג קשיים רבים יותר, שכן המודל לא הצליח להסכים עם הסימון האנושי לסצנה, שסווג כ-‘BT’ (מקובל על כולם). בעצם, האלגוריתם גילה פוטנציאל לנזק שהמעריכים האנושיים לא העניקו לו.

אף על פי שהחוקרים טוענים לרמת דיוק גבוהה של המערכת, התרחשו כישלונות, כגון קטע ממדינת עיר (2011), המציג גבר עירום כלוא המאוים ברובה.

במקרה זה, המערכת העניקה דירוג 11+ לקטע, בניגוד לסימון האנושי.

דיסוננס של כוונה ומזיקות

המאמר מציין כי בהערכת קטע מהטריילר לPaydirt (2020), המערכת סיווגה בהצלחה את הקטע כ-“אוניברסלי” על בסיס היבטים ויזואליים ולשוניים (אף על פי שהדמויות דנות בנשק, הכוונה היא קומית), אך התבלבלה מהמוזיקה המאיימת הדיסוננטית, שיכולה להיות בהקשר סאטירי.

באופן דומה, בטריילר לסרט למען סאמה (2019), סגנון המוזיקה המאיים לא מתאים לתוכן הוויזואלי, ושוב, המערכת חוותה קשיים בהיפרדות הרכיבים השונים כדי ליצור שיפוט אחיד שיכסה את התוכן האודיו והווידאו של הקטע.

לבסוף, המערכת נווטה בהצלחה את הדיסוננס האודיו/וידאו בקטע הטריילר להר ורג’ין (2015), המכיל רמזים ויזואליים מאיימים (כגון חלון שבור) שמתונים על ידי המוזיקה. כך, הכונן ניחש בהצלחה כי הקטע מדורג “אוניברסלי” (BT).

החוקרים מודים כי מערכת מסוג זה מתמקדת אך ורק בילדים, והתוצאות אינן מסתברות להתאים היטב לסוגים אחרים של צופים. הם גם מציעים כי קודיפיקציה של “תוכן מזיק” בדרך זו עלולה להוביל למערכות דירוג אלגוריתמיות שפחות בלתי צפויות, אך הם מציינים את הפוטנציאל לדיכוי לא רצוי של רעיונות בפיתוח גישות כאלה:

בדיקה האם תוכן הוא מזיק הוא עניין עדין. ישנו מאזן חשוב בין חופש מידע להגנה על קבוצות רגישות. אנו מאמינים כי עבודה זו עושה צעד לכיוון הנכון, על ידי היותה כפופה ככל האפשר לקריטריונים המשמשים לבדיקת המזיקות. עוד, אנו מאמינים כי הפרדת מזיקות מתאימות היא צעד חשוב להפוך את סיווג התוכן המזיק לאובייקטיבי יותר.

…גילוי תוכן מזיק גם מעניין פלטפורמות מקוונות כגון YouTube. בפלטפורמות כאלה, המאזן בין חופש מידע להגנה הופך לחשוב יותר ומסובך יותר על ידי הטבע הפרטי של האלגוריתמים האחראים.

Related Topics:censorship media research

Martin Anderson

כותב על למידת מכונה, מומחה תחום בסינתזה של תמונות אנושיות. לשעבר ראש תוכן מחקר ב- Metaphysic.ai.
אתר אישי: martinanderson.ai
צור קשר: [email protected]
טוויטר: @manders_ai